سال‌های مدیدی است که جهان مملو از داده شده است، حجم این داده‌ها و سرعت تولید آن‌ها با ظهور وب و البته شبکه‌های اجتماعی رشد فزاینده‌ای داشته. در واقع، حجم داده‌های دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید می‌شود. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به‌همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ داده‌های تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به‌عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.

حجم بالای داده‌ها چگونه ذخیره می‌شوند؟

اولین کامپیوترها دارای حافظه‌های چند کیلوبایتی بوده‌اند، اما در حال حاضر گوشی‌های هوشمند توانایی ذخیره‌سازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپ‌تاپ‌ها می‌توانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظه‌های ذخیره‌سازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمی‌شود.

چرا داده‌ها مهم هستند؟

ژیاوی هان دانشمند داده و نویسنده کتاب «داده‌کاوی: مفاهیم و روش‌ها» می‌گوید:

عبارت «بشر در عصر اطلاعات زندگی می‌کند» بسیار معروف است. این در حالیست که در حقیقت، بشر در عصر داده‌ها زندگی می‌کند. با تبدیل این داده‌ها به اطلاعات، می‌توان آن‌ها را به شمش‌هایی از طلا مبدل ساخت.

داده‌ها به میزان هوشمندی که می‌توان از آن‌ها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از داده‌ها، مستلزم انجام تحلیل‌های موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم داده‌ها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل داده‌ها جایگاه قابل توجهی در میان شرکت‌های پیشرو در جهان طی این سال کسب کرده‌اند.

علم داده چیست

علم داده (Data Science)، دانشی میان‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است که از روش‌ها، فرآیندها، الگوریتم‌ها و سیستم‌های علمی برای استخراج دانش و بینش از داده‌ها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده می‌کند. چیزی مشابه داده‌کاوی! علم داده مفهومی برای یکپارچه‌سازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیده‌ها با استفاده از داده‌ها انجام می‌شود. علم داده (Data Science) از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌ است. تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب‌ترین شغل قرن بیست و یکم» متخصصین علم داده را این‌طور تعریف می‌کنند:

کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سوال‌های کسب‌وکار را پیدا کرد.

استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند:

علم داده رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگه‌داشت اطلاعات در حجم بالا می‌پردازد.

دریسکول در سال ۲۰۱۴ علم داده را این‌طور تعریف می‌کند:

علم داده مهندسی عمران داده‌هاست. متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.

جیم گری برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهش‌های تجربی، بنیادی، محاسباتی و اکنون داده‌محور ) تصور کرده و چنین ارزیابی می‌کند که:

«کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».

به‌طور کلی می‌توان گفت علم داده، مطالعه محلی که داده‌ها از آن می‌آیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آن‌ها به منبعی ارزشمند برای کسب‌و‌کار و استراتژی‌های فناوری اطلاعات سازمان است. کاوش حجم بالایی از داده‌های ساختار یافته و ساختار نیافته به‌منظور شناسایی الگوهایی انجام می‌شود که می‌توانند به سازمان‌ها جهت صرفه‌جویی در هزینه‌ها، افزایش کارایی، شناسایی فرصت‌های جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روش‌ها مانند یادگیری ماشین، کاوش داده و بصری‌سازی داده مورد استفاده قرار می‌گیرد.

متخصص علم داده

به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) یا دانشمند داده می‌گویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده‌ است در صورتی که سال‌ها قبل از آن که آن‌ها استفاده از اصطلاح فوق را به‌طور عمومی مطرح کنند، از آن استفاده شده‌است. در مجله «بررسی کسب‌و‌کار هاروارد» (Harvard Business Review)، از شغل متخصص داده (data scientist) با عنوان جذاب‌ترین شغل قرن ۲۱ یاد شده است.

چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل می‌کنند. به‌طور کلی انتظار می‌رود که متخصصین علم داده قادر باشند در بخش‌هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده می‌بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه‌ها دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.

هر کسی که به ساخت موقعیت شغلی قدرتمند‌تر در این دامنه علاقمند است، باید مهارت‌های کلیدی در سه حوزه تحلیل، برنامه‌نویسی و دانش دامنه را کسب کند. با نگاهی عمیق‌تر، می‌توان گفت مهارت‌های بیان شده در زیر می‌تواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.

  • دانش قوی از پایتون، R، اسکالا و SAS
  • مهارت داشتن در نوشتن کدهای پایگاه داده SQL
  • توانایی کار با داده‌های ساختار نیافته از منابع گوناگون مانند ویدئو و شبکه‌های اجتماعی
  • درک توابع تحلیل چندگانه
  • دانش یادگیری ماشین

متخصصین علم داده می‌توانند مهارت‌هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارت‌ها به شرح زیرند:

  • توانایی استخراج و تفسیر منابع داده
  • مدیریت حجم زیاد اطلاعات با سخت‌افزار
  • محدودیت‌های نرم‌افزاری و پهنای باند
  • ادغام منابع داده با یک دیگر
  • تضمین پایداری مجموعه‌های داده
  • مصورسازی داده برای فهم آن
  • ساخت مدل‌های ریاضی با استفاده از داده، مانند مدل‌های ریگرسیون و طبقه‌بندی
  • مقایسه آماری مدل‌های ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون A/B
  • به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام

منشأ پیدایش و تاریخچه علم داده

اصطلاح علم داده طی سی سال گذشته در متون زیادی ظاهر شده اما تا چند سال اخیر در فضای دانشگاهی، پژوهشی و صنعتی جا نیفتاده بود. در سال ۱۹۶۰، پیتر نائور (Peter Naur) از این عبارت به‌عنوان جایگزینی برای علم کامپیوتر استفاده کرد. نائور بعدها اصطلاح داده‌شناسی (datalogy) را بدین منظور معرفی کرد. وی در سال ۱۹۷۴ در مقاله‌ای با عنوان «بررسی دقیق روش‌های کامپیوتری» از اصطلاح علم داده برای بیان پردازش‌های داده آن دوران که در گستره وسیعی از زمینه‌ها کاربرد داشتند، استفاده کرد .

در سال ۱۹۹۶، اعضای «فدراسیون بین‌المللی جامعه دسته‌بندی» (International Federation of Classification Societies | IFCS) برای گردهمایی دو سال یکبار خود، در شهر کوبه ژاپن گردهم آمدند. در گردهمایی مذکور، برای اولین بار از اصطلاح علم داده به عنوان اسم کنفرانس – علم داده، دسته‌بندی و روش‌های مرتبط – استفاده شد. این کار پس از آن صورت گرفت که در میزگرد برگزار شده، این اصطلاح توسط چیوی هوایشی (Chikio Hayashi) معرفی شد. در نوامبر سال ۱۹۹۷، سی اف جف وو (C. F. Jeff Wu) سخنرانی افتتاحیه رویدادی در حوزه علم داده را با عنوان «آمار = علم داده؟» به مناسبت انتساب به سمت استادی در دانشگاه میشیگان انجام داد.
در این سخنرانی، او از کارهای آماری به عنوان سه گانه گردآوری، مدل‌سازی و تحلیل داده و تصمیم‌سازی یاد کرد. در این استنتاج، او استفاده مدرن و غیر کامپیوتری اصطلاح علم داده را به کار برد و از آمار به‌عنوان علمی که به علم داده و آماردان به دانشمندان داده تغییر نام داده‌اند یاد کرد. بعدها، او سخنرانی خود با عنوان «آمار = علم داده؟» را به‌عنوان اولین سخنرانی رویداد Mahalanobis Memorial Lectures در سال ۱۹۹۸ ارائه کرد. سخنرانی‌های این مراسم به افتخار پراسانتا چاندرا ماهالانوبیس (Prasanta Chandra Mahalanobis) دانشمند و آماردان هندی و بنیان‌گذار موسسه آمار هند انجام می‌شود.

در سال ۲۰۰۱ ویلیام اس کلولند (William S. Cleveland) علم داده را به‌عنوان یک اصل مستقل که ترکیبی از علم آمار و پیشرفت‌های انجام شده در محاسبات داده‌ها است معرفی کرد، او در این رابطه می‌گوید: «علم داده: برنامه اقدام به‌منظور گسترش حوزه‌های فنی رشته آمار است». در این گزارش، کلولند شش حوزه فنی را که باور داشت برای ایجاد علم داده ترکیب شده‌اند برشمرد. این حوزه‌ها عبارتند از تحقیقات چند رشته‌ای، مدل‌ها و روش‌هایی برای داده‌ها، محاسبه با داده، علوم پرورشی، ارزیابی ابزار و نظریه.

در آپریل سال ۲۰۰۲، کمیته داده برای دانش و فناوریِ (Data for Science and Technology | CODATA) شورای بین‌المللی دانش (International Council for Science | ICSU)، انتشار مجله‌ای با عنوان علم داده (Data Science Journal) را آغاز کرد. این اثر، بر مسائلی مانند توصیف سیستم‌های داده، نشر آن‌ها در اینترنت، کاربردها و مسائل قانونی مربوط به این حوزه متمرکز بود.

مدت کوتاهی پس از انتشار این مجله، در ژانویه سال ۲۰۰۳، دانشگاه کلمبیا، مجله علم داده (The Journal of Data Science) را ارائه کرد که پلتفرمی برای همه فعالان حوزه داده جهت نشر دیدگاه‌ها و تبادل ایده‌هایشان بود. این مجله به‌طور گسترده‌ای به کاربردهای روش‌های آماری و پژوهش‌های کمی می‌پرداخت.

در سال ۲۰۰۵ انجمن علمی ملی (National Science Board) اثری با عنوان «مجموعه داده‌های دیجیتال با عمر دراز: فراهم کردن امکان آموزش و پژوهش در قرن ۲۱» منتشر کرد و در آن دانشمندان داده را به‌عنوان دانشمندان اطلاعات و کامپیوتر، کارشناسان منضبط پایگاه داده، نرم‌افزار و برنامه‌نویسی، مربیان و سخنرانان متخصص، کتابداران و بایگانی‌سازانی معرفی کرد که برای مدیریت موفق یک مجموعه داده دیجیتال حیاتی هستند و فعالیت اصلی آن‌ها انجام تحقیق و تحلیل خلاقانه است.

در حدود سال ۲۰۰۷، «جیم گری» (Jim Gray)، برنده جایزه تورینگ، علوم داده محور را به عنوان چهارمین پارادایم علم معرفی کرد که از تحلیل محاسباتی داده‌های بزرگ به عنوان روشی علمی جهت ساخت دنیایی که در آن ادبیات علم و همه داده‌های علمی آنلاین هستن استفاده می‌کند.

در سال ۲۰۱۲، دانراجی پاتیل (Dhanurjay “DJ” Patil)، در مقاله «دانشمند داده: جذاب‌ترین شغل قرن ۲۱» که در مجله بررسی کسب‌و‌کار هاروارد منتشر شد، ادعا می‌کند که همراه با «جف همرباچر» (Jeff Hammerbacher) که این عبارت را آن‌ها برای اولین بار در سال ۲۰۰۸ برای معرفی شغلشان در لینکدین و فیس‌بوک ابداع کرده‌اند. او از دانشمندان داده به عنوان نژادی جدید یاد کرده که کمبود آن‌ها منجر به محدودیت‌های جدی در برخی از بخش‌های صنعت و دانشگاه می‌شود.

در سال ۲۰۱۳، رویداد «نیروی کار علم داده و تحلیل پیشرفته» (IEEE Task Force on Data Science and Advanced Analytics) راه‌اندازی شد. همچنین، اولین «کنفرانس اروپایی تحلیل داده» (European Conference on Data Analysis | ECDA) در لوکزامبورگ برگزار و پیرو آن «اتحادیه اروپایی تحلیل داده» (European Association for Data Science | EuADS) تاسیس شد. اولین کنفرانس بین‌المللی این حوزه با عنوان «کنفرانس بین‌المللی علم داده و تحلیل‌های پیشرفته IEEE» در سال ۲۰۱۴ برگزار شد.

در همین سال، «جنرال اسمبلی» (General Assembly)، یک اردوی تابستانی و انکوباتور داده برای علاقمندان به علم داده راه‌اندازی کرد. همچنین، انجمن آمار آمریکا، عنوان ژورنال خود را به «تحلیل‌های آماری و داده‌کاوی: ژورنال انجمن آمار آمریکا» تغییر نام داد. مدتی بعد و طی تغییر نامی دوباره، بخش اول نام این ژورنال به «یادگیری آماری و علم داده» مبدل شد.

در سال ۲۰۱۵، «ژورنال بین‌المللی علم و تحلیل داده» توسط اسپرینگر به‌منظور انتشار کارهای انجام پذیرفته در حوزه علم داده و تحلیل داده‌های کلان (مِه داده) بنا شد. در سپتامبر ۲۰۱۵، طی سومین کنفرانس ECDA در دانشگاه اسکس (Essex)، عبارت «Gesellschaft für Klassifikation» به نام «انجمن علم داده» افزوده شد.

اصطلاح علم داده یکی از واژگان باب روز است که بر تحلیل‌های کسب‌و‌کار، هوش تجاری، مدل‌سازی پیش‌بینی یا هر گونه استفاده اختیاری از داده‌ها اعمال شده و به عنوان واژه‌ای پر زرق و برق برای آمار استفاده می‌شود. در بسیاری از موارد، رویکردها و راهکارهای موجود در حوزه‌های گوناگون با عنوان «علم داده» برندسازی مجدد شده‌اند تا جذاب‌تر باشند. کاربرد این اصطلاح بیش از آنکه مفید باشد، توسط متخصصین غیر مرتبط بسیاری به شکلی گسترده اما غیر صحیح به کار برده می‌شود.
با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشته‌است. ناپلئون بناپارت از مدل‌های ریاضی برای تصمیم‌گیری در میادین جنگی استفاده می‌کرده‌است. این مدلها را ریاضیدانان تهیه می‌کردند.

مزایای علم داده

مزیت سازمانی: مزیت اصلی استفاده از علم داده در سازمان، توانمند سازی و تسهیل تصمیم گیری است. سازمان هایی با متخصص داده می‌توانند شواهد مبتنی بر داده را به تصمیمات کسب و کار خود اعمال کنند. این تصمیمات مبتنی بر داده در نهایت منجر به افزایش سودآوری و بهبود بهره‌وری عملیاتی، عملکرد و گردش کار کسب و کار می‌شود. در سازمان‌های مشتریان، علم داده به شناسایی و اصلاح مخاطبان هدف کمک می‌کند. علم داده همچنین می‌تواند به استخدام کمک کند. پردازش داخلی برنامه‌ها و تست‌های شایستگی مبتنی بر داده و بازی‌ها می‌تواند به تیم مدیریت منابع‌انسانی کمک کند تا انتخاب‌های سریع‌تر و دقیق‌تر را در طول روند استخدام انجام دهد. مزایای خاص علم داده بستگی به اهداف شرکت و صنعت دارد. برای مثال، موسسات بانکی داده‌ها را برای افزایش تشخیص تقلب استخراج می‌کنند.

مزایای علم داده بستگی به اهداف شرکت و صنعت مربوط به آن دارد. برای مثال دپارتمان‌های فروش و بازاریابی می‌توانند داده‌های مشتریان را برای بهبود نرخ جذب مشتری و ساخت کمپین‌های فرد به فرد کاوش کنند. موسسات بانکی، داده‌های خود را جهت ارتقا وظیفه شناسایی کلاهبرداری کاوش می‌کنند. سرویس‌های استریم مثل نتفلیکس (Netflix) داده‌ها را برای شناسایی آنچه کاربران به آن علاقمند هستند و استفاده از آن‌ها برای دانستن اینکه تولید چه فیلم‌ها یا برنامه‌های تلویزیونی بهتر است کاوش می‌کنند.

همچنین، در نتفلیکس از الگوریتم‌های مبتنی بر پایگاه داده به‌منظور ساخت توصیه‌های شخصی‌سازی شده متناسب با عقاید کاربران استفاده شده است. شرکت‌های حمل‌و‌نقل مانند FedEx ،DHL و UPS از علم داده برای کشف بهترین مسیرها، زمان‌ها و نوع حمل‌و‌نقل کالا استفاده می‌کنند. با وجود کاربردهای متعدد علم داده، این زمینه در کسب‌و‌کار هنوز نوظهور است، زیرا شناسایی و تحلیل حجم انبوهی از داده‌های ساختار نیافته می‌تواند برای شرکت‌ها بسیار پیچیده، گران قیمت و زمان‌بر باشد.

ارتباط آمار و علم داده

محبوبیت عبارت «علم داده» در محیط‌های دانشگاهی و کسب‌و‌کار به دلیل گشایش درب‌های جدید به سوی فرصت‌های شغلی، رشد انفجاری داشت. با این حال، بسیاری از منتقدان دانشگاهی و روزنامه‌نگاران تمایزی بین این دو قائل نیستند. «گیل پرس» (Gil Press) در نوشته‌ای که در مجله «فوربز» (Forbes) منتشر شد، ادعا کرده که علم داده یک واژه باب روز ولی بدون تعریف روشن است که در متون و زمینه‌های گوناگون از جمله دوره‌های تحصیلات تکمیلی جایگزین «تحلیل کسب‌و‌کار» شده است.

در پنل پرسش‌ و‌ پاسخ جلسات آمار مشترک انجمن آمار آمریکا، نیت سیلور (Nate Silver)، آماردان کاربردی، طی سخنانی در این رابطه گفت:

«من فکر می‌کنم دانشمند داده، عبارت آماردان را جذاب‌تر کرده… آمار شاخه‌ای از علم است. دانشمند داده به تدریج در بسیاری از زمینه‌ها به حشو مبدل خواهد شد. افراد نباید از واژه آماردان چشم‌پوشی کنند.»

همچنین، در بخش کسب‌و‌کار، پژوهشگران و تحلیلگران گوناگون اذعان می‌کنند که دانشمندان داده به تنهایی نمی‌توانند شرکت‌ها را به مزیت‌های رقابتی واقعی برسانند و همچنین، این شغل را تنها یکی از چهار شغلی می‌دانند که برای دستیابی به قدرت کلان‌داده (مِه‌داده) مورد نیاز است. چهار شغل مذکور عبارتند از: تحلیل‌گر داده، دانشمند داده، توسعه‌دهنده کلان‌داده و مهندس کلان‌داده.

از سوی دیگر، پاسخ‌های زیادی به چنین انتقاداتی داده شده و می‌شود. در مقاله‌ای که در سال ۲۰۱۴ در وال استریت ژورنال منتشر شد، ایروینگ لادوسکی برگر (Irving Wladawsky-Berger)، اشتیاق به علم داده را مقارن با طلوع علوم کامپیوتر دانست. او چنین استدلال می‌کند که علم داده مانند هر زمینه میان‌رشته‌ای دیگری از روش‌شناسی و راهکارهایی از دیگر زمینه‌های صنعتی و دانشگاهی بهره می‌برد، اما آن‌ها را در قالب جدید شکل می‌دهد. سخنان این پژوهشگر، به انتقادات تند انجام شده از علوم کامپیوتر که امروزه جایگاه ویژه‌ای در فضای دانشگاهی دارد معطوف بود.

به همین ترتیب، «ویسانت دار» (Vasant Dhar)، دانشمند داده و استاد دانشگاه استرن نیویورک، همچون دیگر طرفداران دانشگاهی علم داده، به استدلال در این رابطه پرداخته است. او در دسامبر سال ۲۰۱۳با انجام سخنرانی در این رابطه، بیان می‌کند که علم داده از تحلیل‌های داده فعلی موجود در کلیه رشته‌ها متفاوت است.

تمرکز علم داده بر تشریح مجموعه داده‌ها و به دنبال الگوهای عملی و سازگار برای استفاده‌های پیش‌بینانه است. این هدف کاربردی مهندسی، علم داده را به جایگاهی فراتر از تحلیل‌های سنتی می‌برد. اکنون داده‌های رشته‌ها و زمینه‌های کاربردی مانند علوم سلامت و علوم اجتماعی که فاقد نظریه‌های مستحکم هستند را می توان با بهره‌گیری از علم داده برای ساخت مدل‌های پیش‌بین قدرتمند به کار برد.

«دیوید دونوهو» (David Donoho)، در سپتامبر ۲۰۱۵، پاسخگوی انتقادات موجود پیرامون علم داده را با رد سه تعریف اشتباهی که پیرامون علم داده وجود داشت بود. اول آنکه علم داده معادل کلان داده (مِه‌داده) نیست، زیرا اندازه مجموعه داده معیاری برای ایجاد تمایز بین علم داده و آمار نیست. دوم، علم داده به‌وسیله مهارت‌های رایانشی مرتب‌سازی مجموعه داده‌های بزرگ تعریف نمی‌شود. این مهارت‌ها عموما برای تحلیل در کلیه رشته‌های مورد استفاده قرار می‌گیرند. سوم اینکه، علم داده یک زمینه بسیار کاربردی است که در حال حاضر برنامه‌های دانشگاهی قادر به آماده‌سازی دانشمندان داده برای این شغل به شکل مناسبت نیستند. این در حالیست که بسیاری از مراکز آموزشی، دوره‌های آمار و تحلیل خود را به اشتباه با عنوان دوره‌های علم داده تبلیغ می‌کنند.

دونو به عنوان یک آماردان که تلاش‌های زیادی در زمینه کاری خود انجام داده و قهرمانانی که دامنه یادگیری را به شکل علم داده کنونی گسترش داده‌اند مانند «جان چمبرز» (John Chambers) که خواستار پذیرش مفهوم یادگیری از داده‌ها توسط آماردان‌ها شده بود، یا ویلیام کلوند که خواهان اولویت‌دهی به ابزارهای استخراج پیش‌بین قابل اجرا از داده‌ها یا نظریه‌های توصیفی بود، همه با هم رویای یک دانش کاربردی که بر فراز آمار کلاسیک و دیگر زمینه‌های علمی رشد می‌کند را تحقق بخشیده‌اند.

به خاطر آینده علم داده، پروژه دونو که یک محیط همواره در حال رشد برای دانش باز (open science) است، مجموعه داده‌های قابل استفاده برای پژوهش‌های دانشگاهی را در دسترس کلیه پژوهشگران قرار می‌دهد. موسسه ملی سلامت آمریکا (US National Institute of Health) نیز برنامه‌ای را به‌منظور ارتقا تکرارپذیری و شفافیت داده‌های پژوهشی در حال اجرا دارد. بدین ترتیب، آینده علم داده نه تنها مرزهای نظریات آمار را در هم می‌شکند، بلکه انقلابی در پارادایم‌های پژوهشی دانشگاهی برپا خواهد کرد. دونو از این جریان‌ها چنین نتیجه می‌گیرد:

«دامنه و تاثیر علم داده با فراهم شدن داده‌های علمی و داده‌هایی درباره علم، به شکل فوق‌العاده‌ای در دهه‌های پیش‌رو گسترش خواهد یافت»

علم داده در ایران

اولین پژوهش در زمینه متخصصین علم داده در ایران در دانشکده مدیریت دانشگاه تهران انجام شده‌است. دانشگاه شهید بهشتی تهران اولین دانشگاه در ایران است که در مقطع کارشناسی ارشد علم داده دانشجو می‌پذیرد.

ابزارهای متن باز علم داده

  • آر (زبان برنامه‌نویسی)
  • پایتون (زبان برنامه‌نویسی)
  • وکا (یادگیری ماشینی)
  • جاوا (زبان برنامه‌نویسی)
  • گنو آکتیو
  • جولیا

ابزارهای تجاری علم داده

  • راپید ماینر
  • نایم
  • اس‌پی‌اس‌اس مادلر
  • متلب

رشته‌های دانشگاهی

  • علوم تصمیم و مهندسی دانش
  • انفورماتیک (رشته دانشگاهی)
  • بیوانفورماتیک
  • ژئوانفورماتیک
  • انفورماتیک پزشکی
  • علوم اعصاب محاسباتی
  • شیمی‌انفورماتیک
  • فیزیک محاسباتی

شانزده کتاب رایگان و عالی برای کسانی که می خواهند متخصص داده شوند

این لیست فهرستی است از ۱۶ کتاب رایگان به انتخاب ویلیام شن از کورا است که می‌تواند به شما در تبدیل شدن به یک دانشمند داده فوق العاده کمک کند. جادی پیشنهاد می کند که اگر واقعا علاقمند به پیشرفت در این حوزه هستید بهتر است به جای دانلود تمامی این شانزده کتاب،‌ لینک رو ذخیره کنین، یک کتاب رو دریافت کنید و بخوانید و هر زمان تمام شد با مراجعه به همین لینک سراغ کتاب بعدی بروید. یک مشکل تکنولوژی در این روزها این است که آدم‌ها به جای اینکه چیزی که می‌خواهند  یاد بگیرن توی مغز، چیزی که می‌خواهند فقط دانلود می کنن روی هارد.

آر و پایتون
مطمئنا شما برای تبدیل شدن به یک دانشمند داده باید بتوانید برنامه بنویسید. بعضی ها با R کار می کنند و بعضی‌ها با پایتون و بعضی‌ها با زبان های دیگر.

  1. Advanced R
  2. Think python
  3. R Programing

آمار و احتمالات
دانشمند داده خیلی بیشتر از آن‌که برنامه نویس باشد، باید از آمار اطلاع داشته باشد. کتاب Think Stats به شما توزیع‌ها، روش‌های بررسی نظریه‌های آماری و رگرسیون را یاد می‌دهد. بعد باید Think Bayes رو بخوانید تا با احتمالات شرطی آشنا شوید و در نهایت کتاب پیشرفته بعدی الگوریتم‌های پیشرفته‌تری رو دارد. هر سه کتاب به پایتون نزدیک هستن.

یادگیری ماشینی آماری
کتاب An Introduction to Statistical Learning ساده تر از آن است و برای شروع پیشنهاد می‌شود. کتاب به R نزدیک است. کتاب دوم مدت‌ها کتاب مرجع درسی بوده است و در جامعه یادگیری ماشینی آماری جایگاه والایی دارد و وقتی در این جایگاه قرار دارد یعنی پیشرفته است و خواندنش دقت زیادتری می‌خواهد. اگر می‌خواین شروع کنید با کتاب اول شروع کنید.

پروسس داده
کتاب The Elements of Data Analytic Style به مهارت‌های عملی مثل تمیز کردن یا بررسی داده‌ها و نمایش و ارائه و به اشتراک گذاشتن نتایج می‌پردازد.

طراحی تجربی
دو فصل اول کتاب Design and Analysis of Experiments تقریبا هر چیزی که در مورد تست‌های A/B باید بلد باشین رو به شما می‌گوید.

بازنمایی اطلاعات / دیتا ویژوالایزیشن با D3.JS
ابزار d3 در دانش اطلاعات بسیار مورد استفاده است؛ برای بازنمایی اطلاعات. ولی تازه واردها احتمالا با آن دردسرهای زیادی خواهند داشت. این دو کتاب نقطه خوبی برای یادگیری از پایه (یعنی از html، css و جاوااسکریپت تا d3) هستند و در نهایت شما را به یک حرفه‌ای تبدیل خواهند کرد.

داده کاوی و یادگیری عمیق
دو کتابی که اینجا معرفی می‌شوند نوشته آدم‌های بسیار معروفی در این حوزه هستند و تقریبا هر چیزی که لازم است در مورد داده‌کاوی بدانیند را پوشش می دهند. کتاب Minint of Massive Datasets مبتنی بر دوره مرتبط در دانشگاه استنفورد است و چیزهایی مثل سیستم‌های توصیه‌گر، پیج‌رنک و تحلیل شبکه‌های اجتماعی را آموزش می دهد. کتاب دوم به اسم دیپ لرنینگ که بخش‌های رایگان منتشر شده کتاب دانشگاه ام.آی.تی. است هم احتمالا بعد از انتشار نهایی یکی از معتبرترین کتاب های درسی این رشته خواهد بود.

مصاحبه‌هایی با دانشمندان داده
علم داده‌ ها یک رشته جدید است و بخشی از کار هر دانشمند داده، کشف کردن اینکه اصولا بقیه مشغول چه چیزی هستند. دو کتابی که در اینجا معرفی می‌شوند هر دو مجموعه مصاحبه‌هایی هستند با دانشمند‌های داده در مورد کار، زندگی، دیدگاه و شغل و رهنمودهای ایشان. جالب اینجاست که این دو کتاب تقریبا هیچ تداخلی با همدیگر ندارند و خواندن هر دوی آن‌ها توصیه می‌شود.

ساخت تیم‌های دانش داده
و در نهایت وقتی دانشمندهای داده اینقدر مهم شدند، مدیرها هم نیاز به تیم‌هایی از آن‌ها یا حداقل همکاری آن‌ها در تیم‌هایشان دارند. کتاب Data Driven‌  نوشته مشهورترین دانشمند داده است؛ دی جی پاتیل و هیلاری میسون. کتاب Understanding the CDO در این مورد است که چطوری سازمان‌های بزرگ دارند با معرفی یک نقش سازمانی جدید به اسم «مدیر کل داده» سعی می کنن این مفاهیم را در سازمانشان پیاده کنند و کتاب آخر هم که باز نوشته دی جی پاتیل است، یکی از قدیمی‌ترین کتاب‌های این حوزه است (یعنی ۲۰۱۱).