سالهای مدیدی است که جهان مملو از داده شده است، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید میشود. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز بههمین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ دادههای تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده بهعنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.
حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظههای ذخیرهسازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمیشود.
چرا دادهها مهم هستند؟
ژیاوی هان دانشمند داده و نویسنده کتاب «دادهکاوی: مفاهیم و روشها» میگوید:
عبارت «بشر در عصر اطلاعات زندگی میکند» بسیار معروف است. این در حالیست که در حقیقت، بشر در عصر دادهها زندگی میکند. با تبدیل این دادهها به اطلاعات، میتوان آنها را به شمشهایی از طلا مبدل ساخت.
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل دادهها جایگاه قابل توجهی در میان شرکتهای پیشرو در جهان طی این سال کسب کردهاند.
علم داده چیست
علم داده (Data Science)، دانشی میانرشتهای پیرامون استخراج دانش و آگاهی از مجموعهای داده و اطلاعات است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود. علم داده (Data Science) از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روشهای موجود در حوزههای مختلف علمی بنا شده است. تعدادی از این حوزهها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات دادهمحور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذابترین شغل قرن بیست و یکم» متخصصین علم داده را اینطور تعریف میکنند:
کسانی که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسبوکار را پیدا کرد.
استنتون در سال ۲۰۱۳ علم داده را اینطور تعریف میکند:
علم داده رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد.
دریسکول در سال ۲۰۱۴ علم داده را اینطور تعریف میکند:
علم داده مهندسی عمران دادههاست. متخصص علم داده دانشی کاربردی از دادهها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.
جیم گری برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهشهای تجربی، بنیادی، محاسباتی و اکنون دادهمحور ) تصور کرده و چنین ارزیابی میکند که:
«کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».
بهطور کلی میتوان گفت علم داده، مطالعه محلی که دادهها از آن میآیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آنها به منبعی ارزشمند برای کسبوکار و استراتژیهای فناوری اطلاعات سازمان است. کاوش حجم بالایی از دادههای ساختار یافته و ساختار نیافته بهمنظور شناسایی الگوهایی انجام میشود که میتوانند به سازمانها جهت صرفهجویی در هزینهها، افزایش کارایی، شناسایی فرصتهای جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روشها مانند یادگیری ماشین، کاوش داده و بصریسازی داده مورد استفاده قرار میگیرد.
متخصص علم داده
به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) یا دانشمند داده میگویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده است در صورتی که سالها قبل از آن که آنها استفاده از اصطلاح فوق را بهطور عمومی مطرح کنند، از آن استفاده شدهاست. در مجله «بررسی کسبوکار هاروارد» (Harvard Business Review)، از شغل متخصص داده (data scientist) با عنوان جذابترین شغل قرن ۲۱ یاد شده است.
چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل میکنند. بهطور کلی انتظار میرود که متخصصین علم داده قادر باشند در بخشهایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک متخصص علم داده میبایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزهها دارای مهارت کافی باشد. نتایج نظرسنجیها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.
هر کسی که به ساخت موقعیت شغلی قدرتمندتر در این دامنه علاقمند است، باید مهارتهای کلیدی در سه حوزه تحلیل، برنامهنویسی و دانش دامنه را کسب کند. با نگاهی عمیقتر، میتوان گفت مهارتهای بیان شده در زیر میتواند به افراد جهت تبدیل شدن به یک دانشمند داده کمک کند.
- دانش قوی از پایتون، R، اسکالا و SAS
- مهارت داشتن در نوشتن کدهای پایگاه داده SQL
- توانایی کار با دادههای ساختار نیافته از منابع گوناگون مانند ویدئو و شبکههای اجتماعی
- درک توابع تحلیل چندگانه
- دانش یادگیری ماشین
متخصصین علم داده میتوانند مهارتهایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:
- توانایی استخراج و تفسیر منابع داده
- مدیریت حجم زیاد اطلاعات با سختافزار
- محدودیتهای نرمافزاری و پهنای باند
- ادغام منابع داده با یک دیگر
- تضمین پایداری مجموعههای داده
- مصورسازی داده برای فهم آن
- ساخت مدلهای ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقهبندی
- مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون A/B
- به اشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام
منشأ پیدایش و تاریخچه علم داده
اصطلاح علم داده طی سی سال گذشته در متون زیادی ظاهر شده اما تا چند سال اخیر در فضای دانشگاهی، پژوهشی و صنعتی جا نیفتاده بود. در سال ۱۹۶۰، پیتر نائور (Peter Naur) از این عبارت بهعنوان جایگزینی برای علم کامپیوتر استفاده کرد. نائور بعدها اصطلاح دادهشناسی (datalogy) را بدین منظور معرفی کرد. وی در سال ۱۹۷۴ در مقالهای با عنوان «بررسی دقیق روشهای کامپیوتری» از اصطلاح علم داده برای بیان پردازشهای داده آن دوران که در گستره وسیعی از زمینهها کاربرد داشتند، استفاده کرد .
در سال ۱۹۹۶، اعضای «فدراسیون بینالمللی جامعه دستهبندی» (International Federation of Classification Societies | IFCS) برای گردهمایی دو سال یکبار خود، در شهر کوبه ژاپن گردهم آمدند. در گردهمایی مذکور، برای اولین بار از اصطلاح علم داده به عنوان اسم کنفرانس – علم داده، دستهبندی و روشهای مرتبط – استفاده شد. این کار پس از آن صورت گرفت که در میزگرد برگزار شده، این اصطلاح توسط چیوی هوایشی (Chikio Hayashi) معرفی شد. در نوامبر سال ۱۹۹۷، سی اف جف وو (C. F. Jeff Wu) سخنرانی افتتاحیه رویدادی در حوزه علم داده را با عنوان «آمار = علم داده؟» به مناسبت انتساب به سمت استادی در دانشگاه میشیگان انجام داد.
در این سخنرانی، او از کارهای آماری به عنوان سه گانه گردآوری، مدلسازی و تحلیل داده و تصمیمسازی یاد کرد. در این استنتاج، او استفاده مدرن و غیر کامپیوتری اصطلاح علم داده را به کار برد و از آمار بهعنوان علمی که به علم داده و آماردان به دانشمندان داده تغییر نام دادهاند یاد کرد. بعدها، او سخنرانی خود با عنوان «آمار = علم داده؟» را بهعنوان اولین سخنرانی رویداد Mahalanobis Memorial Lectures در سال ۱۹۹۸ ارائه کرد. سخنرانیهای این مراسم به افتخار پراسانتا چاندرا ماهالانوبیس (Prasanta Chandra Mahalanobis) دانشمند و آماردان هندی و بنیانگذار موسسه آمار هند انجام میشود.
در سال ۲۰۰۱ ویلیام اس کلولند (William S. Cleveland) علم داده را بهعنوان یک اصل مستقل که ترکیبی از علم آمار و پیشرفتهای انجام شده در محاسبات دادهها است معرفی کرد، او در این رابطه میگوید: «علم داده: برنامه اقدام بهمنظور گسترش حوزههای فنی رشته آمار است». در این گزارش، کلولند شش حوزه فنی را که باور داشت برای ایجاد علم داده ترکیب شدهاند برشمرد. این حوزهها عبارتند از تحقیقات چند رشتهای، مدلها و روشهایی برای دادهها، محاسبه با داده، علوم پرورشی، ارزیابی ابزار و نظریه.
در آپریل سال ۲۰۰۲، کمیته داده برای دانش و فناوریِ (Data for Science and Technology | CODATA) شورای بینالمللی دانش (International Council for Science | ICSU)، انتشار مجلهای با عنوان علم داده (Data Science Journal) را آغاز کرد. این اثر، بر مسائلی مانند توصیف سیستمهای داده، نشر آنها در اینترنت، کاربردها و مسائل قانونی مربوط به این حوزه متمرکز بود.
مدت کوتاهی پس از انتشار این مجله، در ژانویه سال ۲۰۰۳، دانشگاه کلمبیا، مجله علم داده (The Journal of Data Science) را ارائه کرد که پلتفرمی برای همه فعالان حوزه داده جهت نشر دیدگاهها و تبادل ایدههایشان بود. این مجله بهطور گستردهای به کاربردهای روشهای آماری و پژوهشهای کمی میپرداخت.
در سال ۲۰۰۵ انجمن علمی ملی (National Science Board) اثری با عنوان «مجموعه دادههای دیجیتال با عمر دراز: فراهم کردن امکان آموزش و پژوهش در قرن ۲۱» منتشر کرد و در آن دانشمندان داده را بهعنوان دانشمندان اطلاعات و کامپیوتر، کارشناسان منضبط پایگاه داده، نرمافزار و برنامهنویسی، مربیان و سخنرانان متخصص، کتابداران و بایگانیسازانی معرفی کرد که برای مدیریت موفق یک مجموعه داده دیجیتال حیاتی هستند و فعالیت اصلی آنها انجام تحقیق و تحلیل خلاقانه است.
در حدود سال ۲۰۰۷، «جیم گری» (Jim Gray)، برنده جایزه تورینگ، علوم داده محور را به عنوان چهارمین پارادایم علم معرفی کرد که از تحلیل محاسباتی دادههای بزرگ به عنوان روشی علمی جهت ساخت دنیایی که در آن ادبیات علم و همه دادههای علمی آنلاین هستن استفاده میکند.
در سال ۲۰۱۲، دانراجی پاتیل (Dhanurjay “DJ” Patil)، در مقاله «دانشمند داده: جذابترین شغل قرن ۲۱» که در مجله بررسی کسبوکار هاروارد منتشر شد، ادعا میکند که همراه با «جف همرباچر» (Jeff Hammerbacher) که این عبارت را آنها برای اولین بار در سال ۲۰۰۸ برای معرفی شغلشان در لینکدین و فیسبوک ابداع کردهاند. او از دانشمندان داده به عنوان نژادی جدید یاد کرده که کمبود آنها منجر به محدودیتهای جدی در برخی از بخشهای صنعت و دانشگاه میشود.
در سال ۲۰۱۳، رویداد «نیروی کار علم داده و تحلیل پیشرفته» (IEEE Task Force on Data Science and Advanced Analytics) راهاندازی شد. همچنین، اولین «کنفرانس اروپایی تحلیل داده» (European Conference on Data Analysis | ECDA) در لوکزامبورگ برگزار و پیرو آن «اتحادیه اروپایی تحلیل داده» (European Association for Data Science | EuADS) تاسیس شد. اولین کنفرانس بینالمللی این حوزه با عنوان «کنفرانس بینالمللی علم داده و تحلیلهای پیشرفته IEEE» در سال ۲۰۱۴ برگزار شد.
در همین سال، «جنرال اسمبلی» (General Assembly)، یک اردوی تابستانی و انکوباتور داده برای علاقمندان به علم داده راهاندازی کرد. همچنین، انجمن آمار آمریکا، عنوان ژورنال خود را به «تحلیلهای آماری و دادهکاوی: ژورنال انجمن آمار آمریکا» تغییر نام داد. مدتی بعد و طی تغییر نامی دوباره، بخش اول نام این ژورنال به «یادگیری آماری و علم داده» مبدل شد.
در سال ۲۰۱۵، «ژورنال بینالمللی علم و تحلیل داده» توسط اسپرینگر بهمنظور انتشار کارهای انجام پذیرفته در حوزه علم داده و تحلیل دادههای کلان (مِه داده) بنا شد. در سپتامبر ۲۰۱۵، طی سومین کنفرانس ECDA در دانشگاه اسکس (Essex)، عبارت «Gesellschaft für Klassifikation» به نام «انجمن علم داده» افزوده شد.
اصطلاح علم داده یکی از واژگان باب روز است که بر تحلیلهای کسبوکار، هوش تجاری، مدلسازی پیشبینی یا هر گونه استفاده اختیاری از دادهها اعمال شده و به عنوان واژهای پر زرق و برق برای آمار استفاده میشود. در بسیاری از موارد، رویکردها و راهکارهای موجود در حوزههای گوناگون با عنوان «علم داده» برندسازی مجدد شدهاند تا جذابتر باشند. کاربرد این اصطلاح بیش از آنکه مفید باشد، توسط متخصصین غیر مرتبط بسیاری به شکلی گسترده اما غیر صحیح به کار برده میشود.
با این که عبارت علم داده عبارت جدیدی است، این حرفه سالهاست که وجود داشتهاست. ناپلئون بناپارت از مدلهای ریاضی برای تصمیمگیری در میادین جنگی استفاده میکردهاست. این مدلها را ریاضیدانان تهیه میکردند.
مزایای علم داده
مزیت سازمانی: مزیت اصلی استفاده از علم داده در سازمان، توانمند سازی و تسهیل تصمیم گیری است. سازمان هایی با متخصص داده میتوانند شواهد مبتنی بر داده را به تصمیمات کسب و کار خود اعمال کنند. این تصمیمات مبتنی بر داده در نهایت منجر به افزایش سودآوری و بهبود بهرهوری عملیاتی، عملکرد و گردش کار کسب و کار میشود. در سازمانهای مشتریان، علم داده به شناسایی و اصلاح مخاطبان هدف کمک میکند. علم داده همچنین میتواند به استخدام کمک کند. پردازش داخلی برنامهها و تستهای شایستگی مبتنی بر داده و بازیها میتواند به تیم مدیریت منابعانسانی کمک کند تا انتخابهای سریعتر و دقیقتر را در طول روند استخدام انجام دهد. مزایای خاص علم داده بستگی به اهداف شرکت و صنعت دارد. برای مثال، موسسات بانکی دادهها را برای افزایش تشخیص تقلب استخراج میکنند.
مزایای علم داده بستگی به اهداف شرکت و صنعت مربوط به آن دارد. برای مثال دپارتمانهای فروش و بازاریابی میتوانند دادههای مشتریان را برای بهبود نرخ جذب مشتری و ساخت کمپینهای فرد به فرد کاوش کنند. موسسات بانکی، دادههای خود را جهت ارتقا وظیفه شناسایی کلاهبرداری کاوش میکنند. سرویسهای استریم مثل نتفلیکس (Netflix) دادهها را برای شناسایی آنچه کاربران به آن علاقمند هستند و استفاده از آنها برای دانستن اینکه تولید چه فیلمها یا برنامههای تلویزیونی بهتر است کاوش میکنند.
همچنین، در نتفلیکس از الگوریتمهای مبتنی بر پایگاه داده بهمنظور ساخت توصیههای شخصیسازی شده متناسب با عقاید کاربران استفاده شده است. شرکتهای حملونقل مانند FedEx ،DHL و UPS از علم داده برای کشف بهترین مسیرها، زمانها و نوع حملونقل کالا استفاده میکنند. با وجود کاربردهای متعدد علم داده، این زمینه در کسبوکار هنوز نوظهور است، زیرا شناسایی و تحلیل حجم انبوهی از دادههای ساختار نیافته میتواند برای شرکتها بسیار پیچیده، گران قیمت و زمانبر باشد.
ارتباط آمار و علم داده
محبوبیت عبارت «علم داده» در محیطهای دانشگاهی و کسبوکار به دلیل گشایش دربهای جدید به سوی فرصتهای شغلی، رشد انفجاری داشت. با این حال، بسیاری از منتقدان دانشگاهی و روزنامهنگاران تمایزی بین این دو قائل نیستند. «گیل پرس» (Gil Press) در نوشتهای که در مجله «فوربز» (Forbes) منتشر شد، ادعا کرده که علم داده یک واژه باب روز ولی بدون تعریف روشن است که در متون و زمینههای گوناگون از جمله دورههای تحصیلات تکمیلی جایگزین «تحلیل کسبوکار» شده است.
در پنل پرسش و پاسخ جلسات آمار مشترک انجمن آمار آمریکا، نیت سیلور (Nate Silver)، آماردان کاربردی، طی سخنانی در این رابطه گفت:
«من فکر میکنم دانشمند داده، عبارت آماردان را جذابتر کرده… آمار شاخهای از علم است. دانشمند داده به تدریج در بسیاری از زمینهها به حشو مبدل خواهد شد. افراد نباید از واژه آماردان چشمپوشی کنند.»
همچنین، در بخش کسبوکار، پژوهشگران و تحلیلگران گوناگون اذعان میکنند که دانشمندان داده به تنهایی نمیتوانند شرکتها را به مزیتهای رقابتی واقعی برسانند و همچنین، این شغل را تنها یکی از چهار شغلی میدانند که برای دستیابی به قدرت کلانداده (مِهداده) مورد نیاز است. چهار شغل مذکور عبارتند از: تحلیلگر داده، دانشمند داده، توسعهدهنده کلانداده و مهندس کلانداده.
از سوی دیگر، پاسخهای زیادی به چنین انتقاداتی داده شده و میشود. در مقالهای که در سال ۲۰۱۴ در وال استریت ژورنال منتشر شد، ایروینگ لادوسکی برگر (Irving Wladawsky-Berger)، اشتیاق به علم داده را مقارن با طلوع علوم کامپیوتر دانست. او چنین استدلال میکند که علم داده مانند هر زمینه میانرشتهای دیگری از روششناسی و راهکارهایی از دیگر زمینههای صنعتی و دانشگاهی بهره میبرد، اما آنها را در قالب جدید شکل میدهد. سخنان این پژوهشگر، به انتقادات تند انجام شده از علوم کامپیوتر که امروزه جایگاه ویژهای در فضای دانشگاهی دارد معطوف بود.
به همین ترتیب، «ویسانت دار» (Vasant Dhar)، دانشمند داده و استاد دانشگاه استرن نیویورک، همچون دیگر طرفداران دانشگاهی علم داده، به استدلال در این رابطه پرداخته است. او در دسامبر سال ۲۰۱۳با انجام سخنرانی در این رابطه، بیان میکند که علم داده از تحلیلهای داده فعلی موجود در کلیه رشتهها متفاوت است.
تمرکز علم داده بر تشریح مجموعه دادهها و به دنبال الگوهای عملی و سازگار برای استفادههای پیشبینانه است. این هدف کاربردی مهندسی، علم داده را به جایگاهی فراتر از تحلیلهای سنتی میبرد. اکنون دادههای رشتهها و زمینههای کاربردی مانند علوم سلامت و علوم اجتماعی که فاقد نظریههای مستحکم هستند را می توان با بهرهگیری از علم داده برای ساخت مدلهای پیشبین قدرتمند به کار برد.
«دیوید دونوهو» (David Donoho)، در سپتامبر ۲۰۱۵، پاسخگوی انتقادات موجود پیرامون علم داده را با رد سه تعریف اشتباهی که پیرامون علم داده وجود داشت بود. اول آنکه علم داده معادل کلان داده (مِهداده) نیست، زیرا اندازه مجموعه داده معیاری برای ایجاد تمایز بین علم داده و آمار نیست. دوم، علم داده بهوسیله مهارتهای رایانشی مرتبسازی مجموعه دادههای بزرگ تعریف نمیشود. این مهارتها عموما برای تحلیل در کلیه رشتههای مورد استفاده قرار میگیرند. سوم اینکه، علم داده یک زمینه بسیار کاربردی است که در حال حاضر برنامههای دانشگاهی قادر به آمادهسازی دانشمندان داده برای این شغل به شکل مناسبت نیستند. این در حالیست که بسیاری از مراکز آموزشی، دورههای آمار و تحلیل خود را به اشتباه با عنوان دورههای علم داده تبلیغ میکنند.
دونو به عنوان یک آماردان که تلاشهای زیادی در زمینه کاری خود انجام داده و قهرمانانی که دامنه یادگیری را به شکل علم داده کنونی گسترش دادهاند مانند «جان چمبرز» (John Chambers) که خواستار پذیرش مفهوم یادگیری از دادهها توسط آماردانها شده بود، یا ویلیام کلوند که خواهان اولویتدهی به ابزارهای استخراج پیشبین قابل اجرا از دادهها یا نظریههای توصیفی بود، همه با هم رویای یک دانش کاربردی که بر فراز آمار کلاسیک و دیگر زمینههای علمی رشد میکند را تحقق بخشیدهاند.
به خاطر آینده علم داده، پروژه دونو که یک محیط همواره در حال رشد برای دانش باز (open science) است، مجموعه دادههای قابل استفاده برای پژوهشهای دانشگاهی را در دسترس کلیه پژوهشگران قرار میدهد. موسسه ملی سلامت آمریکا (US National Institute of Health) نیز برنامهای را بهمنظور ارتقا تکرارپذیری و شفافیت دادههای پژوهشی در حال اجرا دارد. بدین ترتیب، آینده علم داده نه تنها مرزهای نظریات آمار را در هم میشکند، بلکه انقلابی در پارادایمهای پژوهشی دانشگاهی برپا خواهد کرد. دونو از این جریانها چنین نتیجه میگیرد:
«دامنه و تاثیر علم داده با فراهم شدن دادههای علمی و دادههایی درباره علم، به شکل فوقالعادهای در دهههای پیشرو گسترش خواهد یافت»
علم داده در ایران
اولین پژوهش در زمینه متخصصین علم داده در ایران در دانشکده مدیریت دانشگاه تهران انجام شدهاست. دانشگاه شهید بهشتی تهران اولین دانشگاه در ایران است که در مقطع کارشناسی ارشد علم داده دانشجو میپذیرد.
ابزارهای متن باز علم داده
- آر (زبان برنامهنویسی)
- پایتون (زبان برنامهنویسی)
- وکا (یادگیری ماشینی)
- جاوا (زبان برنامهنویسی)
- گنو آکتیو
- جولیا
ابزارهای تجاری علم داده
- راپید ماینر
- نایم
- اسپیاساس مادلر
- متلب
رشتههای دانشگاهی
- علوم تصمیم و مهندسی دانش
- انفورماتیک (رشته دانشگاهی)
- بیوانفورماتیک
- ژئوانفورماتیک
- انفورماتیک پزشکی
- علوم اعصاب محاسباتی
- شیمیانفورماتیک
- فیزیک محاسباتی
شانزده کتاب رایگان و عالی برای کسانی که می خواهند متخصص داده شوند
این لیست فهرستی است از ۱۶ کتاب رایگان به انتخاب ویلیام شن از کورا است که میتواند به شما در تبدیل شدن به یک دانشمند داده فوق العاده کمک کند. جادی پیشنهاد می کند که اگر واقعا علاقمند به پیشرفت در این حوزه هستید بهتر است به جای دانلود تمامی این شانزده کتاب، لینک رو ذخیره کنین، یک کتاب رو دریافت کنید و بخوانید و هر زمان تمام شد با مراجعه به همین لینک سراغ کتاب بعدی بروید. یک مشکل تکنولوژی در این روزها این است که آدمها به جای اینکه چیزی که میخواهند یاد بگیرن توی مغز، چیزی که میخواهند فقط دانلود می کنن روی هارد.
آر و پایتون
مطمئنا شما برای تبدیل شدن به یک دانشمند داده باید بتوانید برنامه بنویسید. بعضی ها با R کار می کنند و بعضیها با پایتون و بعضیها با زبان های دیگر.
آمار و احتمالات
دانشمند داده خیلی بیشتر از آنکه برنامه نویس باشد، باید از آمار اطلاع داشته باشد. کتاب Think Stats به شما توزیعها، روشهای بررسی نظریههای آماری و رگرسیون را یاد میدهد. بعد باید Think Bayes رو بخوانید تا با احتمالات شرطی آشنا شوید و در نهایت کتاب پیشرفته بعدی الگوریتمهای پیشرفتهتری رو دارد. هر سه کتاب به پایتون نزدیک هستن.
یادگیری ماشینی آماری
کتاب An Introduction to Statistical Learning ساده تر از آن است و برای شروع پیشنهاد میشود. کتاب به R نزدیک است. کتاب دوم مدتها کتاب مرجع درسی بوده است و در جامعه یادگیری ماشینی آماری جایگاه والایی دارد و وقتی در این جایگاه قرار دارد یعنی پیشرفته است و خواندنش دقت زیادتری میخواهد. اگر میخواین شروع کنید با کتاب اول شروع کنید.
پروسس داده
کتاب The Elements of Data Analytic Style به مهارتهای عملی مثل تمیز کردن یا بررسی دادهها و نمایش و ارائه و به اشتراک گذاشتن نتایج میپردازد.
طراحی تجربی
دو فصل اول کتاب Design and Analysis of Experiments تقریبا هر چیزی که در مورد تستهای A/B باید بلد باشین رو به شما میگوید.
بازنمایی اطلاعات / دیتا ویژوالایزیشن با D3.JS
ابزار d3 در دانش اطلاعات بسیار مورد استفاده است؛ برای بازنمایی اطلاعات. ولی تازه واردها احتمالا با آن دردسرهای زیادی خواهند داشت. این دو کتاب نقطه خوبی برای یادگیری از پایه (یعنی از html، css و جاوااسکریپت تا d3) هستند و در نهایت شما را به یک حرفهای تبدیل خواهند کرد.
داده کاوی و یادگیری عمیق
دو کتابی که اینجا معرفی میشوند نوشته آدمهای بسیار معروفی در این حوزه هستند و تقریبا هر چیزی که لازم است در مورد دادهکاوی بدانیند را پوشش می دهند. کتاب Minint of Massive Datasets مبتنی بر دوره مرتبط در دانشگاه استنفورد است و چیزهایی مثل سیستمهای توصیهگر، پیجرنک و تحلیل شبکههای اجتماعی را آموزش می دهد. کتاب دوم به اسم دیپ لرنینگ که بخشهای رایگان منتشر شده کتاب دانشگاه ام.آی.تی. است هم احتمالا بعد از انتشار نهایی یکی از معتبرترین کتاب های درسی این رشته خواهد بود.
مصاحبههایی با دانشمندان داده
علم داده ها یک رشته جدید است و بخشی از کار هر دانشمند داده، کشف کردن اینکه اصولا بقیه مشغول چه چیزی هستند. دو کتابی که در اینجا معرفی میشوند هر دو مجموعه مصاحبههایی هستند با دانشمندهای داده در مورد کار، زندگی، دیدگاه و شغل و رهنمودهای ایشان. جالب اینجاست که این دو کتاب تقریبا هیچ تداخلی با همدیگر ندارند و خواندن هر دوی آنها توصیه میشود.
ساخت تیمهای دانش داده
و در نهایت وقتی دانشمندهای داده اینقدر مهم شدند، مدیرها هم نیاز به تیمهایی از آنها یا حداقل همکاری آنها در تیمهایشان دارند. کتاب Data Driven نوشته مشهورترین دانشمند داده است؛ دی جی پاتیل و هیلاری میسون. کتاب Understanding the CDO در این مورد است که چطوری سازمانهای بزرگ دارند با معرفی یک نقش سازمانی جدید به اسم «مدیر کل داده» سعی می کنن این مفاهیم را در سازمانشان پیاده کنند و کتاب آخر هم که باز نوشته دی جی پاتیل است، یکی از قدیمیترین کتابهای این حوزه است (یعنی ۲۰۱۱).