۱-یادگیری یک زبان برنامه نویسی:
اولین قدم برای شروع Data science انتخاب و آشنایی با یک زبان برنامه نویسی است. از بین زبان های R و پایتون زبان پایتون دارای محبوبیت بیشتری است. چون یادگیری آن ساده تر است و از کتابخانه هایی مثل numpy – pandas – seaborn matplotlib – scipy و … ساپورت میکند.
۲-آمار و احتمالات:
داشتن دانش آمار و احتمالات کمک بسیاری برای Data scientist ها برای تحلیل و آنالیز دیتاست های بزرگ میکند.
۳-دانش SQL :
از SQL برای استخراج اطلاعات از دیتابیس های بزرگ و ارتباط با آنها استفاده میشود. از مباحث پر استفاده SQL میتوان به نرمال سازی؛ نوشتن کوئری های تو در تو و همچنین عملیاتی مانند groupby و join و … اشاره کرد.
۴-پاکسازی داده:
در هر پروژه دیتاساینتز بیشتر زمان پروژه صرف پاکسازی داده میشود. از این قبیل میتوان به تصمیم گیری در مورد missing value ها ؛ داده های بی اهمیت ؛ داده های تکراری ؛ outlier ها ؛ همچنین داده های اشتباه و … اشاره کرد. برای این عملیات میتوان از کتابخانه های numpy و pandas استفاده کرد.
5-اکتشاف اطلاعات:
یک Data scientist تسک های زیادی باید انجام دهد. مثل پیدا کردن الگو ها در داده ها ؛ آنالیز داده ها و کشف اطلاعات از داده ها. وی باید بتواند این اطلاعات را با ابزار های گرافیکی و شبیه سازی ارائه دهد
6-آموختن یادگیری ماشین:
یادگیری ماشین روشی برای تجزیه و تحلیل داده ها است که مدل تحلیلی را اتوماتیک میسازد. با استفاده از یادگیری ماشین سیستم ها می توانند با حداقل مداخلات انسانی از داده ها بیاموزند ، الگوها را شناسایی کرده و تصمیم بگیرند. دیتا ساینتز با کمک ماشین لرنینگ و مدل های تحلیلی میتواند پاسخ بهینه را برای مسایل مختلف ارائه کند.
7- انجام تمرین:
پس از گذراندن مقدمات وقت عمل است. شما باید با انجام تمرین در سایت هایی مثل kaggle مهارت خود را افزایش دهید. برای اینکار میتوانید دیتاست را دانلود کرده و سپس عملیات آنالیز را بر روی آن انجام دهید و بعد با مراجعه به عملکرد سایر شرکت کنندگان و نحوه پاسخ آنها به تمرین مورد نظر و انجام مقایسه ایرادات خود را کشف کرده و مهارت خود را افزایش دهید. پس از انجام تمرین میتوانید با شرکت در مسابقات خود را محک بزنید.