Як стати Data Scientist'ом
Недвано мене попросили виступити на семінарі з розповіддю про нейронні мережі, але для учасників семінар назвали "Як стати Data Scientist'ом". Про таку назву я заздалегідь не знав, але раз вже погодився, то доведеться розповідати. Поки у мене немає досвіду підготовки Data Scientist'ов, але зараз ми готуємо магістерську програму з Data Scientist в УрФУ . Я розповім своє бачення того, як навчати Data Scientist'ов, яке ми плануємо реалізувати в цій програмі.
що потрібно
Щоб стати успішним Data Scientist'ом, якого готові взяти на роботу великі компанії, потрібні три речі:
- Знання в області Data Science.
- Практичний досвід реалізації проектів аналізу даних.
- Незалежне підтвердження кваліфікації.
На перший погляд може здатися, що ми в замкнутому колі: щоб влаштуватися на роботу потрібен практичний досвід, якого ніде взяти без роботи. Але у випадку з Data Science все не так страшно.
Де взяти знання
Книг і курсів по Data Science зараз дуже багато. Відкриті курси, які мені подобаються найбільше:
Для тих, хто хоче вчитися очно, є Школа аналізу даних Яндекса (ШАД). У ШАД діє кілька спільних програм з Вищою школою економіки, МФТІ, НГУ. Сподіваюся, що ми в цьому році запустимо подібну програму в УрФУ.
Крім перерахованих, є велика кількість інших курсів. Також є багато книг, відео на Youtube і інших джерел. Таким чином, є де брати знання, головне, щоб у вас був час на вивчення всіх цих цікавих предметів.
Практичний досвід
Вивчати тільки теорію не дуже цікаво, хочеться спробувати свої сили на практиці. У початківця Data Scientist'а є для цього кілька хороших можливостей:
- сайт Kaggle , Присвячений Data Science. На цьому сайті постійно проводяться змагання з аналізу даних, в яких можна взяти участь. Є також велика кількість наборів відкритих даних, які можна аналізувати і публікувати свої результати. Крім цього, можна дивитися скрипти, опубліковані іншими учасниками (на Kaggle такі скрипти називаються Kernels) і переймати успішний досвід.
- Багато відкриті курси використовують проектне навчання. Саме так влаштовані спеціалізації на Coursera і nanodegree від Udacity. Крім теоретичних відомостей і вправ до лекцій, такі курси містять проекти з аналізу реальних даних.
- Крім Kaggle, є велика кількість сайтів зі змаганнями по машинному навчання. Серед російських сайтів можна відзначити boosters.pro (Змагання від Ощадбанку, Avito, Банку Тінькофф), mlbootcamp.ru (Змагання від mail.ru) і dataring.ru .
Таким чином, навіть початківець Data Scientist'т може знайти проекти, які здатний реалізувати.
підтвердження кваліфікації
Після того, як ви вивчили все необхідне для аналізу даних і спробували свої сили у відкритих завданнях і конкурсах, жни приступати до пошуку роботи. На цьому етапі стає важливо мати незалежне від вас підтвердження кваліфікації. Самі про себе ви, звичайно ж, будете говорити тільки хороше, але работодать вправі сумніватися в ваших словах. Тоді ви і продемонструєте незалежні підтвердження, наприклад:
- Прокачаний профіль на Kaggle. У Kaggle є система рангів , Ви можете пройти ступені від новачка до грандмайстра. За успішну участь у змаганнях, публікацію скриптів і дискусії можна заробити очки, які дозволяють підняти рейтинг. Крім того, на сайті видно в яких змаганнях ви брали участь, і які у вас результати.
- Програми аналізу даних можна публікувати на github або інших відкритих репозиторіях, тоді з ними зможуть познайомитися всі зацікавлені. У тому числі представники роботодавця, які будуть проводити співбесіду з вами. Причому вони можуть це зробити не в процесі співбесіди, коли часу дуже мало, а до його початку. Тоді у них буде достатньо часу, щоб належним чином оцінити ваш код.
- Пишіть статті про свої проекти з аналізу даних на Хабре та інших подібних сайтах. Також можете записувати відео для YouTube (ось для прикладу мій відеокурс по програмуванню нейронних мереж ).
- Результати змагань з аналізу даних зберігаються у відкритому доступі. Якщо ви зайняли в такому змаганні досить високе місце, то це приваблює потенційних роботодавців.
Коли будете писати резюме, полегшите роботу людям, які будуть проводити співбесіду з вами. Відразу включити в резюме як можна більше підтверджень вашої кваліфікації, щоб не було пропущено нічого важливого.
підсумки
Зараз будь-яка людина може стати Data Scientist'ом. Для цього є все необхідне у відкритому доступі: курси, книги, змагання для отримання практичного досвіду. Основне що потрібно від вас - висока мотивація, щоб регулярно знаходити час на вивчення аналізу даних і його практичне застосування. Успіхів!