Кто такой data scientist?

Чем конкретно занимается специалист по Big Data

Работа Data Scientist подразумевает различные способы анализа данных:

  1. Сбор статистики.
  2. Создание моделей баз данных.
  3. Прототипирование.
  4. Методы интеллектуального анализа.
  5. Использование специальных приложений для работы с данными.
  6. Методы проектирования и разработки баз данных.

Например, один из программистов компании Linkedin вместо стандартной работы по улучшению оптимизации проекта занялся разработкой нового алгоритма. В компании не было систем, которые могли бы оценить его работу, но он предложил внедрить решение, позволяющее пользователям быстрее находить знакомых людей или тех, у кого есть похожие данные.

После внедрения алгоритма, узнаваемость бренда выросла в несколько раз, так как количество посетителей значительно увеличилось. То есть этот программист создал алгоритм, который смог систематизировать огромный объем данных и принести пользу.

Обязанности аналитика данных

Конкретные обязанности специалиста зависят от проекта. Но общие черты у этих специальностей похожи:

  1. Сбор данных из различных источников, чтобы на их основе проводить обработку;
  2. работа с потребителями, анализ среза мнений;
  3. моделирование клиентской базы;
  4. работа над персонализацией продуктов;
  5. оценка, анализ и составление отчетности эффективности внутренних процессов базы;
  6. анализ различных рисков и т. д.

Чтобы было понятнее, разберем конкретный пример. Имеется онлайн-игра с неплохой концепцией, посещаемостью и комьюнити. Однако, как показывает практика, если онлайн-проект не развивается, в нем не появляются новые дополнения, игровые механики, не исправляются внутренние ошибки, то пользователи постепенно теряют к нему интерес.

Поэтому нанимают одного или несколько специалистов по Big Data. Перед ними стоит несколько задач:

  • удержать игроков;
  • расширить комьюнити;
  • сделать так, чтобы среднее время, затраченное на игру, увеличивалось.

Что для этого делает Data Scientist:

  1. собирает и анализирует ключевые показатели проекта;
  2. проектирует метрики для того, чтобы спрогнозировать поведение игроков;
  3. анализирует обновления и различные акции в игре, как они влияют на настроение комьюнити;
  4. формулирует свои рекомендации: какие изменения в игру вносить, что можно улучшить, от чего отказаться и т. д. Затем отслеживает реакцию на изменения.

Обязанности специалиста

Как я уже говорила, дата-сайентист  не только собирает и анализирует большой массив неструктурированных данных, но и разрабатывает и тестирует прогнозные модели (гипотезы), которые соответствуют запрашиваемой концепции. Это только общее описание профессии, а если разобрать более подробно, то список обязанностей специалиста выглядит примерно так:

  • сбор различных данных (структурированные и нет) по установленной тематике из максимально возможного числа источников;
  • обработка полученных данных;
  • анализ возможных вариантов развития ситуации (поведение пользователей, изменение курса валют и другие) и разработка прогнозной модели, а вернее нескольких моделей;
  • оценка рисков по всем вариантам развития;
  • тестирование моделей, выявление недостатков и их исправление;
  • составление итоговых аналитических отчетов и прогнозов по итогам тестирования.

Итоговая модель затем внедряется в работу. А дата-сайентист продолжает работать с моделью, анализирует, улучшает, корректирует. Техническим результатом  всего  процесса разработки является код, который дает возможность созданной модели работать. Для справки: этап подготовки и очистки данных занимает почти 60% рабочего времени.

Уровень дохода дата сайентиста

А теперь немного о самом популярном вопросе – сколько зарабатывает специалист? Дата сайентист – это одна из самых быстро развивающихся профессий и спрос на таких специалистов постоянно увеличивается. Интерес к аналитике больших данных будет расти еще долгое время.  А вот найти высококлассного специалиста  в этой сфере очень проблематично. Поэтому, если решили остановиться на данной профессии и считаете, что вам она по плечу, тогда есть все шансы найти хорошую перспективную работу, которая будет приносить вам высокий доход.

Заработная плата по этой специальности значительно отличается в зависимости от сферы деятельности и региона. В Москве начинающий специалист без опыта или со стажем до 1 года может найти работу с зарплатой до 100 тысяч рублей! Да, платят таким специалистам хорошо. В СПБ начинающий дата сайентист может получать от 45 до 85 тысяч рублей. По другим регионам, если появляются вакансии, доход меньше.

Профессионал уровня middle с опытом от 5 лет может рассчитывать на ежемесячный доход в разы больше: в Москве до 500 тысяч рублей, в СПБ – в среднем 150-200 тысяч рублей.

В качестве бонуса многие работодатели предлагают дополнительное обучение (повышение квалификации) за счет средств компании.

Программная инженерия более передаваема

Предоставляя более комплексный опыт в области технологии, разработка программного обеспечения дает лучшие возможности выхода, когда вы решили, что пришло время перемен. 

DevOps, безопасность, интерфейс, бэкэнд, распределенные системы, бизнес-аналитика, инженерия данных, наука о данных…

Я знаю ряд разработчиков, которые перешли от программирования к науке о данных. Если вы пробежитесь глазами по требованиям к специалисту в Data Science, то сразу заметите там массу требуемых навыков программиста:

  • Опыт работы с SQL и Python, R или SAS;
  • Знание AWS;
  • Знание Linux;
  • Знание экспериментального дизайна для бизнес-экспериментов;
  • Знание систем DevOps, таких как GitLab;

Если вы можете создавать сквозные проекты, то вы также можете сделать как минимум модель для Kaggle. Вы можете взять эту модель, произвести ее, настроить авторизацию и Stripe, а затем начать взимать плату с пользователей за доступ. Это ваш собственный стартап.

Я бы никогда не стал утверждать, что наука о данных не подлежит передаче. Принятие решений на основе данных является по истине убойным навыком. Но это также становится чем-то большим, чем когда-либо, поскольку мы все больше ориентируемся на данные.

Программа занятий

Программа занятий состоит из 11 частей:

  1. Введение в Data Science, рассмотрение основных инструментов — ты узнаешь, что такое Data Science, Big Data и как это все работает.
  2. Базовые алгоритмы и понятия машинного обучения — здесь рассматриваются деревья решений, кластеризация, линейный классификатор, логическая регрессия и другие непонятные для обывателя вещи.
  3. Feature engineering — это проблемы качества и размерности данных, а также методы декомпозиции данных.
  4. Рекомендательные системы — введение в рекомендательные системы, неперсонализированные и персонализированные рекомендации.
  5. Распознавание изображений, машинное зрение — нейросети, рукописный ввод, детекция объектов на изображении.
  6. Обработка естественного языка — введение в обработку текста и обзор существующих библиотек, их использование и доработка.
  7. Анализ временных рядов, прогнозирование стоимости акций и других товаров — временные ряды, модели ARMA/ARIMA, модели прогнозирования.
  8. Общение с заказчиком — формализация требований, составление отчетов по исследованиям, визуализация данных, презентация проекта.
  9. Дополнительные инструменты, среды — инструменты HP и Google для работы с большими данными.
  10. Data Science в цифровом маркетинге и e-commerce-проектах: цели, задачи, решения и критерии успешности применения больших данных.
  11. Дипломная работа — разработка и внедрение собственного решения/проекта в области больших данных и машинного обучения.

Ознакомиться с полной программой можно здесь.

Требования к студентам

Студенты должны владеть хотя бы одним языком программирования на начальном уровне (лучше, если это будет Python).
Студенты должны знать математику на уровне старшей школы: функции, производные, векторную и матричную алгебру, тригонометрию.

Курс подготовки

Если ты не владеешь необходимыми знаниями, то специально для тебя предоставляется бесплатный подготовительный курс, который откроется сразу после оплаты основного курса. Курс состоит из 11 видеозаписей лекций и домашних заданий к ним. Он расскажет о циклах, типах данных, функциях, научит работать с HTTP-запросами, разными форматами данных и многому другому.

Сколько стоит

Базовая стоимость — 180 000 рублей, но до 15 июня стоимость обучения снижена до 165 000 рублей. При этом предоставляется беспроцентная рассрочка на 6 месяцев, то есть стоимость обучения выходит 27 500 рублей в месяц.

Что в итоге

Студенту выдается диплом государственного образца о профессиональной переподготовке по специальности «Аналитик данных / Специалист по машинному обучению». С ним можно претендовать на позицию «Аналитик данных», «Разработчик Big Data» с зарплатой от 120 тысяч рублей в месяц.

Обрати внимание, что по окончании обучения выдается не какой-то «сертификат», а диплом государственного образца

Практические задания

  • Напишите алгоритм для игры в крестики-нолики.
  • Напишите функцию, которая выполняет сложение чисел, представленных в виде двух связанных списков.
  • Напишите функцию, которая вычисляет матричные суммы.
  • Напишите функцию, которая берет предложение и выводит с напечатанными словами в обратном направлении за O(n) времени.
  • Напишите функцию, которая принимает массив данных, разбивает его на каждый возможный набор из двух массивов и выводит максимальные различия между минимумами двух массивов за время O (n).
  • Напишите программу, которая выполняет сортировку слиянием.
  • Разработайте метрику, которая поможет уменьшить смещение в датасете.

Задачи

Если вы знаете, что у вашего друга двое детей и что по крайней мере один из них мальчик, какова вероятность, что другой тоже мальчик?

Если взять кубик, какой сценарий будет наиболее вероятным: выпадет одна шестерка в шести бросках, минимум две шестерки в двенадцати бросках или минимум сто шестерок в шестиста бросках?

У вас есть 70 красных шариков. Соотношение зеленых и красных шариков составляет 2 к 7, сколько тогда зеленых?

Сколько карандашей используется в Индии?

Data Scientist

Data Science, или наука о данных, призвана решать бизнес-проблемы с использованием данных. Data Scientist превращает груды непонятных данных в набор полезных знаний. Специалист такого профиля оказывает бизнесу две полезные услуги: проверяет гипотезы и ищет способы улучшить бизнес-показатели. Для этого используется разведывательный анализ данных (EDA), A/B-тестирование, а часто ещё и машинное обучение

Именно поэтому специалисту в Data Science жизненно важно разбираться в статистике и ML‑алгоритмах, а ещё мыслить экономическими и бизнес-категориями

От специалиста в Data Science не требуется быть первоклассным разработчиком, хотя умение писать код на Python всё же понадобится. Зато собрать и исследовать неструктурированные данные так, чтобы найти скрытые закономерности и снабдить клиента ценными инсайтами – ещё как. Для этого могут пригодиться навыки в технологиях Big Data.

Что касается машинного обучения, Data Scientist, как правило, проводит исследовательский этап (найти подходящее решение из области ML под конкретный бизнес-случай), реализует в коде и тренирует ML‑модель. На помощь могут прийти другие инженеры: они помогают со сложными техническими моментами. Когда ML‑решение готово, Data Scientist проводит эксперименты и мониторинг бизнес-метрик в продакшене. Наряду с Data Analyst, может определить эффект от решения для бизнеса и сделать понятную презентацию с визуализацией итогов.

Data Scientist – в чём нужно разбираться

Требования к подготовке и уровню профессиональных навыков зависят от того, в какой компании предстоит работать специалисту

Например, в крупных корпорациях аналитику данных важно разбираться в математике и статистике. Маркетплейсам и медиакомпаниям нужны эксперты в разработке рекомендательных систем, а в крупном ритейле — в разработке машинного зрения

Такие навыки востребованы на HeadHunter. Цифра означает количество вакансий

httpv://www.youtube.com/watch?v=embed/CiqG7RNflLM

Преподаватели школы SkillBox изучили вакансии в области Data Science на российском и зарубежном рынке и составили список навыков и областей знаний, которые понадобятся успешному специалисту:

  • Программирование.
  • Анализ.
  • Математика и статистика.
  • Машинное обучение и глубокое обучение.
  • Data Engeneering.
  • Data Science в продакшн.

Особенности профессии

Обычные специалисты по статистике,системный аналитикилибизнес-аналитикпо отдельности не могут обрабатывать массивы информации, которые относятся к категории Big Data. Для этого нужен профи с междисциплинарным образованием, компетентный в математике и статистике, экономике и бизнесе, информатике и компьютерных технологиях, – специалист по работе с данными, то есть Data Scientist.

Главные задачи Data Scientist´а:

  • извлекать необходимую информацию из самых разнообразных источников, используя информационные потоки в режиме реального времени;
  • устанавливать скрытые закономерности в массивах данных и статистически анализировать их для принятия грамотных бизнес-решений.

Рабочиее место датасайентиста – не 1 компьютер и даже не 1 сервер, а кластер серверов.

Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Важнейшее качество дата-сайентиста – это умение видеть логические связи в системе собранной информации и на основе количественного анализа разрабатывать эффективные бизнес-решения. В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для принятия правильных бизнес-решений.

Что делает Data Scientist

В разных компаниях задачи дата-сайентиста будут отличаться, но основные этапы работы похожи:

  1. Выяснить, что нужно заказчику.
  2. Оценить, возможно ли решить поставленную задачу методами машинного обучения (ML).
  3. Собрать данные для анализа, преобразовать их в формат, более удобный для работы по методике ML. (Если возможность применить ML есть, а если целесообразнее использовать методы математической статистики, визуализации, то задачу решает бизнес-аналитик.)
  4. Найти критерии оценки, чтобы выяснить, насколько эффективной будет модель, которую предстоит создать.
  5. Запрограммировать и «натренировать» модель ML.
  6. Оценить экономическую целесообразность применения этой модели (на этом этапе возможна помощь других специалистов – бизнес-аналитика, главного экономиста предприятия и др.).
  7. Внедрить модель в производство/продукт.
  8. Сопровождать внедренную модель – дорабатывать, если нужно, или адаптировать под текущие запросы заказчика.

Что можно сделать по такому шаблону? Очень много. Дата-сайентисты создали сотни сервисов, к которым мы давно привыкли и пользуемся каждый день. Алгоритмы поисковых систем, прогнозы погоды в смартфонах, голосовые помощники, программы распознавания лиц или изображений, рекомендательные алгоритмы, подбирающие видео и музыку или потенциальных друзей в соцсетях, чат-боты – всё это плоды трудов Data Scientist′ов.

В работе с данными Data Scientist использует:

  • статистические методы;
  • моделирование баз данных;
  • методы интеллектуального анализа;
  • искусственный интеллект для работы с данными;
  • методы проектирования и разработки баз данных.

Как стать

Несмотря на то, что в зависимости от выбранной области, инструменты датасаентиста несколько различаются, общие принципы обучения у них одинаковы. Из того что должен знать специалист в данной сфере, можно выделить следующее:

  • принципы машинного обучения;
  • инструменты для работы с базами данных;
  • основные технологии визуализации;
  • Hadoop, MapReduce;
  • языки программирования (основной – Python).

Чтобы хотя бы немного понимать, чем занимается data scientist и чему его обучают на курсах, надо знать следующие термины и технологии:

  • Машинное обучение – искусственный интеллект, который специализируется на автоматизации.
  • Текстовая аналитика – структурирование информации с целью получения бизнес-идей.
  • Визуализация данных – перевод текстовой информации в графическую.
  • Подготовка информации – перевод информации в более удобную для презентации форму.
  • Глубокое обучение – отдельная часть машинного обучения, необходимая для создания моделей сложных абстракций.
  • Распознавание образов – модель, позволяющая выявлять паттерны в исследуемых данных.

Разумеется, для того, чтобы освоить такое большое количество инструментов, необходимо потратить довольно много времени. Однако для тех, кто понимает, что нужно знать в data science зарплата оправдывает весь процесс обучения.

Важно понимать, что освоить эту специальность очень тяжело. Особенно трудно это даётся людям, не обладающим аналитическим складом ума

Тем, кто плохо понимает математику, программирование и не желает посвящать много времени цифрам и подсчётам, лучше за изучение этой профессии не браться. Но всё же при должной мотивации, старании и с хорошими преподавателями освоить эту специальность сможет любой. При этом ни бэкграунд, ни возраст в принципе не важны.

Если говорить конкретно о программировании, то наиболее распространённый в этой среде язык – Python. Он имеет довольно простой синтаксис, и научиться работать с ним может даже абсолютный новичок. К тому же, Питон – универсальный язык, который используется не только в Data Science. Поэтому при желании всегда можно сменить род деятельности, например, уйдя в веб-разработку.

На начальном этапе к Data Scientists предъявляется не так много требований. Они должны уметь следующее: * понимать принципы работы математической статистики; * уметь создавать с нуля алгоритмы машинного обучения; * уметь отстоять своё мнение перед заказчиком, доказать ему эффективность выбранной модели прогнозирования.

Разумеется, для всего этого необходим опыт, желательно поработать с бизнес-проектами. Для многих работодателей этот аспект гораздо важнее, чем профильное высшее образование. В связи с этим, большинство студентов предпочитает посещать курсы в онлайн-школах, где больший акцент делается именно на практике, чем в полноценных ВУЗах.

Образование в области Data Science: ничего невозможного нет

Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.

Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.

Читайте по теме: 100 лучших онлайн-курсов от университетов Лиги плюща Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.

Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.

Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.

Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка. 

«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.

Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков

Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях

15 сентября в Москве состоится конференция по большим данным Big Data Conference. В программе — бизнес-кейсы, технические решения и научные достижения лучших специалистов в этой области.

Приглашаем всех, кто заинтересован в работе с большими данными и хочет их применять в реальном бизнесе.
Следите за Big Data Conference в Telegram, на и .

Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.

Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.

Data Scientist: кто это и что он делает

В переводе с английского Data Scientist – это специалист по данным. Он работает с Big Data или большими массивами данных.

Источники этих сведений зависят от сферы деятельности. Например, в промышленности ими могут быть датчики или измерительные приборы, которые показывают температуру, давление и т. д. В интернет-среде – запросы пользователей, время, проведенное на определенном сайте, количество кликов на иконку с товаром и т. п.

Данные могут быть любыми: как текстовыми документами и таблицами, так и аудио и видеороликами.

От области деятельности зависят и результаты работы Data Scientist. После извлечения нужной информации специалист устанавливает закономерности, подвергает их анализу, делает прогнозы и принимает бизнес-решения.

Человек этой профессии выполняет следующие задачи: оценивает эффективность и работоспособность предприятия, предлагает стратегию и инструменты для улучшения, показывает пути для развития, автоматизирует нудные задачи, помогает сэкономить на расходах и увеличить доход.

Его труд заканчивается созданием модели кода программы, сформировавшейся на основе работы с данными, которая предсказывает самый вероятный результат.

Профессия появилась относительно недавно. Лишь десятилетие назад она была официально зафиксирована. Но уже за такой короткий промежуток времени стала актуальной и очень перспективной.

Каждый год количество информации и данных увеличивается с геометрической прогрессией. В связи с этим информационные массивы уже не получается обрабатывать старыми стандартными средствами статистики. К тому же сведения быстро обновляются и собираются в неоднородном виде, что затрудняет их обработку и анализ.

Вот тут на сцене и появляется Data Scientist. Он является междисциплинарным специалистом, у которого есть знания статистики, системного и бизнес-анализа, математики, экономики и компьютерных систем.

Знать все на уровне профессора не обязательно, а достаточно лишь немного понимать суть этих дисциплин. К тому же в крупных компаниях работают группы таких специалистов, каждый из которых лучше других разбирается в своей области.

Более 100 крутых уроков, тестов и тренажеров для развития мозга

Начать развиваться

Эти знания помогают ему выполнять свои должностные обязанности:

  • взаимодействовать с заказчиком: выяснять, что ему нужно, подбирать для него подходящий вариант решения проблемы;
  • собирать, обрабатывать, анализировать, изучать, видоизменять Big Data;
  • анализировать поведение потребителей;
  • составлять отчеты и делать презентации по выполненной работе;
  • решать бизнес-задачи и увеличивать прибыль за счет использования данных;
  • работать с популярными языками программирования;
  • моделировать клиентскую базу;
  • заниматься персонализацией продуктов;
  • анализировать эффективность деятельности внутренних процессов компании;
  • выявлять и предотвращать риски;
  • работать со статистическими данными;
  • заниматься аналитикой и методами интеллектуального анализа;
  • выявлять закономерности, которые помогают организации достигнуть конечной цели;
  • программировать и тренировать модели машинного обучения;

внедрять разработанную модель в производство.

Четких границ требований к Data Scientist нет, поэтому работодатели часто ищут сказочное создание, которое может все и на превосходном уровне. Да, есть люди, которые отлично понимают статистику, математику, аналитику, машинное обучение, экономику, программирование. Но таких специалистов крайне мало.

Еще часто Data Scientist путают с аналитиком. Но их задачи несколько разные. Поясню, что такое аналитика и как она отличается от деятельности Data Scientist, на примере и простыми словами.

В банк пришел клиент, чтобы оформить кредит. Программа начинает обрабатывать данные этого человека, выясняет его кредитную историю и анализирует платежеспособность заемщика. А алгоритм, который решает выдавать кредит или нет, – продукт работы Data Scientist.

Аналитик же, который работает в этом банке, не интересуется отдельными клиентами и не создает технические коды и программы. Вместо этого он собирает и изучает сведения обо всех кредитах, что выдал банк за определенный период, например, квартал. И на основе этой статистики решает, увеличить ли объемы выдачи кредитов или, наоборот, сократить.

Аналитик предлагает действия для решения задачи, а Data Scientist создает инструменты.

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Знай и умей
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: