Кто такой ML-инженер?


Любой бизнес старается принимать решения не с бухты-барахты, а основываясь на данных и статистике, которой он обладает. Чем компания больше, тем больше у нее данных и, соответственно, сложнее эти данные обрабатывать. Не так давно появились две специальности, которые помогают бизнесу строить прогнозы на основе данных: Data Scientist и Data Engineer. Дата-инженеры разрабатывают алгоритмы и инструменты, которые помогают обрабатывать и преобразовывать большие объемы данных, а дата-саентисты строят предсказательные модели (модели машинного обучения), прогнозы которых бизнес использует в своей деятельности. Кстати говоря, популярные сейчас нейронки – это тоже предсказательные модели: например, ChatGPT на основе контекста переписки предсказывает, какое слово с наибольшей вероятностью будет подходящим после предыдущих сгенерированных слов.

ML-инженер – это человек, который занимается машинным обучением и сочетает в себе обе компетенции, описанные выше.

Какие этапы есть в машинном обучении?

Каждому из вас когда-либо звонили мошенники (если нет, оставьте номер телефона в форме ниже). Если попытаться перевести деньги мошеннику, скорее всего, банк вас предупредит о том, что получатель подозрительный. Для классификации получателей на подозрительных и нормальных используется машинное обучение. Для проведения этой классификации нужна выборка объектов, которые мы можем отнести к категории нормальных клиентов и к категории мошенников. А описывать эти объекты мы будем различными числами: например, суммой покупок по картам за последнюю неделю.

Схемы мошенничества меняются ежедневно, поэтому важно поддерживать модель-классификатор в актуальном состоянии. Поэтому будем выделять следующие этапы поддержки нашей модели:

  1. приход новых данных
  2. преобразование новых данных в тот вид, который будет иметь смысл для классификации (например, стоимость одной покупки человека мало что о нем говорит, а вот сумма покупок за месяц – уже более интересная информация). Здесь же можно придумывать новые характеристики объектов, которыми мы их будем описывать в модели
  3. донастройка параметров модели в соответствии с новыми данными

Все эти стадии разработки моделей, а также инструменты, которые для этого используются, мы изучим в нашем курсе.

Темы курса:

В нашей программе предусмотрено 5 блоков тем, охватывающих весь набор компетенций, который делает ML-инженера настоящим профессионалом:

  • Программирование на Python
  • СУБД (SQL)
  • Классические алгоритмы анализа табличных данных
  • Инструменты продуктивизации процессов машинного обучения (Airflow, Spark, Hadoop и пр.)
  • Обработка неструктурированных данных, в т.ч. с использованием нейронок

Выпускной проект

В конце курса предусмотрен командный проект, в котором вы реализуете собственные модели машинного обучения, а также наладите процессы поддержки этих моделей так, как это делается в больших суровых data-driven компаниях. Авторы программы и партнеры Цифровой кафедры всегда находятся в поисках талантливых специалистов к себе в команды, поэтому лучших студентов нашего курса мы будем рады видеть в качестве стажеров в наших компаниях.

Инструменты, которые вы освоите

Python, SQL, sklearn, catboost, Apache Airflow, Apache Spark, Hadoop, Pytorch

Подпишись на наш телеграм канал, чтобы не пропустить важные новости!

Команда программы

Остались вопросы? Пиши нам


Мы отвечаем в телеграме обычно в течение рабочего дня.

t.me/dc_bmstu_bot

По вопросам сотрудничества:

dc@bmstu.ru

Будь в курсе!
Подпишись на канал


В телеграм-канале мы публикуем новости Цифровой кафедры. Подпишись, чтобы быть в курсе событий

t.me/dc_bmstu