Подписывайся на наш Telegram-канал и не упускай самые свежие новости!

Кто такой ML-инженер?


Любой бизнес старается принимать решения не с бухты-барахты, а основываясь на данных и статистике, которой он обладает. Чем компания больше, тем больше у нее данных и, соответственно, сложнее эти данные обрабатывать. Не так давно появились две специальности, которые помогают бизнесу строить прогнозы на основе данных: Data Scientist и Data Engineer. Дата-инженеры разрабатывают алгоритмы и инструменты, которые помогают обрабатывать и преобразовывать большие объемы данных, а дата-саентисты строят предсказательные модели (модели машинного обучения), прогнозы которых бизнес использует в своей деятельности. Кстати говоря, популярные сейчас нейронки – это тоже предсказательные модели: например, ChatGPT на основе контекста переписки предсказывает, какое слово с наибольшей вероятностью будет подходящим после предыдущих сгенерированных слов.

ML-инженер – это человек, который занимается машинным обучением и сочетает в себе обе компетенции, описанные выше.

Какие этапы есть в машинном обучении?

Каждому из вас когда-либо звонили мошенники (если нет, оставьте номер телефона в форме ниже). Если попытаться перевести деньги мошеннику, скорее всего, банк вас предупредит о том, что получатель подозрительный. Для классификации получателей на подозрительных и нормальных используется машинное обучение. Для проведения этой классификации нужна выборка объектов, которые мы можем отнести к категории нормальных клиентов и к категории мошенников. А описывать эти объекты мы будем различными числами: например, суммой покупок по картам за последнюю неделю.

Схемы мошенничества меняются ежедневно, поэтому важно поддерживать модель-классификатор в актуальном состоянии. Поэтому будем выделять следующие этапы поддержки нашей модели:

  1. приход новых данных
  2. преобразование новых данных в тот вид, который будет иметь смысл для классификации (например, стоимость одной покупки человека мало что о нем говорит, а вот сумма покупок за месяц – уже более интересная информация). Здесь же можно придумывать новые характеристики объектов, которыми мы их будем описывать в модели
  3. донастройка параметров модели в соответствии с новыми данными

Все эти стадии разработки моделей, а также инструменты, которые для этого используются, мы изучим в нашем курсе.

Темы курса:

В нашей программе предусмотрено 5 блоков тем, охватывающих весь набор компетенций, который делает ML-инженера настоящим профессионалом:

  • Программирование на Python
  • СУБД (SQL)
  • Классические алгоритмы анализа табличных данных
  • Инструменты продуктивизации процессов машинного обучения (Airflow, Spark, Hadoop и пр.)
  • Обработка неструктурированных данных, в т.ч. с использованием нейронок

Выпускной проект

В конце курса предусмотрен командный проект, в котором вы реализуете собственные модели машинного обучения, а также наладите процессы поддержки этих моделей так, как это делается в больших суровых data-driven компаниях. Авторы программы и партнеры Цифровой кафедры всегда находятся в поисках талантливых специалистов к себе в команды, поэтому лучших студентов нашего курса мы будем рады видеть в качестве стажеров в наших компаниях.

Инструменты, которые вы освоите

Python, SQL, sklearn, catboost, Apache Airflow, Apache Spark, Hadoop, Pytorch

Команда программы

Остались вопросы? Пиши нам


Мы отвечаем в телеграме обычно в течение рабочего дня.

t.me/dc_bmstu_bot

По вопросам сотрудничества:

dc@bmstu.ru

Будь в курсе!
Подпишись на канал


В телеграм-канале мы публикуем новости Цифровой кафедры. Подпишись, чтобы быть в курсе событий

t.me/dc_bmstu