Описание курса
Обработка большого количества данных нужна везде: в управлении производством, государственных сервисах, бизнесе, онлайн-торговле. Данные нужно собирать, хранить и контролировать их достоверность.
На курсе, разработанном совместно с компанией Arenadata, студент будет загружать данные в распределённые системы хранения, обрабатывать их с помощью инструментов кластерных вычислений, создавать базы в Hive и хранилища данных DWH, строить потоки данных с помощью Apache Airflow.
Этот курс подойдёт тем, кто хочет:
- научиться работать со стеком big data;
- разобраться в том, как получать обучающие выборки для моделей машинного обучения;
- понять, как выстраивать потоки данных для разработки;
- самостоятельно построить витрину данных data mart,
- узнать, как контролировать консистентность данных — например, чтобы ответить на вопрос: «А почему метрика поменялась?»;
- построить карьеру ML-инженера или продуктового аналитика.
Академическая нагрузка
Пререквизиты
- Основы Python.
- Python для анализа данных.
- SQL и базы данных.
Команда курса
Untitled