<aside> ⭐ Курс разрабатывается в партнерстве с компанией ArenaData

</aside>

Продолжительность курcа 1 семестр (2 модуля)

Возможный карьерный путь аналитика – переход из пользователя систем работы с данными в разработчика таких систем (data engineer). В этом курсе студенты получат техническую базу для такого перехода и познакомятся с процессами ETL и устройством корпоративных хранилищ на более глубоком уровне.

Фича курса

Работа на курсе будет максимально приближена к реальным условиям:

Результат курса

Студенты получат опыт в роли data engineer достаточный для старта карьеры в этом направлении

Тематический план курса

Тема
1 Архитектура хранилищ данных
2 HDFS
3 Hive и MapReduce
4 Нормализация, ключи, оптимизатор, слои DWH
5 Введение в Apache Spark
6 Основы работы с PySpark
7 Автоматизация ETL процессов в Airflow
8 Оптимизация: PySpark
9 Оптимизация: Greenplum
10 Data quality: Airflow
11 Data quality: Pyspark