<aside> ⭐ Курс разрабатывается в партнерстве с компанией ArenaData
</aside>
Продолжительность курcа 1 семестр (2 модуля)
Возможный карьерный путь аналитика – переход из пользователя систем работы с данными в разработчика таких систем (data engineer). В этом курсе студенты получат техническую базу для такого перехода и познакомятся с процессами ETL и устройством корпоративных хранилищ на более глубоком уровне.
Работа на курсе будет максимально приближена к реальным условиям:
Студенты получат опыт в роли data engineer достаточный для старта карьеры в этом направлении
Тема | |
---|---|
1 | Архитектура хранилищ данных |
2 | HDFS |
3 | Hive и MapReduce |
4 | Нормализация, ключи, оптимизатор, слои DWH |
5 | Введение в Apache Spark |
6 | Основы работы с PySpark |
7 | Автоматизация ETL процессов в Airflow |
8 | Оптимизация: PySpark |
9 | Оптимизация: Greenplum |
10 | Data quality: Airflow |
11 | Data quality: Pyspark |