Обязанности:
- Исследование источников и разработка ETL процессов по загрузке данных из источников в DWH;
- Разработка и поддержка витрин;
- Участие в проектировании модели данных хранилища;
- Разработка, поддержка и оптимизация механизмов работы с DataLake;
Разработка, поддержка и компонентов системы потоковой обработки данных.
Требования:
- Глубокие знания Python (3.10+, threading, async и т.п.) в сфере работы с данными (PySpark, psycopg2, pandas и т.п.);
- Умение строить сложные SQL запросы и оптимизировать их. знание диалектов SparkSQL, PostgresSQL (другие - как плюс);
- Опыт реализации ETL/ELT процессов (оркестрация на Airflow);
- Понимание принципов построения DWH и/или DataLake;
- Понимание жизненного цикла Data-products;
- Работа с системами контейнеризации (Docker, Docker Compose, Kubernetes - как плюс);
- Ориентироваться в технологиях обработки больших данных.
Будет плюсом:
- Знание классических схем построения хранилища данных, понимание достоинств/недостатков каждого подхода;
- Опыт работы с брокерами сообщений (предпочтительно Kafka), понимание механизмов стриминговой загрузки;
- Крайне желателен опыт построения Data Pipelines на Spark с использованием Airflow;
- Опыт работы с облачной инфраструктурой.