Cloud.ru

Data Engineer

Не указана

Обязанности:

Исследование источников и разработка ETL процессов по загрузке данных из источников в DWH;
Разработка и поддержка витрин;
Участие в проектировании модели данных хранилища;
Разработка, поддержка и оптимизация механизмов работы с DataLake;
Разработка, поддержка и компонентов системы потоковой обработки данных.

Требования:

Глубокие знания Python (3.10+, threading, async и т.п.) в сфере работы с данными (PySpark, psycopg2, pandas и т.п.);
Умение строить сложные SQL запросы и оптимизировать их. знание диалектов SparkSQL, PostgresSQL (другие - как плюс);
Опыт реализации ETL/ELT процессов (оркестрация на Airflow);
Понимание принципов построения DWH и/или DataLake;
Понимание жизненного цикла Data-products;
Работа с системами контейнеризации (Docker, Docker Compose, Kubernetes - как плюс);
Ориентироваться в технологиях обработки больших данных.

Будет плюсом:

Знание классических схем построения хранилища данных, понимание достоинств/недостатков каждого подхода;
Опыт работы с брокерами сообщений (предпочтительно Kafka), понимание механизмов стриминговой загрузки;
Крайне желателен опыт построения Data Pipelines на Spark с использованием Airflow;
Опыт работы с облачной инфраструктурой.