Cloud.ru

Data Engineer

Не указана
  • Москва
  • От 3 до 6 лет

Обязанности:

  • Исследование источников и разработка ETL процессов по загрузке данных из источников в DWH;
  • ​​​​​​​Разработка и поддержка витрин;
  • Участие в проектировании модели данных хранилища;
  • Разработка, поддержка и оптимизация механизмов работы с DataLake;
    Разработка, поддержка и компонентов системы потоковой обработки данных.

Требования:​​​​​​​

  • Глубокие знания Python (3.10+, threading, async и т.п.) в сфере работы с данными (PySpark, psycopg2, pandas и т.п.);
  • Умение строить сложные SQL запросы и оптимизировать их. знание диалектов SparkSQL, PostgresSQL (другие - как плюс);
  • Опыт реализации ETL/ELT процессов (оркестрация на Airflow);
  • Понимание принципов построения DWH и/или DataLake;
  • Понимание жизненного цикла Data-products;
  • Работа с системами контейнеризации (Docker, Docker Compose, Kubernetes - как плюс);
  • Ориентироваться в технологиях обработки больших данных.

Будет плюсом:

  • Знание классических схем построения хранилища данных, понимание достоинств/недостатков каждого подхода;
  • Опыт работы с брокерами сообщений (предпочтительно Kafka), понимание механизмов стриминговой загрузки;
  • Крайне желателен опыт построения Data Pipelines на Spark с использованием Airflow;
  • Опыт работы с облачной инфраструктурой.​​​​​​​