VK

Дата-инженер в VK Tech

Не указана

Москва
От 3 до 6 лет

Python
Apache Airflow
DWH

В VK Tech строим высоконагруженное хранилище данных, которое обслуживает ключевые аналитические и бизнес-задачи.

Сейчас наша вычислительная платформа — YTsaurus (YT), но мы также используем экосистему Hadoop/Spark. Рассматриваем возможность миграции на свою платформу в виде S3 + Spark.

У нас можно получить уникальный опыт: не просто читать статьи про Spark, а переписывать пайплайны, сравнивать подходы, настраивать performance и участвовать в принятии архитектурных решений. Это даст вам глубокое понимание обеих экосистем.

Задачи

Разрабатывать и поддерживать ETL/ELT-процессы с использованием Python и Airflow
Оптимизировать запросы и распределённые вычисления под ClickHouse и YT
Мониторить состояние ETL-процессов, обеспечивать их надёжность и наблюдаемость
Помогать аналитикам с оптимизацией их SQL-запросов и структур данных
Проектировать и поддерживать хранилище данных VK Tech (схемы, витрины, SCD)
Участвовать в миграции вычислительной платформы с YT на Hadoop/Spark

Требования

Опыт разработки и поддержки ETL-процессов на Python + Airflow
Уверенное знание SQL (JOIN, оконные функции, CTE, агрегации)
Понимание концепций DWH: витрины данных, медленно меняющиеся измерения (SCD), слои raw/ods/cdm/dds
Опыт оптимизации запросов в распределённых системах (ClickHouse или Spark)
Знание Git (ветки, коммиты, pull requests, code review)
Умение читать и анализировать чужой код

Будет плюсом

Реальный опыт с YTsaurus (YT)
Коммерческий или уверенный учебный опыт с Hadoop/Spark
Опыт миграции пайплайнов с одной вычислительной платформы на другую
Навыки работы с DBT (у нас есть свой похожий инструмент)
Понимание жизненного цикла данных (загрузка, трансформация, выгрузка)

Источник вакансии

Вернуться, к списку вакансий