VK

Дата-инженер в VK Tech

Не указана
  • Москва
  • От 3 до 6 лет
  • Python
  • Apache Airflow
  • DWH

В VK Tech строим высоконагруженное хранилище данных, которое обслуживает ключевые аналитические и бизнес-задачи.

Сейчас наша вычислительная платформа — YTsaurus (YT), но мы также используем экосистему Hadoop/Spark. Рассматриваем возможность миграции на свою платформу в виде S3 + Spark.

У нас можно получить уникальный опыт: не просто читать статьи про Spark, а переписывать пайплайны, сравнивать подходы, настраивать performance и участвовать в принятии архитектурных решений. Это даст вам глубокое понимание обеих экосистем.

Задачи

  • Разрабатывать и поддерживать ETL/ELT-процессы с использованием Python и Airflow
  • Оптимизировать запросы и распределённые вычисления под ClickHouse и YT
  • Мониторить состояние ETL-процессов, обеспечивать их надёжность и наблюдаемость
  • Помогать аналитикам с оптимизацией их SQL-запросов и структур данных
  • Проектировать и поддерживать хранилище данных VK Tech (схемы, витрины, SCD)
  • Участвовать в миграции вычислительной платформы с YT на Hadoop/Spark

Требования

  • Опыт разработки и поддержки ETL-процессов на Python + Airflow
  • Уверенное знание SQL (JOIN, оконные функции, CTE, агрегации)
  • Понимание концепций DWH: витрины данных, медленно меняющиеся измерения (SCD), слои raw/ods/cdm/dds
  • Опыт оптимизации запросов в распределённых системах (ClickHouse или Spark)
  • Знание Git (ветки, коммиты, pull requests, code review)
  • Умение читать и анализировать чужой код

Будет плюсом

  • Реальный опыт с YTsaurus (YT)
  • Коммерческий или уверенный учебный опыт с Hadoop/Spark
  • Опыт миграции пайплайнов с одной вычислительной платформы на другую
  • Навыки работы с DBT (у нас есть свой похожий инструмент)
  • Понимание жизненного цикла данных (загрузка, трансформация, выгрузка)