Луна Кэпитал

Data Engineer

Не указана
  • Москва
  • От 3 до 6 лет

Data Engineer

О проекте

Ищем Data Engineer в команду, которая строит и развивает платформу данных: от сбора и обработки до хранения и предоставления данных для аналитики, продуктовых команд и ML. Важно не просто писать запросы, а проектировать надёжные пайплайны с учётом SLA, качества данных и стоимости.

Задачи

• Проектировать и развивать ETL/ELT-пайплайны (batch и/или streaming);

• Интегрировать данные из различных источников (БД, API, файлы, стримы);

• Развивать слой хранения (DWH / Data Lake / Lakehouse, витрины данных);

• Обеспечивать качество данных (валидации, мониторинг, алерты, SLA);

• Оптимизировать производительность пайплайнов и запросов;

• Работать с оркестрацией (Airflow или аналоги);

• Обрабатывать ошибки и обеспечивать надёжность пайплайнов;

• Активно использовать AI-инструменты в работе: генерация документов, сбор и уточнение требований, резюмирование встреч, анализ больших текстовых массивов;

• Разрабатывать и поддерживать промпты и шаблоны, вести библиотеку артефактов и выстраивать hybrid-workflow (человек + AI) с обязательным review;

• Контролировать риски LLM (галлюцинации, утечки, контекст), внедрять проверки и контроли в требования и приемку;

• Взаимодействовать с аналитиками, ML и продуктом.

Требования

Обязательно:

1. Коммерческий опыт работы в Data Engineering от 4 лет;

2. Сильный Python для разработки и поддержки data-пайплайнов;

3. Глубокий SQL: сложные запросы, CTE, оконные функции, оптимизация;

4. Опыт проектирования и поддержки ETL/ELT-пайплайнов в production;

5. Понимание моделирования данных: DWH, витрины данных, star schema / snowflake;

6. Опыт работы с оркестраторами: Airflow или аналогами;

7. Опыт работы с аналитическими / колоночными БД;

8. Базовые инженерные практики: Git, Linux, Docker;

9. Понимание вопросов качества данных, SLA, мониторинга и обработки ошибок в пайплайнах;

10. Умение писать и поддерживать промпты/шаблоны, вести библиотеку артефактов, выстраивать hybrid-workflow с обязательным review;

11. Понимание рисков LLM (галлюцинации, утечки, контекст) и внедрение проверок/контролей;

12. Опыт активного использования AI-инструментов в работе аналитика — генерация, анализ, резюмирование, контроль качества.

Будет плюсом:

12. Опыт работы со streaming: Kafka и другие стриминговые системы;

13. Опыт работы со Spark / PySpark и другими Big Data-инструментами;

14. Опыт работы с dbt;

15. Опыт использования Terraform или других IaC-инструментов;

16. Опыт построения Data Lake / Lakehouse;

17. Опыт работы с инструментами Data Quality: Great Expectations и аналоги;

18. Опыт работы с облачными платформами: AWS / GCP / Azure;

19. Знание Scala или Java как дополнительный плюс.

Этапы:

• Скрининг (30 минут);

• Техническое интервью (1 час 30 минут).

Условия:

• Работа в динамичной IT-компании;

• Возможности для роста в Data Engineering;

• Дружная команда;

• Конкурентная зарплата;

• Гибкий график и удалённая работа;

• Интересные задачи с большими данными.