Data Engineer
О проекте
Ищем Data Engineer в команду, которая строит и развивает платформу данных: от сбора и обработки до хранения и предоставления данных для аналитики, продуктовых команд и ML. Важно не просто писать запросы, а проектировать надёжные пайплайны с учётом SLA, качества данных и стоимости.
Задачи
• Проектировать и развивать ETL/ELT-пайплайны (batch и/или streaming);
• Интегрировать данные из различных источников (БД, API, файлы, стримы);
• Развивать слой хранения (DWH / Data Lake / Lakehouse, витрины данных);
• Обеспечивать качество данных (валидации, мониторинг, алерты, SLA);
• Оптимизировать производительность пайплайнов и запросов;
• Работать с оркестрацией (Airflow или аналоги);
• Обрабатывать ошибки и обеспечивать надёжность пайплайнов;
• Активно использовать AI-инструменты в работе: генерация документов, сбор и уточнение требований, резюмирование встреч, анализ больших текстовых массивов;
• Разрабатывать и поддерживать промпты и шаблоны, вести библиотеку артефактов и выстраивать hybrid-workflow (человек + AI) с обязательным review;
• Контролировать риски LLM (галлюцинации, утечки, контекст), внедрять проверки и контроли в требования и приемку;
• Взаимодействовать с аналитиками, ML и продуктом.
Требования
Обязательно:
1. Коммерческий опыт работы в Data Engineering от 4 лет;
2. Сильный Python для разработки и поддержки data-пайплайнов;
3. Глубокий SQL: сложные запросы, CTE, оконные функции, оптимизация;
4. Опыт проектирования и поддержки ETL/ELT-пайплайнов в production;
5. Понимание моделирования данных: DWH, витрины данных, star schema / snowflake;
6. Опыт работы с оркестраторами: Airflow или аналогами;
7. Опыт работы с аналитическими / колоночными БД;
8. Базовые инженерные практики: Git, Linux, Docker;
9. Понимание вопросов качества данных, SLA, мониторинга и обработки ошибок в пайплайнах;
10. Умение писать и поддерживать промпты/шаблоны, вести библиотеку артефактов, выстраивать hybrid-workflow с обязательным review;
11. Понимание рисков LLM (галлюцинации, утечки, контекст) и внедрение проверок/контролей;
12. Опыт активного использования AI-инструментов в работе аналитика — генерация, анализ, резюмирование, контроль качества.
Будет плюсом:
12. Опыт работы со streaming: Kafka и другие стриминговые системы;
13. Опыт работы со Spark / PySpark и другими Big Data-инструментами;
14. Опыт работы с dbt;
15. Опыт использования Terraform или других IaC-инструментов;
16. Опыт построения Data Lake / Lakehouse;
17. Опыт работы с инструментами Data Quality: Great Expectations и аналоги;
18. Опыт работы с облачными платформами: AWS / GCP / Azure;
19. Знание Scala или Java как дополнительный плюс.
Этапы:
• Скрининг (30 минут);
• Техническое интервью (1 час 30 минут).
Условия:
• Работа в динамичной IT-компании;
• Возможности для роста в Data Engineering;
• Дружная команда;
• Конкурентная зарплата;
• Гибкий график и удалённая работа;
• Интересные задачи с большими данными.