Обязанности:
- Проектирование, разработка и сопровождение ETL/ELT‑конвейеров на базе Spark, PySpark, Hive, NiFi.
- Работа с большими объёмами данных в экосистеме Hadoop: HDFS, Yarn, TEZ, Hive, HBase.
- Разработка высоконагруженных data pipelines для потоковой и пакетной обработки.
- Поддержка и оптимизация производительности кластера Spark/Hadoop.
- Интеграция данных из различных источников (Oracle, PostgreSQL, Greenplum, MariaDB, MySQL, ClickHouse, MinIO, SMB, FTP и т.д.).
- Работа с оркестратором выполнения: Apache Airflow.
- Работа с системой контроля версий: GitLab CI/CD.
- Управление секретами, политиками и доступами (Vault, Ranger).
- Диагностика и устранение инцидентов в продуктивной среде.
- Документирование решений (Confluence), ведение задач (Jira).
Требования:
- Высшее техническое образование (информатика, ИТ, математика, анализ данных и др.) либо сопоставимый практический опыт.
- От 2 до 5+ лет опыта работы в роли Big Data Engineer.
- Сильная инженерная логика и грамотное техническое мышление.
- Успешный опыт построения и эксплуатации высоконагруженных процессов обработки данных.
- Опыт работы с распределёнными вычислительными системами на базе Hadoop и Apache Spark.
- Умение разрабатывать и сопровождать процессы в оркестраторе Apache Airflow.
- Уверенные знания Python, PySpark и SQL.
- Хорошее понимание концепций распределённых вычислений и механизма ленивых вычислений в Apache Spark.
- оформление трудовых отношений в соответствии с действующим законодательством;
- добровольная медицинская страховка или абонемент в фитнес-клуб Чехов;
- 27 календарных дней оплачиваемого отпуска в год;
- возможности для обучения и развития сотрудников, корпоративные тренинги;
- служебная сотовая связь.