Обязанности:
- Проектирование архитектуры данных: Разработка и реализация эффективных архитектур для сбора, хранения и обработки больших объемов данных.
- Развитие хранилищ данных: Поддержка и модернизация существующей инфраструктуры хранилищ данных, включая базы данных и озера данных.
- Интеграция данных: Обеспечение интеграции различных источников данных, как внутренних, так и внешних.
- Разработка ETL/ELT-процессов: Создание, оптимизация и сопровождение пайплайнов для извлечения, трансформации и загрузки данных.
- Обеспечение качества данных: Внедрение механизмов контроля и обеспечения качества данных на всех этапах.
- Мониторинг и оптимизация: Настройка мониторинга работоспособности и стабильности инфраструктурных решений, оптимизация производительности систем при высоких нагрузках.
- CI/CD: Настройка и поддержка процессов непрерывной интеграции и непрерывной поставки (CI/CD) для решений по работе с данными.
- Взаимодействие с командой: Тесное сотрудничество с аналитиками данных и data scientists для обеспечения эффективной работы с данными.
- Образование: Высшее техническое образование в сфере компьютерных наук, математики, машинного обучения или смежных областях.
- Опыт работы: От 3 лет в сфере Data Engineering
- Отличное знание основ теории баз данных, принципов нормализации и денормализации.
- Навыки написания и оптимизации сложных SQL-запросов.
- Опыт проектирования и поддержки схем данных.
- Уверенное владение Python для разработки пайплайнов и автоматизации.
- Опыт разработки и сопровождения пайплайнов данных с использованием инструментов оркестрации (Airflow).
- Опыт работы с Git, MLflow, базами данных (ClickHouse, PostgreSQL), контейнеризацией (Docker).
- Умение разбираться в API и протоколах обмена данными.
- Знание основ машинного обучения и особенностей работы с данными для ML-проектов.
- Понимание принципов безопасности и управления данными.
- Навыки коммуникации для взаимодействия с бизнес-пользователями и техническими специалистами.
Приветствуется (плюсом будет):
- Опыт работы с промышленными данными и MES-системами.
- Опыт работы с Kubernetes.
- Знание Hadoop экосистемы (Spark, Hive, HDFS).
- Удалённый формат работы
- Официальное оформление по ТкРФ, белая ЗП (по договорённости);
- График работы 5/2 с 8:30 до 17:30 по Москве;
- Премии за эффективную работу и достижение результатов;
- Различные программы обучения для прокачки профессиональных скиллов;
- ДМС программа