Обязанности:
-
Что предстоит делать:
- Участие в проектировании архитектуры и выборе платформы данных (на базе MPP или Lakehouse) и инструментов для построения отдельных частей платформы данных (ML платформа, качество данных, ETL движок)
- Реализация физического уровня архитектуры данных в DWH для всех слоев
- Разработка и сопровождение data-пайплайнов в ETL инструменте (Airflow или схожие) для передачи данных из различных внутренних и внешних систем
Что важно:
- Уверенное знание SQL, опыт написания сложных запросов и их оптимизации (CTE, оконные функции, профилирование и оптимизация запросов под большие таблицы)
- Опыт работы с любой из современных СУБД (Greenplum, Clickhouse, PostgreSQL) от 1 года или MPP-движки (Trino, Impala, Starrocks), понимание концепций проектирования DWH
- Знание Python на уровне решения задач по автоматизации и ETL, ad-hoc анализу и написанию сервисов
- Уверенные навыки работы в Linux среде
- Понимание принципов контейнеризации, опыт работы с Docker
- Опыт работы в Apache Airflow (создание DAG, отладка, мониторинг) или схожем решении
- Опыт работы с любым S3 (AWS, Minio, Ceph, Ozone)
Плюсом будет и знание принципов работы с требованиями и дата-архитектурой:
- Основные паттерны дата-архитектур
- Насмотренность в части современных ИТ-решений в области домена данных
- Уровни требований: бизнес-требования, требования пользовательского уровня, требования уровня функций.
- Понятие заинтересованного лица (stakeholder).Виды заинтересованных лиц.
- Виды требований (ФТ/НФТ).
- Влияние НФТ на ФТ, влияние НФТ на архитектуру.
- Решение конфликтов противоречий в требованиях