МКК Луна

Data Engineer

Не указана
  • Москва
  • От 3 до 6 лет
  • Python
  • SQL
  • Английский язык
  • ETL
  • Vertica

Доброго времени суток!

Мы молодая и активно развивающаяся финтах компания, и сейчас мы в поиске хорошего специалиста на позицию Data Engineer.
Желателен опыт работы с кредитным скорингом в МФО / МКК / банковской сфере.

Что по задачам?

• Проектирование архитектуры загрузки данных: выбор стратегии репликации (CDC, batch), настройка инструментов трансфера;

• Развёртывание и конфигурация кластеров ClickHouse, PostreSQL, MariaDB, Mongo (партиционирование, оптимизация схем под запросы);

• Разработка и поддержка ETL-процессов: обеспечение целостности, дедупликации, обработка ошибок;

• Мониторинг производительности пайплайна, оптимизация запросов к базе данных, работа с планами выполнения;

• Автоматизация рутинных операций с помощью Python/Bash;

• Взаимодействие с командой инфраструктуры по вопросам сетевой доступности и безопасности коммуникации с заказчиком и смежными командами;

• Проектирование таблиц и витрин (raw → stage → mart);

• Партиционирование, TTL, дедупликация;

• Контроль качества данных, алерты и проверки, разбор инцидентов;

• Поддержка production-витрин и базы данных;

• Поиск узких мест в запросах, переписывание тяжелых SQL;

• Сложные join’ы по user identity, оптимизация стоимости хранения;

• Подготовка витрин для аналитики, сборка цепочек событий, Schema evolution;

• Идемпотентные пайплайны и ретраи и работа с массивами и nested структурами;

• Минимизация чтения данных и оптимизация нагрузки на кластер.

Что по навыкам?

Наш стек: ClickHouse; S3-хранилище; Airflow; Python; JSON; Mongo. Maria DB, PostreSQL, Data Late

• Опыт разработки и поддержки end-to-end пайплайнов данных, получения данных из различных типов API;

• Опыт работы с потоковой обработкой данных и разработки ETL-процессов и с большими таблицами (десятки/сотни миллионов строк);

• Мастер владения SQL (оконные функции, оптимизация запросов, анализ планов, процедуры), опыт работы с PostgreSQL, MariaDB;

• Умение работать с GIT;

• Уверенное знание работы потоков;

• Python для обработки данных;

• Понимание партиционирования и инкрементальных загрузок;

• Понимание идемпотентности, ретраев, backfill;

• Linux: уверенное владение командной строкой, работа с логами, systemd;

• Опыт работы от 3х лет.

Будет плюсом:

+ Опыт работы с облачными платформами (любой: Yandex Cloud, AWS, Azure) — развертывание управляемых баз данных, объектных хранилищ;

+ Опыт в проектах Яндекса или стартапах экосистемы Яндекса;

+ Знание Kafka, Debezium, Airflow;

+ Знание предметных областей: банки, кредитные риски;

+ Понимание основ информационной безопасности при передаче данных.

Что мы предлагаем?

+ Конкурентоспособную заработную плату по итогам прохождения технического собеседования;

+ Полностью удаленная работа, можно работать из любой точки мира;

+ Рабочий график 5/2 с 9 до 18 по МСК, но само собой важно выполнять задачи по дедлайнам и быть на связи, ведь это удаленка;

+ Оформление по договору ГПХ или по ИП РФ;

+ Команда на драйве, фанаты своего дела и сильное окружение, с которым ты растешь только вперед! Свободное презентация и продвижение ваших идей 🔥