Яндекс Маркет — один из крупнейших мультикатегорийных маркетплейсов, которым ежедневно пользуются миллионы людей. Наши команды помогают покупателям приобретать товары не выходя из дома и получать заказы по всей стране, а партнёрам — развивать свой бизнес, повышая продажи и привлекая новых клиентов.
DMP Маркета — платформа для обработки данных хранилища Маркета. Мы создаём инструменты для DWH, BI и аналитиков данных и стремимся сделать их работу максимально удобной и эффективной. Наша команда работает над разнообразными проектами — от доработки движка Map-Reduce до использования LLM для генерации нейминга полей в хранилище.
Перед нами стоят амбициозные цели: оптимизировать потребление вычислительных ресурсов на 20% CPU (а это тысячи ядер), внедрять новые технологии и распространять наши инструменты на весь Яндекс. Если вы талантливый разработчик и готовы принять вызов — присоединяйтесь к нам!
Какие задачи вас ждут
Развитие инфраструкты
При обработке больших данных остро встает проблема производительности HDD. Для уменьшения нагрузки на диски необходимо доработать основной Map-Reduce инструмент для обработки и анализа данных - YQL (Yandex Query Language), что бы данные между нодами расчета передавались через хранилище в RAM
Разработка ETL инструментов, которыми пользуется весь Яндекс
Нашими инструментами пользуются не только в Маркете, но и в различных подразделениях Яндекса
Например - сервис кеширования результатов SQL запросов при использовании BI инструмента DataLens. Данным сервисом пользуются во всем Яндексе. Только в Маркете количество пользователей более 1500
Улучшение пользовательского опыта и эффективности
Наши пользователи - это Дата инженеры и Аналитики. Для них мы создаем инструменты которые увеличивают их эффективность и позволяют удобно пользоваться инфраструктурными сервисами. Вам предстоит интегрироваться с инструментами из других частей Яндекса для создания бесшовного опыта. Участвовать в проектах для улучшения эффективности и стабильности, используя, в том числе, технологий LLM
Мы ждём, что вы
- Отлично знаете Python
- Знаете базовые принципы и паттерны проектирования ПО
- Стремитесь писать код, который легко читать и поддерживать
- Имеете опыт работы с заказчиками (сбор требований, ведение проектов)
Будет плюсом, если вы
- Имеете опыт разработки на C++, Java
- Работали с MPP-хранилищами (Greenplum, ClickHouse и т. д.)
- Знакомы с LLM и используете модели в работе, разрабатывали на основе GPT свои инструменты
- Знаете слои DWH, модели хранения данных и процессы ETL
- Понимаете принципы работы технологий распределённой обработки данных (Spark, Spark Streaming, Flink, MapReduce)