
Lamoda Tech
Junior Data Scientist (Ranking&Search)
- Python
- SQL
- PySpark
- Scikit-learn
- XGBoost
В команде ранжирования и поиска мы ищем Junior Data Scientist, который будет вовлекаться в задачи по развитию моделей ранжирования товаров в каталоге/поиске, в том числе персонализация, добавление онлайн факторов (по текущей сессии), адаптация ранжирования для новых пользователей.
Почему у нас классно:
-
Хорошо выстроенные процессы: квартальное планирование по методологии OKR, двухнедельные спринты, регулярные стендапы и проектные встречи для синхронизации.
-
Сильная команда middle и senior специалистов, развитое DS-сообщество, где есть возможность расти и обмениваться знаниями внутри команды.
Мы ожидаем:
-
Опыт работы в пет-проектах или в коммерческих проектах от полугода до года;
-
Владение Python;
-
Опыт работы как минимум с 2 ML библиотеками: Scikit-learn, XGBoost, CatBoost, PyTorch, Spark ML;
-
Знания теории вероятностей и математической статистики; машинного обучения, прогнозного моделирования и методов статистического анализа; алгоритмов и структур данных.
Будет плюсом:
-
Опыт работы с Hadoop \ Hive \ Spark;
-
Опыт работы в операционных системах *nix, работа с bash.
Как мы работаем:
-
Пишем на Python 3.10+ и PySpark 3.3.1;
-
Для ресерча доступны два сервера (80 cores, 650Gb RAM), на которых развернут JupyrerHub и есть доступ к Hadoop-кластеру;
-
Код с логикой ML-пайплайнов упаковываем в Docker и выкатываем, используя CI/CD-инструменты с запуском code style проверок и тестов;
-
Используем Airflow для управления ML-пайплайнами и запуском их по расписанию;
-
В командах есть культура code review как для изменений по части продакшен-пайплайнов, так и для ресерч-задач;
-
Регулярно проводим командные брейнштормы с целью генерации новых идей по развитию наших data-driven продуктов;
-
В компании внедрена культура принятия решений на основании данных и все изменения тестируем через АБ-эксперименты.