VK

Data Scientist в VK Predict

Не указана
  • Москва
  • Полная занятость
  • Полный день
  • От 3 до 6 лет
  • SQL
  • Python
  • Numpy
  • pandas
  • LightGBM
  • CatBoost
  • PySpark
  • Hadoop

Мы создаём продукты и сервисы для клиентов на основе предиктивных моделей с использованием методов машинного обучения и собственной платформы обработки больших данных.

Задачи

  • Готовить ad hoc по существующим моделям и сервисам
  • Разрабатывать модели машинного обучения на новых данных
  • Изучать и обрабатывать данные из разных источников
  • Внедрять регулярный расчёт новых признаков, улучшать мониторинг качества данных
  • Генерировать и проверять гипотезы по улучшению моделей — текущих и будущих
  • Развивать инфраструктуру существующих сервисов
  • Писать продуктивизируемые пайплайны скриптов (не просто Jupyter Notebook) для внедрения моделей, признаков, а также для создания и поддержки функционирования новых продуктов

Требования

  • Высшее техническое образование по IT-профилю либо экономическое образование с повышением квалификации в MADE VK, ШАД и на других специализированных курсах
  • Релевантный коммерческий опыт от двух лет
  • Умение разрабатывать пайплайны для обработки данных с Python и PySpark
  • Желание расти в ML и DS, а также развивать инфраструктуру development и production
  • Глубокое знание классического машинного обучения
  • Сильная математическая подготовка (особенно в теорвере и статистике), понимание математической базы ML-алгоритмов
  • Уверенное программирование на Python — использование ООП и библиотек NumPy, Pandas, Sklearn, LightGBM, CatBoost, PySpark
  • Знание SQL и основ баз данных

Будет плюсом

  • Опыт в задачах DE или MLE
  • Опыт работы с PySpark, Hadoop
  • Умение писать bash-скрипты, понимание возможностей командной строки Unix-подобных систем
  • Опыт обработки текстовых данных и последовательностей
  • Знание фреймворка Luigi