Луна Кэпитал

MLOps / ML Platform Engineer

Не указана
  • Москва
  • От 3 до 6 лет

MLOps / ML Platform Engineer

О проекте

Ищем MLOps / ML Platform Engineer в команду, которая развивает ML-платформу и выводит модели в production. Основной фокус — построение полного жизненного цикла моделей: от обучения до деплоя, мониторинга и поддержки. Важно мыслить платформой и надёжностью, а не отдельными ноутбуками или экспериментами. Особое внимание уделяется интеграции AI-инструментов в ежедневную работу, выстраиванию гибридных процессов человек + AI и контролю качества LLM-инференса.

Задачи

• Строить и развивать ML-пайплайны (training, validation, deployment);

• Разворачивать и поддерживать инфраструктуру для обучения и инференса моделей;

• Организовывать model serving (API, batch/real-time inference);

• Обеспечивать reproducibility и versioning моделей и данных;

• Настраивать CI/CD для ML-сервисов;

• Мониторить модели (drift, качество, стабильность);

• Работать с инфраструктурой (Kubernetes, облака, IaC);

• Оптимизировать ресурсы (включая GPU) и стоимость;

• Взаимодействовать с ML-инженерами и data-командой.

• Ежедневно использовать AI-инструменты: генерация документов, анализ больших массивов текста, резюмирование встреч, подготовка acceptance criteria и тест-кейсов;

• Разрабатывать и поддерживать промпты и шаблоны, вести библиотеку артефактов и выстраивать hybrid-workflow (человек + AI) с обязательным review;

• Контролировать риски LLM (галлюцинации, утечки, контекст) и внедрять проверки и контроли в требования, приемку и инференс.

Требования

Обязательно:

  • Коммерческий опыт от 4 лет в одном из направлений: MLOps / ML Platform / ML Engineering / DevOps с production ML;
  • Уверенный Python для автоматизации, пайплайнов, интеграций и работы с ML-инструментами;
  • Практический опыт работы с Docker и Kubernetes: контейнеризация сервисов, деплой и сопровождение ML-workloads;
  • Опыт написания и оптимизации Dockerfile, понимание контейнеризации ML-сервисов;
  • Опыт построения и поддержки ML-пайплайнов: training, validation, deployment, retraining;
  • Понимание полного жизненного цикла ML-моделей: training / inference / serving / monitoring;
  • Практический опыт настройки CI/CD для ML-сервисов и ML-пайплайнов;
  • Уверенная работа с Linux / bash;
  • Опыт использования Terraform или других IaC-инструментов;
  • Базовое понимание ML: что такое модель, признаки, метрики, обучение, инференс;
  • Понимание и практический опыт обеспечения reproducibility и versioning моделей, данных и окружения;
  • Опыт мониторинга ML-систем: стабильность сервисов, latency, качество модели, data drift / model drift;
  • Опыт работы с production ML-инфраструктурой, а не только с экспериментами или локальными ноутбуками;
  • Понимание различий между MLOps и классическим DevOps, интерес к ML-специфике и взаимодействию с DS/ML-командой;
  • Ежедневное использование AI-инструментов для генерации документов, анализа данных, резюмирования и подготовки тест-кейсов; - обязательно
  • Разработка и поддержка промптов/шаблонов, ведение библиотеки артефактов, построение hybrid-workflow человек+AI с обязательным review; - обязательно
  • Понимание рисков LLM (галлюцинации, утечки, контекст) и внедрение контролей в требования, приемку и инференс. - обязательно

Будет плюсом:

  • Опыт работы с GPU-инфраструктурой и оптимизацией ресурсов;
  • Практический опыт model serving: KServe, Seldon, Triton, BentoML, vLLM;
  • Опыт работы с ML/MLOps-платформами: MLflow, Kubeflow, SageMaker, Vertex AI, ClearML;
  • Опыт работы с оркестраторами и пайплайнами: Airflow, Prefect, Dagster, Argo Workflows;
  • Опыт работы с Feature Store;
  • Опыт работы с инструментами versioning данных и моделей: DVC, Delta Lake и др.;
  • Опыт мониторинга качества моделей, drift и настройки alerting / retraining triggers;
  • Опыт работы с LLM inference / GenAI workloads;
  • Опыт проектирования и развития ML Platform для нескольких команд или большого числа моделей.

Этапы:

• Скрининг (30 минут);

• Техническое интервью (1 час 30 минут).

Условия:

• Работа в сильной ML/AI-команде;

• Возможность строить платформы, а не просто поддерживать;

• Конкурентная зарплата;

• Гибкий график и удалённая работа;

• Минимум бюрократии, максимум влияния на архитектуру;

• Интересные задачи на стыке ML, инфраструктуры и платформенной разработки.

⸻———————————————-

Пожалуйста, прикрепите к отклику скрининг по требованиям: отметьте плюсы напротив навыков, которыми вы владеете, и минусы – напротив тех, которых у вас нет. Это поможет улучшить и ускорить рассмотрение отклика.

Например:

  • Коммерческий опыт от 4 лет в одном из направлений: MLOps / ML Platform / ML Engineering / DevOps с production ML; +
  • Уверенный Python для автоматизации, пайплайнов, интеграций и работы с ML-инструментами; +
  • Практический опыт работы с Docker и Kubernetes: контейнеризация сервисов, деплой и сопровождение ML-workloads; +