MLOps / ML Platform Engineer
О проекте
Ищем MLOps / ML Platform Engineer в команду, которая развивает ML-платформу и выводит модели в production. Основной фокус — построение полного жизненного цикла моделей: от обучения до деплоя, мониторинга и поддержки. Важно мыслить платформой и надёжностью, а не отдельными ноутбуками или экспериментами. Особое внимание уделяется интеграции AI-инструментов в ежедневную работу, выстраиванию гибридных процессов человек + AI и контролю качества LLM-инференса.
Задачи
• Строить и развивать ML-пайплайны (training, validation, deployment);
• Разворачивать и поддерживать инфраструктуру для обучения и инференса моделей;
• Организовывать model serving (API, batch/real-time inference);
• Обеспечивать reproducibility и versioning моделей и данных;
• Настраивать CI/CD для ML-сервисов;
• Мониторить модели (drift, качество, стабильность);
• Работать с инфраструктурой (Kubernetes, облака, IaC);
• Оптимизировать ресурсы (включая GPU) и стоимость;
• Взаимодействовать с ML-инженерами и data-командой.
• Ежедневно использовать AI-инструменты: генерация документов, анализ больших массивов текста, резюмирование встреч, подготовка acceptance criteria и тест-кейсов;
• Разрабатывать и поддерживать промпты и шаблоны, вести библиотеку артефактов и выстраивать hybrid-workflow (человек + AI) с обязательным review;
• Контролировать риски LLM (галлюцинации, утечки, контекст) и внедрять проверки и контроли в требования, приемку и инференс.
Требования
Обязательно:
- Коммерческий опыт от 4 лет в одном из направлений: MLOps / ML Platform / ML Engineering / DevOps с production ML;
- Уверенный Python для автоматизации, пайплайнов, интеграций и работы с ML-инструментами;
- Практический опыт работы с Docker и Kubernetes: контейнеризация сервисов, деплой и сопровождение ML-workloads;
- Опыт написания и оптимизации Dockerfile, понимание контейнеризации ML-сервисов;
- Опыт построения и поддержки ML-пайплайнов: training, validation, deployment, retraining;
- Понимание полного жизненного цикла ML-моделей: training / inference / serving / monitoring;
- Практический опыт настройки CI/CD для ML-сервисов и ML-пайплайнов;
- Уверенная работа с Linux / bash;
- Опыт использования Terraform или других IaC-инструментов;
- Базовое понимание ML: что такое модель, признаки, метрики, обучение, инференс;
- Понимание и практический опыт обеспечения reproducibility и versioning моделей, данных и окружения;
- Опыт мониторинга ML-систем: стабильность сервисов, latency, качество модели, data drift / model drift;
- Опыт работы с production ML-инфраструктурой, а не только с экспериментами или локальными ноутбуками;
- Понимание различий между MLOps и классическим DevOps, интерес к ML-специфике и взаимодействию с DS/ML-командой;
- Ежедневное использование AI-инструментов для генерации документов, анализа данных, резюмирования и подготовки тест-кейсов; - обязательно
- Разработка и поддержка промптов/шаблонов, ведение библиотеки артефактов, построение hybrid-workflow человек+AI с обязательным review; - обязательно
- Понимание рисков LLM (галлюцинации, утечки, контекст) и внедрение контролей в требования, приемку и инференс. - обязательно
Будет плюсом:
- Опыт работы с GPU-инфраструктурой и оптимизацией ресурсов;
- Практический опыт model serving: KServe, Seldon, Triton, BentoML, vLLM;
- Опыт работы с ML/MLOps-платформами: MLflow, Kubeflow, SageMaker, Vertex AI, ClearML;
- Опыт работы с оркестраторами и пайплайнами: Airflow, Prefect, Dagster, Argo Workflows;
- Опыт работы с Feature Store;
- Опыт работы с инструментами versioning данных и моделей: DVC, Delta Lake и др.;
- Опыт мониторинга качества моделей, drift и настройки alerting / retraining triggers;
- Опыт работы с LLM inference / GenAI workloads;
- Опыт проектирования и развития ML Platform для нескольких команд или большого числа моделей.
Этапы:
• Скрининг (30 минут);
• Техническое интервью (1 час 30 минут).
Условия:
• Работа в сильной ML/AI-команде;
• Возможность строить платформы, а не просто поддерживать;
• Конкурентная зарплата;
• Гибкий график и удалённая работа;
• Минимум бюрократии, максимум влияния на архитектуру;
• Интересные задачи на стыке ML, инфраструктуры и платформенной разработки.
⸻———————————————-
Пожалуйста, прикрепите к отклику скрининг по требованиям: отметьте плюсы напротив навыков, которыми вы владеете, и минусы – напротив тех, которых у вас нет. Это поможет улучшить и ускорить рассмотрение отклика.
Например:
- Коммерческий опыт от 4 лет в одном из направлений: MLOps / ML Platform / ML Engineering / DevOps с production ML; +
- Уверенный Python для автоматизации, пайплайнов, интеграций и работы с ML-инструментами; +
- Практический опыт работы с Docker и Kubernetes: контейнеризация сервисов, деплой и сопровождение ML-workloads; +