Научный подход

Инженер по внедрению и сопровождению облачной платформы машинного обучения и ИИ

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • Нет опыта

Мы создаём современную облачную платформу, предназначенную для обучения и запуска моделей машинного обучения и продуктов с применением искусственного интеллекта. Платформа обеспечивает централизованный доступ к высокопроизводительным вычислительным ресурсам (CPU, GPU), системе хранения данных, средствам оркестрации контейнеров и виртуальных машин, а также инструментам поддержки полного жизненного цикла ML-моделей.

Обязанности

Развёртывание, настройка и сопровождение подсистем управления виртуализацией (zVirt, Kubernetes), контейнеризации и оркестрации.

Администрирование инфраструктуры IaaS/PaaS: управление виртуальными машинами, контейнерами, хранилищами, сетями.

Обеспечение интеграции с корпоративными системами безопасности и каталогами пользователей (LDAP, Active Directory, Keycloak).

Управление системой контроля доступа (RBAC/ABAC), настройка политик безопасности и лимитов потребления ресурсов.

Конфигурация и мониторинг среды разработки ML (JupyterLab, VSCode) и средств управления жизненным циклом ML-моделей (регистрация, хранение, версия).

Поддержка и обслуживание систем мониторинга, логирования, резервного копирования и восстановления.

Организация и проведение тестирования, диагностика и устранение неисправностей инфраструктуры.

Взаимодействие с командами разработки и пусконаладочные работы.

Сопровождение документации и участие в подготовке внутрикорпоративных инструктажей.

Требования

Высшее техническое образование (информационные технологии, вычислительная техника, прикладная математика и пр.).

Опыт работы с Linux-серверами (желательно российские дистрибутивы Astra Linux, РЕД ОС, AlmaLinux).

Практический опыт с виртуализацией (KVM, zVirt, oVirt, OpenStack) и контейнеризацией (Docker, Kubernetes).

Знание принципов и практик управления доступом (RBAC, ABAC), опыт интеграции с LDAP/AD и системами SSO.

Навыки работы с ML-инструментами и средами разработки (Python, ML-фреймворки Keras, PyTorch, TensorFlow, Jupyter).

Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, ELK).

Знания сетевых технологий (VLAN, маршрутизация, IP-адресация), баз данных (PostgreSQL, MySQL, Redis).

Понимание принципов безопасности информационных систем и мер защиты данных.

Навыки работы с API, автоматизацией (Ansible, CI/CD инструменты), скриптинг (bash, Python).

Умение работать в команде, коммуникабельность, инициативность.

Будет преимуществом

Опыт работы с высоконагруженными системами и распределёнными вычислениями.

Сертификация в области виртуализации, Kubernetes и/или безопасности.

Опыт поддержки облачных сред в закрытом контуре (без подключения к Интернету).

Знание методологий DevOps и MLOps.