Альфа-Банк

DevOps-инженер в AI

Не указана
  • Москва
  • Полная занятость
  • Полный день
  • От 1 года до 3 лет
  • Terraform
  • Ansible
  • Kubernetes

Строим инфраструктуру гибридного облака для искусственного интеллекта Альфа-Банка. Целью создания является гибкое управление и использование графических ускорителей (GPU) on-prem и публичных облаках, биллинг и мониторинг ресурсов, быстрый и удобный доступ к GPU по запросу команд.

Чем предстоит заниматься:

  • Сбор потребностей у клиентов и составление подходящего сайзинга для частного облака искусственного интеллекта AI HPC/GPU, выверка и составление спецификаций оборудования для построения частного облака AI HPC/GPU
  • Тестирование прототипов, проведение PoC частного облака искусственного интеллекта AI HPC/GPU, создание скриптов автоматизации настройки кластеров AI HPC в парадигме IaC
  • Инсталляция и настройка новых кластеров искусственного интеллекта с GPU Nvidia, поддержка жизненного цикла кластеров для искусственного интеллекта , установка обновлений безопасности, обновление продукта до новых версий, организация и контроль процедур резервного копирования
  • Сбор метрик, прогнозирование нагрузки, участие в разработке биллинга для проектов искусственного интеллекта (обучение, инференс)
Наши ожидания от кандидата:
  • Опыт сопровождения частных облаков от 5 лет
  • Опыт внедрения кластеров виртуализации, частных/публичных облаков HPC с использованием GPU Nvidia для AI/ML. Общие знания по направлению ML, в т.ч. процесс инференса, обучение моделей, средства для работы (например, Nvidia Triton Inference Server, Tensor-R, Jupiter
  • Опыт выбора конфигураций, тестирования и вода в эксплуатацию серверного оборудования HPE, DELL и других серверных платформ x86 с GPU Nvidia (A100/H100 и других моделей), в т.ч. с применением технологии NVSwitch, RDMA over Infiniband
  • Опыт внедрения и сопровождения систем с использованием сети Infiniband на базе коммутаторов Mellanox. Понимание работы, тюнинг и настройка OpenSM (настройка фабрик Infiniband)
  • Навыки настройки Nvidia MIG, Time Slicing
  • Опыт сопровождения ОС Linux (Ubuntu Server), Kubernetes от 3 лет. Опыт использования nvidia-device-plugin и библиотеки CUDA, Nvidia GPU-Operator
  • Навыки использования Bash\Python (создание скриптов)
  • Знание и применение Ansible/Terraform
  • Понимание принципов работы систе хранения данных, в т.ч. Artifactory(HuhggingFace), NAS (NFS), Object Storage (S3). Опыт работы приветствуется
  • Опыт работы с системами мониторинга виртуальных сред, K8S. Опыт работы c Nvidia DCGM, Zabbix, Prometheus приветствуется. Опыт создания/изменения своего оператора k8s приветствуется

Что мы предлагаем взамен:

  • Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
  • Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде
  • Полную удалёнку или гибрид на выбор, а также уютный ИТ-хаб в Москве, Санкт-Петербурге, Екатеринбурге и сезонный коворкинг в Сочи
  • Сложные и интересные задачи, современный стек технологий
  • Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
  • Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
  • Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
  • Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий
  • Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины