Строим инфраструктуру гибридного облака для искусственного интеллекта Альфа-Банка. Целью создания является гибкое управление и использование графических ускорителей (GPU) on-prem и публичных облаках, биллинг и мониторинг ресурсов, быстрый и удобный доступ к GPU по запросу команд.
Чем предстоит заниматься:
- Сбор потребностей у клиентов и составление подходящего сайзинга для частного облака искусственного интеллекта AI HPC/GPU, выверка и составление спецификаций оборудования для построения частного облака AI HPC/GPU
- Тестирование прототипов, проведение PoC частного облака искусственного интеллекта AI HPC/GPU, создание скриптов автоматизации настройки кластеров AI HPC в парадигме IaC
- Инсталляция и настройка новых кластеров искусственного интеллекта с GPU Nvidia, поддержка жизненного цикла кластеров для искусственного интеллекта , установка обновлений безопасности, обновление продукта до новых версий, организация и контроль процедур резервного копирования
- Сбор метрик, прогнозирование нагрузки, участие в разработке биллинга для проектов искусственного интеллекта (обучение, инференс)
- Опыт сопровождения частных облаков от 5 лет
- Опыт внедрения кластеров виртуализации, частных/публичных облаков HPC с использованием GPU Nvidia для AI/ML. Общие знания по направлению ML, в т.ч. процесс инференса, обучение моделей, средства для работы (например, Nvidia Triton Inference Server, Tensor-R, Jupiter
- Опыт выбора конфигураций, тестирования и вода в эксплуатацию серверного оборудования HPE, DELL и других серверных платформ x86 с GPU Nvidia (A100/H100 и других моделей), в т.ч. с применением технологии NVSwitch, RDMA over Infiniband
- Опыт внедрения и сопровождения систем с использованием сети Infiniband на базе коммутаторов Mellanox. Понимание работы, тюнинг и настройка OpenSM (настройка фабрик Infiniband)
- Навыки настройки Nvidia MIG, Time Slicing
- Опыт сопровождения ОС Linux (Ubuntu Server), Kubernetes от 3 лет. Опыт использования nvidia-device-plugin и библиотеки CUDA, Nvidia GPU-Operator
- Навыки использования Bash\Python (создание скриптов)
- Знание и применение Ansible/Terraform
- Понимание принципов работы систе хранения данных, в т.ч. Artifactory(HuhggingFace), NAS (NFS), Object Storage (S3). Опыт работы приветствуется
- Опыт работы с системами мониторинга виртуальных сред, K8S. Опыт работы c Nvidia DCGM, Zabbix, Prometheus приветствуется. Опыт создания/изменения своего оператора k8s приветствуется
Что мы предлагаем взамен:
- Стабильный и прозрачный доход: размер заработной платы обсуждается по итогам собеседования + квартальная премия по результатам KPI
- Гибкий график работы: вы сможете планировать время так, как удобно вам и вашей команде
- Полную удалёнку или гибрид на выбор, а также уютный ИТ-хаб в Москве, Санкт-Петербурге, Екатеринбурге и сезонный коворкинг в Сочи
- Сложные и интересные задачи, современный стек технологий
- Заботу о вашем здоровье: программа ДМС с первых дней работы, куда входит стоматология, обслуживание в лучших клиниках города, страхование и компенсация 10-ти дней больничного
- Возможность вертикального и горизонтального карьерного роста: регулярно проходят тренинги, вебинары, митапы и демо-дни
- Оплату посещения профильных конференций и курсов, помогаем с подготовкой к публичным выступлениям и написанием статей на Хабр
- Доступ к бесплатным корпоративным библиотекам Alpina Digital, MyBook и бизнес-изданий
- Предложения от Банка только для сотрудников: собственные спортзалы (Москва, Санкт-Петербург, Екатеринбург), а также скидки на услуги туристических агентств, продукты питания, в рестораны, бары, магазины