Bereke Bank
Senior DevOps
- Kubernetes
- Linux
- Git
- Apache Kafka
- CI/CD
- Clickhouse
- Redis
- Комплаенс
Обязанности:
- Развивать и поддерживать платформу GenAI в банке: прод-кластера Kubernetes (on-prem/bare-metal/облако), включая GPU-ноды, пулы, драйверы, CUDA/миграции версий.
- Строить и поддерживать CI/CD/GitOps (GitLab CI + Argo CD/Flux): шаблоны пайплайнов, policy-as-code, progressive delivery, секреты, деплой в multi-env (dev/test/stage/prod).
- Эксплуатация и тюнинг Kafka/Redpanda: персистентность, ретенции, компрессия, ACL, безопасность, Schema Registry, мониторинг и алертинг.
- Настройка и эксплуатация сервисов инференса LLM/STT/TTS: Triton/vLLM/KServe, autoscaling (HPA/VPA/KEDA), оптимизация latency/throughput, A/B/канареечные релизы.
- Внедрение Observability end-to-end: метрики, логи, трейсы, бизнес-SLO; дашборды для продуктовых команд; on-call ротации и алерты без «шумов».
- Управление артефактами и регистри: Harbor/анти-троян, репликации, retention, SBOM и подписи.
- Data plane для приложений: Postgres/ClickHouse, Redis, S3/MinIO; бэкапы, PITR, репликации, DR-план.
- Автоматизация через IaC: Terraform/Ansible (модули, ревью, тесты), единые стандарты окружений, Golden Images/Base Images.
- Capacity/Cost-management (в т.ч. GPU): планирование, квоты, bin-packing, оптимизация загрузки, отчётность по затратам.
- Инцидент-менеджмент: triage, быстрый recovery, пост-мортемы, предотвращение повторов.
- Работать вместе с SecOps/IT-безопасностью: SAST/DAST, supply chain, K8s policies, аудит; соответствие требованиям регулятора.
- Поддерживать процессы платформенной команды: документация (Runbooks, Playbooks, ADR), внутренняя экспертиза, менторинг, ревью.
Требования:
Обязательные:
• Продвинутые знания Linux (Debian/Ubuntu/CentOS/RHEL), сетевые стеки, namespaces/cgroups, systemd, kernel tuning.
• K8s на уровне администрирования кластеров
• GPU в Kubernetes: NVIDIA device plugin, MIG/time-slicing, драйверы/CUDA/CUDNN, мониторинг и планирование ресурсов.
• CI/CD: GitLab CI (предпочтительно) / Jenkins / GitHub Actions; построение многоступенчатых пайплайнов
• GitOps: Argo CD / Flux, Helm/Kustomize, шаблоны окружений, progressive delivery (Blue/Green, Canary)
• Реляционные и аналитические СУБД на уровне эксплуатации: PostgreSQL/ClickHouse (бэкапы, репликации, настройки)
• Observability: Prometheus/Alertmanager, Grafana, Loki/ELK/Opensearch, OpenTelemetry (трейсинг/метрики/логи), дашборды и алерты по SLO/ошибочным бюджетам.
• Контейнеризация: Docker/BuildKit/kaniko, приватные регистри (Harbor/ACR/ECR/GCR), базовые оптимизации образов.
• Практики DevOps/SRE: SLA/SLO, error budgets, пост-мортемы, RCA, capacity/cost-management (в т.ч. GPU-стоимость).
Желательные:
• Платформы инференса: NVIDIA Triton, vLLM, KServe/Seldon, Bento, Ray Serve — деплой/наблюдаемость.
• Объектное хранилище: S3/MinIO; кэширование Redis/KeyDB.
• LLMOps-инструменты: Langfuse/Weights & Biases/Arize/Phoenix — метрики качества/трассировка
• Оркестрация процессов: Temporal/Argo Workflows (желательно на уровне эксплуатации).
· Работа в кросс-функциональной среде и поддержка нескольких продуктовых сквадов (GenAI-оператор, Insight/VoC, STT/TTS и др.).
· Самостоятельная диагностика и решение инцидентов, проведение RCA и пост-мортемов.
· Подбор оптимальных решений под нестандартные ограничения (latency/cost/security/compliance).
· Быстрое обучение новым инструментам, системное мышление, инженерная дисциплина.
· Коммуникация: умение договариваться с разработкой, безопасностью, эксплуатацией, аналитиками; умение аргументировать решения для архитект-комитетов.
· Менторство: помощь мидлам/джунам, код-ревью, улучшение платформенных стандартов.
Условия:
- Фиксированный оклад + годовой бонус;
- Социальный пакет, включающий ДМС и материальную помощь, а также скидки от партнеров.
- Перспективы карьерного роста ( вертикальные / горизонтальные )