ТМГТ

SRE-инженер

200 000 - 300 000 RUR
  • Москва
  • Более 6 лет

Что делать

— On-call ротация в две смены под целевой SLO 99,95% в торговые часы оператора обмена ЦФА; — Владение деплой-пайплайнами на self-hosted GitLab, runbooks, эскалация инцидентов; — Эксплуатация observability-стека: VictoriaMetrics, Loki, Tempo, Grafana, Grafana OnCall (self-hosted); — Поддержка инфраструктуры на Kubernetes (Deckhouse) и Pangolin (Platform V); — Разбор инцидентов, постмортем-культура, контроль SLO/SLI.

Команда

DevOps/SRE Lead уже на борту. Вы — первые два SRE в команду, on-call с разделением RBAC между Контуром ИС и Контуром EX.

Требования

— 3+ года production SRE / DevOps; — Kubernetes как рабочий инструмент (не «прохождение курса»); — Observability stack: Prometheus / VictoriaMetrics, Grafana, distributed tracing; — Уверенный Go или Python для автоматизации; — Опыт работы с инцидентами в ночную смену; — Готовность к on-call ротации.

Будет плюсом

— Опыт работы в регулируемом периметре (банк, финтех, КИИ-187-ФЗ); — Опыт с Deckhouse, T-Data Streaming, Platform V компонентами; — ISO/IEC 27001:2022 — понимание контролей и audit trail требований.

Ограничения по стеку

Без иностранных облаков (AWS / GCP / Azure / Yandex Cloud в основном продконтуре не используются — только сертифицированный российский контур). Без иностранных управляемых сервисов observability (Datadog, New Relic, PagerDuty исключены).

Стек

Cloud.ru / Selectel МСК, Kubernetes (Deckhouse), Pangolin (Platform V), Deckhouse Stronghold, VictoriaMetrics, Loki, Tempo, Grafana, Grafana OnCall, GitLab self-hosted, Terraform / OpenTofu.