Cloud.ru

SRE-инженер

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет

На этой позиции тебе предстоит:

  • Отвечать за production;
  • Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI, метрики, алерты, ранбуки и дашборды для продукта;
  • Повышать наблюдаемость и надежность продукта;
  • Участвовать в устранении аварий и последующей стабилизации продукта;
  • Участвовать в заполнении и разборе постмортемов;
  • Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
  • Автоматизировать рутинную работу;
  • Разрабатывать DRP;
  • Участвовать в разработке процессов, используемых в работе.

Что мы ждем от кандидата:

  • Свободно и на экспертном уровне работаете с Linux-системами и занимались их промышленной эксплуатацией;
  • Понимаете SLO/SLI/SLA, умеете применять на практике;
  • Имеете опыт работы с Grafana, Prometheus, k8s;
  • Понимаете принципы IaC-подхода;
  • Понимаете, как работают сети и умеете диагностировать и решать проблемы в их работе.

Дополнительно:

  • пишете на Go / Python / и т.п. в объеме, достаточном для автоматизации повседневной работы;

  • имеете практический опыт работы SRE;

  • знаете, как сделать отказоустойчивый масштабируемый сервис;

  • умеете работать с системами управления конфигурацией.