Чем будешь заниматься ты:
Автоматизация и технологическое развитие:
-
Внедрение и развитие SRE практик - бюджет ошибок, покрытие сервисов SLA/SLO/SLI.
-
Внедрение и развитие инструментов трейсинга, скейлинга, логирования.
-
Разработка и внедрение автоматизированных решений.
-
Оптимизация процессов и инструментов.
-
Поддержание актуальности и безопасности.
-
Разработка, актуализация DR планов, проведение учений.
Развитие команды:
-
Обучение и повышение квалификации.
-
Регулярные встречи и обсуждения.
-
Мотивация и поощрение инициативы.
-
Набор и подбор квалифицированных специалистов.
-
Проведение собеседований и оценка кандидатов.
-
Наставничество и адаптация новых сотрудников.
Стратегическое планирование:
-
Разработка долгосрочной стратегии развития направления надежности.
-
Определение ключевых показателей эффективности (KPI).
-
Участие в формировании ИТ стратегии компании.
Взаимодействие с другими командами:
- Координация работы с разработчиками, DevOps и Monitoring.
- Участие в совещаниях и обсуждениях.
- Согласование технических решений.
Техническая экспертиза:
- Консультации и участие в решении сложных вопросов.
- Оценка технологий и инструментов.
- Контроль качества кода и документации.
Работа с инцидентами:
- Организация реагирования.
- Анализ и составление отчетов.
- Устранение причин инцидентов.
Кризисное управление:
- Планы аварийного восстановления.
- Руководство действиями в условиях инцидента (кризиса).
- Минимизация последствий.
Успех в этой роли обеспечат:
-
Опыт работы SRE/DevOps от 3 лет.
-
Опыт руководителя от 1 года.
-
Опыт управления командой от 6 человек.
-
Опыт реализации инфраструктуры в облачных сервисах, понимание принципов работы и знание инструментов.
-
Высшее техническое образование - приветствуется.