Чем предстоит заниматься:
- Отслеживать сообщения от систем мониторинга, проверять их валидность. (Есть дежурная смена мониторинга);
- Диагностировать причины неполадок, устранять их, при необходимости привлекать других инженеров;
- Участвовать в развитии систем сбора метрик и логов на проектах;
- Анализ аварий и работа с постмортемами;
- Лидировать аварийные ситуации.
Мы ждем от вас:
- Опыт диагностики проблем приложений в K8s в ПРОДе;
- Опыт настройки пайплайнов в Gitlab CI/CD;
- Умение пользоваться настраивать дашборды в Grafana;
- Уверенные знания linux и траблшута основных инфраструктурных проблем;
- Опыт использования tcpdump/tcpflow/wireshark,iperf и т.д. для диагностики проблем;
- Мониторинг ИТ-инфраструктуры, ИТ-решений (Zabbix, Grafana, Prometheus, VictoriaMetrics);
- Умение писать на одном из языков программирования (Bash, Python, Go);
- Опыт администратором/devops/sre от 1 года.
Будет плюсом:
- Бэкграунд в backend разработке;
- Опыт работы с высоко нагруженными системами;
- Опыт работы с GitOps (ArgoCD, FluxCD);
- Тюнинг ядра и ОС Linux;
- Знание сетей на уровне CCNA.
Условия:
- Работу в аккредитованной ИТ-компании с официальным трудоустройством по ТК РФ;
- Корпоративную технику для комфортной работы;
- ДМС после испытательного срока с возможностью страхования детей и родственников;
- Участие в корпоративных мероприятиях и праздниках в кругу профессионалов, где ценят вклад каждого;
- Реферальную программу с вознаграждением за рекомендации друзей в нашу команду;
- Оплату посещения профильных конференций и курсов, поддержку в подготовке к публичным выступлениям и написанию статей на Хабр.