
БЮРО 1440
Специалист поддержки L2 (Платформа разработки)
- SQL
- Atlassian Jira
- Atlassian Confluence
- Grafana
- Zabbix
- Kibana
Наша команда занимается инцидент-менеджментом: мы оперативно реагируем на критические просадки ключевых метрик, алерты мониторинга и любые сбои, влияющие на работу сервисов департамента.
Что мы делаем:
- Выявляем и фиксируем инциденты, отслеживаем мониторинг, обрабатываем алерты, оцениваем уровень воздействия на бизнес-процессы.
- Координируем решение, привлекаем ответственные команды, фиксируем ход восстановления, контролируем сроки.
- Анализируем и предотвращаем повторение, пишем Postmortem и работаем совместно с SRE, документируем причины и улучшаем процессы.
Наша цель: минимизировать downtime и обеспечить прозрачность работы сервисов для всех команд, которые зависят от их стабильности. В будущем масштабируем эти практики на другие департаменты.
Чем предстоит заниматься:
-
Мониторингом работы критичных автоматизированных систем и качества предоставления сервисов;
-
Оперативным определением влияния и периметра инцидента, корректной приоритизацией и эскалацией, подключением ответственных от команд;
-
Координацией процесса устранения высокоприоритетных и резонансных инцидентов
-
Организацией своевременного информирования стейкхолдеров о возникающих событиях, ходе их устранения и причинах;
-
Подготовкой предложений по оптимизации ИТ-процессов для минимизации влияния инцидентов на услуги и конечного пользователя и участием в развитии инцидент-менеджмента;
-
Оптимальным устранением инцидента и его последствий – принять решение о применении обходного пути, организовать ручную обработку или установить hot-fix;
-
Ведением хронологии инцидента, участием в заполнении Postmortem.
- Работа с базами данных (SQL): написание запросов (SELECT, JOIN, WHERE, GROUP BY, подзапросы);
- Понимание структуры БД (таблицы, индексы, простые оптимизации);
- Опыт работы с СУБД: PostgreSQL / MySQL / Oracle (диагностика, проверка данных, анализ логов);
- Работа с API (Postman, Swagger, Insomnia): тестирование API, проверка доступности эндпоинтов, анализ ошибок (HTTP-коды 4xx/5xx), интеграция с мониторингом (алерты);
- Опыт с инструментами мониторинга систем (Grafana / Zabbix / Prometheus / Splunk / ELK Stack);
- Базовые знания настройки алертов (CPU, память, диски, сетевые задержки);
- Опыт анализирования логов (Kibana (Elasticsearch), Graylog, Splunk);
- Опыт поиска ошибок (500 Internal Server Error, медленные SQL-запросы);
- Связка логов с трейсингом (Jaeger для распределенных систем);
- Знание процессов Incident, Problem Management;
- Опыт работы с service desk-системами (Jira);
- Навыки составления Postmortem;
- Ведение документации (Confluence).
Мы предлагаем:
- Работу в аккредитованной ИТ-компании;
- Шаг в космос - для тех, кто вдохновлен идеей покорения космоса и мечтает быть к этому причастным;
- Комфортный современный офис рядом с метро "улица 1905 года";
- Гибридный формат работы;
- Оформление в соответствии с ТК РФ.