Мы в поисках Site Reliability Engineer (SRE) в отдел Разработки.
Чем предстоит заниматься?
- Поддерживать стабильность и высокий уровень отказоустойчивости информационных систем
- Оперативно реагировать на инциденты, проводить их анализ и разрабатывать меры для их предотвращения
- Сотрудничать с командами эксплуатации и разработки для поиска и внедрения решений, повышающих производительность и надежность систем
Мы ищем опытного специалиста, который:
- Уверенно работает с Linux
- Разбирается в принципах работы сетевого стека
- Программирует на Go, Python
- Имеет опыт работы с PostgreSQL (оптимизация запросов, настройка, кластеризация, обеспечение отказоустойчивости)
- Владение инструментами мониторинга (например, Grafana, Prometheus) будет вашим преимуществом
Что станет большим плюсом?
- Знание и опыт работы с инструментами анализа производительности (FlameGraph, pprof, bpftrace, perf)
- Умение работать с Docker и системами оркестрации
- Опыт настройки систем логирования (Vector, Elasticsearch, Kibana)
- Навыки работы с MongoDB и Redis
- Знание Ansible или других инструментов управления конфигурациями