Спектрум

Site Reliability Engineer (SRE)

Не указана
  • Ульяновск
  • Полная занятость
  • Полный день
  • От 3 до 6 лет

Предлагаем присоединиться к нашей команде SRE (Site Reliability Engineering).

Наша компания уже много лет работает над сложными проектами, в том числе крупными B2B, которые состоят из десятков сервисов, генерируют терабайты данных и обрабатывают сотни тысяч событий в секунду. Мы сами создаем и поддерживаем проекты, поэтому для нас важно контролировать их работу в соответствии с нужным уровнем надежности. За это у нас отвечает отдельная команда - SRE.

Чем предстоит заниматься:

- плотно взаимодействовать с другими командами - поддержки, разработки, тестирования и системного администрирования;

- участвовать в жизни проектов на всех этапах: проектирование, разработка, внедрение, эксплуатация;

- настраивать и дорабатывать системы мониторинга;

- проводить испытания работающих систем на надежность и производительность;

- выполнять работы по настройке и деплою проектов в production-окружение, запускать проекты в кластере Kubernetes;

- изучать имеющиеся проекты и поддерживать документацию по ним, участвовать в разработке новой документации;

- изучать новые технологии, применять их на практике;

- реагировать на проблемы с сервисами, расследовать и участвовать в устранении инцидентов;

- работать с логами, анализировать данные.

Требуется:

- базовые навыки программирования, разработки скриптов и автоматизации;

- навыки чтения незнакомого кода, конфигурационных файлов;

- понимание принципов работы веб-сервисов и сетей;

- понимание принципов и опыт работы с Kubernetes;

- опыт поддержки и траблшутинга сервисов и приложений;

- базовые знания по информационной безопасности;

- опыт использования реляционных и нереляционных БД, умение составлять SQL-запросы сложнее, чем select+from;

- навыки работы с проектной документацией;

- хорошее знание Linux и основных утилит;

- стабильный канал в Интернет, возможность быть на связи в рабочее время и круглосуточно на время дежурства.

Будет плюсом:

- опыт работы с CI/CD;

- опыт развертывания и настройки отказоустойчивых и распределенных систем;

- опыт работы с terraform, ansible;

- опыт работы с Grafana в настройке графиков и алертов, опыт работы с InfluxDB и Prometheus;

- знание чего-либо из нашего стека технологий;

- опыт в программировании и совместной разработке, понимание, что такое качественный код.

Наш стек:

- Erlang, Elixir, Ruby, Python, Kotlin;

- Postgresql, Redis, ClickHouse, Kafka;

- Influxdb, Prometheus, Grafana;

- Nginx, Haproxy, Docker;

Условия:

- работа удаленно или в одном из офисов в Москве, Казани, Ульяновске;

- официальное оформление по ТК РФ, оплата переработки;

- адекватное отношение, защита от лишней бюрократии;

- программа ДМС;

- корпоративное изучение английского/немецкого языков;

- оплата обучающих курсов и участие в профильных конференциях;

- софинансирование в покупке техники для работы, предоставление техники на балансе компании.