Центр морских исследований МГУ имени М.В. Ломоносова

Инженер данных (Data Engineer, middle)

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 1 года до 3 лет
  • Python
  • PostgreSQL
  • Clickhouse
  • geopandas
  • pandas
  • Numpy
  • ETL
  • Анализ данных

Мы приступаем к реализации большого проекта по созданию цифровой платформы обеспечения экологической, гидрометеорологической и ледовой безопасности морских операций.

Мы ищем инженера данных, который поможет нам упорядочить и осмыслить все многообразие наших данных. А это экологические данные (например, концентрация фитопланктона в точке или на участке моря, уровень загрязнений воды, количество встреч морских млекопитающих вдоль маршрутов судов), а также гидрометеорологические и географические данные. Многие из них имеют временную и пространственную привязку, поэтому важно выстроить систему, где эти связи сохраняются и позволяют проводить комплексный анализ.

Нам нужно не только разработать оптимальную схему хранения данных (мы сейчас видим комбинацию SQL и документных баз, но будем рады идеям нашего нового коллеги), но и создать алгоритмы стандартизации и контроля качества данных.

Работать предстоит в тесной связке с профильными специалистами, которые отлично знают свои наборы данных и заинтересованы в конечном результате.

Чем предстоит заниматься:

  • Проектирование, разработка и поддержка ETL/ELT процессов для наполнения централизованной базы экологических и гидрометеорологических данных.
  • Консолидация данных из разнородных источников: результаты полевых работ, пространственные данные (векторные, растровые), данные реанализов и гидрометеорологических прогнозов, отчетные материалы.
  • Работа с геопространственными данными (форматы SHP, GeoJSON, GeoTIFF, KML, NetCDF).
  • Реализация обработчиков данных для расчета статистик, индексов, контроля качества данных, формирования отчетности.
  • Интеграция с внешними геоинформационными сервисами (WMS, WFS).
  • Разработка и реализация оптимальной схемы хранения данных (соотношение скорость доступа, объема хранения и стоимости), в том числе с использование нескольких типов баз данных и объектных хранилищ (S3).
Что мы хотим видеть в кандидате:
  • Релевантный опыт работы.
  • Глубокие знания Python и библиотек для анализа данных (Pandas, NumPy) и работы с пространственными данными (GeoPandas, Rasterio).
  • Опыт проектирования и оптимизации баз данных (PostgreSQL/PostGIS, Clickhouse).
  • Опыт построения и поддержки ETL-пайплайнов.
  • Практический опыт работы с геоинформационными технологиями и пространственными данными (желательно).
  • Опыт работы с облачными платформами (в частности, Yandex Cloud) будет плюсом.
Что мы можем предложить:
  • Официальное оформление по ТК РФ.
  • 40-часовая рабочая неделя с двумя выходными днями (суббота и воскресенье), график работы с 10.00 до 19.00 (по согласованию возможно изменить время начала/окончания ежедневной работы).
  • Гибридный график работы и/или полностью дистанционная работа.
  • Оплачиваемый отпуск 28 календарных дней, оплачиваемые больничные, ДМС со стоматологией по корпоративной программе.
  • Увлеченные работой коллеги и экспертное руководство.
  • Возможность развития, обучения и участия в профессиональных мероприятиях.