Медиа Эффект

Data Engineer (AI/LLM Data & Infrastructure)

От 180 000 RUR
  • Москва
  • От 1 года до 3 лет

Предлагаем:

  • официальное оформление с первого рабочего дня;

  • заработная плата 180 000 рублей на руки;

  • график работы 5/2 с 9 до 18;

  • офис м. Нагатинская/м. Верхние Котлы;

  • компенсация питания;

  • полный социальный пакет.

Чем предстоит заниматься:

  • разработка, тестирование и поддержка ETL-пайплайнов для сбора, очистки, дедупликации и фильтрации обучающих корпусов;

  • парсинг разнородных документов в структурированные форматы, пригодные для обучения языковых моделей;

  • глубокий анализ больших объемов текстовых и структурированных данных, написание и оптимизация скриптов на Python и SQL;

  • полный цикл поддержки данных: от исследования источников и прототипирования парсеров до production-эксплуатации и мониторинга качества;

  • исследование и внедрение новых подходов в обработке данных для LLM: улучшение фильтрации шумов, оптимизация словарей, автоматизация evaluation-пайплайнов.

От Вас ожидаем:

  • глубокое понимание архитектуры данных, принципов построения ETL/ELT-пайплайнов и жизненного цикла данных для обучения AI-моделей;

  • свободное владение Python и основными библиотеками для обработки данных: Инженерия данных: Polars, Pandas, PyArrow, Dask/Spark Веб-скрапинг и парсинг: Scrapy, Playwright, BeautifulSoup, инструменты разбора документов * NLP-экосистема: Hugging Face Datasets, Tokenizers, NLTK, spaCy;

  • понимание принципов работы токенизаторов и архитектур LLM: опыт разработки или кастомизации токенизаторов, оптимизация словаря под русский язык, работа с subword-алгоритмами (BPE, Unigram, SentencePiece);

  • знание открытых и корпоративных источников данных, умение работать с лицензиями, авторскими правами и compliance при сборе обучающих корпусов;

  • наличие успешного опыта внедрения data-пайплайнов «под ключ» для NLP/LLM-проектов в production-среде.