СберПраво

Data Scientist NLP

Не указана
  • Москва
  • Полная занятость
  • Полный день
  • От 1 года до 3 лет

Кто мы?

Мы RND команда проекта GigaLegal в СБЕР - создаем инновационные решения в правовом домене на основе LLM для автоматизации юридических процессов.

Наша цель — трансформировать работу юристов, бизнеса и государственных структур через:

- Автоматизацию анализа договоров и юридических документов

- Интеллектуальную генерацию правовых документов

- Разработку специализированных юридических чат-ботов

- Создание автономных юридических ИИ-агентов

Чем предстоит заниматься?

Исследования и эксперименты с LLM:

- Разработка и оптимизация промптов для задач классификации, NER и генерации юридических текстов

- Оценка эффективности различных подходов и моделей для юридических задач

- Написание агентских пайплайнов с использованием LLM

- Подготовка тестовых и обучающих данных для LLM

Инженерия данных:

- Разработка пайплайнов обработки юридических документов в различных форматах (конвертация в структурированный текст, сегментация)

- Организация процессов разметки данных и создания специализированных датасетов

- Подготовка обучающих данных для ML моделей (классические модели, BERT, T5)

ML/NLP разработка:

- Применение классических моделей (TF-IDF, CRF) и трансформеров (BERT, T5) для:

- Классификации юридических документов

- Извлечения именованных сущностей

- Реализации семантического поиска

- Интеграция с внешними API

- Работа с поисковыми технологиями - ElasticSearch, векторный поиск, матчинг, ранжирование

Внедрение в продакшен:

- Подготовка документации и API для передачи в production

- Поддержка на этапе интеграции разработок

- Участие в A/B-тестировании и анализе результатов

Для этого необходимо уметь?

- уверенная работа с python: pandas, numpy, sklearn, PyTorch

- базовые знания SQL и NoSQL баз данных

- знание классического NLP, опыт с NLP-библиотеками (spaCy, NLTK)

- уверенные знания современных LLM-архитектур и понимание техник обучения LLM хотя бы в теории (претрейн, SFT, RLHF)

- навыки промптинга: знание стратегий промптинга и умение оптимизировать промпты для решения бизнес-задач

- практический опыт построения RAG-систем

- git, Linux, docker

Будет преимуществом:

- умение написать простой REST API микросервис, собрать и запустить телеграм бота

- умение собрать простой веб интерфейс прототипа на html/css/javascript

- способность обучить LORA адаптер к LLM модели

- интерес к актуальным исследованиям NLP и LLM, чтение публикаций по теме

- опыт создания LLM-driven приложений (structured output, function calling, agent systems)

Что мы предлагаем:

- Менторство от Senior DS-специалистов и экспертов команды GigaChat

- Доступ к закрытым образовательным материалам по LLM и Legal Tech

- Много инженерии вокруг LLM и Агентов

- Гибкий график работы с возможностью полной удаленки

- Полный социальный пакет (ДМС, корпоративный спортзал и др.)