Кто мы?
Мы RND команда проекта GigaLegal в СБЕР - создаем инновационные решения в правовом домене на основе LLM для автоматизации юридических процессов.
Наша цель — трансформировать работу юристов, бизнеса и государственных структур через:
- Автоматизацию анализа договоров и юридических документов
- Интеллектуальную генерацию правовых документов
- Разработку специализированных юридических чат-ботов
- Создание автономных юридических ИИ-агентов
Чем предстоит заниматься?
Исследования и эксперименты с LLM:
- Разработка и оптимизация промптов для задач классификации, NER и генерации юридических текстов
- Оценка эффективности различных подходов и моделей для юридических задач
- Написание агентских пайплайнов с использованием LLM
- Подготовка тестовых и обучающих данных для LLM
Инженерия данных:
- Разработка пайплайнов обработки юридических документов в различных форматах (конвертация в структурированный текст, сегментация)
- Организация процессов разметки данных и создания специализированных датасетов
- Подготовка обучающих данных для ML моделей (классические модели, BERT, T5)
ML/NLP разработка:
- Применение классических моделей (TF-IDF, CRF) и трансформеров (BERT, T5) для:
- Классификации юридических документов
- Извлечения именованных сущностей
- Реализации семантического поиска
- Интеграция с внешними API
- Работа с поисковыми технологиями - ElasticSearch, векторный поиск, матчинг, ранжирование
Внедрение в продакшен:
- Подготовка документации и API для передачи в production
- Поддержка на этапе интеграции разработок
- Участие в A/B-тестировании и анализе результатов
Для этого необходимо уметь?
- уверенная работа с python: pandas, numpy, sklearn, PyTorch
- базовые знания SQL и NoSQL баз данных
- знание классического NLP, опыт с NLP-библиотеками (spaCy, NLTK)
- уверенные знания современных LLM-архитектур и понимание техник обучения LLM хотя бы в теории (претрейн, SFT, RLHF)
- навыки промптинга: знание стратегий промптинга и умение оптимизировать промпты для решения бизнес-задач
- практический опыт построения RAG-систем
- git, Linux, docker
Будет преимуществом:
- умение написать простой REST API микросервис, собрать и запустить телеграм бота
- умение собрать простой веб интерфейс прототипа на html/css/javascript
- способность обучить LORA адаптер к LLM модели
- интерес к актуальным исследованиям NLP и LLM, чтение публикаций по теме
- опыт создания LLM-driven приложений (structured output, function calling, agent systems)
Что мы предлагаем:
- Менторство от Senior DS-специалистов и экспертов команды GigaChat
- Доступ к закрытым образовательным материалам по LLM и Legal Tech
- Много инженерии вокруг LLM и Агентов
- Гибкий график работы с возможностью полной удаленки
- Полный социальный пакет (ДМС, корпоративный спортзал и др.)