-
Разработка ETL пайплайнов (Stream, Batch)
-
Участие в проектировании модели данных Data Vault 2.0
-
Разработка Unit тестов для пайплайнов
-
Разработка внутренних сервисов для аналитиков и разработчиков из смежных команд
-
Опыт разработки парсеров на Python (от 3 лет)
-
Библиотеки: Requests, BeautifulSoup, Scrapy, Selenium, lxml.
-
Асинхронные решения: aiohttp, httpx, asyncio.
-
Работа с данными:
Парсинг HTML/XML, извлечение данных через XPath/CSS-селекторы.
Обработка JSON/API (REST, GraphQL). -
Обход ограничений:
Обработка капчи (AntiCaptcha, 2Captcha). -
Ротация прокси, User-Agent, имитация поведения браузера.
Обход блокировок (настройка задержек, использование headless-браузеров).
-
Хранение данных:
Работа с БД: PostgreSQL, MySQL, MongoDB, SQLAlchemy. -
Экспорт в CSV/JSON/XLSX, интеграция с облачными хранилищами (S3, Google Cloud).
-
Возможность профессионального и карьерного роста в компании, возможность поучаствовать в разных проектах
-
Опыт работы в распределенной команде профессионалов
-
Уровень заработной платы обсуждается индивидуально
-
Формат работы: офис/гибрид г. Москва