Junior Data Engineer — ETL и обработка данных
Компания—сервис путешествий, агрегирующий миллионы бронирований. Команда данных трансформирует сырой поток бронирований в ясную картину спроса. Масштаб растёт на 40 % в год, поэтому мы расширяем junior-звено и вкладываемся в наставничество. Вы будете общаться напрямую с аналитиками, продуктами и ML-инженерами, увидите, как ваши скрипты влияют на ценообразование и загрузку отелей по всей стране.
Обязанности
- Собirать необработанные данные из внутренних и внешних источников и грузить их в хранилище.
- Разрабатывать базовые ETL-процессы под руководством опытного наставника, документируя каждый шаг.
- Проводить первичное тестирование пайплайнов через JUnit, PyTest и Jest, фиксируя метрики качества.
- Анализировать структуру туристических данных, устранять аномалии, обновлять схему таблиц.
- Участвовать в рефакторинге существующего Python-кода, повышая читаемость и производительность.
- Отслеживать ежедневные объёмы загрузки, оперативно реагировать на сбои, предлагать улучшения.
Требования
- Базовое понимание принципов работы реляционных и колонковых СУБД.
- Знание Python (Pandas, PySpark), умение писать чистый, модульный код.
- Уверенный SQL: SELECT, JOIN, оконные функции.
- Практическое знакомство с системами контроля версий Git.
- Навык написания юнит-тестов, желание автоматизировать рутину.
- *Жажда развития* в инженерии данных, готовность к серьёзному самообучению.
Чему научим
- Проектировать надёжные data-pipeline’ы на Airflow и Luigi.
- Использовать Kafka и ClickHouse для потоковой обработки и аналитики.
- Настраивать CI/CD для DataOps, создавать мониторинг через Grafana, Prometheus.
- Работать с картографическими и бронированиями API туристической отрасли.
Технологический стек
Python 3.12, SQL, Airflow, Spark, Kafka, ClickHouse, Docker, GitLab CI, PyTest, JUnit, Jest, Pandas, Grafana.