Junior Data Engineer — ETL и обработка данных

Оплата: По договоренности
Удаленно
Full-time

Компания—сервис путешествий, агрегирующий миллионы бронирований. Команда данных трансформирует сырой поток бронирований в ясную картину спроса. Масштаб растёт на 40 % в год, поэтому мы расширяем junior-звено и вкладываемся в наставничество. Вы будете общаться напрямую с аналитиками, продуктами и ML-инженерами, увидите, как ваши скрипты влияют на ценообразование и загрузку отелей по всей стране.  


Обязанности  

- Собirать необработанные данные из внутренних и внешних источников и грузить их в хранилище.  

- Разрабатывать базовые ETL-процессы под руководством опытного наставника, документируя каждый шаг.  

- Проводить первичное тестирование пайплайнов через JUnit, PyTest и Jest, фиксируя метрики качества.  

- Анализировать структуру туристических данных, устранять аномалии, обновлять схему таблиц.  

- Участвовать в рефакторинге существующего Python-кода, повышая читаемость и производительность.  

- Отслеживать ежедневные объёмы загрузки, оперативно реагировать на сбои, предлагать улучшения.  


Требования  

- Базовое понимание принципов работы реляционных и колонковых СУБД.  

- Знание Python (Pandas, PySpark), умение писать чистый, модульный код.  

- Уверенный SQL: SELECT, JOIN, оконные функции.  

- Практическое знакомство с системами контроля версий Git.  

- Навык написания юнит-тестов, желание автоматизировать рутину.  

- *Жажда развития* в инженерии данных, готовность к серьёзному самообучению.  


Чему научим  

- Проектировать надёжные data-pipeline’ы на Airflow и Luigi.  

- Использовать Kafka и ClickHouse для потоковой обработки и аналитики.  

- Настраивать CI/CD для DataOps, создавать мониторинг через Grafana, Prometheus.  

- Работать с картографическими и бронированиями API туристической отрасли.  


Технологический стек  

Python 3.12, SQL, Airflow, Spark, Kafka, ClickHouse, Docker, GitLab CI, PyTest, JUnit, Jest, Pandas, Grafana.