ETL ≠ просто выгрузка: 5 признаков продового пайплайна
Многие думают, что ETL — это “забрать данные и положить в таблицу”. В тестовой среде так и бывает. Но в проде всё упирается не в саму загрузку, а в то, насколько система переживает ошибки, изменения и рост.
Вот 5 признаков, что пайплайн действительно продовый:
1. Идемпотентность. Повторный запуск не ломает данные и не создаёт дубли. Если задача упала, её можно перезапустить без ручной чистки.
2. Контроль качества данных. Проверяются базовые вещи: пустые значения, дубли, резкие просадки объёма, формат полей. И это не “потом добавим”, а часть процесса.
3. Наблюдаемость. Есть понятные логи, метрики и статус выполнения. Можно быстро ответить на вопросы: что загрузилось, что не загрузилось и почему.
4. Работа с изменениями источников. Источник поменял поле, добавил колонку, поменял формат даты — и пайплайн не разваливается полностью. Есть стратегия, как это переживать.
5. Понятные правила хранения и слои данных. Где raw, где нормализованные данные, где витрины. Что можно пересчитать, а что считается “истиной” и хранится как факт.
ETL в реальности — это больше про надёжность и контроль, чем про “переливание данных”.