timlid.ru | блог про Data Engineering Заметки, инструменты и кейсы из реальной работы

Late arriving data: как жить с тем, что данные приходят позже

Инкремент, CDC и late arriving data Опубликовано: 25.01.2026 16:43 #18

Late arriving data — это нормальная ситуация, а не редкая аномалия. Событие может произойти вчера, а приехать сегодня, потому что источник работает батчами, очередь была перегружена или внешняя система отдала данные с задержкой. Если витрина строится как “сегодня загрузили — значит за вчера всё финально”, бизнес неизбежно столкнётся с пересчётами и расхождениями, а доверие к аналитике начнёт падать.

Рабочий подход — принять задержки как часть процесса и заложить правила стабилизации. Обычно это означает пересчёт последних N дней по скользящему окну и разделение event_time и load_time, чтобы было видно, когда событие произошло и когда оно реально попало в систему. Тогда изменения цифр объяснимы, а не выглядят как “вчера было одно, сегодня стало другое без причины”. Это превращает поздние данные из проблемы в управляемый сценарий эксплуатации.