timlid.ru | блог про Data Engineering Заметки, инструменты и кейсы из реальной работы

Инкремент, CDC и late arriving data

Публикации по выбранной категории.

Late arriving data: как жить с тем, что данные приходят позже

Late arriving data — это нормальная ситуация, а не редкая аномалия. Событие может произойти вчера, а приехать сегодня, потому что источник работает батчами, очередь была перегружена или внешняя система отдала данные с задержкой.

Инкрементальные загрузки: почему «забираем только новое» часто ломает данные

Инкремент кажется простым до тех пор, пока вы не сталкиваетесь с реальностью источников. Поле updated_at может обновляться массово, события могут приезжать с задержкой, а один и тот же объект может приходить повторно.

← Назад Страница 1 / 1 Вперёд →