Технический блог про ETL, Data Engineering, Big Data и OSINT

Late arriving data: как жить с тем, что данные приходят позже

Инкремент, CDC и late arriving data 25.01.2026 16:43 #18

Late arriving data — это нормальная ситуация, а не редкая аномалия. Событие может произойти вчера, а приехать сегодня, потому что источник работает батчами, очередь была перегружена или внешняя система отдала данные с задержкой.

Инкрементальные загрузки: почему «забираем только новое» часто ломает данные

Инкремент, CDC и late arriving data 25.01.2026 16:43 #17

Инкремент кажется простым до тех пор, пока вы не сталкиваетесь с реальностью источников. Поле updated_at может обновляться массово, события могут приезжать с задержкой, а один и тот же объект может приходить повторно.

Kimball и Data Vault: не выбор религии, а разделение задач

Kimball, SCD и историчность 25.01.2026 16:42 #16

Kimball удобен там, где бизнес хочет быстро получить понятные витрины, а сущности и показатели относительно стабильны. Это “модель для потребления”, которая делает аналитику доступной и предсказуемой.

SCD Type 2: как сохранять историю так, чтобы её понимали

Kimball, SCD и историчность 25.01.2026 16:42 #15

История в данных нужна почти всегда, но часто её начинают “добавлять потом”, когда уже поздно и дорого.

Почему бизнесу не нужен «чистый DV», но он всё равно полезен

Data Vault на практике 25.01.2026 16:37 #14

Одна из типовых ошибок — пытаться посадить BI напрямую на хабы, линки и сателлиты.

Data Vault как «устойчивое ядро» платформы данных

Data Vault на практике 25.01.2026 16:37 #13

Data Vault хорошо работает там, где источников много и они меняются чаще, чем успевает обновляться документация. Его ценность не в том, что он “красивее” других подходов, а в том, что он снижает стоимость изменений.

Почему стабильные определения важнее «самой красивой схемы»

Моделирование DWH и витрины 25.01.2026 16:28 #12

В DWH можно бесконечно спорить о структуре и стиле моделирования, но на практике доверие держится на стабильных определениях.

Витрина как продукт, а не как «правильная таблица»

Моделирование DWH и витрины 25.01.2026 16:27 #11

Витрина редко проваливается потому, что она “не по учебнику”. Чаще она проваливается потому, что ей неудобно пользоваться.

Drift форматов и аномалии: почему «всё зелёное» не значит «всё правильно»

Качество данных (Data Quality) 25.01.2026 16:26 #10

Одна из самых неприятных категорий проблем — это тихие изменения форматов и распределений, которые не ломают пайплайн технически, но ломают смысл данных.

Почему BI «врёт», даже если дашборды сделаны правильно

Качество данных (Data Quality) 25.01.2026 16:24 #9

Проблема доверия к BI почти всегда начинается не с визуализации, а с качества входных данных. Дашборд может быть идеально собран, но если данные не обновились вовремя, пришли не в полном объёме или задублировались, цифры будут выглядеть правдоподобно и при этом вводить в заблуждение.

Лента