timlid.ru | блог про Data Engineering Заметки, инструменты и кейсы из реальной работы

Лента

Технический блог про ETL, Data Engineering, Big Data и OSINT: практические разборы, архитектурные заметки, инструменты и кейсы из реальной работы от компании ETLdata.ru

Kimball и Data Vault: не выбор религии, а разделение задач

Kimball удобен там, где бизнес хочет быстро получить понятные витрины, а сущности и показатели относительно стабильны. Это “модель для потребления”, которая делает аналитику доступной и предсказуемой.

SCD Type 2: как сохранять историю так, чтобы её понимали

История в данных нужна почти всегда, но часто её начинают “добавлять потом”, когда уже поздно и дорого.

Почему бизнесу не нужен «чистый DV», но он всё равно полезен

Одна из типовых ошибок — пытаться посадить BI напрямую на хабы, линки и сателлиты.

Data Vault как «устойчивое ядро» платформы данных

Data Vault хорошо работает там, где источников много и они меняются чаще, чем успевает обновляться документация. Его ценность не в том, что он “красивее” других подходов, а в том, что он снижает стоимость изменений.

Почему стабильные определения важнее «самой красивой схемы»

В DWH можно бесконечно спорить о структуре и стиле моделирования, но на практике доверие держится на стабильных определениях.

Витрина как продукт, а не как «правильная таблица»

Витрина редко проваливается потому, что она “не по учебнику”. Чаще она проваливается потому, что ей неудобно пользоваться.

Drift форматов и аномалии: почему «всё зелёное» не значит «всё правильно»

Одна из самых неприятных категорий проблем — это тихие изменения форматов и распределений, которые не ломают пайплайн технически, но ломают смысл данных.

Почему BI «врёт», даже если дашборды сделаны правильно

Проблема доверия к BI почти всегда начинается не с визуализации, а с качества входных данных. Дашборд может быть идеально собран, но если данные не обновились вовремя, пришли не в полном объёме или задублировались, цифры будут выглядеть правдоподобно и при этом вводить в заблуждение.

Переигрываемость как ключевой принцип ingestion-архитектуры

В данных неизбежны ситуации, когда нужно «переиграть» обработку: исправили баг в нормализации, поменяли правило дедупа, добавили справочник или обнаружили, что источник тихо изменил формат.

Зачем разделять landing, raw и normalized

Когда источников становится больше пары, попытка загрузить всё сразу в «финальную таблицу» начинает ломать систему. Внешние данные меняют форматы, внутренние системы обновляются, появляются пропуски и дубли, а команда вынуждена чинить это прямо в витрине, рискуя аналитикой.

← Назад Страница 2 / 3 Вперёд →