3 метрики качества данных, без которых BI всегда будет “врать”
Есть три метрики качества, которые считаются базовыми. Если их не контролировать, аналитика рано или поздно начнёт вводить в заблуждение.
Технический блог про ETL, Data Engineering, Big Data и OSINT: практические разборы, архитектурные заметки, инструменты и кейсы из реальной работы от компании ETLdata.ru
Есть три метрики качества, которые считаются базовыми. Если их не контролировать, аналитика рано или поздно начнёт вводить в заблуждение.
То, что ещё пару лет назад казалось фантастикой — когда искусственный интеллект выступает не просто помощником, а основной движущей силой создания кода, — сегодня становится повседневной реальностью для всё большего числа команд.
Текстовые внешние данные почти всегда “грязные” даже тогда, когда визуально всё выглядит нормально. Внутри могут быть лишние блоки, HTML, повторяющиеся вставки, разные кодировки и разные способы написания дат и чисел.
Внешние источники выглядят привлекательными, потому что данные вроде бы “лежат в открытом доступе”.
Инциденты в данных неизбежны, и главная проблема обычно не в самом инциденте, а в хаотичном разборе.
Платформа данных становится настоящей системой только тогда, когда её состояние видно. Если единственный сигнал — “DAG зелёный”, вы не защищены от ситуаций, когда данные приехали частично, в неправильном формате или с дублями.
Late arriving data — это нормальная ситуация, а не редкая аномалия. Событие может произойти вчера, а приехать сегодня, потому что источник работает батчами, очередь была перегружена или внешняя система отдала данные с задержкой.
Инкремент кажется простым до тех пор, пока вы не сталкиваетесь с реальностью источников. Поле updated_at может обновляться массово, события могут приезжать с задержкой, а один и тот же объект может приходить повторно.