Drift форматов и аномалии: почему «всё зелёное» не значит «всё правильно»
Одна из самых неприятных категорий проблем — это тихие изменения форматов и распределений, которые не ломают пайплайн технически, но ломают смысл данных. Дата начинает приходить в другом виде, числа превращаются в строки с валютой, появляются новые значения статусов, тексты внезапно обрезаются или наполняются мусором. Оркестратор показывает успех, задачи зелёные, а витрина постепенно «уплывает» и начинает давать странные результаты.
Ловить такие вещи нужно не по факту жалобы от бизнеса, а через автоматические проверки: доля ошибок парсинга, доля NULL в ключевых полях, резкие изменения объёмов и базовые проверки диапазонов. Это не про “идеальное качество”, а про раннее обнаружение изменений. Когда drift и аномалии видны как сигналы в мониторинге, вы переводите качество данных из реактивного режима в управляемый процесс, где инциденты становятся предсказуемыми и разбираемыми.