timlid.ru | блог про Data Engineering Заметки, инструменты и кейсы из реальной работы

Лента

Технический блог про ETL, Data Engineering, Big Data и OSINT: практические разборы, архитектурные заметки, инструменты и кейсы из реальной работы от компании ETLdata.ru

3 метрики качества данных, без которых BI всегда будет “врать”

Есть три метрики качества, которые считаются базовыми. Если их не контролировать, аналитика рано или поздно начнёт вводить в заблуждение.

Когда код пишет не человек, а целая виртуальная команда: революция 2026 AI-Native Development

Новости 25.01.2026 17:02 #25

То, что ещё пару лет назад казалось фантастикой — когда искусственный интеллект выступает не просто помощником, а основной движущей силой создания кода, — сегодня становится повседневной реальностью для всё большего числа команд.

AI-native development platforms и multi-agent системы переходят в продакшен

Новости 25.01.2026 16:55 #24

Первые маленькие квантовые компьютеры с коррекцией ошибок становятся реальностью

Новости 25.01.2026 16:54 #23

Нормализация текста и дедуп по смыслу как основа полезной ленты событий

Текстовые внешние данные почти всегда “грязные” даже тогда, когда визуально всё выглядит нормально. Внутри могут быть лишние блоки, HTML, повторяющиеся вставки, разные кодировки и разные способы написания дат и чисел.

Внешние данные: почему «собрать» — это ещё не сделать продукт

Внешние источники выглядят привлекательными, потому что данные вроде бы “лежат в открытом доступе”.

Инциденты данных: почему важна классификация, а не паника

Инциденты в данных неизбежны, и главная проблема обычно не в самом инциденте, а в хаотичном разборе.

Наблюдаемость в данных: что важно видеть каждый день

Платформа данных становится настоящей системой только тогда, когда её состояние видно. Если единственный сигнал — “DAG зелёный”, вы не защищены от ситуаций, когда данные приехали частично, в неправильном формате или с дублями.

Late arriving data: как жить с тем, что данные приходят позже

Late arriving data — это нормальная ситуация, а не редкая аномалия. Событие может произойти вчера, а приехать сегодня, потому что источник работает батчами, очередь была перегружена или внешняя система отдала данные с задержкой.

Инкрементальные загрузки: почему «забираем только новое» часто ломает данные

Инкремент кажется простым до тех пор, пока вы не сталкиваетесь с реальностью источников. Поле updated_at может обновляться массово, события могут приезжать с задержкой, а один и тот же объект может приходить повторно.

← Назад Страница 1 / 3 Вперёд →