BiometricLabs
Меню

Data Governance

Качество модели равно качеству данных.
Грязные данные убьют лучшую модель.

Самая дорогая ошибка ИИ-проекта: запустить модель на данных, которые лежат по частям в пяти конкурирующих Excel-таблицах, и ни одной из них вы не доверяете до конца. Мы оцениваем данные по семи параметрам, строим карту источников истины и собираем стратегию управления данными до того, как вы потратите бюджет на модель.

Data Governance, или управление данными, закрывает простые вопросы: кто отвечает за каждый справочник, какой системе компания доверяет как источнику истины, как данные согласуются между ERP, CRM, MES и таблицами. Мы оцениваем данные по семи параметрам (полнота, качество, согласованность, доступность, метаданные, governance, безопасность) и строим карту источников истины. Это фундамент: пока он не заложен, любая ИИ-модель учится на противоречиях и ошибается. Оценка данных входит в аудит готовности и занимает 3–4 недели.

Если это про вас

Данные есть везде, а источника истины нет нигде

Пять таблиц, и все врут по-разному

Остатки в 1С, в учётной таблице склада и в выгрузке для отдела продаж не сходятся. Каждый отдел верит своей версии. Когда спрашиваешь «а где правильная цифра», получаешь паузу и «ну, зависит».

Справочники живут своей жизнью

Один контрагент заведён четырьмя способами, номенклатура дублируется, у половины позиций нет атрибутов. Отчёты собираются вручную, потому что автоматом получается каша.

Данные есть, но их не вытащить

Нужные сведения лежат сканами в почте, в PDF без текстового слоя, в комментариях к задачам. Технически они существуют, но машине отдать их нельзя без долгой ручной разметки.

Никто не отвечает за качество

За каждую систему отвечает свой человек, а за то, чтобы данные между системами были согласованы, не отвечает никто. Ошибки накапливаются годами, и их замечают, только когда на них обучают модель.

Что мы делаем

Оценка данных по семи параметрам

Это часть фреймворка Data-Centric из нашей методологии аудита готовности. Каждый параметр проверяем отдельно, по каждому домену данных. Не «данные в целом нормальные», а конкретная оценка, где именно слабое место.

01 · Полнота

Сколько пропусков

Какая доля записей заполнена, какие ключевые поля пустуют. Модель не достроит то, чего в данных нет.

02 · Качество

Сколько ошибок и мусора

Опечатки, дубли, выбросы, значения «999» вместо пустых. То, что человек игнорирует, а машина принимает за правду.

03 · Согласованность

Сходятся ли системы

Совпадает ли один и тот же факт в ERP, CRM и в таблицах. Где расходятся, какая версия считается верной.

04 · Доступность

Можно ли извлечь

Лежит ли в системе с выгрузкой и API, или это JPEG в почте. От этого зависит, что доступно ИИ уже сейчас, а что после оцифровки.

05 · Метаданные

Понятно ли, что значат поля

Есть ли описание полей, единицы измерения, словарь значений. Без этого данные надо расшифровывать каждый раз вручную.

06 · Governance

Кто за это отвечает

Назначены ли владельцы справочников, есть ли правила ведения, как разрешаются конфликты между системами.

07 · Безопасность

Где ПДн и тайна

Размечаем персональные данные по 152-ФЗ и коммерческую тайну, чтобы они не утекали во внешние модели и логи.

Итог · Карта данных

Карта источников истины

Семь оценок сводятся в одну карту: где что лежит, в каком состоянии, какой системе доверять по каждому домену данных. С этой картой видно, что можно отдать ИИ сегодня, что чинить в первую очередь, а что не трогать вовсе.

Глазами практика

Что важно увидеть до того, как трогать модель

Пройдитесь по списку честно. Чем больше пунктов остаются без ответа, тем выше шанс, что ИИ-пилот провалится не по вине технологии.

  • Какой системе вы доверяете как источнику истины. Не «у нас есть 1С и CRM», а конкретно: по остаткам верим складской системе, по клиентам CRM, по деньгам бухгалтерии. Если на каждый домен данных нет одной главной системы, сначала договариваются об этом, и только потом про ИИ.
  • Совпадает ли один факт в разных системах. Возьмите любой показатель и сверьте его в трёх местах. Расхождение здесь не мелочь, это сигнал, что модель будет учиться на противоречиях и выдавать ответы, которым нельзя верить.
  • Можно ли данные извлечь машинно. Сканы в почте и PDF без текстового слоя технически содержат данные, но отдать их ИИ без оцифровки нельзя. До старта пилота надо понимать, какая часть нужных данных доступна сразу, а какая требует отдельного проекта.
  • Кто владелец каждого справочника. Если за номенклатуру и контрагентов не отвечает конкретный человек с правом ставить правила, дубли и ошибки будут возвращаться, сколько ни чисти. Governance держится на ответственности, а не на софте.
  • Где в данных персональные сведения и коммерческая тайна. Эти поля размечают до того, как данные попадают в модель. По 152-ФЗ персональные данные граждан РФ обрабатываются на серверах в России, и проектировать хранилище нужно с этим ограничением, а не латать его потом.

Не уверены, готовы ли ваши данные?

За оценку по семи параметрам берёмся в составе аудита готовности. Через 3–4 недели у вас карта данных и понятный список того, что чинить первым.

Оценить данные

Что остаётся у вас

Документы, по которым можно навести порядок без нас

Не отчёт ради отчёта. Артефакты, по которым ваша команда продолжит работу, даже если дальше пойдёте без подрядчика.

Карта данных по 7 параметрам

Где что лежит и в каком состоянии по каждому домену.

Карта источников истины

Какой системе доверять по каждому типу данных.

Реестр справочников и владельцев

Кто отвечает за каждый домен, как разрешать конфликты.

Карта ПДн и коммерческой тайны

Что подпадает под 152-ФЗ, что нельзя отдавать внешним моделям.

План приоритетных правок

Что чинить в первую очередь под конкретные ИИ-задачи.

Стратегия Data Governance

Правила ведения данных и роли, а не покупка платформы наугад.

Цена ошибки

«Данные не готовы»: самый дорогой провал из трёх

Мы насчитали три типичных способа потерять деньги на ИИ. Сценарий с неготовыми данными бьёт сильнее остальных, потому что задевает доверие к ИИ внутри компании на годы вперёд.

40–120 млн ₽

Стоимость сценария «данные не готовы»: модель на грязных данных, ошибки, потеря доверия плюс репутация.

~80 %

Корпоративных ИИ-инициатив не выходят за пределы пилота. Частая причина в неготовом фундаменте данных.

3–4 недели

Занимает оценка данных в составе аудита готовности. На выходе карта данных и список приоритетных правок.

В проекте для производственного холдинга подготовка к Data Governance шла как отдельный блок: опись источников данных и «день с владельцем», чтобы увидеть, откуда что берётся, до проектирования ИИ-ассистента. Порядок именно такой: сначала данные, потом модель.

Частые вопросы

Где хранить данные, чтобы не нарушить 152-ФЗ?
Персональные данные граждан России по 152-ФЗ должны первично собираться и обрабатываться на серверах, расположенных в РФ. Это значит российский ЦОД или ваш собственный контур, не зарубежное облако. Для ИИ-обработки персональных данных мы заранее размечаем, какие поля относятся к ПДн, какие к коммерческой тайне, и проектируем хранилище так, чтобы эти данные не утекали во внешние модели и логи.
Чем Data Governance отличается от наведения порядка в 1С?
Порядок в одной системе решает локальную задачу. Data Governance отвечает на вопрос, какой системе компания доверяет как источнику истины, кто отвечает за каждый справочник, как данные согласуются между ERP, CRM, MES и таблицами. Без этого ИИ-модель будет учиться на противоречащих друг другу записях из пяти систем сразу.
Можно ли запускать ИИ-пилот без управления данными?
Можно, и многие так и делают. По нашему опыту это самый дорогой из трёх типичных провалов: модель обучается на грязных данных, выдаёт ошибки, доверие к ИИ внутри компании падает на годы. Стоимость такого сценария оценивается в 40–120 млн ₽ плюс репутация. Дешевле сначала понять состояние данных, чем переучивать модель и людей заново.
Что вы оцениваете в данных и за какой срок?
Качество данных мы оцениваем по семи параметрам: полнота, качество, согласованность, доступность, метаданные, governance, безопасность. Оценка данных входит в этап AI Opportunity Discovery аудита готовности и занимает 3–4 недели в составе восьминедельного цикла. На выходе вы получаете карту данных: где что лежит, в каком состоянии, что можно использовать для ИИ уже сейчас.
У нас нет MDM и каталога данных. С чего начинать?
С карты источников истины и реестра справочников, а не с покупки платформы. Сначала договариваемся, какая система главная по каждому домену данных (клиенты, номенклатура, контрагенты), кто владелец, как разрешаются конфликты. Платформа MDM или каталог имеет смысл, когда понятно, что именно она будет наводить в порядок. Иначе вы автоматизируете хаос.

Начните с честной картины данных

Оценка по семи параметрам и карта источников истины входят в аудит готовности. Узнаете, что можно отдать ИИ уже сейчас, а что чинить до старта.