Cisco выпустила инструмент для отслеживания происхождения AI-моделей

3 мин
10
5 мая 2026

Компания Cisco выпустила открытый инструмент Model Provenance Kit, который позволяет определить происхождение моделей искусственного интеллекта. Разработка направлена на снижение рисков, связанных с подменой моделей, несоблюдением нормативных требований, нарушением целостности цепочки поставок и недостаточно оперативным реагированием на инциденты безопасности.

Инструмент анализирует метаданные и обученные параметры модели, чтобы определить общее происхождение и выявить признаки модификации. Разработчик отметил, что примером актуальности такого сервиса служит случай с Composer 2, которая оказалась частично построена на китайской Kimi 2.5. Изначально разработавшая модель компания Cursor не разглашала этой информации и сделала это лишь после публикации блогера о сходстве двух ИИ-моделей.

Проблема актуальна из-за растущей сложности цепочек поставок ИИ. Команды используют комбинацию закрытых систем, открытых моделей и сторонних компонентов. Многие организации загружают модели из открытых репозиториев вроде Hugging Face, где их размещено уже порядка 2 млн. После дообучения компании часто не ведут учёт изменений. Документация может быть подделана, а метаданные удалены или изменены. Всё это позволяет разработчикам утверждать, что модель обучена с нуля, даже если она является модифицированной копией другой модели.

Отсутствие информации о происхождении создаёт несколько рисков. Первый связан с развёртыванием скомпрометированных или уязвимых моделей. Без данных сведений невозможно проследить инцидент до первопричины и определить другие затронутые модели. Второй касается нормативных требований. Европейский закон об ИИ требует документирования обучающих данных для высокорисковых систем. Документ NIST AI Risk Management Framework (Рамочная модель управления ИИ-рисками Национального института стандартов и технологий США) определяет риски сторонних компонентов как ключевую область управления. Некоторые открытые модели имеют ограничительные лицензии, что создаёт юридические последствия. Третий риск связан с целостностью цепочки поставок, когда модели неправильно маркированы или загружены без указания авторства.

Model Provenance Kit использует поэтапную стратегию. На первом шаге инструмент сравнивает конфигурации моделей и метаданные до загрузки весов. При идентичных спецификациях модели классифицируются как связанные. Когда метаданных недостаточно, система анализирует веса. Инструмент извлекает пять сигналов, включая геометрические отношения между токенами, распределение величин, слои нормализации, энергетические профили и сравнение значений весов.

Разработка имеет два режима работы. Режим сравнения позволяет взять две модели и получить детальную разбивку их схожести. Режим сканирования сопоставляет модель с базой данных отпечатков для выявления кандидатов по родословной. Компания выпустила базу данных, охватывающую около 150 базовых моделей из более чем 45 семейств размером от 135 млн до более 70 млрд параметров.

Тестирование на наборе из 111 пар моделей показало высокую точность системы. Инструмент правильно определил стандартные производные и межорганизационные производные с полнотой 100%. Независимо обученные модели с общими токенизаторами были корректно определены со специфичностью 100%. Только четыре пары из 111 были классифицированы неверно из-за экстремальных архитектурных трансформаций. Инструмент работает на процессоре и масштабируется под размер модели. Model Provenance Kit размещён в открытом доступе на GitHub, а набор данных отпечатков — на Hugging Face.

Важное по теме
Новости
Читать 2 минуты
05.05.2026
Злоумышленники используют ИИ для атак на криптоплатформы
Новости
Читать 2 минуты
04.05.2026
Проблема затрагивает системы, выпущенные с 2017 года
Новости
Читать 3 минуты
04.05.2026
Повышенную активность проявляла группировка Paper Werewolf
Оставьте комментарий
Доступно для авторизованных пользователей
1/1000