Новая атака на ИИ-агентов превращает диалоги подтверждения в угрозу

3 мин
70
18 декабря 2025

Специалисты из Checkmarx нашли новый способ атаки на ИИ-агентов. Метод назвали Lies-in-the-Loop («Ложь-в-цикле»). Суть в том, что злоумышленники научились ломать стандартную защиту через диалоги подтверждения.

Речь про Human-in-the-Loop диалоги. Human-in-the-Loop (HITL) — подход в области искусственного интеллекта (AI), при котором люди участвуют в процессе обучения, проверки и совершенствования систем машинного обучения. Цель — повысить точность, надёжность и гибкость моделей, интегрируя человеческий опыт на критических этапах жизненного цикла модели.

Выяснилось, что уязвимость возникает, когда ИИ-агент перед опасным действием спрашивает у человека разрешение, например, перед запуском команд в операционной системе. Исследователи показали, как эти запросы можно подделать так, чтобы они выглядели безобидно, а на деле запускали вредоносный код.

Атакующие могут действовать несколькими путями: добавить безобидный текст в начало запроса, подменить метаданные с описанием действия или использовать баги в рендеринге Markdown в интерфейсе. Иногда внедрённый контент вообще полностью меняет вид диалога и превращает опасные команды в безопасные на вид.

Хуже всего такие диалоги действуют на ИИ-агентов продвинутого уровня вроде помощников в написании кода. Они сильно полагаются на диалоги подтверждения и часто не имеют других защитных слоёв, которые рекомендует OWASP.

OWASP (Open Web Application Security Project)

Открытый проект по безопасности веб-приложений. Это некоммерческая организация, которая занимается повышением безопасности программного обеспечения. Она публикует методические материалы, стандарты, рекомендации и списки наиболее распространённых уязвимостей. Так как OWASP рекомендует эти промпты в качестве защиты от инъекций и чрезмерной автономности систем, получается замкнутый круг.

Исследователи из Checkmarx отмечают, что когда диалог скомпрометирован, человеческий контроль превращается в фикцию. Атака может стартовать с непрямых инъекций промптов, которые отравляют контекст агента задолго до того, как диалог вообще появится на экране.

В качестве примеров взяли Claude Code и Microsoft Copilot Chat в VS Code. В Claude Code можно манипулировать содержимым диалога и метаданными. В Copilot Chat косячная санитизация Markdown позволяет внедрённым элементам отображаться так, что пользователь не понимает, что одобряет.

Anthropic получила отчёты в августе 2025 года и пометила их как информационные. Microsoft получила отчёт в октябре 2025 года и закрыла без фикса. В Microsoft заявили, что описанное поведение не тянет на уязвимость безопасности по их критериям.

Специалисты Checkmarx подчёркивают, что волшебной таблетки для защиты от данной уязвимости не существует. Многоуровневая защита в такой ситуации должна включать обучение пользователей, совершенствование визуальной части диалогов, валидацию и очистку входных данных, использование безопасных API операционной системы, где команды отделены от аргументов, а также разумные ограничения на длину диалогов.

По мнению исследователей, разработчики с помощью такого подхода могут серьёзно снизить риски. А пользователям стоит быть внимательнее и сохранять здоровый скептицизм при работе с ИИ-агентами.

Важное по теме
Что почитать CIOs: 8 книг о бизнесе для ИТ-руководителей
Мастерская
Читать 3 минуты
06.01.2026
Обзор лучших книжных новинок
Новогодний киносеанс: топ-7 фильмов об информационной безопасности и хакерах
Тренды
Читать 4 минуты
02.01.2026
От вечно актуальной киноклассики до громких новинок последних лет
Новости
Читать 3 минуты
30.12.2025
Пятимесячная кампания была нацелена на отделы продаж в США и Европе
Оставьте комментарий
Доступно для авторизованных пользователей
1/1000