Новая атака на ИИ-агентов превращает диалоги подтверждения в угрозу
Специалисты из Checkmarx нашли новый способ атаки на ИИ-агентов. Метод назвали Lies-in-the-Loop («Ложь-в-цикле»). Суть в том, что злоумышленники научились ломать стандартную защиту через диалоги подтверждения.
Речь про Human-in-the-Loop диалоги. Human-in-the-Loop (HITL) — подход в области искусственного интеллекта (AI), при котором люди участвуют в процессе обучения, проверки и совершенствования систем машинного обучения. Цель — повысить точность, надёжность и гибкость моделей, интегрируя человеческий опыт на критических этапах жизненного цикла модели.
Выяснилось, что уязвимость возникает, когда ИИ-агент перед опасным действием спрашивает у человека разрешение, например, перед запуском команд в операционной системе. Исследователи показали, как эти запросы можно подделать так, чтобы они выглядели безобидно, а на деле запускали вредоносный код.
Атакующие могут действовать несколькими путями: добавить безобидный текст в начало запроса, подменить метаданные с описанием действия или использовать баги в рендеринге Markdown в интерфейсе. Иногда внедрённый контент вообще полностью меняет вид диалога и превращает опасные команды в безопасные на вид.
Хуже всего такие диалоги действуют на ИИ-агентов продвинутого уровня вроде помощников в написании кода. Они сильно полагаются на диалоги подтверждения и часто не имеют других защитных слоёв, которые рекомендует OWASP.
Открытый проект по безопасности веб-приложений. Это некоммерческая организация, которая занимается повышением безопасности программного обеспечения. Она публикует методические материалы, стандарты, рекомендации и списки наиболее распространённых уязвимостей. Так как OWASP рекомендует эти промпты в качестве защиты от инъекций и чрезмерной автономности систем, получается замкнутый круг.
Исследователи из Checkmarx отмечают, что когда диалог скомпрометирован, человеческий контроль превращается в фикцию. Атака может стартовать с непрямых инъекций промптов, которые отравляют контекст агента задолго до того, как диалог вообще появится на экране.
В качестве примеров взяли Claude Code и Microsoft Copilot Chat в VS Code. В Claude Code можно манипулировать содержимым диалога и метаданными. В Copilot Chat косячная санитизация Markdown позволяет внедрённым элементам отображаться так, что пользователь не понимает, что одобряет.
Anthropic получила отчёты в августе 2025 года и пометила их как информационные. Microsoft получила отчёт в октябре 2025 года и закрыла без фикса. В Microsoft заявили, что описанное поведение не тянет на уязвимость безопасности по их критериям.
Специалисты Checkmarx подчёркивают, что волшебной таблетки для защиты от данной уязвимости не существует. Многоуровневая защита в такой ситуации должна включать обучение пользователей, совершенствование визуальной части диалогов, валидацию и очистку входных данных, использование безопасных API операционной системы, где команды отделены от аргументов, а также разумные ограничения на длину диалогов.
По мнению исследователей, разработчики с помощью такого подхода могут серьёзно снизить риски. А пользователям стоит быть внимательнее и сохранять здоровый скептицизм при работе с ИИ-агентами.