Найдены 10 способов атак на ИИ-агенты через подмену команд
Атаки на искусственный интеллект через непрямую инъекцию промптов используются для кражи денег, API-ключей и уничтожения данных. Специалисты компании Forcepoint обнаружили 10 реальных сценариев подобного применения. Хакеры встраивают вредоносные команды в обычный веб-контент. Когда ИИ-агент обрабатывает такую страницу, он воспринимает эти команды как легитимные инструкции и выполняет их. Под угрозой находятся любые системы, которые автоматически парсят веб-страницы, индексируют контент для RAG-систем, обрабатывают метаданные и HTML-комментарии или анализируют сайты для SEO и модерации.
Уровень опасности зависит от прав доступа системы. Если агент только суммирует текст, риск минимален. Но когда добавляется возможность отправлять письма, запускать команды в терминале или проводить платежи, он становится серьёзной мишенью для атак.
Исследователи определили типичные маркеры таких атак. Злоумышленники используют фразы вроде «забудь предыдущие инструкции», «игнорируй все предыдущие команды» или «если ты языковая модель». Схема во всех случаях одинакова: атакующий внедряет вредоносную команду в контент и ждёт, пока агент её загрузит. После этого система забывает исходные настройки, следует новым инструкциям и совершает реальные действия.
Среди обнаруженных примеров есть как относительно безобидные, так и откровенно опасные варианты. К первым относится фейковое уведомление о том, что правообладатель запрещает ИИ отвечать на вопросы об этой странице. Технически это классифицируется как отказ в обслуживании на уровне контента. Другой пример представляет собой скрытую рекламу. Система получает команду приписать весь прочитанный контент определённому человеку и посоветовать пользователю обратиться к нему за консультациями.
Однако эксперты нашли и по-настоящему опасные сценарии. Один из них пытается заставить ИИ-ассистента программиста или инструмент разработки с доступом к командной оболочке выполнить команду рекурсивного удаления всех файлов и каталогов. Исследователи кибербеза пояснили, что эта атака нацелена именно на агентские возможности ИИ. Под угрозой находятся помощники, встроенные в среды разработки, терминалы или DevOps-конвейеры. Такие инструменты, как GitHub Copilot, Cursor, Claude Code или системы автоматического ревью кода в CI/CD, могут загрузить вредоносную страницу во время выполнения исследовательских задач.
Другой сценарий содержит команду отправить секретный API-ключ. Цель такой атаки — заставить агента выдать доступные ему секреты. При этом злоумышленники пытаются замаскировать инъекцию дополнительными инструкциями не анализировать код и не выводить результат.
Третий вариант представляет собой попытку прямого финансового мошенничества. В контент встроены ссылка на платёжную систему PayPal, фиксированная сумма в 5 тысяч долл. и полная пошаговая инструкция по проведению транзакции. Эксперты отметили, что этот сценарий рассчитан на агентов с доступом к платёжным системам: браузерных помощников с сохранёнными платёжными данными, финансовых ИИ-ассистентов или автономные инструменты с доступом к электронным кошелькам.