OpenAI защищает ChatGPT Atlas от атак с внедрением промптов
OpenAI рассказала, как защищает ChatGPT Atlas от атак с внедрением промптов. Компания запустила автоматизированное тестирование на проникновение на основе обучения с подкреплением. Система находит уязвимости агентов до того, как брешью воспользуются злоумышленники.
Агентный режим в ChatGPT Atlas управляет браузером как обычный пользователь. Агент открывает страницы, кликает, вводит текст. Это делает агента потенциально уязвимым к атакам. Суть атаки с внедрением промптов проста. Злоумышленник встраивает вредоносные инструкции в контент. Инструкции заставляют агента действовать по сценарию атакующего, а не пользователя.
Пример: атакующий отправляет письмо с инструкцией переслать налоговые документы на его адрес. Пользователь просит агента просмотреть почту. Агент обрабатывает вредоносное письмо и сливает конфиденциальные данные. Такие инструкции могут встретиться где угодно: в письмах, документах, на форумах, в соцсетях. О похожей атаке мы рассказывали в одном из материалов.
Для поиска новых атак в OpenAI разработали автоматизированного атакующего на основе LLM. Во время работы он предлагает новые атаки и отправляет их в симулятор. Симулятор показывает, как поведёт себя агент-жертва. Система получает трассировку действий, использует это как фидбэк и улучшает атаку. Цикл повторяется несколько раз.
Метод подходит для поиска атак, которые заставят агента выполнить сложные вредоносные действия вроде отправки писем или банковских транзакций. По мере развития моделей атакующий становится сильнее.
OpenAI показала ещё один пример: атакующий помещает в почту письмо с инструкциями отправить заявление об увольнении руководителю. В один из разов, когда пользователь просит написать автоответ об отсутствии на месте, ИИ-агент находит вредоносное письмо и отправляет заявление на увольнение от имени пользователя. Такой сценарий был найден системой OpenAI, и агент успешно нашёл попытку внедрения вредоносных действий.
Специалисты OpenAI отметили, что злоумышленники будут адаптироваться. Внедрение промптов через фишинг и социальную инженерию вряд ли полностью исчезнет. Компания рекомендует пользователям:
- использовать режим без авторизации, когда доступ к аккаунтам не нужен;
- проверять запросы на подтверждение важных действий;
- давать агентам чёткие инструкции и избегать размытых промптов.