OpenAI защищает ChatGPT Atlas от атак с внедрением промптов

3 мин
41
24 декабря 2025

OpenAI рассказала, как защищает ChatGPT Atlas от атак с внедрением промптов. Компания запустила автоматизированное тестирование на проникновение на основе обучения с подкреплением. Система находит уязвимости агентов до того, как брешью воспользуются злоумышленники.

Агентный режим в ChatGPT Atlas управляет браузером как обычный пользователь. Агент открывает страницы, кликает, вводит текст. Это делает агента потенциально уязвимым к атакам. Суть атаки с внедрением промптов проста. Злоумышленник встраивает вредоносные инструкции в контент. Инструкции заставляют агента действовать по сценарию атакующего, а не пользователя.

Пример: атакующий отправляет письмо с инструкцией переслать налоговые документы на его адрес. Пользователь просит агента просмотреть почту. Агент обрабатывает вредоносное письмо и сливает конфиденциальные данные. Такие инструкции могут встретиться где угодно: в письмах, документах, на форумах, в соцсетях. О похожей атаке мы рассказывали в одном из материалов.

Для поиска новых атак в OpenAI разработали автоматизированного атакующего на основе LLM. Во время работы он предлагает новые атаки и отправляет их в симулятор. Симулятор показывает, как поведёт себя агент-жертва. Система получает трассировку действий, использует это как фидбэк и улучшает атаку. Цикл повторяется несколько раз.

Метод подходит для поиска атак, которые заставят агента выполнить сложные вредоносные действия вроде отправки писем или банковских транзакций. По мере развития моделей атакующий становится сильнее.

OpenAI показала ещё один пример: атакующий помещает в почту письмо с инструкциями отправить заявление об увольнении руководителю. В один из разов, когда пользователь просит написать автоответ об отсутствии на месте, ИИ-агент находит вредоносное письмо и отправляет заявление на увольнение от имени пользователя. Такой сценарий был найден системой OpenAI, и агент успешно нашёл попытку внедрения вредоносных действий.

Специалисты OpenAI отметили, что злоумышленники будут адаптироваться. Внедрение промптов через фишинг и социальную инженерию вряд ли полностью исчезнет. Компания рекомендует пользователям:

  • использовать режим без авторизации, когда доступ к аккаунтам не нужен;
  • проверять запросы на подтверждение важных действий;
  • давать агентам чёткие инструкции и избегать размытых промптов.

Важное по теме
Что почитать CIOs: 8 книг о бизнесе для ИТ-руководителей
Мастерская
Читать 3 минуты
06.01.2026
Обзор лучших книжных новинок
Новогодний киносеанс: топ-7 фильмов об информационной безопасности и хакерах
Тренды
Читать 4 минуты
02.01.2026
От вечно актуальной киноклассики до громких новинок последних лет
Новости
Читать 3 минуты
30.12.2025
Пятимесячная кампания была нацелена на отделы продаж в США и Европе
Оставьте комментарий
Доступно для авторизованных пользователей
1/1000