Главная
Новости
OpenAI защищает ChatGPT Atlas от атак с внедрением промптов

OpenAI защищает ChatGPT Atlas от атак с внедрением промптов

3 мин

114

24 декабря 2025

#OpenAI

#промпт

#CISO

#ИТ-специалисты

#LLM

OpenAI рассказала, как защищает ChatGPT Atlas от атак с внедрением промптов. Компания запустила автоматизированное тестирование на проникновение на основе обучения с подкреплением. Система находит уязвимости агентов до того, как брешью воспользуются злоумышленники.

Агентный режим в ChatGPT Atlas управляет браузером как обычный пользователь. Агент открывает страницы, кликает, вводит текст. Это делает агента потенциально уязвимым к атакам. Суть атаки с внедрением промптов проста. Злоумышленник встраивает вредоносные инструкции в контент. Инструкции заставляют агента действовать по сценарию атакующего, а не пользователя.

Пример: атакующий отправляет письмо с инструкцией переслать налоговые документы на его адрес. Пользователь просит агента просмотреть почту. Агент обрабатывает вредоносное письмо и сливает конфиденциальные данные. Такие инструкции могут встретиться где угодно: в письмах, документах, на форумах, в соцсетях. О похожей атаке мы рассказывали в одном из материалов.

Для поиска новых атак в OpenAI разработали автоматизированного атакующего на основе LLM. Во время работы он предлагает новые атаки и отправляет их в симулятор. Симулятор показывает, как поведёт себя агент-жертва. Система получает трассировку действий, использует это как фидбэк и улучшает атаку. Цикл повторяется несколько раз.

Метод подходит для поиска атак, которые заставят агента выполнить сложные вредоносные действия вроде отправки писем или банковских транзакций. По мере развития моделей атакующий становится сильнее.

OpenAI показала ещё один пример: атакующий помещает в почту письмо с инструкциями отправить заявление об увольнении руководителю. В один из разов, когда пользователь просит написать автоответ об отсутствии на месте, ИИ-агент находит вредоносное письмо и отправляет заявление на увольнение от имени пользователя. Такой сценарий был найден системой OpenAI, и агент успешно нашёл попытку внедрения вредоносных действий.

Специалисты OpenAI отметили, что злоумышленники будут адаптироваться. Внедрение промптов через фишинг и социальную инженерию вряд ли полностью исчезнет. Компания рекомендует пользователям:

использовать режим без авторизации, когда доступ к аккаунтам не нужен;
проверять запросы на подтверждение важных действий;
давать агентам чёткие инструкции и избегать размытых промптов.

Важное по теме

Новости

Читать 3 минуты

10.04.2026

Хакер заявил о краже 10 петабайт данных из китайского суперкомпьютера

Для скачивания ему потребовалось полгода

Новости

Читать 2 минуты

10.04.2026

Банк заплатил за демонстрацию данных одних пользователей другим

Чужие транзакции можно было увидеть в приложении из-за ошибки в ПО

Новости

Читать 3 минуты

10.04.2026

Иранские хакеры атакуют промышленные контроллеры в США

Под ударом оказались энергетика, водоснабжение и госучреждения

Оставьте комментарий

Доступно для авторизованных пользователей

1/1000