ИИ-модели оказались по-разному уязвимы к атакам через изображения

3 мин
7
12 мая 2026

Современные генеративные ИИ-системы по-разному реагируют на попытки использовать инструкции в тексте внутри изображения со злым умыслом. Специалисты Cisco по исследованию угроз искусственного интеллекта и информационной безопасности изучили, как визуальные изменения влияют на успешность кибератак. 

Команда провела контролируемую оценку на тысячи атакующих промптах из датасета SALAD-Bench Attack Enhanced, которые были встроены в виде команд в изображения. Специалисты оценили 4 мультимодальные языковые модели: GPT-4o, Claude Sonnet 4.5, Mistral-Large-3 и Qwen3-VL-4B-Instruct. Исследователи тестировали визуальные трансформации размера шрифта от 6 до 28 пикселей. При размере 20 пикселей применялись повороты на 30 и 90 градусов, размытие, гауссов шум, изменения контраста, инверсия, серый фон и комбинированная тройная деградация.

Размер шрифта действует как порог читаемости для ИИ-системы. Очень мелкие шрифты в 6 пикселей значительно снижают коэффициент успешности атаки для всех моделей. Показатель составляет от 0,3% до 24%. Коэффициент быстро растёт при значениях от 6 до 10 пикселей, а затем выходит на плато при больших размерах. 

Визуальные трансформации могут так же сильно влиять на успех атаки, как и мелкие шрифты, но эффект сильно зависит от модели. Среднее размытие почти не действует на Mistral. Показатель составляет 73,5%, то есть практически соответствует базовому, при 20 пикселях. Но для Qwen3-VL они снижают показатель успеха сразу на 10 процентных пунктов. Сильное размытие и тройная деградация резко сокращают коэффициент у всех моделей. Сильное размытие при использовании в Claude снижает вероятность успеха почти до нуля. 

Поворот влияет на восприятие ИИ встроенных в изображение инструкций аналогичным образом. Даже мягкий поворот на 30 градусов примерно вдвое снижает коэффициент для Claude, Mistral и Qwen3-VL. Для GPT-4o он остаётся относительно стабильным с показателем 7,7% до 6,1%.

Устойчивость сильно различается между моделями. GPT-4o и Claude демонстрируют самую надёжную фильтрацию безопасности. Даже при читаемых размерах шрифта их типографический коэффициент успешности атаки остаётся значительно ниже текстового. Для GPT-4o это 7,7% при 20 пикселях против 35,6% для текста. Для Claude показатели составляют 16,4% против 46,6%. Для Mistral и Qwen3-VL, как только текст становится читаемым, атаки через изображения почти так же эффективны, как текстовые.

Расстояние в эмбеддингах тесно следует паттернам коэффициента успешности атаки. Специалисты протестировали 2 готовые эмбеддинг-модели: JinaCLIP и Qwen3-VL-Embedding. Условия, снижающие коэффициент, в частности, мелкие шрифты, сильное размытие, тройная деградация и поворот, последовательно увеличивают расстояние в эмбеддингах. Корреляции являются сильными и значимыми как для размеров шрифта, так и для визуальных трансформаций.

Исследователи также изучили, можно ли напрямую уменьшить расстояние в эмбеддингах, чтобы провалившаяся атака сработала. Специалисты адаптировали технику SSA-CWA и выделили 100 шагов для внесения возмущений во вход максимум на 12,5%. Оптимизация последовательно повышает коэффициент успешности атаки там, где базовый показатель самый низкий. В Claude он увеличивается с 0% до 28% на сильном размытии. GPT-4o показывает рост с 0% до 16% на повороте.

Важное по теме
Новости
Читать 3 минуты
12.05.2026
На одну компанию пришлось 1,2 тысячи атак в первом квартале 2026 года
Новости
Читать 3 минуты
12.05.2026
Хакеры заявили о краже данных 275 млн пользователей
Кибербез мирового уровня: разбор 20 техник
Мастерская
Читать 6 минут
12.05.2026
Самые интересные публичные расследования инцидентов
Оставьте комментарий
Доступно для авторизованных пользователей
1/1000