ИИ-модели оказались по-разному уязвимы к атакам через изображения
Современные генеративные ИИ-системы по-разному реагируют на попытки использовать инструкции в тексте внутри изображения со злым умыслом. Специалисты Cisco по исследованию угроз искусственного интеллекта и информационной безопасности изучили, как визуальные изменения влияют на успешность кибератак.
Команда провела контролируемую оценку на тысячи атакующих промптах из датасета SALAD-Bench Attack Enhanced, которые были встроены в виде команд в изображения. Специалисты оценили 4 мультимодальные языковые модели: GPT-4o, Claude Sonnet 4.5, Mistral-Large-3 и Qwen3-VL-4B-Instruct. Исследователи тестировали визуальные трансформации размера шрифта от 6 до 28 пикселей. При размере 20 пикселей применялись повороты на 30 и 90 градусов, размытие, гауссов шум, изменения контраста, инверсия, серый фон и комбинированная тройная деградация.
Размер шрифта действует как порог читаемости для ИИ-системы. Очень мелкие шрифты в 6 пикселей значительно снижают коэффициент успешности атаки для всех моделей. Показатель составляет от 0,3% до 24%. Коэффициент быстро растёт при значениях от 6 до 10 пикселей, а затем выходит на плато при больших размерах.
Визуальные трансформации могут так же сильно влиять на успех атаки, как и мелкие шрифты, но эффект сильно зависит от модели. Среднее размытие почти не действует на Mistral. Показатель составляет 73,5%, то есть практически соответствует базовому, при 20 пикселях. Но для Qwen3-VL они снижают показатель успеха сразу на 10 процентных пунктов. Сильное размытие и тройная деградация резко сокращают коэффициент у всех моделей. Сильное размытие при использовании в Claude снижает вероятность успеха почти до нуля.
Поворот влияет на восприятие ИИ встроенных в изображение инструкций аналогичным образом. Даже мягкий поворот на 30 градусов примерно вдвое снижает коэффициент для Claude, Mistral и Qwen3-VL. Для GPT-4o он остаётся относительно стабильным с показателем 7,7% до 6,1%.
Устойчивость сильно различается между моделями. GPT-4o и Claude демонстрируют самую надёжную фильтрацию безопасности. Даже при читаемых размерах шрифта их типографический коэффициент успешности атаки остаётся значительно ниже текстового. Для GPT-4o это 7,7% при 20 пикселях против 35,6% для текста. Для Claude показатели составляют 16,4% против 46,6%. Для Mistral и Qwen3-VL, как только текст становится читаемым, атаки через изображения почти так же эффективны, как текстовые.
Расстояние в эмбеддингах тесно следует паттернам коэффициента успешности атаки. Специалисты протестировали 2 готовые эмбеддинг-модели: JinaCLIP и Qwen3-VL-Embedding. Условия, снижающие коэффициент, в частности, мелкие шрифты, сильное размытие, тройная деградация и поворот, последовательно увеличивают расстояние в эмбеддингах. Корреляции являются сильными и значимыми как для размеров шрифта, так и для визуальных трансформаций.
Исследователи также изучили, можно ли напрямую уменьшить расстояние в эмбеддингах, чтобы провалившаяся атака сработала. Специалисты адаптировали технику SSA-CWA и выделили 100 шагов для внесения возмущений во вход максимум на 12,5%. Оптимизация последовательно повышает коэффициент успешности атаки там, где базовый показатель самый низкий. В Claude он увеличивается с 0% до 28% на сильном размытии. GPT-4o показывает рост с 0% до 16% на повороте.
