ChatGPT и DeepSeek пропускают половину уязвимостей в коде

3 мин
31
17 марта 2026

Группа компаний «Солар» проверила, как шесть популярных больших языковых моделей справляются с поиском и исправлением уязвимостей в коде. ChatGPT и DeepSeek пропускают от 40 до 50% багов в приложениях на Java и Python. Для безопасной разработки данный показатель является критичным. Как сообщили изданию «Киберболоид» в пресс-службе ГК «Солар», для полноценной проверки приложения нужно два и более циклов. ФСТЭК России предъявляет свои требования к безопасности кода. Полный цикл занимает от четырёх дней работы одного специалиста по безопасности приложений. Но когда объём разработки растёт, нагрузка тоже кратно увеличивается.

По данным аналитиков, в 2025 году 70% новых корпоративных приложений создавались с помощью low-code/no-code и генеративного ИИ. 87% корпоративных разработчиков уже используют такие платформы. ИИ ускоряет написание кода, но проверка безопасности не выполняется в заданном темпе. Команды сталкиваются с нехваткой специалистов и недостаточной экспертизой.

Когда ресурсов не хватает, в приложениях накапливается технический долг. Стоимость исправления уязвимостей вырастает в 10 раз на поздних стадиях разработки, в 640 раз на этапе запуска и в 1000 раз, если баг привёл к инциденту уже после запуска приложения. Компании начали использовать языковые модели для оптимизации времени и затрат.

Эксперты проверили несколько моделей, испытав их с помощью кода 20 приложений на Python и Java. Каждый проект содержал 100 тысяч строк. По данным ассоциации «Руссофт», доля Java и Python среди основных языков в России составляет 45,4% и 61,8% соответственно.

Для исследования выбрали облачные платформы GigaChat 3 PRO, ChatGPT 5.2 и DeepSeek 3.2, а также локальные версии ChatGPT OSS, Mistral и специализированную DerTriage/DerCodeFix. Аналитики нашли 12 тысяч уникальных срабатываний, из них почти 20% — уязвимости высокой критичности.

В проектах на Java ChatGPT показал 60,9% точности, то есть пропускает около 40% уязвимостей. DeepSeek был точен в 50% случаев. На Python DeepSeek выдал больше 80% точности, а ChatGPT — 52,7%. Среди локальных моделей DerTriage показала свыше 80% точности для обоих языков. Остальные продемонстрировали 66–67%.

Антон Прокофьев, руководитель операционной поддержки Solar appScreener, отметил, что модели оптимизируют время проверки. Но иллюзия скорости на больших проектах создаёт риски пропуска критичных уязвимостей. Облачные модели становятся каналом утечки исходного кода. Эксперт рекомендует использовать локальные модели в закрытом контуре компании.

На этапе исправления уязвимостей для Java ChatGPT показал точность 61,8%, DeepSeek — 45,5%. Для Python показатели составили 46,6% и 44,8%. Локальная DerCodeFix продемонстрировала 78,2% для Java и 83,1% для Python.

Важное по теме
Новости
Читать 2 минуты
17.03.2026
Устройство жертвы также может использоваться для майнинга криптовалюты
Новости
Читать 3 минуты
17.03.2026
Бизнес в РБ будет оперативно получать ту же защиту трафика, что и российские компании
Новости
Читать 3 минуты
16.03.2026
Одна группировка украла у россиян почти 3 млн рублей за месяц
Оставьте комментарий
Доступно для авторизованных пользователей
1/1000