ИИ-система Microsoft обошла решение Anthropic в исследовании по кибербезопасности
Мультиагентная ИИ-система MDASH от Microsoft продемонстрировала более высокие результаты в поиске уязвимостей, чем Mythos от Anthropic. Сравнение проводилось на бенчмарке CyberGym (https://www.cybergym.io/), разработанном Калифорнийским университетом в Беркли. В рамках тестирования системы проверяли на 1507 задачах, основанных на реальных уязвимостях из 188 проектов с открытым исходным кодом.
MDASH достигла в нём результата 88,45%, тогда как показатель Mythos составил 83,1%. Результат GPT-5.5 от OpenAI составил 81,8%. В исследовании все участвующие продукты получают одинаковый набор неисправленных уязвимостей. Далее разработчик самостоятельно проводит исследование и сообщает результат организатору. Полученный цифры не проверяют какие-либо независимые эксперты.
Mythos и GPT-5.5 работают на единственной модели, тогда как MDASH является мультимодельной ИИ-системой. В Microsoft заявили, что решение использует более сотни специальных ИИ-агентов, что обеспечивает эффективность их работы. У выполняющих поиск уязвимостей ИИ-агентов в MDASH предусмотрено разделение задач. Они независимо друг от друга ищут уязвимости, а после устраивают «агентсткие дебаты», выясняя, реальна ли найденная проблема и возможен ли её эксплойт. Финальной стадией работы является организация атаки, доказывающая концепцию.
Полученный Microsoft высокий результат в очередной раз вызвал дискуссии о возможных последствиях использования такого инструмента хакерами. В корпорации заявили, что пока MDASH используется исключительно её ИБ-командой для внутренних нужд. Релиз для ограниченного количества корпоративных клиентов в Microsoft планируют в ближайшем будущем.
