ИИ-скрейпинг: сбор данных стал киберугрозой
В 2024 году глава Microsoft AI Мустафа Сулейман взорвал интернет громким заявлением: всё, что публикуется в открытом доступе в сети, может быть свободно скопировано и использовано любым желающим. В качестве примера инструмента для этого он привёл ИИ-скрейпинг, когда боты по заказу «пылесосят» весь нужный контент.
Это процесс использования ИИ для автоматизации извлечения данных с веб-сайтов с целью их более эффективного сбора и обработки. Программа скрейпинга может проходить по страницам сайта, анализировать HTML-код, фильтровать данные и сохранять их в удобном формате, например, в базе данных или таблице. До появления ИИ этот процесс назывался просто веб-скрейпингом или извлечением данных.
Хотя скрейпинг сам по себе не запрещён, он может создавать проблемы, в первую очередь для бизнеса. В числе легитимных сценариев использования: анализ данных, исследования и мониторинг конкурентных цен. Неэтичные сценарии: сбор частных данных, перегрузка серверов или плагиат контента.
По мнению сооснователя цифрового логистического оператора Versta.io Валерия Геленавы, в России сегодня скрейпинг представляет угрозу в первую очередь для правообладателей и владельцев контента. Риски вполне конкретны: неконтролируемое использование материалов, копирование контента, снижение ценности собственных цифровых активов.
За два года масштабы распространения скрейпинга увеличились в тысячи раз. Так, по данным аналитической компании Research Nester, объём рынка ПО для скрейпинга в 2025 году превысил 782,5 млн долларов, к 2035 году он достигнет 2,7 млрд. Данные сетевой инфраструктуры подтверждают тренд: ИИ-боты уже генерируют 4,2% HTML-запросов в интернете, трафик GPTBot вырос на 305% за год, только за пять месяцев Cloudflare заблокировала 416 млрд попыток ИИ-скрейпинга. Россия в этой гонке ботов старается не уступать.
Чем опасен скрейпинг?
Многие ИБ-команды до сих пор воспринимают скрейпинг как проблему назойливых ботов, которую можно закрыть базовыми средствами защиты. Такой подход перестает работать, как только собираемая информация становится основой выручки или конкурентного преимущества. Когда злоумышленники могут беспрепятственно забирать наборы данных, на которых держится бизнес, скрейпинг моментально становится риском уровня совета директоров.
Угрозы скрейпинга эксперты разделяют на несколько групп:
1. Конкуренция. Для российского e-commerce, маркетплейсов, агрегаторов и любых компаний, чья ценность строится на уникальных данных (ценовая аналитика, базы товаров, рейтинги, экспертный контент), скрейпинг означает подрыв конкурентного преимущества. Копирование цен и ассортимента, по словам эксперта по информационной безопасности «Инфосистем Джет» Айнура Абдрахманова, провоцирует демпинг и сокращение маржи. Параллельно растёт риск утечки коммерческой тайны — при слабой защите внешние аналитики получают доступ к внутренним ценам поставщиков и объёмам продаж.
В условиях санкций это критично: данные уходят за рубеж, усиливая позиции иностранных игроков. Конкурент или стартап может за считанные часы скопировать каталог, который формировался годами.
«По сути, происходит бесплатное присвоение результатов чужих инвестиций, когда одна компания снимает сливки с инфраструктуры данных другой, не вложив ни рубля», — говорит ИИ-евангелист Arteziо (входит в группу компаний «ЛАНИТ») Александр Николайчук.
В последнее время добавилась новая угроза — искажение метрик, используемых для анализа действий клиентов. «Получая маленькое значение конверсии, бизнес начинает сомневаться в эффективности маркетинга и тратит дополнительные средства», — отмечает аналитик данных группы развития ML-технологий группы компаний «Солар» Александр Макейкин.
2. Персональные данные. В марте 2021 года в России начал действовать закон, который де-факто запретил скрейпинг общедоступных персональных данных без согласия субъектов. Это значит, что в случае, когда компания становится объектом скрейпинга и через её платформу утекают персональные данные пользователей, ответственность может лечь в том числе и на неё — как на оператора, не обеспечившего надлежащую защиту. При этом с мая 2025 года вступили в силу поправки (ФЗ № 420 от 30.11.2024), которые ужесточили административные штрафы за нарушения законодательства о персональных данных.
3. Инфраструктура. Массированный скрейпинг, по словам Александра Николайчука, по своей нагрузке мало чем отличается от DDoS-атаки. Для компании, у которой веб-сервисы являются критичным каналом продаж или обслуживания, нападение ботов грозит прямыми финансовыми потерями: деградация сервиса для реальных пользователей, рост расходов на инфраструктуру, которая вынуждена обрабатывать паразитный трафик.
Это сказывается и на работе самого ресурса. Проджект-менеджер MD Audit (SL Soft FabricaONE. AI, акционер — ГК Softline) Кирилл Левкин считает, что массовые запросы ботов негативно влияют на доступность сервисов для обычных пользователей.
4. Обучение нейросетей. Легальных и готовых баз данных катастрофически не хватает, поэтому бизнес идёт по пути наименьшего сопротивления — собирает информацию самостоятельно или заказывает скрейпинг у подрядчиков, говорит председатель совета КС НСБ России Игорь Бедеров.
Таким образом контент зеркалится, фактически создаётся продукт, который в перспективе может заменить первоисточник. «Для медиа, образовательных платформ, аналитических агентств это экзистенциальные риски, потому что модели, обученные на их контенте, по сути будут конкурировать с ними же», — говорит Александр Николайчук.
Кроме того, скрейпинг может добавить проблем и из-за регуляторных изменений, говорят эксперты. С 1 марта 2026 года в России вступили в силу ограничения для компаний с иностранным участием на сбор и анализ данных о российских рынках. Это создало правовой вакуум, который быстро заполняют локальные игроки. В то же время бизнес, покупающий «исследования» у сомнительных структур, рискует «попасть под раздачу», если данные были добыты при помощи незаконного скрейпинга.
В целом рисков, которые влечёт за собой скрейпинг, стало существенно больше, и сегодня относиться к скрейпингу как к «проблеме для админов» — значит серьёзно недооценивать ситуацию, отмечает Александр Николайчук.
Боты, сделанные в России
В России скрейпинг вышел на принципиально новый индустриальный уровень, причём в стране растут не только его масштабы, но и качество. Отечественный рынок инструментов для скрейпинга в 2025 году оценивался аналитиками примерно в 180 млн долларов и демонстрирует устойчивый среднегодовой рост в районе 10–15%. «В абсолютных цифрах мы, конечно, уступаем рынкам США или Юго-Восточной Азии. Однако российская специфика — в целях и методах. В России колоссальный сегмент занимает скрейпинг в связке с так называемыми «ботами-пробивщиками» в мессенджерах. Это наша локальная особенность, превратившая скрейпинг в товар массового потребления», — говорит Игорь Бедеров.
Методы сбора информации и обхода защиты от ботов совершенствуются. «Появился новый вид скрейперов, работающих в связке с LLM. Они способны адаптироваться к динамичным XPath и другим подобным защитам, могут анализировать семантику страниц и сразу проводить аналитику, а не возвращать сухие цифры. Правильная настройка такого инструмента позволит имитировать человеческое поведение, что кратно уменьшает вероятность его обнаружения и блокировки», — рассказал Александр Макейкин.
Ещё одно явление — гибридные атаки. Это комбинирование сбора данных с попытками несанкционированного входа. Такой подход кратно увеличивает потенциальный ущерб от одного инцидента, отмечает Айнур Абдрахманов.
Опыт бизнеса: борьба со скрейпингом
Wildberries
Для защиты от скрейпинга и ботов компания использует многоуровневый подход, который сочетает как простые технические, так и более интеллектуальные механизмы, рассказал директор департамента защиты от DDoS-атак Wildberries & Russ Алексей Медошин. Базовые технические методы — это rate limiting и валидация заголовков и сессий. Они позволяют компании отсекать наиболее примитивные и массовые скрипты. Также организация использует челленджи для трафика с аномальным поведением — CAPTCHA и другие интерактивные проверки. Они заметно повышают стоимость автоматизации и хорошо работают против простых ботов.
Ещё одна важная мера — идентификация устройства и окружения. Она использует информацию приложения клиента (браузер, ОС, набор API, поведение JS-движка и т.п.). Это позволяет отличать реальных пользователей от инструментов автоматизации. Кроме того, компания проводит ML-анализ трафика: применяет модели, которые смотрят на паттерны запросов (частота, глубина обхода, последовательность URL, типичные сценарии действий) и выделяют подозрительные «маршруты» по продукту. Это помогает организации обнаруживать более сложных ботов, которые имитируют человеческое поведение.
«Авито»
Для борьбы со скрейпингом в компании применяют мониторинг и фильтрацию аномального трафика, выявляют и блокируют автоматизированные сценарии, рассказал руководитель разработки юнита Firewall Сергей Макаров. Также введены ограничения, которые затрудняют массовый сбор данных для ботов, но не оказывают влияния на опыт обычных пользователей. Детали антибот-механизмов Сергей Макаров не раскрыл по соображениям безопасности, но отметил, что компания регулярно обновляет эти механизмы с учётом меняющихся техник скрейпинга.
«М.Видео»
В этом маркетплейсе для выявления и блокировки сложных автоматизированных ботов, способных обходить базовые защитные механизмы, применяются инструменты сессионного антифрода, рассказал и.о. руководителя отдела мониторинга и защиты информационной безопасности компании Владимир Садовский.
Мнения экспертов: эффективные решения
Сегодня в России и за рубежом, по словам Александра Макейкина, для решения проблемы скрейпинга компании чаще используют ограничения количества запросов, JavaScript с динамической загрузкой данных, блокировки UserAgent и CAPTCHA. Но этих мер, отмечает эксперт, всегда недостаточно. Хотя с помощью такой защиты можно сократить количество скрейперов до минимума, профессиональные разработчики умеют её обходить.
Рекомендации экспертов по борьбе со скрейпингом:
- Разделить все данные по степени важности и сфокусировать усилия разработчиков на их защите. В этом случае у бизнеса получится минимизировать суммарные убытки, считает Александр Макейкин.
- Создание платного API для доступа к ресурсам. Часто пользователи запускают скрейперы, потому что готовы заплатить за эти данные, а бизнес получает чистые метрики и дополнительный доход. Помимо этого, компании могут внедрить модели ML, которые автоматизируют анализ трафика и блокируют скрейперов на ранних стадиях.
- Внедрение DLP и систем анализа трафика нового поколения. Теперь DLP-системы умеют распознавать чувствительную информацию в промптах и блокировать отправку. Это более эффективный путь, чем полная блокировка доступа к зарубежным нейросетям, — сотрудники всё равно находят обходные пути через VPN и личные устройства, а компания лишается инструментов для повышения производительности, считает Игорь Бедеров.
- Собственные закрытые LLM внутри корпоративного периметра. Это идеальный сценарий, но он требует серьёзных затрат. Пока отечественные модели не всегда могут конкурировать по качеству с зарубежными, что провоцирует инженеров рисковать и «ходить налево» в публичные сервисы, отмечают эксперты.
Многие современные боты используют распределённые IP-адреса, маскируются под обычные браузеры или обходят стандартные правила доступа, например, игнорируя robots.txt, говорит Кирилл Левкин. Поэтому эффективность плана защиты от скрейпинга во многом зависит от того, насколько последовательно он реализуется. Защита должна включать мониторинг трафика, регулярный анализ источников запросов и работу с юридическими механизмами защиты данных и контента. В этом случае план действительно может существенно сократить масштаб скрейпинга и связанные с ним риски.