Руководство по предотвращению парсинга веб-страниц

Соучредитель и генеральный директор Fingerprint Дэн Пинто погружается в шумиху вокруг парсинга веб-страниц, его юридические и этические последствия, а также стратегии для бизнеса по защите своих данных от парсеров-ботов.

Сбор данных, особенно веб-сборов, занимает умы технологических лидеров, регулирующих органов и защитников прав потребителей. Лидеры дюжины международных групп по надзору за конфиденциальностью направили в социальные сети заявление с призывом защитить информацию пользователей от парсеров-ботов. Тем временем компания X Corp (ранее известная как Twitter) подала в суд на четырех неназванных лиц за очистку ее сайта. Google и OpenAI также сталкиваются с судебными исками за нарушение конфиденциальности и авторских прав, связанных с парсингом веб-страниц.

Сбор данных не является противозаконным. Это большой бизнес. Эксперты ожидают, что рыночная стоимость программного обеспечения для парсинга веб-страниц достигнет почти 1,7 миллиарда долларов к 2030 году по сравнению с 695 миллионами долларов в 2022 году. Парсинг может быть полезен, позволяя нам отслеживать цены на авиабилеты или сравнивать продукты на разных сайтах. Компании используют его для сбора исследований рынка или агрегирования информации. Популярные модели больших языков (LLM), такие как Bard и ChatGPT, обучаются на очищенных данных.

Парсинг веб-страниц существует уже много лет. Так почему же это слово стало модным и вызывает столько беспокойства? И что может сделать бизнес, чтобы предотвратить это?

Начнем с основ. Веб-скрапинг обычно использует ботов для извлечения информации с веб-сайтов. Эта практика имеет множество применений, от полезных до печально известных.

Веб-скрапинг отличается от веб-сканирования. Поисковые системы используют веб-сканеры для индексации веб-страниц и предоставления результатов поиска пользователям, которые переходят по ссылке на источник. Очистка данных включает в себя извлечение данных со страницы и использование их в другом месте. Если использовать аналогию: сканирование составляет список библиотечных книг, которые нужно проверить. Соскребаю копии книг, чтобы забрать их домой.

С другой стороны, парсинг ИИ попадает в серую зону, поскольку он не возвращает ценность создателю исходного контента. Чем больше оторван поток ценности от первоначального автора, тем более неэтично сбор данных.

См. также: Борьба с фишингом и атаками, скомпрометировавшими деловую электронную почту

Мы все, вероятно, видели веб-скрапинг на сайтах поиска туристов, списках недвижимости, агрегаторах новостей и многих других. Однако популярность генеративного искусственного интеллекта выдвигает на передний план проблемы. Инженеры обучают эти модели на данных, включая личную информацию и интеллектуальную собственность, полученную из Интернета. LLM может копировать конфиденциальную информацию без указания автора. Эксперты полагают, что эти проблемы с авторским правом перейдут в Верховный суд США.

Кроме того, скейперы становятся более продвинутыми. Хотя парсинг технически не считается нарушением данных, многие злоумышленники используют информацию во зло, в том числе:

Даже скребки с благими намерениями создают волновой эффект. Боты потребляют пропускную способность при каждом посещении веб-сайта, что приводит к увеличению времени загрузки, увеличению затрат на хостинг или сбоям в обслуживании. И любой полученный дублированный контент может нанести вред поисковой оптимизации.

Политики и правительственные учреждения в настоящее время рассматривают вопрос о том, как поставить ограничения на парсинг-ботов. Однако недавние постановления предполагают, что правила могут предоставлять ботам доступ к общедоступной информации.

Независимо от этических вопросов, предприятия могут решать, какие данные предоставлять.

Заблокировать 100% попыток парсинга невозможно. Вместо этого ваша цель должна состоять в том, чтобы усложнить доступ парсеров к вашим защищенным данным. Вот как.

Боты отправляют множество сигналов, которых нет у людей-пользователей, включая ошибки, переопределения сети и несоответствия атрибутов браузера. Интеллектуальные устройства распознают эти сигналы, чтобы распознать потенциальных парсеров. Боты также действуют иначе, чем люди. Аналитика устройств помогает отслеживать поведение посетителей, чтобы отмечать подозрительные действия, такие как многочисленные попытки входа в систему или повторные запросы одной и той же информации.

На самом деле, предприятия должны объединить несколько функций безопасности, чтобы создать достаточные препятствия для ботов. С ростом сложности парсеров средства защиты требуют частых обновлений для поддержания эффективности.

Новости