Perplexity звинувачують у зборі інформації з сайтів, які заборонили AI-сканування

Стартап у сфері штучного інтелекту Perplexity займається збором інформації з вебсайтів, які чітко вказали на небажання бути сканованими, згідно з даними провайдера інфраструктури інтернету Cloudflare.

Perplexity незаконно збирає інформацію з сайтів чи ні

У понеділок Cloudflare опублікувала дослідження, в якому стверджується, що стартап ігнорує блокування та маскує свої дії зі збору даних. Гігант у сфері мережевої інфраструктури звинуватив Perplexity в тому, що той приховує свою особу, намагаючись обійти налаштування вебсайтів, зазначили дослідники Cloudflare.

Продукти ШІ на кшталт тих, що пропонує Perplexity, значною мірою покладаються на величезні обсяги даних з інтернету. Стартапи в галузі штучного інтелекту довгий час зборювали тексти, зображення та відео без дозволу, щоб їхні продукти могли функціонувати. Нещодавно вебсайти почали захищатися, використовуючи стандарт Robots.txt, який інструктує пошукові системи та компанії ШІ, які сторінки можна індексувати, а які — ні, але ці зусилля поки результати мають змішані.

Cloudflare вважає, що Perplexity навмисно обходить ці блокування, змінюючи “user agent” своїх роботів — сигнали, що визначають відвідувача сайту за типом пристрою та версією, а також змінюючи свої автономні системи, що є номером, який ідентифікує великі мережі в інтернеті.

“Цю активність зафіксовано на десятках тисяч доменів і мільйонах запитів на день. Ми змогли ідентифікувати цей краулер, використовуючи комбінацію машинного навчання та сигналів мережі”, — йдеться в повідомленні Cloudflare.

Представник Perplexity Джессі Двайер відреагував на допис Cloudflare, охарактеризувавши його як “продажну промову” та додав, що зроблені скріншоти “показують, що жоден контент не був доступний”. У відповідь на запитання, Двайер стверджував, що бот, згаданий у блозі Cloudflare, “навіть не належить нам”.

Perplexity обходить блокування

Cloudflare повідомила, що спостерігала таку діяльність після скарг клієнтів, які скаржилися, що Perplexity проводить збирання даних із їхніх сайтів, навіть після внесення змін у свої Robots файли для заборони відомих ботів Perplexity. Після цього Cloudflare провела тести і підтвердила, що Perplexity обходила ці блокування.

“Ми зафіксували, що Perplexity використовує не лише свій задекларований user-agent, а й загальний браузер, що маскується під Google Chrome на macOS, коли їхній заявлений краулер був заблокований”, — зазначили в Cloudflare.

Компанія також повідомила, що виключила ботів Perplexity зі свого підтвердженого списку і впровадила нові методи для їх блокування.

Cloudflare нещодавно зайняла публічну позицію щодо AI-сканерів. Минулого місяця компанія оголосила про запуск платформи, що дозволяє власникам сайтів стягувати плату з AI-сканерів, які відвідують їхні ресурси. Генеральний директор Cloudflare Метт Пріст попередив, що AI ставить під загрозу бізнес-модель інтернету, особливо для видавців. Минулого року Cloudflare також запустила безкоштовний інструмент для запобігання збору даних ботами для навчання AI.

Perplexity незаконно збирає інформацію з сайтів чи ні

Perplexity обходить блокування

Плахотнюк Сергій

Related Posts