Перехоплення даних: Perplexity звинувачують у зборі інформації з сайтів, які заборонили AI-сканування
1 min read

Перехоплення даних: Perplexity звинувачують у зборі інформації з сайтів, які заборонили AI-сканування

Стартап у сфері штучного інтелекту Perplexity займається збором інформації з вебсайтів, які чітко вказали на небажання бути сканованими, згідно з даними провайдера інфраструктури інтернету Cloudflare.

У понеділок Cloudflare опублікувала дослідження, в якому стверджується, що стартап ігнорує блокування та маскує свої дії зі збору даних. Гігант у сфері мережевої інфраструктури звинуватив Perplexity в тому, що той приховує свою особу, намагаючись обійти налаштування вебсайтів, зазначили дослідники Cloudflare.

Продукти ШІ на кшталт тих, що пропонує Perplexity, значною мірою покладаються на величезні обсяги даних з інтернету. Стартапи в галузі штучного інтелекту довгий час зборювали тексти, зображення та відео без дозволу, щоб їхні продукти могли функціонувати. Нещодавно вебсайти почали захищатися, використовуючи стандарт Robots.txt, який інструктує пошукові системи та компанії ШІ, які сторінки можна індексувати, а які — ні, але ці зусилля поки результати мають змішані.

Cloudflare вважає, що Perplexity навмисно обходить ці блокування, змінюючи “user agent” своїх роботів — сигнали, що визначають відвідувача сайту за типом пристрою та версією, а також змінюючи свої автономні системи, що є номером, який ідентифікує великі мережі в інтернеті.

“Цю активність зафіксовано на десятках тисяч доменів і мільйонах запитів на день. Ми змогли ідентифікувати цей краулер, використовуючи комбінацію машинного навчання та сигналів мережі”, — йдеться в повідомленні Cloudflare.

Представник Perplexity Джессі Двайер відреагував на допис Cloudflare, охарактеризувавши його як “продажну промову” та додав у листі до TechCrunch, що зроблені скріншоти “показують, що жоден контент не був доступний”. У відповідь на запитання, Двайер стверджував, що бот, згаданий у блозі Cloudflare, “навіть не належить нам”.

Cloudflare повідомила, що спостерігала таку діяльність після скарг клієнтів, які скаржилися, що Perplexity проводить збирання даних із їхніх сайтів, навіть після внесення змін у свої Robots файли для заборони відомих ботів Perplexity. Після цього Cloudflare провела тести і підтвердила, що Perplexity обходила ці блокування.

“Ми зафіксували, що Perplexity використовує не лише свій задекларований user-agent, а й загальний браузер, що маскується під Google Chrome на macOS, коли їхній заявлений краулер був заблокований”, — зазначили в Cloudflare.

Компанія також повідомила, що виключила ботів Perplexity зі свого підтвердженого списку і впровадила нові методи для їх блокування.

Cloudflare нещодавно зайняла публічну позицію щодо AI-сканерів. Минулого місяця компанія оголосила про запуск платформи, що дозволяє власникам сайтів стягувати плату з AI-сканерів, які відвідують їхні ресурси. Генеральний директор Cloudflare Метт Пріст попередив, що AI ставить під загрозу бізнес-модель інтернету, особливо для видавців. Минулого року Cloudflare також запустила безкоштовний інструмент для запобігання збору даних ботами для навчання AI.

Це не перший випадок, коли Perplexity звинувачують у зборі даних без дозволу.

Минулого року новинні агенції, такі як Wired, стверджували, що Perplexity плагіатує їхній контент. Через кілька тижнів CEO Perplexity Аравінд Срінівас не зміг одразу відповісти на питання про визначення плагіату компанії під час інтерв’ю з репортером TechCrunch Девіном Колдуеєм на конференції Disrupt 2024.