Cloudflare стверджує, що штучний інтелект Perplexity виконує «приховане сканування» заборонених сайтів

AI-компанія Perplexity, яка займається пошуковими технологіями, нібито обходить обмеження, які покликані заважати її веб-краулерам отримувати доступ до певних веб-сайтів, як стверджує звіт від Cloudflare. У цьому звіті йдеться про те, що коли Perplexity стикається з блокуванням, компанія приховує свою ідентичність краулера, намагаючись обійти налаштування веб-сайту.

Цей звіт лише підсилює побоювання щодо того, що Perplexity збирає контент без дозволу, адже минулого року компанію було спіймано на заходах, які нехтують платними стінами та файлами robots.txt. Тоді генеральний директор Perplexity, Аравінд Шрінівас, пояснив цю діяльність третьосторонніми краулерами, які використовуються на сайті.

Зараз Cloudflare, один з найбільших постачальників архітектури Інтернету у світі, повідомляє про скарги від клієнтів, які стверджують, що боти Perplexity все ще отримують доступ до їхніх веб-сайтів, навіть після того, як вони вказали свої побажання у файлі robots.txt та створили правила Заходу з веб-додатків (WAF), щоб обмежити доступ до ботів цієї компанії.

Щоб перевірити цю інформацію, Cloudflare створила нові домени із схожими обмеженнями для краулерів Perplexity. Було виявлено, що компанія спочатку намагається отримати доступ до сайтів, ідентифікуючи себе як «PerplexityBot» або «Perplexity-User».

Але якщо веб-сайт має обмеження для AI-скраперів, Cloudflare стверджує, що Perplexity змінює свій юзер-агент – частину інформації, яка повідомляє веб-сайту, який саме браузер і пристрій використовується, або чи є відвідувач ботом – на вигляд «Google Chrome на macOS». Cloudflare зазначає, що цей «недекларований краулер» використовує «ротаційні» IP-адреси, які компанія не включає у список адрес, використовуваних її ботами.

Крім того, Cloudflare стверджує, що Perplexity змінює свої автономні системні мережі (ASN), що є номером, який використовується для ідентифікації груп IP-мереж, контрольованих одним оператором, щоб обійти блокування. «Цю діяльність було зафіксовано на десятках тисяч доменів і мільйонах запитів на день», – пише Cloudflare.

Представник Perplexity, Джесси Двайер, у коментарі на звіт Cloudflare назвав його «публічним піар-трюком», додавши, що «існує багато непорозумінь у блозі».

Perplexity опублікувала відповідь на своєму веб-сайті, стверджуючи, що Cloudflare змішала 20–25 мільйонів запитів юзер-агентів з AI-скраперами. «User-driven agents діють тільки тоді, коли користувачі роблять специфічні запити, і вони лише отримують контент, необхідний для виконання цих запитів», – зазначає Perplexity. Компанія додає, що Cloudflare «плутала» Perplexity з «3-6 мільйонами щоденних запитів незв’язаного трафіку від BrowserBase», хмарного браузера для AI-агентів, який Perplexity використовує лише «іноді».

Cloudflare відмовила Perplexity у статусі перевіреного бота і впровадила методи для блокування «прихованого краулінгу» компанії.