Perplexity w ogniu krytyki. Cloudflare zarzuca firmie AI potajemne scrapowanie danych

Konflikt na linii wydawcy-firmy AI narasta. Dostawca infrastruktury internetowej Cloudflare przedstawił analizę, z której wynika, że wyszukiwarka Perplexity może systematycznie omijać zabezpieczenia witryn internetowych, by pozyskiwać dane do trenowania swoich modeli.

Incydent po raz kolejny uwypukla problem nieautoryzowanego scrapingu i stawia pod znakiem zapytania etykę działania niektórych graczy na rynku sztucznej inteligencji.

Problem nienasyconego apetytu AI na dane jest dobrze znany w branży. Jednak raport Cloudflare rzuca nowe światło na metody, jakimi mogą posługiwać się twórcy modeli językowych.

Firma, będąca jednym z filarów globalnej sieci, zaobserwowała, że boty Perplexity ignorują pliki `robots.txt` oraz reguły zapory sieciowej (WAF) ustawione przez właścicieli stron.

Według analizy Cloudflare, mechanizm działania Perplexity był dwuetapowy. Crawler najpierw próbował uzyskać dostęp do witryny, identyfikując się jako `PerplexityBot`.

Jeśli napotkał na blokadę, zmieniał swoją tożsamość. W drugiej próbie bot przedstawiał się jako standardowy użytkownik przeglądarki Google Chrome na systemie macOS. Taki „ukryty” crawler wykorzystywał rotacyjne, niezadeklarowane adresy IP, pochodzące z różnych sieci systemów autonomicznych (ASN), co znacznie utrudniało jego zablokowanie.

Skala procederu miała obejmować dziesiątki tysięcy domen i miliony zapytań dziennie.

To nie pierwsze tego typu kontrowersje wokół startupu kierowanego przez byłego pracownika OpenAI, Aravinda Srinivasa.

Już wcześniej firmie zarzucano ignorowanie protokołu `robots.txt` i obchodzenie paywalli. Wówczas zarząd tłumaczył sytuację działaniem zewnętrznych dostawców usług indeksowania

Obecne doniesienia podważają te wyjaśnienia i uderzają w wiarygodność Perplexity. W odpowiedzi na swoje ustalenia Cloudflare usunął bota firmy ze swojej listy zweryfikowanych crawlerów i wdrożył dodatkowe zabezpieczenia dla swoich klientów.

Incydent pokazuje, że bez jasnych regulacji i transparentności ze strony firm AI, internet w kontekście pozyskiwania danych coraz bardziej przypomina „dziki zachód”, gdzie wydawcy i twórcy treści stoją na przegranej pozycji w starciu z technologicznymi gigantami.