Verschleierter Crawler navigiert durch digitale Barrieren.

Perplexity soll Webseiten-Blockaden mit getarnten Crawlern umgehen

Der KI-Antwortdienst Perplexity steht im Verdacht, Webseiten-Blockaden mithilfe von getarnten Crawlern zu umgehen. Laut einem Bericht von Cloudflare soll Perplexity die Anweisungen von Webseitenbetreibern, die den Zugriff über robots.txt oder Firewalls untersagen, gezielt aushebeln. Dieses Vorgehen, das als "Stealth Crawling" bezeichnet wird, hat dazu geführt, dass Cloudflare Perplexity von seiner Liste verifizierter Bots entfernt hat und Schutzmaßnahmen ergreift.

Schlüsselerkenntnisse

  • Perplexity soll Webseiten-Blockaden durch getarnte Crawler umgehen.
  • Das Unternehmen nutzt wechselnde Identitäten und IP-Adressen, um Firewalls zu überlisten.
  • Cloudflare hat Perplexity von seiner Liste verifizierter Bots entfernt und Schutzmaßnahmen implementiert.
  • OpenAI wird als positives Beispiel für transparente und regelkonforme Crawler-Praktiken genannt.

Vorwürfe der Umgehung von Webseiten-Regeln

Cloudflare wirft der KI-Suchmaschine Perplexity vor, heimliche Crawling-Methoden einzusetzen, um die Anweisungen von Webseitenbetreibern zu umgehen. Dies geschieht angeblich, indem Perplexity seine Identität verschleiert, sobald sein offizieller Bot blockiert wird. Grundlage für diese Untersuchung waren Kundenbeschwerden, die berichteten, dass Perplexity trotz expliziter Blockaden in robots.txt-Dateien und spezifischen Firewall-Regeln weiterhin auf ihre Inhalte zugreifen konnte.

Cloudflare deckt Umgehungstaktiken durch Tests auf

Um die Vorwürfe zu überprüfen, führte Cloudflare ein gezieltes Experiment durch. Dabei wurden neue, nicht öffentlich auffindbare Domains erstellt, auf denen eine robots.txt-Datei platziert wurde, die allen Bots den Zugriff untersagte. Zusätzlich wurden die offiziell von Perplexity deklarierten Crawler "PerplexityBot" und "Perplexity-User" per Firewall blockiert. Trotz dieser Vorkehrungen war Perplexity laut dem Bericht in der Lage, detaillierte Informationen über die Inhalte der gesperrten Domains zu liefern. Die Tests zeigten, dass Perplexity die robots.txt-Datei entweder ignorierte oder gar nicht erst abrief.

Getarnte Crawler mit wechselnder Identität

Die Beobachtungen von Cloudflare deuten auf eine zweistufige Vorgehensweise hin. Zunächst versucht Perplexity, mit seinem deklarierten User-Agent auf Inhalte zuzugreifen. Wird dieser blockiert, soll ein zweiter, nicht deklarierter Crawler zum Einsatz kommen. Dieser tarnt sich laut Cloudflare mit einem generischen User-Agent, der einen Google-Chrome-Browser auf einem macOS-System imitiert. Dieser getarnte Crawler soll nicht nur nicht deklarierte IP-Adressen verwenden, sondern diese und sogar die zugehörigen ASNs (Autonomous System Numbers) rotieren, um Blockaden zu umgehen. Diese Aktivität wurde auf zehntausenden Domains mit Millionen von Anfragen pro Tag beobachtet.

OpenAI als positives Gegenbeispiel

Cloudflare stellt diesem Verhalten die Praktiken "gutartiger" Crawler gegenüber, die transparent agieren und die Regeln von Webseitenbetreibern respektieren. Als positives Beispiel wird OpenAI genannt. Das Unternehmen deklariere seine Crawler und deren Zweck klar, respektiere robots.txt-Anweisungen und Netzwerkblockaden. Ein identischer Test mit ChatGPT habe gezeigt, dass der Bot nach dem Abruf der robots.txt-Datei seine Crawling-Aktivitäten einstellte, als ihm der Zugriff verwehrt wurde.

Cloudflare reagiert mit neuen Schutzmaßnahmen

Als Konsequenz hat Cloudflare die Signaturen des getarnten Crawlers in seine verwalteten Regeln zum Blockieren von KI-Crawlern aufgenommen. Diese Regel steht allen Kunden zur Verfügung, auch denen mit kostenlosen Tarifen. Kunden, die bereits Bot-Management-Regeln zum Blockieren oder Herausfordern von Anfragen nutzen, seien bereits geschützt. Cloudflare erwartet, dass sich die Techniken von Bot-Betreibern weiterentwickeln werden, und arbeitet nach eigenen Angaben mit Experten an der Standardisierung von Crawler-Verhalten, etwa durch Erweiterungen für robots.txt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like