Ein Computer zeigt ein Spinnennetz.

Perplexity soll Webseiten-Blockaden mit getarnten Crawlern umgehen

Der KI-Antwortdienst Perplexity steht im Verdacht, Webseiten-Blockaden durch den Einsatz von getarnten Crawlern zu umgehen. Laut dem Sicherheitsunternehmen Cloudflare verschleiert Perplexity seine Identität, sobald sein offizieller Bot blockiert wird, und verstößt damit gegen etablierte Internet-Normen. Cloudflare hat Perplexity daraufhin von seiner Liste verifizierter Bots entfernt.

Key Takeaways

  • Perplexity soll Webseiten-Blockaden durch getarnte Crawler umgehen.
  • Cloudflare hat Perplexity von der Liste verifizierter Bots entfernt.
  • Perplexity verschleiert seine Identität und nutzt wechselnde IP-Adressen und ASNs.
  • OpenAI wird als positives Beispiel für transparentes Crawling genannt.

Vorwürfe der Umgehung von Webseiten-Regeln

Cloudflare wirft der KI-Suchmaschine Perplexity vor, heimliche Crawling-Methoden einzusetzen, um die Anweisungen von Webseitenbetreibern zu umgehen. Dies geschieht angeblich, indem Perplexity seine Identität verschleiert, sobald sein offizieller Bot blockiert wird. Grundlage für die Untersuchung waren Kundenbeschwerden, die berichteten, dass Perplexity trotz expliziter Blockaden in robots.txt-Dateien und spezifischen Firewall-Regeln weiterhin auf ihre Inhalte zugreifen konnte.

Cloudflare deckt Umgehungstaktiken auf

Um die Vorwürfe zu überprüfen, führte Cloudflare ein gezieltes Experiment durch. Dabei wurden neue, nicht öffentlich auffindbare Domains erstellt, auf denen eine robots.txt-Datei platziert wurde, die allen Bots den Zugriff untersagte. Zusätzlich wurden die offiziell von Perplexity deklarierten Crawler "PerplexityBot" und "Perplexity-User" per Firewall blockiert. Trotz dieser Vorkehrungen war Perplexity laut dem Bericht in der Lage, detaillierte Informationen über die Inhalte der gesperrten Domains zu liefern. Die Tests zeigten, dass Perplexity die robots.txt-Datei entweder ignorierte oder gar nicht erst abrief.

Getarnte Crawler mit wechselnder Identität

Die Beobachtungen von Cloudflare deuten auf eine zweistufige Vorgehensweise hin. Zunächst versucht Perplexity, mit seinem deklarierten User-Agent auf Inhalte zuzugreifen. Wird dieser blockiert, soll ein zweiter, nicht deklarierter Crawler zum Einsatz kommen. Dieser tarnt sich laut Cloudflare mit einem generischen User-Agent, der einen Google-Chrome-Browser auf einem macOS-System imitiert. Dieser getarnte Crawler soll nicht nur nicht deklarierte IP-Adressen verwenden, sondern diese und sogar die zugehörigen ASNs (Autonomous System Numbers) rotieren, um Blockaden zu umgehen. Diese Aktivität wurde auf zehntausenden Domains mit Millionen von Anfragen pro Tag beobachtet.

OpenAI als positives Gegenbeispiel

Cloudflare stellt diesem Verhalten die Praktiken "gutartiger" Crawler gegenüber, die transparent agieren und die Regeln von Webseitenbetreibern respektieren. Als positives Beispiel wird OpenAI genannt, das seine Crawler und deren Zweck klar deklariere, robots.txt-Anweisungen und Netzwerkblockaden respektiere. Ein identischer Test mit ChatGPT habe gezeigt, dass der Bot nach dem Abruf der robots.txt-Datei seine Crawling-Aktivitäten einstellte, als ihm der Zugriff verwehrt wurde.

Cloudflare reagiert mit neuen Schutzmaßnahmen

Als Konsequenz hat Cloudflare die Signaturen des getarnten Crawlers in seine verwalteten Regeln zum Blockieren von KI-Crawlern aufgenommen. Diese Regel steht allen Kunden zur Verfügung. Cloudflare erwartet, dass sich die Techniken von Bot-Betreibern weiterentwickeln werden, und arbeitet mit Experten an der Standardisierung von Crawler-Verhalten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

You May Also Like