Aus dem Internet-Observatorium #99

Perplexity, Apple und der große Crawl

Juni 26, 2024

Hallo zu einer neuen Ausgabe! Trotz Sitzungswoche nicht nur pünktlich, sondern sogar vor 20 Uhr (*slowclap*).

Perplexity, Apple und der große Crawl

Die KI-Antwortsoftware Perplexity.ai habe ich einmal als Modell der “Suche von morgen” bezeichnet. Zwar hat sie dieses Versprechen noch nicht eingelöst, aber immerhin eine sehr begeisterte Gruppe von Early Adoptern angezogen. Und wer hat nicht Sympathien für eine Software, die eine (mit ordentlich Risikokapital ausgestattete) Alternative zu Google Gemini, Chat-GPT und all die anderen Milliardenprojekten darstellt?

In den vergangenen Wochen und Monate hat der Ruf von Perplexity allerdings gelitten: Immer wieder wurde vermutet, dass der Kern des Produkts aus einer Auswertung von Suchergebnissen und Anfragen an diverse LLMs besteht, es sich im Kern also eher um einen Wrapper mit schöner Bedienoberfläche handelt (allerdings gibt es Lob für die Begleit-Algorithmen der Pro-Version).

Anfang Juni dann meldete Forbes, dass der Dienst für die neue Funktion “Perplexity Pages” Informationen aus mehreren Artikeln ohne Quellenangabe zusammengefasst und diese sogar per Pushmitteilung verschickt und per KI vertont habe. Daraufhin korrigierte Perplexity die Funktion, nun sollen Quellen verlinkt werden.

Nun aber berichtert Wired, dass Perplexity den Web-Standard der robots.txt (Crawler-Stop) ignoriert habe, um Informationen aus Artikeln einzusaugen. Zudem hätte Perplexity falsche User-Agenten, also quasi Crawler ohne nachweisbaren Absender, auf mehrere Seiten des Verlags geschickt.

Zitat aus dem besagten Artikel (übersetzt und gefettet):

“Wired überprüfte, dass die fragliche IP-Adresse mit ziemlicher Sicherheit mit Perplexity in Verbindung steht, indem es eine neue Website erstellte und deren Serverprotokolle überwachte. Unmittelbar nachdem ein Wired-Reporter den Perplexity-Chatbot aufgefordert hatte, den Inhalt der Website zusammenzufassen, protokollierte der Server, dass die IP-Adresse die Website besucht hatte. Dieselbe IP-Adresse wurde erstmals von Knight bei einem ähnlichen Test beobachtet. (…)
Theoretisch sollte der Chatbot von Perplexity nicht in der Lage sein, WIRED-Artikel zusammenzufassen, da unsere Ingenieure seinen Crawler seit Anfang des Jahres über unsere robots.txt-Datei blockiert haben.”

Perplexity-Chef Aravind Srinivas argumentiert, man selbst halte sich die robots.txt. Es sei der Crawler eines kooperierenden Unternehmens gewesen, der solche direkten Suchanfragen (im Sinne von “Indexiere, was auf dieser Website steht steht”) durchführt. Ob es sich bei dem Unternehmen um eine Suchmaschine handelt, lässt er offen.

Selbst wenn er die Wahrheit sagen sollte, ergibt sich daraus ein Problem: Denn wenn Perplexity sagt, man crawlt keine Seiten mit robots.txt-Einschränkungen, dies dann einfach über einen Drittanbieter macht, lügt die Firma zwar nicht, aber handelt unredlich.

Allerdings, und jetzt wird es noch komplizierter: robots.txt ist kein Gesetz, sondern eine Konvention. So setzt sich zum Beispiel das Internet Archive seit 2017 bei Nachrichtenseiten darüber hinweg, und zwar mit der Begründung, man archiviere Artikel-Versionen, um mögliche Änderungen zu tracken. Handhabe dagegen gibt es keine (und in diesem Fall ist das Argument auch durchaus einleuchtend).

Ein weiterer Punkt: robots.txt betrifft meines Erachtens nach die klassischen Crawler-Aktivitäten, nämlich von Website zu Website zu springen, den verlinkten Artikeln zu folgen und diese samt Inhalt automatisch zu indexieren. Was die Wired-Leute ausprobiert haben, ist eine direkte Anfrage im Sinne von “Sag mir, was auf dieser Seite steht” - das ist etwas anderes.

Hier wird es dann übrigens wirklich rechtlich interessant, denn die Perplexity-Zusammenfassung erhielt offenbar direkte, aber nicht gekennzeichnete Zitate (a.k.a. Plagiate), was wiederum urheberrechtliche Fragen aufwirft (Forbes hat bereits eine Klage angekündigt). Und es bleibt bei dem Konflikt: Publisher X möchte nicht, dass Perplexity seine Seiten verwendet, Perplexity tut es trotzdem.

Und damit zurück zum bekannten Grundproblem: Das quasi ungeregelte Crawlen von öffentlich zugänglichen Webseiten durch etablierte und neue Anbieter großer Sprachmodelle (LLMs), um mit dem gesammelten Material ihre LLMs zu trainieren. Wenn man dem Copyright-Startup TollBit glauben mag, ignorieren mehrere KI-Agenten trotz gegenteiliger Aussagen immer noch robots.txt und indexieren die Inhalte von Medien-Angeboten. Zitat (übersetzt):

“In der Praxis bedeutet dies, dass KI-Agenten aus verschiedenen Quellen (nicht nur von einem Unternehmen) das robots.txt-Protokoll umgehen, um Inhalte von Websites abzurufen. (…) Je mehr Publisher-Logfiles wir einlesen, desto deutlicher wird dieses Muster.”

Dass massenhaft gecrawlt wird und wurde, ist Teil des KI-Booms. So erwähnt Apple im Marketing-Material zu seiner jüngst vorgestellten “Apple Intelligence” (übersetzt und gefettet):

“Wir trainieren unsere Basismodelle auf lizenzierten Daten, einschließlich Daten, die zur Verbesserung bestimmter Funktionen ausgewählt wurden, sowie auf öffentlich verfügbaren Daten, die von unserem Web-Crawler AppleBot gesammelt wurden.”

Der AppleBot hat das Internet also schon durch. Deshalb wirkt es ziemlich wohlfeil, dass ab sofort jeder Webseiten-Betreiber den Bot aussperren kann (“AppleBot-Extended”). Und das Material, das bereits eingesaugt wurde? John Gruber fordert (übersetzt und gefettet):

“Apple sollte klarstellen, ob sie planen, die öffentlichen Daten, die sie für das Training verwendet haben, neu zu indizieren, bevor Apple Intelligence diesen Sommer in der Beta-Version ausgeliefert wird. Es ist klar, dass eine Website, die Applebot-Extended verbietet, ihre Daten nicht in Apples Trainingskorpus haben sollte, nur weil Applebot sie gecrawlt hat, bevor Apple Intelligence überhaupt angekündigt wurde. Es ist fair, dass öffentliche Daten auf einer Opt-Out-Basis ausgeschlossen und nicht auf einer Opt-In-Basis einbezogen werden, aber Apple hat seine Modelle auf dem öffentlichen Web trainiert, bevor es eine Opt-Out-Möglichkeit überhaupt ermöglichte.”

Bekanntermaßen befinden sich derzeit Medienseiten weltweit in Verhandlungen mit KI-Anbietern, ihre Texte zu lizenzieren. Federico Viticci weist auf das Ungleichgewicht hin, das sich hier erkennbar wird (übersetzt):

“Als Urheber und Inhaber einer Website kann ich mich mit diesen Dingen nie anfreunden. Warum sollten wir akzeptieren, dass bestimmte Datensätze eine Lizenzgebühr erfordern, aber alles, was "im offenen Web" zu finden ist, von einer KI gedankenlos ausgewertet, analysiert und wieder ausgekotzt werden kann? Web-Publisher (und heutzutage vor allem Indie-Publisher, die sich keine Gerichtsverfahren oder die Beauftragung von Anwaltskanzleien für teure Verträge leisten können) haben etwas Besseres verdient.”

Darin schwingt etwas mit, was James Shelley schon vor einigen Monaten etwas so präzise wie ernüchtert zusammengefasst ha. Der Titel seines Textes ist selbsterklärend: “What’s the fun in writing on the internet anymore?”. Hier eine übersetzte Passage (Fettungen meine):

“Zusammenfassend lässt sich sagen, dass es das Schicksal der Wörter im Internet ist, umschrieben zu werden. Neue Tools wie Perplexity.ai antworten auf Fragen mit ausführlichen Antworten, ohne dass die Nutzer die Website verlassen müssen. Mit anderen Worten: Die Suche selbst wird zur Bereitstellung von Paraphrasen und Zusammenfassungen. Die Zeiten, in denen man sich durch "Suchergebnisse" wühlen musste, um eine bestimmte Quelle zu finden, sind vorbei. Von nun an sind digitale Wörter kaum mehr als Rohdaten, die von Drittanbietern verarbeitet und bereitgestellt werden.
Die "moralischen Rechte" des Autors. Das Urheberrecht. Namensnennung. Wir haben uns daran gewöhnt, diese Konzepte als selbstverständlich zu betrachten, aber im Zeitalter von KI und Paywalls verlieren sie schnell an praktischer Bedeutung. Wer sich heute die Mühe macht, seine Worte online zu verfassen, muss mit ansehen, wie sie von jemand anderem aufgesaugt, weiterverwendet und oft zu Geld gemacht werden. Man fühlt sich ein wenig wie in einer digitalen Einöde, die von Piraten überrannt wird und in der Armeen von Robotern alles zu einem klebrigen Cocktail aus digitalem Schlamm verschlingen.”

Ich hatte mich mit den Folgen für den Journalismus in Ausgabe #77 länger auseinandergesetzt. Aber es geht eben nicht nur um den “professionellen” Content. Sondern um die Erosion des freien Internets insgesamt, um die völlige Einbindung der dortigen Inhalte in ein System, das Wertschöpfung einmal mehr in die Hände der Wenigen umleitet.

Wie ein digitalgesellschaftliches oder ökonomisches Modell aussieht, dass diesen Konflikt auflöst oder zumindest abmildert: Wirklich klar erkennbar ist das noch nicht. Wir haben uns auf den Plattformen daran gewöhnt, dass unser Content den Inhabern gehört; nun scheinen wir es auch im freien Web damit abzufinden, dass wir letztlich vor allem Maschinenmaterial produzieren. Google und sein Quasi-Monopol in Sachen Auffindbarkeit haben hier sicher Vorarbeit geleistet - aber der Deal dort war immerhin mit dem Versprechen von Sichtbarkeit und Website-Besuchen verknüpft.

Am einfachsten scheinen noch die technischen Fragen rund um Robots.txt Lösungsvorschläge. So fordert der Software-Entwickler Andrea Grandi für das KI-Zeitalter ein Update für Robots.txt. Konkret sollte es um folgende Konventionen erweitert werden:

Indizierung: Soll ein Webcrawler in der Lage sein, den Inhalt zu indizieren?
Caching: Soll ein Webcrawler den Inhalt zwischenspeichern können?
LLM-Training: Soll ein Webcrawler den Inhalt zum Training eines Sprachmodells verwenden können?
Zusammenfassen: Soll ein Webcrawler in der Lage sein, den Inhalt zusammenzufassen?

Das wäre zumindest schon einmal ein Anfang.

I Will Fucking Piledrive You

Diese Abrechnung mit dem Hype rund um generative KI ging vergangene Woche viral - offensichtlich, weil sie vielen Menschen aus dem Informatik- und Digitalisierungsbereich aus der Seele spricht. Hype führt zu sinnlosen Projekten führt zu sinnlosen Ergebnissen. Oder auch: KI und LLMs sind nicht dasselbe. Aber LLMs haben das bessere Marketing (okay, Journalisten tragen daran eine Mitschuld).

Wie dem auch sei: Die Frage, zu welchen Projekten das berühmte “Wir müssen etwas mit KI machen” führt, ist wirklich interessant. Denn hier zeigt sich ja letztlich, wer in seiner Organisation gute, realitätsbasierte Digitalisierung macht. Oder einfach auf einer Welle mit schwimmt.

Bei Reddit formuliert es ein erfahrener Machine-Learning-Experte so (übersetzt):

“Ich glaube, viele Unternehmen wissen gar nicht, was sie damit anfangen wollen. Bei den wichtigsten Fähigkeiten in der KI-Entwicklung geht es nicht um LLMs oder maschinelles Lernen. Es geht um Projektmanagement, das verhindert, dass die Consultants deine Firma in den Ruin treiben, während sie an irgendeiner Sache herumfummeln, weil die Verantwortlichen nicht klar artikulieren konnten, was sie sich am Ende überhaupt erhoffen.”

Notizen

Chatkontrolle vertagt Weil es keine Mehrheit gab, hat die belgische Ratspräsidentschaft die Abstimmung der EU-Botschafter über die Chatkontrolle vorerst verschoben. Ab Juli will sich allerdings die ungarische Ratspräsidentschaft des Themas annehmen. Wie wir allerdings auch noch beim Thema IP-Vorratsdaten feststellen werden: Die Zeichen stehen auf eine Priorisierung von Sicherheit um (fast) jeden digitalen Preis.

Apple vs. EU Die EU-Kommission rückt Apple mit dem DMA auf die Pelle (siehe auch Ausgabe #88), Apple wiederum erklärt, wegen des DMA “Apple Intelligence” erst später nach Europa zu bringen. Ben Thompson weist mit Recht darauf hin, dass es sich bei Letzterem nicht um eine Trotzreaktion handelt, sondern um eine legitime Sorge. Nehmen wir das Beispiel das angekündigte “iPhone Mirroring”, bei dem ich künftig mein iPhone über den Mac kontrollieren kann. Sieht die EU das als macOS-Funktion (kein Gatekeeper) oder iOS-Funktion (Gatekeeper nach DMA)? Wäre Letzteres der Fall, wäre es theoretisch notwendig, dass sich iOS auf allen anderen Laptop-Betriebssystemen spiegeln lässt. Und das ist nur eines der vielen Beispiele, bei denen Apple künftig mit seinem Geschäftsmodell der vollständigen Integration von Software, Hardware und Geräteklassen an die Grenzen des DMA stoßen wird.

Ausweisung nach Terror-Verherrlichung Wer hier lebt, keinen deutschen Pass hat und in den sozialen Medien Terror verherrlicht, soll künftig ausgewiesen werden können. Diesen Plan hat heute die Bundesregierung beschlossen. Dass darunter laut Formulierungshilfe auch Likes genannt werden, Innenministerin Nancy Faeser diese aber explizit ausklammert, ist nur eine der vielen Fragezeichen. Rufen künftig die Ausländerbehörden beim BKA an, ob jemand aus dem eigenen Aktenstapel auffällig geworden ist. Oder umgekehrt? Oder soll einmal mehr mit der Ausweitung des Hatespeech-Gebiets eine Abschreckung erreicht werden, deren Effekt sich am Ende in Grenzen hält? Die Ampel-Fraktionen, die aus diesem “Wir-tun-jetzt-etwas”-Gesetzesvorschlag ein brauchbares Gesetz machen müssen, sind nicht zu beneiden.

Benjamin Labatuts KI-Essay Butlers Dschihad aus Dune, die hinduistischen Veden, der Gottesglaube von George Boole und die Sorge vor einer weltbeherrschenden Maschinenintelligenz, die Booles Ururenkel Geoffrey Hinton inzwischen umtreibt: Das alles findet Platz in Benjamin Labatuts Harpers-Essay über Künstliche Intelligenz. Ein bewusstseinserweiterndes Stück Literatur.

1 Zitat

Bradford DeLong (übersetzt):

“Bislang bedeutet "KI" riesige Gewinne für Nvidia, da nur Google und Apple der Falle entkommen sind, Nvidia jeden Preis zu zahlen, nur weil man nicht sechs Monate damit verlieren möchte, einen alternativen, billigeren Hardware-Software-Stack zu entwickeln - und dabei womöglich zu scheitern.
Bisher ist “KI" eine Software-Firma, die feststellen muss, dass sie in Modelltraining, Kosten für Rechenzentren und Elektrizität investieren muss, nur um ihr bestehendes Oligopol zu schützen. Nennenswerte zusätzliche Einnahmen erzielt sie dadurch nicht.
Und derzeit ist "KI " ein Haufen von Start-ups ohne Geschäftsmodelle, die für ein paar Jahre am Leben gehalten werden, um dann von Open AI, Microsoft oder Google gesherlockt zu werden - oder einfach von ihnen aufgekauft. IMHO ist es sehr wahrscheinlich, dass Google mit KI Geld verdienen wird, weil es die Nvidia-Steuer nicht zahlen muss. Es ist sehr wahrscheinlich, dass Apple mit KI Geld verdienen wird, weil es Geräte verkaufen wird, für die es keine Nvidia-Steuer zahlen muss, und weil die Nutzer die Stromkosten tragen. Und Microsoft und OpenAI könnten richtig Geld verdienen.
So sehen für mich im Moment die Finanzen aus. Aber was bedeutet das alles für die Technologie und den kollektiven Wohlstand der Menschheit? Ich habe noch nicht einmal die kleinste Ahnung."