Aus dem Internet-Observatorium #48
Google I/O wird Google A/I / Die Open-Source-Chance / Assistenzsysteme und Privatsprachen / Bluesky vs. Mastodon
Hallo zu einer neuen Ausgabe! Es ist spät, nebenbei läuft bei mir die PK zur Ministerpräsidentenkonferenz auf dem Schirm und hier ist der Newsletter für diese Woche.
(Meme via)
Google I/O wird Google A/I
Die Google I/O lief in den vergangenen Jahren so nebenbei. Man stellte ein paar Standard-Updates für Android vor, gab noch ein bisschen Task-Automatisierung und irgendein Hardware-Upgrade dazu, konnte sich auf Hype-Artikel von den Steven Levys dieser Welt verlassen und verdiente kehrte dann zurück in die Firmenzentrale, um sein Geld weiterhin mit Suche und YouTube-Prerolls zu verdienen.
Heute war das etwas anders. Man könnte die Veranstaltung auch als Aktienkursstabilisierungs-I/O bezeichnen: Der Druck auf Alphabet, Meta und auch einige Firmen aus der zweiten Reihe ist im Zuge der Hysterie um generative KI groß. Entsprechend war “AI” in jedem zweiten Satz zu hören und wurde selbst in den banalsten Zusammenhängen erwähnt (zum Beispiel bei Google-Produkten, die schon seit einem halben Jahrzehnt mit Mustererkennung arbeiten).
Für die Berichterstattung verweise ich auf The Verge. An dieser Stelle ein paar Notizen:
Dass Google die (derzeit nur im Lab-Modus einsehbaren) AI-Antworten “AI Snapshots” mit Links zeigt, lässt sicher die SEO-Gemeinde weltweit aufatmen (und ist ja auch logisch, wenn Google sein Geschäftsmodell retten möchte). Allerdings würde ich mein Geld nicht darauf verwetten, dass SEO wie wir es kennen in zwei, drei Jahren noch eine große Rolle spielt.
Es erscheint mir sinnvoll, die Chatfunktion (Bard) von der Kernsuche getrennt zu halten und auch in den “AI Snapshots” auf strukturierte Informationen zu setzen. Damit gewinnt man auch Zeit, den Anteil von Bard-Halluzinationen zu senken (P.S: Die User Experience des Bing-Chatbots ist furchtbar, wer hat das designt???).
Watermarking von Bilder, die mittels generativer KI erstellt wurden: Nicht selbstverständlich, denn de facto dürfte das Nutzer auch abschrecken. Aber verantwortungsbewusst, wenn man hier Branchenstandards setzen möchte.
Ähnlich die Funktionen zur Bild-Überprüfung (Meta-Informationen in der Google-Bildersuche, Upload und Check über Google Lens).
Das vielleicht spannendste Projekt war “Project Tailwind” - der Prototyp eines von KI bewirtschafteten Notizbuchs. Heißt: Ich lade Dokumente hoch oder gebe Google-Dokumente frei, eine KI analysiert das Material und kann dann mit mir darüber chatten (z.B. mich abfragen, Infos zusammenfassen etc.). Das geht in die Richtung dessen, was Wissensdatenbanken wie Notion, Roam Research oder Logseq sein könnten, wenn man die dort gesammelten Informationen mit modernster Mustererkennung und Informationsverarbeitung verknüpft.
Eine gute Beobachtung zur neuen Intransparenz in diesem Bereich:
“Since GPT-2, OpenAI has been moving industrial Deep Learning research towards being more closed, with GPT-4 giving us 0 details and the integration with Bing forcing Google to take LLMs as an existencially (from the point of the company, not humanity) important tech. We've now reached the point where the newest PaLM-2 paper doesn't mention model size, details of model architecture, nor even dataset size Congrats, I guess.”
KI und die Open-Source-Chance
Dazu nochmal passend etwas das (angeblich) interne Google-Dokument mit dem Titel "We Have No Moat, And Neither Does OpenAI". Die Kernthese lautet: Weder Google, noch OpenAI gehört die Zukunft der großen Sprachmodelle. Vielmehr sind es die Open-Source-Entwicklungen, die den Ton angeben werden. Der leitende Entwickler, der das Paper angeblich angeblich verfasst hat, fordert Google sogar zur Zusammenarbeit auf:
“Research institutions all over the world are building on each other’s work, exploring the solution space in a breadth-first way that far outstrips our own capacity. We can try to hold tightly to our secrets while outside innovation dilutes their value, or we can try to learn from each other.”
Diese Analyse ist nicht nur hochinteressant, weil sie von Google kommen soll. Sondern auch, weil seit fast zehn Jahren das Gegenteil galt: Echte KI-Durchbrüche seien nur in den Händen der großen Tech-Konzerne möglich, weil sie a) die notwendige Rechenleistung für das Training der Modelle hätten und b) de facto die Elite des Feldes von den Universitäten weggekauft hatten.
Die beiden Argumente sind dabei korrekt, aber auch inkorrekt: Korrekt in dem Sinne, dass das Leak von Metas LLaMA-Modell im März die Initialzündung und die Grundlage eines zentralen Open-Source-Strangs ist. Ohne Metas Groß-Investment wäre das nicht denkbar (bei Stable Diffusion ist es zugegeben etwas anders). Interessanterweise scheint sich Meta tatsächlich eher Richtung Open Source zu orientieren - zumindest stärker als OpenAI oder Google.
Zumindest nicht vollständig korrekt scheint damit der Hinweis, dass alles vom Zugang zu Rechenkraft alleine abhängt (immerhin lassen sich einige Modelle schon auf dem Laptop feinjustieren). Allerdings gibt es durchaus Kritik an den Aussagen zu den Open-Source-Benchmarks, die in Wahrheit deutlich unter ChatGPT 3.5 liegen.
Was aber ist mit dem “Moat”, also dem Burggraben, der Geschäftsmodell und Marktmacht wasserdicht macht? Für mich scheint es schwer vorstellbar, dass eine Firma auf Open-Source-Basis ohne Nutzerdaten und Nutzerfeedback plötzlich eine Anwendung auf den Markt bringt, die alles in den Schatten stellt. Auch OpenAI benötigte ja einerseits die First-Mover-Advantage und ist andererseits offenbar auf Partnerschaften (siehe Microsoft Bing & Office) angewiesen.
KI, Privatsprache und der Turm von Babel
Venkatesh Rao, dessen Gedankengänge mich oft an den Rand der Vorstellungskraft führen, hat ein weiteres hochspekulatives Essay zu den Folgen unserer technologischen Entwicklung geschrieben. Konkret zur Frage, wie Künstliche Intelligenz unsere Sprache verändern wird. Ausgehend davon, dass die KI-Systeme vor allem mit anderen Systemen “sprechen” bzw. Informationen austauschen werden.
“There is no good reason for the source and destination AIs to talk to each other in human language, compressed or otherwise, and people are already experimenting with prompts that dig into internal latent representations used by the models. It seems obvious to me that machines will communicate with each other in a much more expressive and efficient latent language, closer to a mind-meld than communication, and human language will be relegated to a “last-mile” artifact used primarily for communicating with humans. And the more they talk to each other for reasons other than mediating between humans, the more the internal languages involved will evolve independently. Mediating human communication is only one reason for machines to talk to each other.”
Aus dieser Entwicklung einer eigenen Sprache folgt seiner Meinung nach auch ein fundamentaler Wandel, wie wir mit der Maschine sprechen.
“And last-mile usage, as it evolves and begins to dominate all communication involving a human, will increasingly drift away from human-to-human language as it exists today. My last-mile language for interacting with my AI assistant need not even remotely resemble yours.”
Letztlich also eine Form von individueller Privatsprache. Aus der sich auch die Veränderung der Sprache der Menschen untereinander ergibt - auch sie wird maschinenvermittelt stattfinden.
“If an AI can translate all the world’s information into a more idiosyncratic and solipsistic private language of my own, do I need to be in a state of linguistic consensus with you? If you and I don’t need to share a language to discuss Shakespeare (remember, we already don’t read Shakespeare’s plays in the original Elizabethan), do we need to share a language at all?”
In diesem letzten Punkt - der Privatsprache, die untereinander technologisch vermittelt wird, gehe ich nicht mit. Denn Sprache ist viel mehr als eine Form von Informationsaustausch. Was ich aber durchaus wahrnehme: eine Memefizierung von Sprache, die immer größeres Kontextwissen voraussetzt. Und letztlich im Dialog mit hyperpersonalisierten Assistenzsystem noch stärker auf eine Form von “Kurzbefehl” oder “Referenzsymbol” abschmelzen könnte. Womöglich zu einer Sprache, die durchaus dem ähnelt, was wir heute unter Programmier- bzw. Computersprache verstehen.
Bluesky vs. Mastodon
John Gruber hat den Unterschied zwischen Bluesky und Mastodon so formuliert (bzw. aus dem Internet zitiert):
“Wer Twitter hasst, mag womöglich Mastodon. Die Idee hinter Bluesky ist: Wenn Du Twitter früher gemocht hast, gefällt dir vielleicht Bluesky.”
Damit ist glaube ich alles gesagt. Oder vielleicht doch nicht. Mein Eindruck, ob es jetzt Substack Notes oder Bluesky oder sonstwas ist: Irgendwie ist nur noch Energie zum Broadcasten da. Weil Debatte mühsam ist, weil die DruKo-Eigenmeinung einfacher ist. Das sehe ich zumindest bei den meisten Beiträgen.
Und diese Reduktion auf Broadcasten bei fehlender kommunikativer Zwischenbindung scheinen mir ein Argument dafür zu sein, dass im Moment nicht viel Neues wächst im textbasierten Social Web. Zumindest nicht in dem Maße, wie wir es aus den frühen Zehnerjahren kennen.
Mastodon und die protestantische Ethik
“Mastodon (or at least the bit of Mastodon that I’m familiar with) has the strengths and weaknesses of strong community. Those with the community ethos and identity fit right in, and find it not only welcoming but downright comforting. If you don’t fit in though, all that Gemeinschaftery is a whole other story. Strong communities tend to be really parochial, far more homogenous than they like to acknowledge (minor internal differences loom larger than they ought, because the internal discourse is organized around them) highly sensitive to outside criticism, and wary or hostile towards people who don’t look right.”
Henry Farrell: The Protestant Ethic and the Spirit of Mastodon
Warum noch Mozilla?
Bloomberg Businessweek stellt die Frage, warum Google weiterhin 450 Millionen Dollar bezahlt, um die Default-Suchmaschine im Firefox zu sein. Die wahrscheinliche Antwort: Indem man einen inzwischen irrelevanten Konkurrenten unterstützt, signalisiert man den Kartellbehörden, dass man für einen offenen Markt ist. Und zugleich ist von Mozilla keine Kritik zu erwarten, was die Entwicklung von Web-Standards anbelangt.
Und irrelevant ist der Firefox inzwischen mit seinem Marktanteil von drei Prozent. Und abhängig von Google ist man schon lange: Derzeit sind des 83 Prozent des Umsatzes, der aus besagter Partnerschaft kommt.
Links
Wie Mark Zuckerberg die Tech-Branche in die Metaverse-Wüste führte.
Juristischer Dienst des EU-Ministerrats bestätigt: Chatkontrolle wäre grundrechtswidrig
Wie der US-Kongress versucht, KI zu regulieren.
Nischencontent: Die Idee “Finde 1000 Fans, die dich lieben” ist kaputt.
Bis nächste Woche!
Johannes