Aus dem Internet-Observatorium #41

Unser synthetisches Zeitalter

Mar 01, 2023

Willkommen zu einer neuen Ausgabe! Und gleich ein Hinweis: In den kommenden Wochen erscheint kein Newsletter. Die nächste Ausgabe landet am Ende März in der Kalenderwoche 13 in eurer Inbox.

Thema der Woche: Unsere synthetisches Zeitalter

Am Montag passierte folgendes: Während des Frühdienstes suchte ich ein bisschen zur Demo von Sahra Wagenknecht und Alice Schwarzer rum, sah das Video unten, guckte mir die ersten 25 Sekunden an… und schickte es an meine Frau, da wir beide Mahers Sendung während unserer USA-Zeit regelmäßig verfolgt haben. “Bill Maher erwähnt Sascha Lobo…”

Snicklink @snicklink

GEIL! Legende Bill f***kin Maher redet im US TV über Lobo und Friedensschwurbler! 🥰😍💥 #b2502

Es ist das erste DeepFake-Video, das ich geteilt habe. Mir wurde das gleich danach klar, weil es ab Sekunde 35 inhaltlich unrealistisch wird und auch Lippenbewegungen und Sprechgeschwindigkeit nicht mehr ganz passen (auch am Anfang gibt es einen unnatürlichen Schnitt, aber da muss man konzentriert hingucken).

Das Video dürfte ungefähr den Stand dessen abbilden, was Hobby-Videographer mit Hilfe von Machine-Learning-basierter Software inzwischen fabrizieren können. Das starre Setting von Mahers Sendung macht die Manipulation einfacher.

Ich würde es so formulieren: Synthetischer Content wird smooth. Und wenn jemand wie ich, der das Thema auf dem Schirm hat, darauf reinfällt… wie ist es dann mit denjenigen, die von DeepFakes noch nie etwas gehört haben?

Synthetischer Content wird geschmeidig… ein gutes Stichwort für die TikTok-Filter, die gerade an Popularität zunehmen.

Da wäre der “Teen Filter”: Wir können uns als Teenager betrachten, Reverse-Dorian-Gray-ing sozusagen. Auch wenn viele in ihren jungen Jahren ganz anders aussahen: Die Funktion rührt die alternde Generation X buchstäblich zu Tränen.

memo akten @memotv

Oder “Bold Glamour”: Unser Gesicht, nach dem Schönheitsideal der Kardashian geformt - keine Falten, große Augen, prägnante Augenbrauen und gefüllte Lippen. Der Effekt funktioniert bei Frauen etwas besser als bei Männern.

@soniasofianidou Liebe Mädels, natürlich sehen wir so viel schöner aus. 🥰🫶🏼 #boldglamour #filter #fake #reaction #soniasofianidou #streetinterview #test #fy #fyp #viral

Tiktok failed to load.

Enable 3rd party cookies or use another browser

Ich gehe davon aus, dass auch Facebooks Ankündigung, KI unter anderem für Instagram-Filter einzusetzen, sich in ähnlichen Filter-Effekten zeigen wird.

Es gibt wahrscheinlich mehrere Aspekte, über die wir in der nächsten Zeit Debatten führen werden: Wieder einmal stellt sich die Frage nach dem Schönheitsideal, das besonders an Frauen vermittelt wird - und nach dem psychischen Druck und der Veränderung des Selbstbildes, wenn man seinem synthetischen KI-Abbild nicht entspricht. Allerdings halte ich es nicht für völlig ausgeschlossen, dass diese Filter mit ihrer Androiden-haftigkeit eher zu Ablehnung und einer Abkehr von diesem Beauty-Trend führen werden.

Da ich davon nicht genug verstehe, will ich an dieser Stelle nur kurz diesen aktuellen Text von

Jonathan Haidt

zum Thema “Social Media und die Verbreitung psychischer Krankheiten bei Jugendlichen” hinweisen. Mich aber ansonsten auf den zweiten Punkt beschränken: Nämlich die technischen Implikationen.

Wenn wir in Videos und Video-Gesprächen unser Gesicht nach Belieben morphen können, werden wir uns mit neuen Formen von Echtzeit-DeepFakes beschäftigen müssen. Nicht (nur) im Sinne von “gefälschte Videos mit Prominenten”, sondern rund um betrügerisches Auftreten im Internet-Alltag, Video-Scams, vollständig synthetische “Menschen” auf Plattformen, Grooming.

Damit geht es einmal mehr um Fragen zur Verifizierung von Identität - beziehungsweise Content im weiteren Sinne - in einem immer stärker digital vermittelten Welterlebnis.

Das gilt auch für Audio: Wer vor etwa anderthalb Jahren seine Stimme synthetisieren, also einen “Sprachklon” von sich erstellen lassen wollte, musste zum Beispiel bei Descript erst einmal mehr als 60 Minuten einen vorgegebenen Text vorlesen. Der wurde dann verarbeitet, und am Ende kam eine relativ brauchbare, aber emotionsarme Text-to-Speech-Anwendung raus.

Inzwischen benötigen solche Systeme nur noch wenige und dazu völlig frei formulierte Sprachproben (Vall-E von Microsoft angeblich nur wenige Sekunden), um einen synthetischen Stimmen-Zwilling zu erstellen. Der auch durchaus die Nuancen eines Sprechers erfasst.

Im Musikbereich lässt sich die eigene Stimme bereits in die bekannter Künstler umwandeln. Hier zum Beispiel die Stimme von Kendrick Lamar:

alex medina @mrmedina

in todays iteration of unchecked emerging tech concerns

Vice berichtete jüngst über zwei Vorkommnisse im Audio-Bereich: Ein Vice-Journalist erzählte, wie er über eine gefälschte Audio-Authentifizierung beim Telefonbanking in ein anderes Konto eindrang. Und ElevenLabs, ein Anbieter von Voice-Cloning, kündigte Sicherheitsmaßnahmen an, nach dem auf 4Chan allerhand gefälschte Promi-Audios kursierten (zum Beispiel: Emma Watson liest “Mein Kampf” vor).

Wir werden es also mit einer Menge synthetischen Contents zu tun bekommen, und zwar in einer Unmittelbarkeit, die vermutlich über das Bill-Maher-Video oben hinausgeht. Denn Video und Audio sind natürlich nicht getrennt zu behandeln.

Vielmehr werden wir vermutlich absehbar erleben, wie Hollywood-Möglichkeiten zur Erschaffung künstlicher Personen in die Hände von Hobby-Nutzern wandern. Vielleicht sogar per Prompt-Eingabe.

Womit wir bei Software wie ChatGPT wären. Auch hier geht es um synthetischen Content, aber im Assistenten-Kontext auch um Anthropomorphisierung (siehe Ausgabe #40).

Was mir in diesem Zusammenhang beim Nachdenken über Microsofts “Sydney” noch in den Sinn kam: Reibungslosigkeit. Jene Reibungslosigkeit, die dafür sorgt, dass wir die digitale Unterhaltung oft den Mühen der Fleischwelt vorziehen. Dass wir so häufig per Text oder Sprachnachricht statt im Telefon- oder Videogespräch kommunizieren. Dieses Aussparen unangenehmer oder einfach anstrengender Zwischenmenschlichkeit.

Für diese Reibungslosigkeit sind KI-Chatbots, deren Dialog durchaus auch auf Schmeichelei ausgelegt zu sein scheint, genau die richtigen “Gefährten”.

Was aber passieren könnte, wenn diese Chatbots ein Erfolg und wichtiger Faktor unseres Soziallebens würden: Wirklich menschlicher Kontakt könnte "teurer” werden - im Sinne von “seltener”, “ungewöhnlicher”, “mit höherem Aufwand verbunden”.

Die digitale-vermittelte Unterhaltungswelt unserer Gegenwart wäre damit die Vorstufe einer digitalen Welt in einem Sinne, der so bis vor kurzem noch nicht absehbar war: Nicht nur software-vermittelt, sondern synthetisch. Nicht zwischenmenschlich, sondern mensch-maschinell. Ein Metaverse, das ohne Virtual Reality auskommt. Und in dem die Frage “echt oder falsch?” noch einmal mehr von unserer persönlichen und gesellschaftlichen Bandbreite in Anspruch nimmt, als sie es jetzt schon tut.

Eine unwahrscheinliche Dystopie? Wahrscheinlich. Aber ich habe den Eindruck, dass wir uns gerade mit halsbrecherischer Geschwindigkeit in eine synthetische Zukunft bewegen. Und ich befürchte, wir sind in keinster Weise vorbereitet.

Bis zum 29. März!

Johannes