Aus dem Internet-Observatorium #61
KI und das MAD-Problem / KI-Standort Deutschland - wo hakt es? (Teil 2) / Referentenentwürfe mit Leerstellen
Hallo zu einer neuen Ausgabe! Die Sommersträhne hält, es mangelt weiterhin nicht an Themen (wenn auch an Zeit).
KI und das MAD-Problem
Vielleicht ein neuer Begriff, den ich lernen sollte? “Model Autophagy Disorder”, kurz “MAD”. Autophagie (von altgriechisch αὐτόφαγος autóphagos “sich selbst verzehrend” bezeichnet den Prozess in Zellen, mit dem sie eigene Bestandteile abbauen und verwerten (Quelle: Wikipedia). Selbstzerstörung, quasi.
Der Name “MAD” ist also geschicktes Marketing der Doktoranden Sina Alemohammad und Josue Casco-Rodriguez (Rice University) für ihr Paper, das ein wiederkehrendes Problem beschreibt: Trainiert man großes Sprachmodelle (LLMs) vorwiegend mit ihrem eigenen Output, liefern sie ziemlich schnell ziemlich schlechte Ergebnisse.
Casco-Rodriguez beschreibt die Folgen im Interview mit Futurism (übersetzt):
"Wenn Sie also unwissentlich synthetische Daten verwenden - das gilt auch für Nutzer, zum Beispiel Menschen, die Bilder erstellen und ins Internet stellen - werden Sie sich wahrscheinlich nicht bewusst sein, dass das, was Sie produzieren, im künftigen Training von generativen Modellen verwendet wird. (…) Wenn Menschen also synthetische Daten produzieren, müssen sie sich dieser Tatsache bewusst sein. Auf Unternehmensseite ist Ihre beste Möglichkeit, etwas wie Wasserzeichen zu verwenden, um synthetische Daten erkennen und vielleicht entfernen zu können."
Ah, ein weiteres Argument für die Kennzeichnung von KI-Content!
Aber zurück zum Thema: Das ist alles ziemlich problematisch, wenn auch natürlich noch nicht strukturell nachgewiesen. Aber es scheint erstmal intuitiv einleuchtend: “Don’t shit where you eat” ist ein guter Ratschlag, im KI-Text könnte er vielleicht in “Don’t shit what you eat” abgeändert werden. Oder, vornehmer formuliert: Irgendwann bleibt von der Fotokopie einer Fotokopie einer Fotokopie einer Fotokopie einer Fotokopie eben nichts Erkennbares mehr übrig.
Gucken wir kurz auf den Input: Berechnungen zufolge könnte Vorrat an hochqualitativem Text für Trainingszwecke im Jahr 2026 erschöpft sein. Zwei weitere Faktoren, die ein (noch nicht etabliertes) MAD-Syndrom begünstigen könnte: Synthetische Daten sind günstiger und im Kontext der Urheberrechtsdebatte könnte ein Teil der vorhandenen Daten wegfallen (allerdings wahrscheinlich inzwischen teilweise schon eingesaugt sein). Spricht das womöglich nochmal mehr für den (finanziellen) Wert von proprietärem, öffentlich nicht zugänglichen Datenmaterial?
P.S: Inzwischen gibt es übrigens schon 408 identifizierte KI-”Nachrichtenseiten”, die ohne menschliche Prüfung synthetischen Content veröffentlichen. Im Mai waren es noch 50. Wer wettet dagegen, dass wir heute in einem Jahr bei 4000 dieser Seiten sein werden?
KI-Standort Deutschland - wo hakt es? (Teil 2)
In Nummer #57 kam Björn Ommer (Stable Diffusion) zu Wort, in dieser Ausgabe ist es:
Uwe Cantner
Der Ökonom ist Professor für Volkswirtschaftslehre an der FSU Jena und Vorsitzender der Expertenkommission Forschung und Innovation (EFI). Die EFI berät die Bundesregierung in Fragen der Innovationspolitik und legt dafür unter anderem ein jährliches Gutachten vor (das aktuelle Gutachten findet sich hier).
Cantners Bilanz: Deutschland hat im Bereich “Künstlicher Intelligenz” lange gute Grundlagenforschung geliefert, aber hat mit dem Umstieg auf neuronale Systeme den Anschluss verloren. Andere Länder wie die USA, China, aber auch Südkorea und Japan sind inzwischen davon gezogen. Cantner macht das vor allem an zwei Indikatoren fest: Der Zahl der wissenschaftlichen Veröffenlichungen und der Zahl der Patente.
Die politischen Maßnahmen, um aufzuholen, bewertet er “nicht 100 Prozent zufriedenstellend”: Als die Große Koalition und die Länder begannen, mehr als Hundert KI-Professuren zu schaffen, sei die EFI skeptisch gewesen. So habe es sich auch bewahrheitet, dass es sehr schwer gewesen sei, die Stellen adäquat zu besetzen. Vor allem aber habe man dadurch den eigentlichen Nachwuchs vernachlässigt, die Doktoranten und Postdocs. Sein Fazit: “Man hat es etwas gemacht, aber man hätte es klüger machen können.”
Inzwischen nimmt Cantner eine Verschiebung wahr: Anders als bei den Ingenieurwissenschaften, Pharmazie oder Biotech entwickle sich die KI-Grundlagenforschung weg aus dem universitären Bereich und hinein in die Unternehmen und Start-ups. Entsprechend müsse man darauf reagieren und das Ökosystem hier gezielt fördern.
“Man muss dafür sorgen, dass junge Unternehmen einen relativ langen Zeithorizont der Förderung bekommen, denn das kann schon ein paar Jahre dauern. Da braucht man eine andere Art von Finanzierungen, Venture-Capital-Finanzierung. Das heißt nicht, dass wir den Transfer abschaffen. Man braucht diese zweite Schiene.”
In diesem Zusammenhang verweist Cantner auf die Aktivierung von Pensionsfonds und bessere Abschreibungen für Risiko-Investitionen. Man brauche ein großes Finanzierungsvolumen und einen langen Atem, denn die Rendite stelle sich womöglich nicht nach drei oder fünf, sondern eher nach zehn, 15 Jahren ein. Auch hier seien die USA Deutschland voraus.
Eine neue KI-Strategie könnte hier bereits helfen, den Rahmen zu setzen. Allerdings kenne er inzwischen die politischen Prozesse gut genug um zu wissen, dass operativ eher die kommende Legislaturperiode (ab 2025) relevant wäre.
Im Kontext Bildung & KI fordert Cantner, die Curricula letztlich so umzubauen, dass KI auf Universitätsebene Teil aller Studiengänge sei - von der Mathematik über die Sozialwissenschaften bis in die Religionswissenschaften. Im schulischen Bereich hält die EFI seit die flächendeckende Einführung von Informatik als Pflichtfach für geboten. Im Kontext KI müssten junge Menschen letztlich früh ins Ausprobieren kommen, sich aber auch mit den positiven wie negativen Konsequenzen der KI-Anwendung auseinandersetzen.
Für die Wirtschaft hält er die Schaffung europäischer Datenräume für unverzichtbar. Daran arbeitet die EU zwar, aber es müsse eigentlich schneller gelingen. Am Ende könnten die EU und Deutschland in der KI Maßstäbe setzen, auch ethisch. Dafür bräuchte es aber Test- und Entwicklungsmöglichkeiten für große Sprachmodelle.
Referentenentwürfe mit Leerstellen
In zwei digitalpolitischen Referentenentwürfen, die jüngst in die Ressortabstimmung gingen, fehlen entscheidende Passagen: Beim KRITIS-Dachgesetz (physischer Schutz kritischer Infrastrukturen) aus dem BMI fehlte ein Paragraph komplett (§13). Ausgerechnet die Passage, die die Vorgabe für den Einsatz kritischer Komponenten bei den Betreibern kritischer Infrastrukturen regeln. Übersetzt: Die Huawei-/China-Passage. Die ist nämlich in der Regierung nicht ganz unumstritten (und es hängen noch ein paar andere Gesetze mit dran).
Bei der Umsetzung des Digital Services Act durch das BMDV (landläufig “Digitale Dienste Gesetz, DGV”) wiederum ist in eckigen Klammern “[ggf. Zuständigkeit weiterer Behörden]” vermerkt. Hier geht es darum, ob neben der Bundesnetzagentur die Landesmedienanstalten, vor allem aber das Bundesamt für Justiz noch Aufsichtsaufgaben bekommt. Das BfJ hat ja bei einigen Teilen des (nun zu ersetzenden) NetzDGs der Vollstrecker und hat dafür auch Personal bekommen. Hier gab es offenbar im Stadium des Arbeitsentwurfs keine Einigung mit dem (ebenfalls FDP-geführten) Justizministerium, das selbstredend das BfJ im Spiel halten möchte. Und in der Länder- und Verbändeanhörung wird es auch nochmal interessant.
Gemeinsam ist beiden Entwürfen, dass Eckpunkte und erste Versionen schon ziemlich lange auf dem Markt waren. Und man sich auf Arbeitsebene ziemlich verhakt hatte.
Ich will aus diesen beiden Fällen jetzt kein allgemeines Urteil über die Qualität der Digitalisierungspolitik ableiten. Ich bin/war bekanntlich auch jenseits der Digitalgesetze von den politikhandwerklichen Fähigkeiten der aktuellen und letzten Bundesregierung nicht besonderes überzeugt. Aber diese beiden Entwurfs-Leerstellen im politischen Sommerloch 2023 sind schon sehr ungewöhnlich, finde ich.
Links
TSMC in Dresden: Erfolge und Grenzen des EU Chips Acts.
China will Bildschirm-Zeit für Kinder und Jugendliche begrenzen.
Vasalle oder Rivale? Die geopolitische Zukunft des KI-Wettrennens.
Abnehmendes Streik-Interesse: Die Reddit-Bosse haben gewonnen.
OpenAI nimmt Webcrawler in Betrieb & stellt Spezifikationen vor.
Spyware: Deep-Learning-Software erkennt 95 Prozent des Getippten am Sound der Tastatur.
Wählerdatenbanken in Großbritannien gehackt
KI und die Sorgen vor einer Start-up-Blase.
Was, wenn der Sex-Roboter “nein” sagt? (€)
Es geht auch ohne Ausbeutung: Datenarbeit in Indien
Pharma-Bro Martin Shkreli steigt ins medizinische Chatbot-Geschäft ein.
“Are you a bot?” Bots beantworten Captchas besser als Menschen.
VanMoof oder: Wenn E-Bike-Funktionen mit einer App verknüpft sind und der Anbieter pleite geht ($)
Elon Musks leere Versprechungen und die Konsequenzen, die Medien daraus ziehen sollten.
Bis zur nächsten Ausgabe!
Johannes