LLMs und Co – die vermutlich grösste geistige Ausbeutung- und Enteignungsaktion der Menschheitsgeschichte – ohne Folgen

(Geistiges) Eigentum

Es ist schon erstaunlich. Wir leben in einem fast schon totalen kapitalistischen System. In diesem gilt Eigentum als das Höchste aller Güter (und analoge Güter haben auch keine Halbwertszeit an Eigentum wie ‚geistiges Eigentum‘) und dennoch fand und findet eine der grössten Enteignungs- und damit Ausbeutungsaktionen der Weltgeschichte (soweit bekannt *) statt: Das Trainieren von neuronalen Netzwerken etwa LLMs mit BigData. Diese BigData-Daten sind von Menschen erstellte Daten wie Texte, Bilder, Filme, Tabellen etc. Die Intelligenz liegt also beim Menschen (mit Derrida: ihren Differenzen) und nicht bei der Maschine – denn ohne die Menschen sind diese neuronalen Netzwerk ungewichtet und wertlos. Anders übrigens als viele andere Arten von Künstlicher Intelligenz der 80er Jahre.

„Intelligenz“

Anders gesagt, die „Intelligenz“ wird anhand von menschlichen Erzeugnissen genutzt, um neuronale Netzwerke (erfunden in den 60er Jahren) zu trainieren. Die neueren Modelle stammen aus den 80er und den 2010ern Jahren. Diese Netzwerke sind anders als Ansätze in den 80er Jahren (noch) nicht wirklich regelbasiert oder hybride. Das heisst, es sind nicht clevere Algorithmen, sondern es reines (je nach benutztem Algorithmus darwinistisches) Optimieren der Netzwerke an Daten. In ihnen steckt also keine Intelligenz wie etwa in regelbasierten AI-Modellen. Die Intelligenz ist darin allein die Nutzung von synthetischen Neuronen und Synapsen und deren Gewichtungen (die Ideen dafür kommen aus der Biologie). Bei generativen Systemen kommt hinzu, dass diese genutzt werden um wieder Dinge zu ‚erzeugen‘. Dabei werden Theorien der Lingustik der letzten Jahrzehnte angewendet, um etwa bei ChatGPT statistisch das nächste Wort zu ‚errechnen‘. Es ist also letztlich ein lokales Plausibilitätsverfahren gegen den zu erstellenden Text.

Wie Kinder lernen? Am Rand ja!

Mit Intelligenz im Sinne von Lernen mit Eigengewichtungen, Ableiten von Regeln (Deduktion, Induktion) hat das nicht viel zu tun. Es ist auch nur ein Teil des Lernens von Kindern. Die mögen ja schon viel und oft „Failen“ müssen. Aber Hand aufs Herz, wer fährt schon 1 Mio mal gegen die Wand mit einem Auto, um zu lernen, dass man Wände nicht anfährt. Denn: Wir als Menschen lernen eben auch Regel-basiert und das ist unsere massive Stärke. Dazu nutzen wir unsere Neuronen eben auch. Es ist auch ökonomisch Regeln zu erstellen und mit wenig Information viel Abbilden zu können und damit auch Dinge voraussagen zu können. Nicht so die aktuelle Hype-KI: In Serverfarmen fahren KI-Autos millionenfach gegen Wände mit viel Energie, um zu „lernen“. Evolution war noch nie ein günstiges Verfahren – Evolutive Algorithmen sind verschwenderisch.

Kinder entwickeln auch ihr eigenes Weltbild, ihre eigenen Regeln, ihre eigene Weltsicht. Und was beim Output von Individuuen meist als „Die denken auch so“ aussieht, kann in ihrem Gehirn ganz anders funktionieren. Nicht so funktioniert ein generalisiertes NeuronalesNetz. Es hat letztlich ein mainstreamisiertes Weltbild. Seine Informationen holt es aus grossen ‚Wahrscheinlichkeiten‘ – aus den grossen Diskursautobahnen. Anders gesagt: „Kann einem ChatGPT helfen, so ist man im Mainstream“.

Enteignung

Die Daten in diesem Prozess sind wild eingesammelt worden vom Web, von Bibliotheken und nun letztlich werden auch alle möglichen sozialen Medien benutzt, da entsteht schliesslich viel Text und Content.

Anders gesagt, die Intelligenz, die wir lesen, ist eigentlich unser Aller – einfach zusammengefügt. Ist sie wirklich die Intelligenz unser Aller? Im Falle von sozial Media vielleicht.

Die Autoren* der meisten Text, Bilder etc haben meist für eine Öffentlichkeit geschrieben. Also letztlich für andere Menschen. Sie sind teilweise entschädigt worden – aber oft auch nicht. Wer hat jemals jemanden für seine BlogArtikel wie diesen entschädigt? Für all die kleinen Artikel, für OpenSource-Software etc. (Siehe dazu auch GitHub und Co und ihre Software-LLM-Tools und der Widerstand der Entwickler*).

Dieser Zustand hat sich ja in den letzten Jahren noch radikalisiert: Die Gesellschaft will nicht mehr für Content bezahlen. Google enteignet die Betreiber* von Informationsseiten sogar damit, dass es die wichtigsten Auschnitte darstellt – ohne allerdings zuzulassen, dass man Googles Suchresulate frei nutzen kann.

Mainstream-Informationen

Dabei sind gute (nicht der Mainstream) Informationen nach wie vor fast unbezahlbar und werden immer unbezahlbarer (denn sie stecken nicht in Texten). In diesem Sinn werden alle Schreibenden* gerade ausgebeutet. Sie haben nie ihr Einverständnis dafür gegeben – als Trainingsmaterial von Maschinen genutzt zu werden. Sie haben ihre Texte in einer ganz anderen Öffentlichkeit geschrieben als wir sie jetzt haben. Und es ist weiterhin auch nicht möglich als Autor* etwas gegen die Enteignung zu machen etwa auf Webseiten mit Tags verbieten zu können, das dieser Text „gestohlen“ oder besser „seinen Nutzungsbedingungen entfremdet“ wird.

Geschäftsmodell – LLMs

Grosse Firmen nutzen LLMs und machen sie zu Geschäftsmodellen. Sie nutzen also mehrheitlich die Arbeit anderer, um Service anzubieten, die es ohne uns alle nicht gäbe. Denn müssten die LLM Anbieter uns alle bezahlen, dann würde niemand mehr ein LLM erstellen. Zu teuer. Man würde sehr schnell wieder auf KI Verfahren mit Regelbasierten Konzepten einschwenken. Anders gesagt: Das System von LLMS basiert auf der konkreten Ausbeutung. Selbst die Freigabe von LLMs behebt dieses Problem nicht wirklich. Sie macht uns einfach zu Mittätern.

Der (ChatGPT-)User ist ein Ausbeuter* und Mittäter*

Und ja letztlich sind wir als Nutzer* von LLMs ganz im klassischen Sinn Mittäter und Mitausbeuter*. Es gilt dies einzugestehen und sich zu fragen, ob es nicht endlich eine Steuer für die Nutzung ‚freier‘ Informationen braucht.

Mainstreamisierung

Google hat einst den Mechanismus eingeführt Webseiten anhand ihrer Verlinkung zu gewichten. Je verlinkter umso wichtiger. Sie sind damit gross geworden und haben alle anderen aus dem Rennen geworfen. Remember: AltaVista?

Ihr Verfahren ist dabei eine Mainstreamisierung – Bedeutung hat, was viel vernetzt ist. Oder anders gesagt, was im Markt der Ökonomie der Links ‚gross‘ ist. Es funktioniert damit auch irgendwie „neuronal“. Nur bildet dieses Gewichtung letztlich einfach den Mainstream ab. Es verstärkt sogar den Mainstream in dem es die Verlinkung in den Diskurs nimmt und weiterverbreitet. Es wird deswegen auch interessant sein, wie GooglesSuche letztlich die Welt in den letzten 20 Jahren mainstreamisiert hat.

Als neuer Mainstreamisierer steigen aber nun auch LLMs und Co ein. Sie wurden vorallem am Mainstream trainiert (inklusive Bilder etc). Das heisst der Mainstream steht hinter diesen Gewichtungen. Es ist deswegen auch hier zu erwarten, dass immer mehr Mainstream Daten zu immer mehr Mainstream führt und immer weniger zu genuinen Weltsichten (die von den Sozialisierungen noch übrig geblieben ist). Und diese genuinen Ansichten sind auch wichtig, da sie die Variationen generieren, aus denen die Gesellschaft „auslesen“ kann. Es ist quasi ihr „diskursives“ Denken.

Next Steps

Wenn die AI Forschung der nächsten Jahre von der „Bauchgefühl“-Simulation irgendwohin kommen will, muss sie die Regelbasierten KIs integrieren oder umgekehrt die Regelbasierten KIs müssen den Hype von ‚DeepLearning‘ integrieren. Erst dann können wir ein bisschen von Intelligenz sprechen. Und vorallem müssen die Entwicklungen dann auch dem gerecht werden, dass jeder* von uns eine eigene (sozialisierte) Welt im Kopf trägt und eben nicht eine generalisiertes LLM und dem Allgemeinen.

Ungelöste Probleme: Gesellschaft

Aber auch bei all dem ist weiterhin ungelöst, wie es mit geistigem Eigentum weiter geht. Wie es mit Arbeit allgemein weitergeht.

In der OpenSource-Community – als Case-Studie – kann man sich auch seit Jahren fragen, warum man für die Masse etwas produziert, das diese nur benutzt. Oder sollte es so sein, dass nur nutzen darf, wer irgendwie etwas beiträgt? Wäre das ein Modell für LLMs? Wer nichts beiträgt, bezahlt halt. Dann wäre jedem* freigestellt, wie „* mitmachen“ möchte. Was aber sicher nicht sein kann auf lange Sicht, ist wenn Firmen und Einzelpersonen OpenSource-Projekte nutzen und dies dann verkaufen und ohne Leistung dafür Geld verdienen. Das ist letztlich Ausbeutung pur. Und nichts anderes passiert auch bei ChatGPT und Co.

Eventuell muss die Art wie wir mit geistigem Eigentum umgehen auch auf das normale Eigentum übertragen werden (zergehendes Eigentum), da anscheinend niemand am Gegenteil interessiert ist. Denn: Ich sehe nur Leute unbedacht KI nutzen und ich sehe keine Demonstrationen auf der Strasse.

Jahrzehnte altes Problem

Zuletzt sollte hier noch erwähnt werden, dass der Autor dieses Textes vor 25 Jahren ein Tool zum Schreiben entwickelt hat bei nic-las, dass unter anderem auch im Netz (WWW) danach gesucht hat (Foucault Carpet), wie das nächste Wort heissen könnte und eine Auswahl vorgeschlagen hat. Auch damals schon spielte die Autorschaft der Ursprungstexte leider keine Rolle.

*Eventuell könnte man ein ähnliches Phänomen bei der Entstehung der Gutenberggalaxis sehen, als viel Knowhow in Bücher einfloss und die ursprünglichen Autoren*/Wissensholder* nicht dafür entschädigt wurden – etwa das gemeine Volk, die „Hexen“ etc.

Siehe dazu auch:

https://www.golem.de/news/studie-apple-forscher-finden-keine-hinweise-auf-echtes-ki-reasoning-2410-189777.html