Bei den Diensten, die heute als „KI“ bezeichnet werden, handelt es sich um mit großen Datenmengen trainierte neuronale Netze. Am bekanntesten sind die sogenannten „Large Language Models“ (LLMs) und Bildgeneratoren, die jeweils mit großen Textmengen oder sehr vielen Bilddaten trainiert wurden. Beide Varianten gehören in der Einordnung zur „schwachen KI“, wie z.B. Spracherkennung und Sprachsynthese. Mit „starker KI“ werden kognitive Systeme bezeichnet, die Aufgaben von Menschen „auf Augenhöhe“ übernehmen können. Bei den aktuellen LLMs wie ChatGPT und Co. scheint das zwar für viele unbefangene Nutzer*innen schon der Fall zu sein, aber ein Large Language Modell stellt immer noch einen sogenannten „stochastischen Papagei“ dar. Ein LLM versteht nicht den Inhalt von Texten, sondern gruppiert Wörter nach Wahrscheinlichkeiten. Daher kann man prinzipbedingt niemals ausschließen, dass die KI halluziniert. Also kann man den Ausgaben niemals vollständig vertrauen. Dazu der Energieaufwand und den daraus resultierenden CO2-Footprint bei Training und Benutzung der Systeme, der uns alle treffen wird.
Auch das Training der Modelle basiert auf einer großen Ungerechtigkeit:
Unabhängige Forschende haben im Gegensatz zu großen Konzernen gar nicht die Chance in ausreichender Menge an Trainingsdaten zu kommen.
Die Wikipedia-Autoren (auch ich bin einer) wurden niemals gefragt, ob diese Inhalte zum Training einer kommerziellen KI benutzt werden dürfen. Auch die Inhalte aus Social Media (Meta, facebook, whatsapp) wurden von Meta zum Training von LLMs verwendet (Daten sind das Öl der 21. Jahrhunderts). Google sichert sich z.B. das exklusive Recht auf die User-generierten Inhalte auf Reddit, um diese zum Training seiner KIs zu verwenden. (Web-)Bots ignorieren die robot.txt Einstellungen von Webseiten. Google und Amazon digitalisieren seit Jahren (seit mehr als einem Jahrzehnt, siehe auch Amazons „search inside“) Inhalte von Büchern und nutzen diese sicherlich auch zum Training von KIs.
Die Textausgaben von LLM selber wieder zum Training von neuen KIs zu nutzen, hat sich als Irrweg herausgestellt. Dadurch degeneriert der Inhalt immer weiter. Also sind die Konzerne zum Training auf den Input von kreativen, echten Intelligenzen angewiesen, die sich durch das Prompting vor den Karren der Hersteller spannen lassen. Auch die Prompts können für ein erneutes Training verwendet werden oder schlimmer, bei nicht lokal betriebenen LLMs, geleakt werden, wie gerade bei Deepseek geschehen. Aber wird das nicht zu einer gegenteiligen Entwicklung führen? Warum sollen wir alle gratis zum Training von kommerziellen LLMs beitragen? Das kann das Ende von frei zugänglichen Inhalten im Web bedeuten.
Was ist aber, wenn die Betreiber von LLMs dazu übergehen z.B. Mailinhalte für das Training von KI-Modellen zu verwenden? Google hat sich in gmail schon immer das Recht herausgenommen Mailinhalte für automatisierte Einblendungen von Werbung zu scannen. Der nächste logische Schritt wäre sehr einfach. Das „neue Outlook“ von Microsoft verschafft sich durch hijacking der IMAP-Zugangsdaten den Zugriff auf die Postfächer der Nutzer und kann so auf Unmengen von Trainingsdaten zugreifen. Das passiert wohl nun auch bei Business-Konten. Wenn die Konten eh schon in der O365 Cloud liegen, wäre es ein Leichtes sie zum Training von LLMs einzusetzen. Es wäre naiv zu glauben, dass würde nicht passieren. Auch die Dateiinhalte aller Office-Dokumente in der MS-Cloud können zum Training verwendet werden. Geschäftsgeheimnisse werden dann als Trainingsdaten im Copilot landen und damit möglicherweise auch in den Antworten dieses LLMs. So naiv kann doch kein Unternehmer sein, dieses Risiko auf sich zu nehmen.
Hier noch ein Link zu einem schönen KI-Artikel der digitalen Gesellschaft der Schweiz:
https://www.digitale-gesellschaft.ch/2023/12/06/wenn-dem-zauberlehrling-der-papagei-entwischt-ungeahnte-moeglichkeiten-durch-ki-oder-das-ende-der-welt/