Talk like a robot: So funktionieren ChatGPT & Co.

Wie generieren Chatbots aus Trainingsdaten eigene Texte und wie werden sie trainiert?

13.06.2023 Schwerpunkt: KI

Alexandra Koch / Wiener BildungsserverPixabayPixabay-Lizenz

Chatbots berechnen anhand von Trainingsdaten die Wahrscheinlichkeit für die nächsten Worte in einem zu vervollständigenden Satz.

In unserem Themenschwerpunkt zu Künstlicher Intelligenz haben wir uns schon mehrfach mit Chatbots beschäftigt, wenn wir etwa Anregungen für ihren Einsatz im Unterricht gaben, oder die Problematik von durch sie verbreitete Hatespeach beleuchteten. Diesmal wollen wir uns einer grundsätzlicheren Frage widmen: Wie funktionieren auf KI basierende Chatbots und wie bzw. mit welchen Daten werden sie trainiert?

Alles eine Frage der Wahrscheinlichkeit

So beeindruckend die Ergebnisse bei vielen dieser Tools mittlerweile auch sind, so wenig Magie steckt andererseits dahinter: KI-Sprachmodelle wie ChatGPT & Co. erzeugen ihre Texte vor allem auf Basis von mathematischen Wahrscheinlichkeiten. Je nach Prompt (User:innen-Eingabe) greifen sie dabei auf ihre Trainingsdaten zurück und fügen dann in ihren Sätzen auf Grund von komplexen Wahrscheinlichkeitsrechnungen Wort für Wort hinzu. Besonders leistungsstarke Tools gehen mittlerweile sogar Silbe für Silbe oder Buchstabe für Buchstabe vor und erzielen somit noch genauere Ergebnisse. Sehr gut erklärt Prof. Dr. Doris Weßels von der FH Kiel die dahinterstehende Mechanik hier in diesem Web-Vortrag (vor allem ab Minute 7:55):

Geht das auch anschaulicher?

Soweit kurz zur trockenen Theorie hinter der Funktionsweise von Chatbots & Co. Etwas anschaulicher lässt sich diese speziell auch im Unterricht mit dem kürzlich erschienenen didaktischen Sprachmodell Soekia GPT aus der Schweiz vorstellen, zu dem es zusätzlich auch noch ausführliches Hintergrundmaterial für Pädagog:innen gibt.

www.soekia.chScreenshot

Bei der Anwendung liegen die Trainingsdaten für das Sprachmodell offen (grüne Spalte “Dokumente”): Sie bestehen grundsätzlich aus zwölf bekannten deutschen Märchen. Ist man mit den Grundlagen des Programms einmal vertraut, könnten für Übungszwecke auch beliebige andere Dokumente eingefügt werden und somit das Ergebnis erweitert und geändert werden. Insgesamt können aber nicht mehr als 25 Dokumente mit maximal 20.000 Zeichen hinzugefügt werden. Sobald die Erstellung eines neuen Textes gestartet wurde, ist es auch möglich, die Arbeitsweise des Modells nachzuvollziehen.

Wortgruppen als “Sprachgedächtnis” für die KI

Dazu sieht man einerseits in der Spalte “N-Gramme” (orange) jene Wortgruppen, die das Programm beim Durchsuchen in den Trainingsdaten angetroffen hat, sowie auch deren Häufigkeit. Im Screenshot oben wurde etwa die 3er-Wortgruppe “in den Wald” in allen zwölf Märchen am häufigsten angetroffen, wie auch durch die Reihung und den grünen Balken darunter zu erkennen ist. Per Klick auf die Wortgruppe erfährt man auch, dass dies konkret 28 Mal der Fall war, während die zweitgenannte 3er-Gruppe “. Als sie” immerhin 15 Mal aufgefunden wurde.

In KI-Sprachmodellen funktionieren solche N-Gramme in etwa wie ein Sprachgedächtnis, auf das beim Generieren von neuen Sätzen immer wieder zurückgegriffen wird (siehe auch Hintergrundmaterial ab Seite 4) und aufgrund dessen die nächsten Wörter ausgewählt werden. Bei Soekia lassen sich Wortgruppen mit höchstens sechs Gliedern einstellen und somit der generierte Text beeinflussen. Dabei gilt: Umso höher der N-Wert, desto eher entstehen grammatikalisch richtige Sätze.

Auch der Zufall spielt eine Rolle

In der Spalte “Wortvorschläge” (rot) sind schließlich jene Optionen zu sehen, welche das Programm aufgrund der erkannten Muster in den Übungsdaten (also den Märchen) als nächste vorschlägt. Stehen aufgrund der Berechnungen mehrere Worte zur Auswahl, entscheidet der Zufall, welches ausgewählt wird, womit kreativere Schöpfungen ermöglicht werden. Klickt man in dieser Spalte auf den seitlichen Button “Wortvorschläge anpassen”, so kann man hier die “Temperatur” der Auswahl verändern: Bei niedriger entscheidet vorwiegend die Häufigkeit der gefundenen Vorschläge, bei hoher spielt der Zufall mehr Rolle, das Programm wird dadurch aber auch fehleranfälliger punkto Grammatik.

Mit Soekia lässt sich somit das Erstellen von KI-Texten Schritt für Schritt nachvollziehen, wobei das Ergebnis in der blauen Spalte (“Texte erzeugen”) entweder automatisch generiert oder auch manuell beeinflusst werden kann. In letzterem Fall kann der/die Nutzer:in selbstständig aus einer Wortwolke, gereiht nach auftretender Häufigkeit, das nächste Wort auswählen. Da es bei diesem didaktischen Sprachmodell vor allem um die Nachvollziehbarkeit geht, sollten an die entstehenden Texte allerdings keine allzu hohen Ansprüche gestellt werden. Dennoch sind die Textergebnisse trotz der geringen Trainingsdaten und geringerer Komplexität des Programms überraschend ansprechend.

Trainingsdaten der KI offengelegt

Zuletzt noch zu einer Problematik, die wir im Verlauf unseres Schwerpunktes immer wieder thematisiert haben: Im Gegensatz zur Schweizer Webseite machen viele Konzerne, die an KI-Chatbots arbeiten, aus den Trainingsdaten für ihre Programme weiterhin ein großes Geheimnis. Erst vor wenigen Wochen veröffentlichte allerdings die “Washington Post” eine aufwendige Recherche über jenen Datensatz, mit dem etwa das T5-Sprachmodell von Google trainiert wurde. Dieser umfasste etwa 15 Millionen Webseiten.

Bei der Kategorisierung dieser zeigten sich durchaus auch jene Probleme, die wir in unserer Praxis-Idee Coded Bias - Wie KI diskriminiert (Sek 2) beleuchtet und für die Bearbeitung im Unterricht aufbereitet haben: Die Unausgewogenheit der zugrundeliegenden Daten verfestigt gesellschaftliche Diskriminierung. So waren in dem Datensatz etwa wenig vertrauenswürdige Nachrichtenseiten bis hin zu klaren Fake-News-Verbreitern (etwa das US-amerikanische “Breitbart”-Netzwerk) zu finden. Eine besonders klare Schlagseite hatten im Bereich “Community” die Webseiten mit religiöser Ausrichtung, die einerseits westlich zentriert waren (Christentum klar überrepräsentiert) und noch dazu in den einzelnen Glaubensrichtungen eher extreme Ansichten vertraten.

Gleichzeitig zeigte die Recherche, dass Filter, die den Datensatz vor Implementierung in das Sprachmodell von unerwünschten Inhalten reinigen sollten, teils LGBTQIA+-Inhalte verhinderten, offen pornografische oder rechtsextreme Webseiten hingegen durchschlüpfen ließen. Die Erstellung von ausgewogeneren und vorurteilsfreieren Trainingsdaten stellt also weiterhin eines der Hauptprobleme von KI-Sprachmodellen dar.

Zurück

Praxis-Idee des Monats

Externe Datenträger verschlüsseln
Schüler:innen lernen wichtige Aspekte der Datensicherheit und der Verschlüsselung von externen Datenträgern (Sek 1, Sek 2).

Name	Zweck	Ablauf	Typ	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	1 Jahr	HTML	Web Consent
fe_typo_user	Ordnet Ihren Browser einer Session auf dem Server zu. Dies beeinflusst nur die Inhalte, die Sie sehen und wird von uns nicht ausgewertet oder weiterverarbeitet.	Session	HTTP	Web User

Name	Zweck	Ablauf	Typ	Anbieter
DSID	Google: Security, Functionality, Advertising for AdSense, Campaign Manager, Google Ad Manager, Google Analytics, Display + Video 360, Search Ads 360	2 weeks	HTML	Google
test_cookie	Google: Functionality for AdSense, Campaign Manager, Google Ad Manager, Google Analytics, Display + Video 360, Search Ads 360	15 Minuten	HTML	Google
IDE	Google: Advertising for Campaign Manager, Display + Video 360, Google Ad Manager, Google Analytics, Search Ads 360	24 Monate	HTML	Google
FPLC	Google: Analytics for Google Analytics	20 Stunden	HTML	Google
FPID	Google: Analytics for Google Analytics	2 Jahre	HTML	Google
GA_OPT_OUT	Google: Functionality for Google Analytics	7 Jahre	HTML	Google
__utma	Google: Analytics for Google Analytics	2 Jahre	HTML	Google
__utmb	Google: Analytics for Google Analytics	30 Minuten	HTML	Google
__utmc	Google: Analytics for Google Analytics	Session	HTML	Google
__utmt	Google: Analytics for Google Analytics	10 Minuten	HTML	Google
__utmz	Google: Analytics for Google Analytics	6 Monate	HTML	Google
__utmv	Google: Analytics for Google Analytics	2 Jahre	HTML	Google
_ga	Wird verwendet, um Benutzer zu unterscheiden.	2 Jahre	HTML	Google
_gat	Wird zum Drosseln der Anfragerate verwendet.	1 Minute	HTML	Google
_gat_--custom-name--	Google: Analytics for Google Analytics	1 Minute	HTML	Google
_gid	Wird verwendet, um Benutzer zu unterscheiden.	24 Stunden	HTML	Google
_ga_--container-id--	Speichert den aktuellen Sessionstatus.	2 Jahre	HTML	Google
_dc_gtm_--property-id--	Wird von DoubleClick (Google Tag Manager) verwendet, um die Besucher nach Alter, Geschlecht oder Interessen zu identifizieren.	1 Minute	HTML	Google
_gaexp	Google: Analytics for Google Analytics, Optimize	93 Tage	HTML	Google
_gaexp_rc	Google: Analytics for Google Analytics, Optimize	10 seconds	HTML	Google
_opt_awcid	Google: Analytics for Google Analytics, Optimize	24 Stunden	HTML	Google
_opt_awmid	Google: Analytics for Google Analytics, Optimize	24 Stunden	HTML	Google
_opt_awgid	Google: Analytics for Google Analytics, Optimize	24 Stunden	HTML	Google
_opt_awkid	Google: Analytics for Google Analytics, Optimize	24 Stunden	HTML	Google
_opt_utmc	Google: Analytics for Google Analytics, Optimize	24 Stunden	HTML	Google
_gac_--property-id--	Enthält Informationen zu Kampagnen für den Benutzer. Wenn Sie Ihr Google Analytics- und Ihr Google Ads Konto verknüpft haben, werden Elemente zur Effizienzmessung dieses Cookie lesen, sofern Sie dies nicht deaktivieren.	90 Tage	HTML	Google
AMP_TOKEN	Enthält ein Token, das verwendet werden kann, um eine Client-ID vom AMP-Client-ID-Service abzurufen. Andere mögliche Werte zeigen Opt-out, Anfrage im Gange oder einen Fehler beim Abrufen einer Client-ID vom AMP Client ID Service an.	1 Jahr	HTML	Google

Name	Zweck	Ablauf	Typ	Anbieter
YouTube	Es wird eine Verbindung mit YouTube hergestellt, um Videos anzuzeigen.	keine	Verbindung	YouTube
GoogleMaps	Es wird eine Verbindung mit Google Maps hergestellt, um Karten anzuzeigen.	keine	Verbindung	Google
__cf_bm	Wird benötigt, um Vimeo-Inhalte zu sehen.	1 Jahr	HTTP	Vimeo
OptanonAlertBoxClosed	Speichert Ihre Zustimmung zum Vimeo-Datenschutz.	1 Jahr	HTML	Vimeo
OptanonConsent	Speichert Ihre Zustimmung zum Vimeo-Datenschutz.	1 Jahr	HTML	Vimeo
player	Dieses Cookie speichert Ihre Einstellungen, bevor Sie ein eingebettetes Vimeo-Video abspielen. Dadurch bekommen Sie beim nächsten Mal, wenn Sie ein Vimeo-Video ansehen, wieder Ihre bevorzugten Einstellungen.	1 Jahr	HTML	Vimeo
vuid	Dieses Cookie sammelt Informationen über Ihre Handlungen auf Webseiten, die ein Vimeo-Video eingebettet haben.	2 Jahre	HTML	Vimeo
_abexps	Dieses Vimeo-Cookie hilft Vimeo, sich an die von Ihnen getroffenen Einstellungen zu erinnern. Dabei kann es sich zum Beispiel um eine voreingestellte Sprache, um eine Region oder einen Benutzernamen handeln. Im Allgemeinen speichert das Cookie Daten darüber, wie Sie Vimeo verwenden.	1 Jahr	HTML	Vimeo
continuous_play_v3	Bei diesem Cookie handelt es sich um ein Erstanbieter-Cookie von Vimeo. Das Cookie sammelt Informationen wie Sie das Vimeo-Service verwenden. Beispielsweise speichert das Cookie, wann Sie ein Video pausieren bzw. wieder abspielen.	2 Jahre	HTML	Vimeo

Talk like a robot: So funktionieren ChatGPT & Co.

Weitere Beiträge zum Thema