Simulation oder echte künstliche Intelligenz: Was sind die Grundlagen von Large Language Models?
Brigitte Krenn ist die stellvertretende Leiterin des österreichischen Forschungsinstituts für Artificial Intelligence. Das Institut wurde 1984 mit dem Ziel gegründet, KI-Forschung zu betreiben. Die Gleichbehandlungsanwaltschaft hat mit ihr über die Ursprünge und Entwicklungen von Künstlicher Intelligenz gesprochen und Mythen aufgedeckt.
Was waren die Ursprünge der KI-Forschung und aus welchem Bereich kommen Sie?
Ich habe 1989 begonnen, mich mit Sprachtechnologie zu beschäftigen. Damals hieß der Bereich Computerlinguistik und ich kam aus der Linguistik, genauer gesagt dem Bereich der Grammatiktheorien. Ich habe dann versucht, das Ganze auf Computer zu bringen. Das heißt, ich habe die Entwicklungen der letzten 30, fast 40 Jahre ziemlich live miterlebt, in denen wir am Anfang wirklich versucht haben, basierend auf Grammatikregeln Systeme zu bauen, die Sprache analysieren können.
Das war sehr mühsam und mit vielen Problemen behaftet. Schon ziemlich früh haben wir gemerkt, dass es statistische Modelle braucht, weil man es sonst nicht schafft, Sprache zu modellieren. Und so kam ich dann von der eher grammatik-orientierten Analyse und Modellierung hin zu statistischen Modellen. Die haben wir bereits in den frühen 90er Jahren eingesetzt. Sie sind mittlerweile durch die riesigen Datenmengen immer besser geworden und jetzt sind wir bei den Language Models. Das ist so der breite Rahmen, in dem ich mich bewege.
Erstmal für die Grundlagen: Was ist AI eigentlich? Was meinen Sie genau, wenn Sie von AI oder KI sprechen?
Der Begriff hat sich über die Jahre gewandelt. Mittlerweile, wenn KI / künstliche Intelligenz oder AI / Artificial Intelligence verwendet wird, meint man typischerweise Deep Learning Modelle, neuronale Netze und große Modelle. KI ist aber viel, viel breiter. Als der Begriff Artificial Intelligence in den frühen 50er Jahren quasi erfunden wurde, war damit eine breite Menge an verschiedensten Themen gemeint. Dabei war die Grundidee, dass man versucht, menschliche Fähigkeiten am Computer nachzubilden und zu simulieren. Es gab es auch immer die Diskussion darum, ob es eine Simulation ist oder echt.
Mittlerweile sind wir in einer Situation, wo viele Menschen diese Simulation gar nicht mehr verstehen, sondern sagen: „Ich kann jetzt mit ChatGPT einfach sprechen und das System versteht mich. Ich kann es sogar als Therapeuten verwenden.“ Und diese Grundlage, die eigentlich die Simulation von menschlichen Fähigkeiten ist, verschwindet aus dem Bewusstsein. Mich hat genau das fasziniert am Ende der 80er Jahre: Die menschlichen Fähigkeiten zu simulieren. Dies erfolgte zuerst sehr stark mit der Entwicklung von Regelwerken, die ganz bestimmtes Wissen abgebildet haben, wie z.B. der Implementierung von Grammatikregeln für einzelne Sprachen, das Deutsche, das Englische, das Italienische, etc. oder wie man von einer Sprache in eine andere übersetzt. Oder Regeln wie man die Bewegungen eines Roboters modelliert, welche Regeln man braucht um gesprochene Sprache in Text zu übersetzen, oder um einen Dialog zu führen, z.B. um Auskunft über Zugverbindungen zu geben und vieles mehr.
Es ist natürlich sehr schwer bis unmöglich, alles in Regeln zu packen. Entsprechend kam die Idee aus Daten zu lernen schon sehr früh in der Entwicklung von KI. Das Problem war, dass die Speichermöglichkeiten, Rechenkapazitäten und Datenmengen, die heute zur Verfügung stehen, in den späten 80er bzw. frühen 90er Jahren noch nicht zur Verfügung standen, also der Zeit als ich mit Computerlinguistik begonnen habe. Mit diesen Möglichkeiten konnten die Verfahren für maschinelles Lernen entsprechend weiterentwickelt werden und die Ergebnisse in der Sprachverarbeitung, der Bildverarbeitung, der Sensorik in der Robotik, usw. sind enorm besser geworden. Bemerkt hat es die breite Bevölkerung aber erst mit der Veröffentlichung von Chat-GPT, einem Large Language Model (LLM) mit dem man über alles Mögliche chatten kann. Das ist sicher mit ein wesentlicher Grund warum der Begriff KI, zumindest in der Öffentlichkeit, mittlerweile sehr eingeschränkt verwendet wird.
Was oder wo denken Sie, was wir für kollektive Fehlkonzeptionen davon haben, was AI kann, was es ist, oder eben nicht kann und nicht ist?
Ich denke, das Öffentlichmachen von Chat-GPT hat enorme Effekte. Ich kann mit dem System in einer Weise kommunizieren, wie ich das vorher mit anderen Systemen so nicht konnte, weil sie einfach nicht gut genug in der Sprachgenerierung und im Sprachverstehen waren. Und jetzt haben wir Modelle, die darin enorm gut sind. Das ist natürlich auch eine Falle, denn jeder Mensch ist sozusagen Experte in der Sprache, weil wir alle unsere Muttersprachen und diverse andere Sprachen haben, die wir sprechen. Aber die Sprache, beziehungsweise sprachliche Kompetenz, und die kognitive Fähigkeit sind bei diesen Modellen natürlich getrennt. Und das ist etwas, was man nicht versteht als Mensch, wenn man sich damit nicht beschäftigt und keine Grundlagen hat. Dann glaubt man einfach, man ist mit einem intelligenten Gegenüber im Austausch, welches ein Akteur ist. Dass es fast wie ein anderer Mensch ist. Und das ist, glaube ich, die große Fehlkonzeption im Moment.
Gerade in den letzten Jahren hat sich viel getan, vor allem, was Nutzungsmöglichkeiten, Programme, die jetzt neu sind, angeht. Was sind da die größten Veränderungen?
Es wurde mehr in die breite Masse gebracht, vor allem die Nutzungsmöglichkeiten. Wir nehmen als Beispiel die Entwicklung von Google: Irgendwann haben wir alle gegoogelt, Informationen im Internet gesucht. Und Google hat, seit es die Firma gibt, immer Sprachtechnologie-Anwendungen gebaut, die frei sind oder frei waren und die man immer benutzen konnte. Über diese Anwendungen konnten im großen Stil Daten gesammelt werden, was wieder die Voraussetzung dafür ist, dass man für maschinelles Lernen überhaupt genug Daten hat, um um Chatbots in der heutigen Qualität zu trainieren. Ich habe in den 1990er Jahren schon in Forschungsprojekten Chatbots gebaut, nur waren diese regelbasiert und daher viel eingeschränkter als die heutigen auf LLMs basierenden Chatbots, mit denen man einfach über irgendwas reden kann und immer etwas halbwegs Brauchbares, Verständliches zurückkommt. Das ist etwas, was sich massiv geändert hat.
Von dem, was sich jetzt entwickelt hat, haben Sie sich das damals so vorstellen können, dass das irgendwann möglich sein wird?
Diese Entwicklungen sind schwer vorhersehbar. Auch heute ist KI noch ein Thema, das viel Grundlagenforschung braucht und bei dem es immer wieder unvorhersehbare Entwicklungen gibt. Was niemand auf diese Art und Weise wusste und vorhersehen konnte, sind die Transformer Modelle. Das sind die algorithmischen Grundlagen der Large Language Models. Mit dieser Art von maschinellem Lernen, angewandt auf riesige Datenmengen, wurden Systeme entwickelt, die in ihrer Qualität so unvergleichlich besser sind als Systeme davor. Zum Beispiel in der sprachlichen Qualität oder auch in der Bildgenerierung oder Bilderkennung, oder Erkennung von Bewegungen in Videos, etc. Das war etwas, was nicht so klar war.
Ich habe vor eineinhalb Jahren mit einem der Pioniere der Technologie gesprochen und habe ihn gefragt, ob er drei Jahre vor 2022 hätte sagen können, dass das so funktioniert. Ich sage jetzt 2022, weil 2022 im Oktober Chat-GPT rausgekommen ist. Denn die generativen Modelle, also statistische Modelle, die Bilder, Texte, Äußerungen generieren, die gibt es ja schon viel länger. Und die waren auch schon länger gut in der Bildgenerierung, nur hat das niemanden interessiert, weil okay, da wird halt ein lustiges Bild generiert. Aber mit der Sprache ist plötzlich alles mitten in das Bewusstsein gekommen, weil Sprache etwas ganz Wesentliches für den Menschen ist.
Ich wüsste nicht, dass diese Entwicklung so in dieser Weise vorhergesagt wurde. Das Grundlagenpapier für die Transformer wurde 2017 geschrieben und es wurden kleinere Modelle entwickelt. Dann haben andere Leute das wiederum aufgenommen, größer gemacht und mit enormen Mengen an Daten trainiert. Und diese Datenmenge ist ja auch nur möglich, weil wir schon länger Applikationen haben, die im großen Stil Daten sammeln. Social Media zum Beispiel, wo ganz viele Daten digitalisiert zur Verfügung stehen. Wenn diese Datenmengen nicht digitalisiert zur Verfügung stünden, könnten die großen Modelle nicht trainiert werden.
Eines Ihrer Felder ist auch der Transfer von Ergebnissen aus Wissenschaft und Forschung hin zu konkreten Anwendungen in der Wirtschaft. Was sind das denn für Ergebnisse, die dann transferiert werden? Welche Anwendungen ergeben sich daraus?
Die sind extrem breit, aber im Wesentlichen geht es darum, dass Firmen Daten haben und Fragestellungen an diese Daten. Mit dem Aufkommen von Deep Learning, schon vor vielen Jahren, haben dann Leute gemeint: „Also wir haben Daten, Maschinelles Lernen lernt irgendwelche Dinge aus den Daten und dann sehen wir schon. Die KI sagt uns, was wir eigentlich gar nicht wussten zu fragen.“ Das ist natürlich ein großer Irrtum. Daher geht es in diesem Transfer sehr viel darum, auch ein Bewusstsein zu schaffen: Was kann man mit den Daten machen, die man hat? Wie bringt man die Daten in eine Qualität, dass man mit ihnen sinnvolle, nutzbringende Modelle trainieren kann? Was natürlich auch stark mit den Fragestellungen, die die Firmen haben, zusammenhängt.
- Ethik und Diskriminierungsbekämpfung: Welchen Einfluss haben die Daten, mit denen eine KI trainiert wird?
- Sie vermuten durch einen Algorithmus diskriminiert worden zu sein? So kann die Gleichbehandlungsanwaltschaft unterstützen
- Diskriminierung durch Algorithmen: Die Gleichbehandlungsanwaltschaft klärt auf
- Blackbox KI: Was dürfen von Diskriminierung betroffene Personen über KI-Systeme wissen?
- Fall des Monats: Befristeter Aufenthaltsstatus führte zu automatischer Ablehnung
- Wie schützt der AI Act bei KI-Systemen mit hohem Risiko?
- Automatisierte Entscheidungssysteme und Diskriminierung. Ein Ratgeber für Antidiskriminierungsstellen