Ethik und Diskriminierungsbekämpfung: Welchen Einfluss haben die Daten, mit denen eine KI trainiert wird?

Brigitte Krenn ist die stellvertretende Leiterin des österreichischen Forschungsinstituts für Artificial Intelligence. Die Gleichbehandlungsanwaltschaft hat im Rahmen einer Interviewreihe mit ihr über die ethische Nutzung von KI sowie die Bekämpfung von Diskriminierung mithilfe von KI gesprochen und welche Rolle die Daten dabei spielen.

Sie waren Teil des Forschungsprojekts Ethische KI-Plattformen, EKIP, das von 2021 bis 2023 lief. Worauf muss man denn achten, wenn man ethische und oder nicht diskriminierende KI entwickeln will?

Wir haben in verschiedenen Projekten versucht zu schauen, wie man ethische Prinzipien so operationalisieren kann, dass sie in sinnvoller Weise in Systeme eingebaut werden können. Es gibt verschiedene ethische Prinzipien, wie zum Beispiel Benefizienz – also für wen ist es gut. Es geht auch ganz viel um die Transparenz von KI-basierten Systemen, dass nachvollziehbar ist, auf welcher Basis ein solches System Entscheidungen trifft. Bei Chatbots geht es des Weiteren auch um Benevolenz, das heißt, es muss verhindert werden, dass Antworten des Chatbots bösartig sind. Was die Erklärbarkeit von KI-Systemen betrifft, gibt es einen eigenen Forschungszweig, Explainable AI oder auch XAI genannt, wo man unter anderem versucht, in diese Blackbox der Modelle „hineinzuschauen“. Aber Erklärbarkeit hat viele Dimensionen und die Details hängen dann immer sehr stark von der jeweiligen Applikation ab. Es ist immer die Frage: Für wen ist die Applikation gedacht, wer sind die, die davon den Benefit haben? Trifft ein KI-System autonom Entscheidungen oder sind Menschen in den Entscheidungsprozess eingebunden, an welchen Stellen und ausgestattet mit welchen Informationen?

Dann muss man mitdenken, wie ein KI-System missbräuchlich verwendet werden kann. Wie kann man sicherstellen, dass missbräuchlicher Einsatz möglichst verhindert werden kann? In vielen Fällen ist es oft so, dass es ein Regulativ geben muss und auch einen rechtlichen Rahmen. Darüber hinaus muss man natürlich überprüfen, wie böswillige Akteure die Systeme hacken könnten. Wo sind Möglichkeiten für schadhaftes Verhalten? Verschiedenste Dinge also. Es gibt in der Ethikforschung einen eigenen Bereich, der heißt KI-Ethik oder auch AI Ethics. In der Praxis muss man dann den Schritt machen von der philosophischen Abhandlung und Diskussion hin zu: Was heißt das in einer technischen Realisierung, und vor allem, was heißt das ganz genau in einem Anwendungskontext?

Es ist auch so, dass die Teile, die maschinelles Lernen verwenden, typischerweise Teile eines größeren Systems sind. Jetzt reden wir immer von Chat-GPT und Large Language Models, aber das Large Language Model selbst ist ja nur ein Teilaspekt in einem gesamten Systemkontext. Man spricht auch von sozio-technischen Systemen. Wir sind noch ein bisschen in einer Wildwestsituation, wo man noch besser verstehen muss, was eigentlich die Risiken sind. Was bedeutet es, wenn Kerntechnologie eigentlich nur von privaten Firmen geliefert wird, welche Qualitätsstandards braucht das?

Können Sie uns erklären, was ein Bias ist?

Es gibt diese verbreitete Grundidee, dass Daten Biases haben und wir schauen müssen, dass wir alle Biases aus den Daten rauskriegen. Das funktioniert nicht. Das Einzige, was wir schauen können, ist: Was sind Biases, die wir nicht haben wollen in unseren Systemen, was sind Biases, die wir haben wollen? Warum wollen wir sie haben? Da sind wir wieder bei der Ethik. Es muss sich jemand hinstellen und sagen: „Ich möchte aus den und den Gründen, dass das und das so und so repräsentiert ist. Ich will diesen Bias haben“. Es gibt im Moment diese Tendenz, dass man sagt, die KI sei böse und die mache irgendwas und habe einen Bias und alles sei ganz schrecklich. Aber eigentlich schummelt man sich drüber hinweg, dass man Position beziehen muss und sagen muss: „Gut, ich will, dass das in meinen Daten drin ist. Meine gelernten Modelle sollen Folgendes tun oder Folgendes unterdrücken.“ Und das muss jemand sagen, müssen Institutionen sagen.

Nehmen wir ein einfaches Beispiel: Wenn die trainierten Modelle das Wort “nurse” ins Deutsche übersetzen sollen, wird es schwierig. „The nurse“ auf Englisch ist entweder der Pfleger oder die Pflegerin, das kann männlich oder weiblich sein. Nur: In den Verwendungskontexten, und die kommen aus einer sozialen Realität, ist es viel öfter so, dass in den deutschen Texten vorwiegend oder auch nur Pflegerin und nicht auch annähernd häufig die männliche Form Pfleger. Solche Dinge sind in den Daten. Und wenn ich dann eine Übersetzung von einer Sprache, in der es keinen Unterschied zwischen männlicher und weiblicher Form gibt, in eine andere Sprache mache, in der es den Unterschied gibt, kommt dieser Bias zum Tragen.

In einem unserer Projekte haben wir z.B. systematisch gezeigt, wie Biases in den Daten das gelernte Modell beeinflussen. Wir haben aus der Manosphere, das ist ein stark sexistischer Kontext im Internet, Daten genommen und damit Modelle trainiert. Damit haben wir gezeigt, wie das, was in den Daten drinnen ist, in diesem Fall die Art von Sexismus, am Ende im Modell wieder enthalten ist. Das beeinflusst wiederum, welche Inhalte ein Modell generiert bzw. wie es Texte klassifiziert.

Wenn ich ein Modell habe, das auf allen möglichen Texten eher „neutral“ trainiert ist, kann ich das mit Feintuning auch in eine bestimmte Richtung schieben. Das kann gewollt sein, weil ich bestimmte Dinge klassifizieren will, wie zum Beispiel in unserer Arbeit mit dem STANDARD, wo wir einen Sexismus Classifier gemacht haben. Den haben wir auf Daten trainiert, die von den Moderatorinnen und Moderatoren als sexistisch identifiziert worden sind. Also ganz klar ein Bias. Das heißt, man richtet sich die Daten so her, dass bestimmte Themen oder bestimmte Konstellationen drinnen sind und andere gar nicht oder weniger.

 

Hinweis

“Bias” kommt aus dem Englischen und bedeutet Voreingenommenheit oder Verzerrung.

Im Bereich der KI bedeutet das, dass die Daten, mit denen ein Modell trainiert wird, eine bestimmte Voreingenommenheit mitbringen. Das hat dann einen Einfluss darauf, was das Modell am Ende ausgibt.

Sie haben gesagt, das passiert oft, vielleicht auch unbewusst. Was kann denn dann die Gefahr sein, wenn unbewusst ein Bias in diesen Daten ist?

Wenn wir mit den großen kommerziellen Modellen arbeiten, wissen wir überhaupt nicht, was drin ist. Also erstmal ist es ganz viel, und wir wissen, es ist vor allem aus dem englischsprachigen Raum, es ist höchstwahrscheinlich ziemlich Amerika-lastig. Das heißt, wenn ich jetzt die Daten aus diesen Räumen habe, die kulturelle Räume sind, dann sind bestimmte Themen drinnen und bestimmte Beziehungen zwischen Themen, Menschen, etc. Wir wissen es nicht genau. Wenn man mit den Systemen ein bisschen rumspielt, merken wir, dass zum Beispiel möglichst raus trainiert wurde, dass sie arge Sachen sagen, extrem sexistisch sind, rassistisch sind. Nachdem ein großes Modell erst einmal im sogenannten Pre-Training mit riesigen Datenmengen trainiert wurde, wird dann in einem weiteren Schritt, dem Post-Training, trainiert, dass es bestimmte Inhalte nicht generiert, wie zum Beispiel sexistische und rassistische Äußerungen. Es wird sozusagen an die Werte und Bedürfnisse der Nutzergesellschaften angepasst. Dafür wird wiederum eine andere Art von maschinellem Lernen in Kombination mit menschlichem Feedback eingesetzt.

Sie haben es vorhin schon einmal kurz angesprochen. Können Sie das Projekt mit dem Standardforum erklären?

Wir arbeiten seit Jahrzehnten mit dem STANDARD zusammen, die eine sehr starke Forenmoderation haben. Maschinelles Lernen aus Daten hilft den Moderator:innen, dass sie zum Beispiel sexistische Äußerungen oder Äußerungen, die nicht mit der Netiquette zusammenpassen, leichter finden.

Man muss sich vorstellen, es kommen enorm viele Postings über den Tag verteilt pro Artikel und das kann kein Mensch lesen. Das heißt, man braucht Technologie, um das Ganze zu filtern und eine Idee dafür zu bekommen, wo was passiert. Die Moderator:innen sagen, wenn Situationen eskalieren, dann ist es wichtig, rechtzeitig zu deeskalieren. Es geht um die ersten paar Minuten, denn sobald so eine Eskalation ihren Lauf genommen hat, kann man eigentlich nichts mehr machen. Da kann der Mensch nicht mehr wirksam eingreifen und sagen: „Bitte besinnt euch auf den ursprünglichen Zweck des Forums“. Da hilft diese Technologie enorm, weil das System vorfiltern kann: Passiert da irgendwas, passieren Sachen gehäuft? Wenn sie gehäuft passieren, kann man für die Moderatorinnen und Moderatoren dann einen Alert setzen und sagen: „Jetzt wäre es gut, in dieses Forum reinzuschauen“.

Das kann man mit Menschen allein nicht, weil es rein zeitlich nicht funktioniert. Von den Kosten braucht man auch nicht zu reden. Aber auch wenn man sagen würde, man hätte alles Geld der Welt, würde es nicht funktionieren, weil das in Echtzeit passieren muss und das geht einfach nicht. Menschen können in der Schnelligkeit nicht so viel lesen. Daher brauchen wir die technischen Systeme zum Vorfiltern.

Wie genau habt ihr das Maschinelle Lernen dafür genutzt und wie hat es die Moderator:innen unterstützt?

Der STANDARD hat ungefähr gleich viel – wir sind jetzt im binären Geschlechtsbereich – männliche und weibliche Nutzerinnen und Nutzer. Aber beim aktiven Kommentieren in den Foren ist der Prozentsatz massiv verschoben. Es sind viel mehr Männer, die in den Foren aktiv Kommentare schreiben, und viel weniger Frauen.

Der STANDARD hat dann eine Umfrage gemacht unter den Leserinnen und Lesern, ob sie in Foren kommentieren: Wie viel, wie oft, was sie dazu bewegt, es zu machen, was sie davon abhält. Und das Interessante war, Frauen haben zwei große Gründe gesagt, warum sie nicht kommentieren. Erstens: Keine Zeit, die Zeit brauchen sie für andere Dinge. Und der andere große Grund war, sobald irgendwie gemerkt wird, dass das ein Kommentar von einer Frau ist, ist die Wahrscheinlichkeit hoch, dass sie sexistisch attackiert wird. Und dem wollen sich Frauen verständlicherweise nicht aussetzen. Deswegen war die Entscheidung in dem Kooperationsprojekt: Wir bauen einen Sexismusclassifier, sodass man relativ schnell die Möglichkeit hat, die Situation für Frauen, falls sie sexistisch wird, wieder abzumildern.

Sprich, man muss den Moderator:innen helfen, schnell rauszufinden, wo in welchem Forum eine Diskussion hochgeht. Um einen solchen Classifier zu bauen, braucht man Daten, und das ist viel Arbeit. Jetzt ist es nicht so, dass der Großteil der Forenkommentare vom STANDARD sexistisch ist. Das ist ein kleiner Prozentsatz, der aber trotzdem in den Foren, wo es auftritt, und für die Personen, die es betrifft, sehr negativ ist.

Das heißt, man muss erst einmal die Daten finden. Ich brauche, um so ein Modell zu trainieren, positive und negative Daten. Man kann nicht nur auf positiven Daten trainieren, also nur auf sexistischen. Dann ist die Frage, wie ein entsprechender Kommentar eingeschätzt wird. Ist er überhaupt sexistisch? Wie arg sexistisch ist er? Da braucht man ein Kategorien-Set und Bewertungskriterien, das muss man erst mal entwickeln.

Wie funktioniert die Entwicklung von so einem Kategorien-Set?

Das haben wir gemeinsam mit den Moderator:innen entwickelt, das heißt, schon mit einer Gruppe, die eigentlich sehr homogen ist, die alle dasselbe Ziel haben und dieselbe Nettiquette. Und trotzdem ist es total interessant: Bei der Entscheidung, ob eine Äußerung sexistisch ist oder nicht, da gibt es relativ hohe Übereinstimmung. Nur wenn man dann entscheiden soll in einem zweiten Schritt, wie arg ist es eigentlich, wie sehr fühlt man sich angegriffen als Person? Da gehen die Meinungen enorm auseinander. Daraus ergibt sich dann die Schwierigkeit: Die Technologie ist eigentlich so, dass wir eine Klassifikation brauchen. Die Dinge sind entweder in der Ingroup oder der Outgroup, also innerhalb der Kategorie oder außerhalb der Kategorie. Da kann man verschiedenste binäre Klassifizierungen bauen, oder man sagt, es ist etwas in einer von zehn Kategorien mit der oder der Wahrscheinlichkeit.

Zusätzlich zu den Kategorien haben wir in vielen Fällen eine Bandbreite der Einschätzungen. Die Sexismusdaten haben wir teilweise von bis zu zehn Leuten annotieren lassen, in einer Abstufung von 1 (leicht sexistisch) bis 4 (extrem sexistisch). Somit haben wir eine Verteilung der Meinungen bekommen, was sich wiederum auf die Technik auswirkt.

Das heißt, ich brauche jetzt Klassifikationsmodelle, die diese Verteilung repräsentieren, und nicht einfach sagen „ist im Topf drin“ oder „ist in einem anderen Topf drin“. Und das ist noch Grundlagenforschung, Modelle zu entwickeln, um diese Verteilung gut abzubilden. Es gibt fast nichts in der Welt, was schwarz oder weiß ist. Es kommt immer darauf an: Was ist die Perspektive, von der man schaut? Man hat immer Verteilungen und nie eins oder null.

Wird diese Erkennung von sexistischen Kommentaren jetzt auch immer noch eingesetzt im STANDARD Forum?

Das weiß ich nicht. Aber die Idee war, dass es wirklich den Moderator:innen hilft. Und das ist auch wieder so ein gutes Beispiel, wo nicht das System einfach komplett autonom irgendwas tut. Sondern dass die Technologie verwendet wird, um einen Alert zu setzen für die Moderatorinnen und Moderatoren, die dann eingreifen.

Haben die Moderator:innen zurückgemeldet, ob es geholfen hat?

Wir haben schon im Rahmen des Projektes geschaut, was die sinnvollen Einsatzmöglichkeiten sind und wie gut das System funktioniert. Wir haben den Classifier laufen lassen gegen die verschiedenen Foren und haben gesehen, dass die Anschlagrate bei denen, wo viel sexistische Kommentare drin sind, deutlich höher war. Das heißt, es erfüllt den Zweck als ein Barometer für die Moderatorinnen und Moderatoren, damit sie aktiv werden können. Es geht darum, die Stimmung in einem Forum zu identifizieren. Und das haben wir auch in einem früheren Projekt schon mit anderen Themen gemacht. Ist ein Forenkommentar eher positiv oder negativ, ist es eine mehr sachliche Diskussion oder weniger sachlich, usw.

Es gibt verschiedenste Arten von Klassifikatoren. Aber man muss für jedes Thema die Daten sammeln, die Daten aufbereiten und dann die Modelle trainieren. Und je nachdem wie sehr das eher eine Verteilung ist und weniger eine eins oder null, braucht man auch wieder andere technische Umsetzungen. Es gibt auch immer Fehlerraten und das muss man mit berücksichtigen im Einsatz.

Man fragt sich oft, warum sowas nicht einfach überall eingesetzt wird, weil es ja schon auch einiges an Arbeit abnimmt. Aber es stecken halt eben sehr viele Daten, sehr viel Programmieren dahinter, richtig?

Der Aufwand des Datensammelns ist recht groß und auch der Aufwand, die Daten in die einzelnen Klassen zu sortieren. Und dann kommt noch das Privacy-Thema dazu, weil es ja Mediendaten sind. Bei uns war es ein recht kleiner Datensatz, der hatte rund 8000 Kommentare. Wir haben die ganzen Daten automatisch auf Hinweise auf Personennamen, Nicknames, irgendwas Persönliches, Emailadressen, etc. gescannt. Und dann haben wir das noch in zwei Runden manuell durchgeschaut, um möglichst sicher zu sein, dass es keine privaten Daten gibt. Damit es nicht nachvollziehbar ist, aus welchen Quellen und von welchen Personen die einzelnen Kommentare stammen.

Datenprovacy ist für einen Medieninhaber enorm wichtig, für eine Social Media Plattform viel weniger bis irrelevant. Hier sind die rechtlichen Bedingungen sehr unterschiedlich. Dadurch ist es ein ziemlicher Aufwand, von der Datenbeschaffung und der Datenbereinigung, vom manuellen Eingreifen und dann noch von der rechtlichen Situation. Es hat vom Erstellen des Datensatzes bis zu dem Punkt, wo alles soweit abgesichert war, dass wir das veröffentlichen konnten, zwei Jahre gedauert. Das ist natürlich ein Faktor.

Klar werden in vielen Medien verschiedenste Arten von Classifiern verwendet, auch in Social Media, nicht nur bezogen auf Texte, sondern auch zur Bilderkennung. Das wäre zum Beispiel die Erkennung von nackten Kindern und Kinderpornografie, Pornografie insgesamt. Da gibt es ganz viele Teilaspekte, aber es ist immer eine Frage des Willens. Technologisch gibt es natürlich Probleme, was habe ich für eine Erkennungsrate, von 90 %, 99 % oder auch nur 85 %. Das sind eher die technischen und technologischen Themen.

Das andere ist der Wille. Man muss die Ressourcen dafür freimachen wollen. Wir haben viele Dimensionen, die zusammenspielen und manchmal ist es komplett unerwünscht, dass man Dinge ausfiltert. Es ist nicht die Technik, die das nicht erlauben würde, sondern es sind Entscheidungen, die von Menschen getroffen werden. Da sind wir wieder zurück bei der Ethik.