Künstliche Intelligenz (KI) ist eine der wichtigsten disruptiven Technologien dieses Jahrhunderts. KI bringt heute in vielen Branchen einen erheblichen wirtschaftlichen und gesellschaftlichen Mehrwert. Dabei sind KI-basierte Systeme inzwischen so ausgereift, dass sie viele Aufgaben automatisieren und den Bedarf an menschlichen Eingriffen auf ein Minimum reduzieren können. Von virtuellen Assistenten wie Siri und Alexa über Filmempfehlungen auf Netflix bis hin zu Chatbots wie ChatGPT – die Möglichkeiten der KI scheinen endlos und haben mittlerweile einen erheblichen Einfluss auf die Gesellschaft. Diesen KI-Systemen mangelt es jedoch an Transparenz, weshalb in den letzten Jahren in vielen Bereichen die Erklärbare Künstliche Intelligenz an Bedeutung gewonnen hat.
So setzen immer mehr Unternehmen und Organisationen KI in kritischen Infrastrukturen wie dem Gesundheits- und Finanzwesen sowie den Verkehrs- und Energiesystemen ein. Die Entscheidungen von KI-Systemen in diesen Hochrisikobereichen beeinflussen auch das Leben von Menschen. Daher muss in solchen sensiblen Anwendungsbereichen sichergestellt werden, dass KI jederzeit fehlerfrei funktioniert. Dazu ist es besonders wichtig, dass Menschen nachvollziehen können, wie Entscheidungen von KI-Systemen getroffen werden und welche Gründe diesen Entscheidungen zugrunde liegen. Es wäre äußerst fahrlässig und gefährlich, wichtige Entscheidungen einem System anzuvertrauen, das die Gründe für seine Entscheidungen nicht erklären kann.
Hier setzt die Erklärbare Künstliche Intelligenz (engl. Explainable Artificial Intelligence, kurz XAI) an. XAI ist ein wichtiges Teilgebiet der Künstlichen Intelligenz, das sich darauf konzentriert, Entscheidungsprozesse maschineller Lernverfahren für den Menschen nachvollziehbar zu machen.
In diesem Artikel erfährst Du mehr über die Grundlagen der Erklärbaren Künstlichen Intelligenz, warum sie so wichtig ist und welche Arten von Erklärungsmethoden es gibt.
Überblick
Dieser Blog-Beitrag ist in die folgenden Abschnitte unterteilt:
- Was ist Erklärbare Künstliche Intelligenz?
- Warum ist Erklärbare Künstliche Intelligenz wichtig?
- Wer sind die Zielgruppen der Erklärbaren Künstlichen Intelligenz?
- Kategorisierung von Erklärungsmethoden
Was ist Erklärbare Künstliche Intelligenz?
Das Gebiet der Erklärbaren Künstlichen Intelligenz (engl. Explainable Artificial Intelligence, kurz XAI) befasst sich mit der Entwicklung von KI-Systemen, die Details oder Gründe liefern, um ihre Funktionsweise für eine bestimmte Zielgruppe klar und leicht verständlich zu machen. Erklärbare Künstliche Intelligenz umfasst daher verschiedene Techniken, die zu besser erklärbaren KI-Modellen führen. Diese KI-Modelle sind in der Lage, Erklärungen für ihre Entscheidungen zu liefern.
Erklärbare Künstliche Intelligenz greift dabei auch auf Erkenntnisse aus den Sozialwissenschaften zurück und berücksichtigt die Psychologie von Erklärungen. Dies ist wichtig, damit das KI-System in der Lage ist, möglichst gute und hilfreiche Erklärungen zu liefern, die dem Menschen helfen zu verstehen, warum das KI-System bestimmte Entscheidungen getroffen hat. Gleichzeitig versucht die Erklärbare Künstliche Intelligenz, KI-Systeme zu schaffen, die genauso leistungsfähig sind wie Black-Box-Modelle. Die zusätzliche Erklärbarkeit eines KI-Systems soll also nicht zu Lasten seiner Leistungsfähigkeit gehen.
Der Bedarf an Erklärbarer Künstlicher Intelligenz ist größer denn je
Das Problem der Erklärbarkeit maschineller Lernverfahren existiert bereits seit Mitte der 1970er Jahre, als sich Forscher mit der Erklärung von Expertensystemen beschäftigten. Aufgrund der disruptiven Entwicklungen im Bereich der KI hat dieses Thema in den letzten Jahren jedoch wieder stark an Relevanz gewonnen. Denn die meisten maschinellen Lernverfahren, die heute in vielen Bereichen zur Verarbeitung von unstrukturierten Daten wie Bildern, Texten oder Audio eingesetzt werden, sind Black-Box-Modelle. In der Regel werden in diesen Bereichen Deep-Learning-Verfahren (z.B. Deep Neural Networks) eingesetzt, da diese in der Regel eine sehr hohe Leistungsfähigkeit bei der Verarbeitung unstrukturierter Daten aufweisen.
Aufgrund ihrer außerordentlichen Leistungsfähigkeit werden Deep Learning Algorithmen zunehmend in allen Branchen und auch in kritischen Entscheidungsprozessen eingesetzt. Allerdings haben Deep Learning Algorithmen den großen Nachteil, dass es sich um Black Box Modelle handelt, die in Bezug auf ihre Erklärbarkeit sehr intransparent sind. Black Box Modelle stellen aufgrund ihrer vielen Modellparameter und Nichtlinearitäten eine so komplexe mathematische Funktion dar, dass ihre Funktionsweise für den Menschen nicht mehr nachvollziehbar ist. Sie geben daher keine detaillierten Informationen darüber, wie sie zu bestimmten Entscheidungen, Empfehlungen, Vorhersagen oder Handlungen kommen.
Stell Dir vor, eine Bank hat Deinen Kreditantrag abgelehnt. Du stellst fest, dass diese Entscheidung nicht von einem Bankangestellten, sondern von einer künstlichen Intelligenz getroffen wurde. Wenn die Bank ein reines Black-Box-Modell verwendet, ohne auf Techniken der Erklärbaren Künstlichen Intelligenz zurückzugreifen, kann sie Dir nicht genau sagen, aus welchen Gründen Dein Kreditantrag abgelehnt wurde. Das wäre doch ziemlich unbefriedigend, oder? Mit Hilfe von XAI-Methoden könnte die Bank Dir jedoch genau erklären, was die Hauptgründe für die Ablehnung Deines Kreditantrags waren. Sie könnte Dir auch sagen, was anders hätte sein müssen, damit Dein Kreditantrag bewilligt worden wäre.
Aktuelle Herausforderungen der Erklärbaren Künstlichen Intelligenz
Erklärbare Künstliche Intelligenz steht derzeit noch vor zahlreichen Herausforderungen. So können aufgrund der Komplexität von Black-Box-Modellen oft nur Teile dieser Modelle erklärt werden, z.B. die Gründe für einzelne Entscheidungen oder die gelernten Konzepte einzelner Schichten eines Deep Neural Networks. Eine weitere Herausforderung besteht darin, gute Erklärungen zu produzieren, die von Menschen leicht verstanden und verarbeitet werden können. Eine unverständliche oder irreführende Erklärung würde ihr Ziel verfehlen. In diesem Zusammenhang stellt auch die Definition allgemeiner Metriken zur Bewertung der Qualität von Erklärungen eine große Herausforderung dar. Denn die Bewertung der Qualität einer Erklärung ist alles andere als einfach.
Ob eine Erklärung für eine Person hilfreich ist oder nicht, kann in der Regel nicht objektiv beurteilt werden. Dies liegt daran, dass die Qualität einer Erklärung sehr subjektiv ist. Verschiedene Stakeholder haben individuelle Anforderungen an Format und Umfang von Erklärungen und benötigen diese für unterschiedliche Zwecke. Darüber hinaus hängt die Verständlichkeit einer Erklärung auch stark von den kognitiven Fähigkeiten und dem Vorwissen einer Person ab. Daher ist es wichtig, dass Erklärungen für ein KI-System immer auf die jeweilige Zielgruppe zugeschnitten sind. Auf die verschiedenen Zielgruppen der Erklärbaren Künstlichen Intelligenz gehen wir weiter unten näher ein.
Warum ist Erklärbare Künstliche Intelligenz wichtig?
In der Vergangenheit haben Unternehmen und Organisationen bei der Entwicklung von KI-Systemen meist nur die Leistungsfähigkeit der KI-Algorithmen bei deren Bewertung berücksichtigt. Es ist jedoch wichtig, bei der Bewertung von KI-Systemen neben der Leistungsfähigkeit auch andere Aspekte wie Sicherheit, Robustheit und eben auch die Erklärbarkeit eines KI-Systems zu berücksichtigen.
Die Erklärbarkeit eines KI-Systems ist aus mehreren Gründen wichtig. So kann die Erklärbarkeit helfen, Fehlverhalten des KI-Systems leichter zu korrigieren, das Vertrauen der Stakeholder zu gewinnen und neues Wissen zu entdecken. Auch rechtliche Anforderungen können die Erklärbarkeit eines KI-Systems erforderlich machen. Im Folgenden werden wir diese vier Hauptgründe für den Bedarf an Erklärbarer Künstlicher Intelligenz näher erläutern und anschließend die verschiedenen Zielgruppen von XAI vorstellen.
1. Qualitätssicherung und Fehlerbehebung
Erklärbare Künstliche Intelligenz ist besonders wichtig für Hochrisiko-Anwendungen, bei denen die Entscheidungen von KI-Systemen Auswirkungen auf das Leben von Menschen haben können, wie z. B. bei der Kreditvergabe, medizinischen Diagnosen oder juristischen Entscheidungen. In diesen Bereichen können Fehlentscheidungen von KI-Systemen zu wirtschaftlichen oder sozialen Schäden wie Diskriminierung, sozialer Ungleichheit oder sogar zum Verlust von Menschenleben führen.
Erklärbare Künstliche Intelligenz kann helfen, Verzerrungen in den Trainingsdaten und Fehlverhalten eines KI-Systems frühzeitig zu erkennen. Da erklärbare KI-Systeme auch Begründungen für ihre Entscheidungen liefern, kann die Fehlerursache besser eingegrenzt und der Fehler somit leichter korrigiert werden. Erklärbare Künstliche Intelligenz trägt somit zur Entwicklung besserer KI-Systeme bei und hilft, das Risiko falscher oder diskriminierender Entscheidungen zu minimieren.
Beispielsweise sollte ein autonom fahrendes Auto in der Lage sein, Radfahrer in jeder Situation richtig zu erkennen und entsprechend zu reagieren. Erklärbare Künstliche Intelligenz gibt Aufschluss darüber, welche Merkmale das KI-System konkret nutzt, um Radfahrer zu erkennen. So kann überprüft werden, ob diese Merkmale kausal und sinnvoll sind. Beispielsweise würde man erwarten, dass die KI einen Radfahrer unter anderem an den beiden Rädern des Fahrrads erkennt.
Stellt sich jedoch bei einer Analyse mittels Erklärbarer Künstlicher Intelligenz heraus, dass ein KI-System einen Radfahrer primär anhand der Radwegmarkierung erkennt, deutet dies auf ein fehlerhaftes Verhalten der KI hin. In diesem Fall kann es sein, dass das KI-System Radfahrer abseits der Radwege nicht richtig erkennt. Dies kann zu gefährlichen Situationen führen und Radfahrer in Lebensgefahr bringen. In diesem Fall muss die KI dringend korrigiert werden.
2. Vertrauensbildung
Durch Erklärbarkeit kann auch Vertrauen in KI-Systeme geschaffen werden. Dieses Vertrauen ist notwendig, damit KI-Systeme von der Gesellschaft akzeptiert und von Privatpersonen und Unternehmen genutzt werden. Denn Menschen sind in der Regel sehr zurückhaltend, wenn es um den Einsatz von Technologien geht, die sie nicht verstehen. Erklärbare Künstliche Intelligenz kann jedoch menschlichen Nutzern die Gründe für bestimmte Entscheidungen eines KI-Systems aufzeigen. Stimmen diese Gründe mit der Logik oder Intuition der menschlichen Nutzer überein, fördert dies die Akzeptanz eines KI-Systems.
3. Entdeckung neuer wissenschaftlicher Erkenntnisse
Maschinelle Lernverfahren sammeln in der Regel viel Wissen aus ihren Trainingsdaten, das bei Black-Box-Modellen zunächst in den Modellgewichten verschlüsselt ist. Erklärbare Künstliche Intelligenz kann helfen, dieses Wissen zu extrahieren und damit neue wissenschaftliche Erkenntnisse zu gewinnen. So könnte XAI in Zukunft beispielsweise dazu beitragen, neue Gesetzmäßigkeiten in der Biologie, Chemie und Physik zu entdecken.
Es ist jedoch zu beachten, dass maschinelle Lernverfahren nur Korrelationen in den Trainingsdaten lernen. Diese Korrelationen müssen nicht zwangsläufig kausale Zusammenhänge in der realen Welt sein. Erklärbare Künstliche Intelligenz deckt also nicht notwendigerweise reale kausale Zusammenhänge auf. Sie kann aber erste Hinweise auf Kausalitäten geben, die dann in weiteren Analysen von Fachexperten genauer untersucht und verifiziert werden können.
4. Rechtliche Anforderungen:
Darüber hinaus können in Zukunft auch gesetzliche oder regulatorische Vorgaben die Erklärbarkeit von KI-Systemen erfordern. So hat die Europäische Union am 21. April 2021 mit dem Artificial Intelligence Act einen ersten Gesetzesvorschlag zur stärkeren Regulierung von KI-Systemen veröffentlicht. In diesem Gesetzesvorschlag werden auch Anforderungen an die Erklärbarkeit von KI-Systemen gestellt:
High-risk AI systems shall be designed and developed in such a way to ensure that their operation is sufficiently transparent to enable users to interpret the system’s output and use it appropriately.
– Artificial Intelligence Act, Europäische Kommission
Auch wenn der Artificial Intelligence Act noch sehr unkonkret ist, lässt er erkennen, dass Erklärbare Künstliche Intelligenz in den nächsten Jahren stark an Bedeutung gewinnen wird. Für KI-Anwendungen in Hochrisikobereichen wie dem Gesundheits- und Finanzwesen wird die Erklärbarkeit von KI-Systemen in Zukunft wohl unverzichtbar sein.
Wer sind die Zielgruppen der Erklärbaren Künstlichen Intelligenz?
Darüber hinaus lässt sich die Notwendigkeit der Erklärbaren Künstlichen Intelligenz auch aus der Perspektive verschiedener Stakeholder begründen. Schließlich werden die Erklärungen bestimmten Stakeholdern zur Verfügung gestellt, die von den Erklärungen profitieren oder sogar auf sie angewiesen sind. In den verschiedenen Phasen der Entwicklung und Nutzung von KI-Systemen gibt es mehrere Arten von Stakeholdern. Jeder dieser Stakeholder benötigt die Erklärungen eines KI-Systems für unterschiedliche Zwecke und hat daher individuelle Anforderungen an die Art der Erklärungen.
Die fünf häufigsten Zielgruppen der Erklärbaren Künstlichen Intelligenz sind Entwickler, Fachexperten, Führungskräfte, Regulierungsbehörden und Personen, die von den Entscheidungen eines KI-Systems betroffen sind (siehe Abbildung 1).

Unterschiedliche Zielgruppen und ihre Bedürfnisse
- Entwickler, Data Scientists und Produktmanager: Sie benötigen Erklärungen, um die Qualität ihrer KI-Modelle sicherzustellen. Erklärbare Künstliche Intelligenz hilft ihnen, unbekannte Schwachstellen und Fehlerquellen (z.B. falsches Modellverhalten oder fehlerhafte Daten) zu erkennen und zu beheben. Darüber hinaus können die Erklärungen Hinweise auf Verbesserungspotenziale geben und damit zur Steigerung der Produkteffizienz oder zu neuen Funktionalitäten beitragen.
- Anwender und Fachexperten: Für die Nutzer eines KI-Systems und für Fachexperten (z. B. Ärzte im Fall von KI für medizinische Anwendungen) sind Erklärungen des KI-Systems wichtig, damit sie Vertrauen in das System entwickeln können (insbesondere im Hinblick auf seine Funktionalität, Fairness und ethische Vertretbarkeit). Darüber hinaus kann Erklärbare Künstliche Intelligenz Fachexperten helfen, neue wissenschaftliche Erkenntnisse zu gewinnen.
- Führungskräfte und Vorstände: Erklärbare Künstliche Intelligenz ist auch für Führungskräfte und Vorstände von Interesse. Sie hilft ihnen, die verschiedenen KI-Anwendungen im Unternehmen besser zu verstehen und ihre Vereinbarkeit mit den Zielen und Werten des Unternehmens zu beurteilen. Darüber hinaus ermöglicht ein erklärbares KI-System eine bessere Bewertung seiner Compliance. So können die Erklärungen helfen, die Risiken und Auswirkungen des KI-Systems besser einzuschätzen.
- Regulierungsbehörden: Für Aufsichts- und Regulierungsbehörden ist die Erklärbarkeit von KI-Systemen vor allem deshalb wichtig, weil sie die Transparenz der Systeme erhöht. Dies erleichtert es den Regulierungsbehörden, KI-Systeme zu auditieren und auf Rechtskonformität zu prüfen. Auf diese Weise kann sichergestellt werden, dass ein KI-Modell den geltenden Rechtsvorschriften entspricht.
- Betroffene Personen: Erklärungen eines KI-Systems sind auch für Menschen relevant, die direkt oder indirekt von den Entscheidungen des Systems betroffen sind. Die Erklärungen helfen diesen Menschen, ihre Situation besser zu verstehen. Darüber hinaus können sie anhand der Erklärungen überprüfen, ob die Entscheidungen der KI fair sind und ihre Rechte und Interessen wahren. Erklärbare Künstliche Intelligenz trägt damit auch zur gesellschaftlichen Akzeptanz von KI-Systemen bei.
Notwendigkeit zielgruppengerechter Erklärungen
Erklärbare Künstliche Intelligenz ist also aus kommerziellen, ethischen und regulatorischen Gründen unverzichtbar. Sie hilft verschiedenen Zielgruppen, die Ergebnisse einer KI zu verstehen, ihnen angemessen zu vertrauen und sie effektiv zu nutzen.
Jede dieser Zielgruppen benötigt jedoch speziell auf ihre Bedürfnisse zugeschnittene Erklärungen zu einem KI-System. So hat jede der Zielgruppen unterschiedliches Hintergrundwissen über das Anwendungsgebiet des KI-Systems sowie über das KI-System selbst. Darüber hinaus benötigt jede Zielgruppe die Erklärungen für einen anderen Zweck. Eine gute Erklärung berücksichtigt daher die Bedürfnisse der Zielgruppe in Bezug auf den zu erklärenden Sachverhalt. Aus diesem Grund gibt es eine Vielzahl unterschiedlicher Kategorien von Erklärungsmethoden, die wir im folgenden Abschnitt näher erläutern.
Kategorisierung von Erklärungsmethoden
Erklärbare Künstliche Intelligenz bietet eine Vielzahl von Erklärungsmethoden, die nach Art, Umfang, Zweck und Format kategorisiert werden können, siehe Abbildung 2. Diese Taxonomie zur Kategorisierung verschiedener Erklärungsmethoden werden wir im Folgenden näher erläutern.

Art der Erklärungsmethode
Zum einen können Erklärungsmethoden nach ihrem methodischen Ansatz kategorisiert werden. So lassen sich zwei große Kategorien der Erklärbaren Künstlichen Intelligenz unterscheiden, nämlich Post-Hoc-Erklärungsmethoden und inhärent interpretierbare Modelle.
Inhärent interpretierbare Modelle
Inhärent interpretierbare Modelle sind maschinelle Lernverfahren, deren Modellarchitektur so gestaltet ist, dass sie von sich aus transparent und für den Menschen verständlich ist. Bei dieser Art der Erklärbaren Künstlichen Intelligenz wird also die Komplexität der maschinellen Lernmodelle begrenzt, um eine bessere Erklärbarkeit der Modelle zu erreichen. Inhärent interpretierbare Modelle verwenden besonders einfache Modellarchitekturen oder enthalten in die Modellarchitektur eingebettete Komponenten, die die Erklärung ihrer Entscheidungen erleichtern.
Inhärent interpretierbare Modelle liefern also von sich aus eine Erklärung für ihr Verhalten, so dass Erklärungen nicht erst durch nachgelagerte Techniken erzeugt werden müssen. Beispiele für solche Modelle sind die klassische lineare Regression oder einfache Entscheidungsbäume. Bei solchen Modellen ist es für den Menschen einfach, anhand der Modellgewichte abzulesen, wie genau das Modell seine Entscheidungen trifft. Wichtig ist, dass nicht nur die Modellarchitektur für die inhärente Interpretierbarkeit von Bedeutung ist, sondern auch die Merkmale der Eingabedaten. Es ist wichtig, dass die Merkmale selbst aussagekräftig und für Menschen verständlich sind.
Post-Hoc-Erklärungsmethoden
Während bei inhärent interpretierbaren Modellen die Problematik darin besteht, Modellarchitekturen zu entwerfen, die keine Black Box darstellen, ist die Problematik bei Post-Hoc-Erklärungsmethoden eine andere. Der Bereich der Post-Hoc-Erklärungsmethoden fokussiert sich auf bereits entwickelte KI-Modelle, die aufgrund ihrer Komplexität nicht ohne weiteres a priori erklärbar sind. Hier geht es um die Frage, wie solche Black-Box-Modelle erklärt werden können, ohne deren Modellarchitektur und Modellgewichte verändern zu müssen.
Der Bereich der Post-Hoc-Erklärbarkeit umfasst daher die Entwicklung zusätzlicher separater Techniken, die auf ein Black-Box-Modell nach dessen Training angewendet werden. Auf diese Weise kann das Black-Box-Modell im Nachhinein analysiert und seine Entscheidungen erklärt werden. Ein Beispiel für eine Post-Hoc-Erklärungsmethode ist die Erklärungsmethode SHAP.
Bei den Post-hoc-Erklärungsmethoden wird nochmals zwischen modellspezifischen und modell-agnostischen Erklärungsmethoden unterschieden. Modell-agnostische Erklärungsmethoden machen keine Annahmen über das zugrundeliegende maschinelle Lernverfahren. Sie analysieren in der Regel nur die Eingabe- und Ausgabedaten eines Modells, um dessen Verhalten zu erklären. Sie treffen jedoch keine Annahmen über die Modellarchitektur oder die Modellgewichte. Daher können modell-agnostische Erklärungsmethoden auf alle Arten von Black-Box-Modellen angewendet werden.
Im Gegensatz dazu sind modellspezifische Post-Hoc-Erklärungsmethoden auf bestimmte maschinelle Lernverfahren zugeschnitten. Ihre Anwendbarkeit ist daher auf diese speziellen Modellklassen beschränkt und nicht auf andere Modelle übertragbar. Beispielsweise gibt es einige modellspezifische Post-Hoc-Erklärungsmethoden, die Gradienten berechnen, um Erklärungen für die Entscheidungen eines Modells zu generieren. Solche gradientenbasierten Erklärungsmethoden lassen sich sehr gut auf neuronale Netze anwenden, deren Training selbst gradientenbasiert ist. Für Ensembles von Entscheidungsbäumen, wie z.B. Random Forests, können jedoch keine Gradienten berechnet werden, so dass gradientenbasierte Post-Hoc-Erklärungsmethoden hier nicht anwendbar sind.
Post-hoc-Erklärungsmethoden approximieren in der Regel das Originalmodell, um es zu erklären. Ihre Erklärungen sind daher weniger genau und weniger zuverlässig als die von inhärent interpretierbaren Modellen. Die Erklärungen von inhärent interpretierbaren Modellen sind nämlich Teil des Entscheidungsprozesses des Modells selbst und daher nicht von Approximationsfehlern betroffen.
Umfang der Erklärungsmethode
Erklärungsmethoden können auch nach dem Umfang der Erklärung kategorisiert werden. Hier unterscheidet man zwischen lokalen Erklärungsmethoden, die einzelne Modellvorhersagen erklären, und globalen Erklärungsmethoden, die das gesamte Modellverhalten beschreiben.
Lokale Erklärungen geben Aufschluss über die Gründe für einzelne Vorhersagen eines maschinellen Lernverfahrens. Nehmen wir wieder das Beispiel der KI-gestützten Kreditwürdigkeitsprüfung. Eine lokale Erklärung würde beschreiben, warum der Kreditantrag eines einzelnen Antragstellers abgelehnt wurde. Sie könnte beispielsweise erklären, welche Merkmale der Eingabedaten für die Entscheidung des maschinellen Lernverfahrens besonders wichtig waren. War es das geringe Einkommen des Antragstellers? Oder weil er noch Restschulden hat?
Lokale Erklärungen können auch Aufschluss darüber geben, wie genau bestimmte Merkmale die Vorhersage des KI-Modells beeinflusst haben. Hat zum Beispiel das Einkommen des Kreditantragstellers eher dazu beigetragen, dass das Modell den Kreditantrag abgelehnt oder bewilligt hat? Darüber hinaus können lokale Erklärungen auch Auskunft darüber geben, wie die Merkmale verändert werden müssten, damit das KI-Modell eine andere Entscheidung trifft. Beispielsweise könnte eine lokale Erklärung zu dem Ergebnis führen, dass der Kreditantrag bewilligt worden wäre, wenn das Einkommen des Antragstellers um 1.000 Euro höher gewesen wäre.
Im Gegensatz zu lokalen Erklärungen konzentrieren sich globale Erklärungen nicht auf einzelne Vorhersagen eines maschinellen Lernverfahrens. Stattdessen helfen globale Erklärungen, das Gesamtverhalten eines KI-Modells und die Mechanismen, mit denen das Modell arbeitet, zu verstehen. Sie identifizieren gemeinsame Muster in der Entscheidungsfindung eines Modells für eine große Anzahl von Eingabedaten (z.B. für einen gesamten Datensatz).
Globale Erklärungen können helfen zu verstehen, welche Merkmale für die Entscheidungen eines KI-Modells insgesamt am wichtigsten sind. Ist z.B. das Einkommen eines Kreditantragstellers generell das entscheidende Merkmal für die Beurteilung seiner Kreditwürdigkeit? Oder eher seine Schuldenfreiheit? Globale Erklärungen können auch Aufschluss darüber geben, welche Konzepte ein maschinelles Lernverfahren gelernt hat (z.B. Streifenmuster sind wichtig für die Erkennung von Zebras) und nach welchen Kriterien ein Modell seine Entscheidungen trifft.
Zweck der Erklärungsmethode
Erklärungsmethoden der Erklärbaren Künstlichen Intelligenz können unterschiedlichen Zwecken dienen. Im Allgemeinen versuchen diese Methoden entweder, die von einem KI-Modell gelernten Merkmale (engl. features) oder Feature-Attributionen zu identifizieren, beispielbasierte oder kontrafaktische Erklärungen zu liefern oder das Modellverhalten zu beschreiben.
- Feature-Attributionen: Erklärungsmethoden zur Identifizierung von Feature-Attributionen weisen jedem Merkmal in den Eingabedaten einen Wert zu, der die Bedeutung des Merkmals für die Modellvorhersagen quantifiziert. Sie liefern auch Informationen darüber, wie genau bestimmte Merkmale die Modellvorhersagen beeinflussen. Beispielsweise können Feature-Attributionen verwendet werden, um zu bestimmen, auf welche Bereiche eines Bildes sich ein KI-Modell bei der Klassifikation des Bildes konzentriert. Klassische Erklärungsmethoden wie SHAP, LIME und Integrated Gradients fallen alle in diese Kategorie von Erklärungsmethoden.
- Gelernte Features: Erklärungsmethoden können auch darauf abzielen, die Merkmale zu identifizieren, die ein KI-Modell während des Lernprozesses gelernt hat. Bei diesen Methoden werden einzelnen Teilen eines maschinellen Lernverfahrens (z. B. einzelnen Neuronen oder Schichten eines neuronalen Netzes) eine Reihe von Merkmalen oder Konzepten zugeordnet, die sie erkennen können.
- Beispielbasierte Erklärungen: Beispielbasierte Erklärungsmethoden extrahieren repräsentative Instanzen aus den Trainingsdaten und verwenden diese exemplarisch, um das Verhalten eines maschinellen Lernverfahrens zu erklären. Die Beispielinstanzen zeigen Muster, die vom Modell als ähnlich angesehen werden und für die sich das Modell daher ähnlich verhält. Beispielbasierte Erklärungen erklären also Prozesse in ähnlicher Weise, wie es Menschen tun. In diese Kategorie fällt z.B. der k-Nearest-Neighbours-Algorithmus, der für eine Eingabe jeweils die k ähnlichsten Instanzen aus dem Trainingsdatensatz findet und dann eine Vorhersage in Form einer Mehrheitsentscheidung trifft.
- Kontrafaktische Erklärungen: Kontrafaktische Erklärungsmethoden zielen darauf ab, den minimalen notwendigen Umfang der Veränderung einer Instanz zu identifizieren, die zu einer anderen Vorhersage für diese Instanz führt. Sie helfen also zu verstehen, welche Merkmale der Instanz wie verändert werden müssen, um eine andere Modellvorhersage zu erhalten. Kontrafaktische Erklärungen finden kontrafaktische Beispielinstanzen, die der ursprünglichen Instanz so ähnlich wie möglich sind, aber zu einer anderen Vorhersage führen.
- Erklärung des Modellverhaltens: Erklärungsmethoden können auch versuchen herauszufinden, wie sich ein KI-Modell in einer bestimmten Situation verhält. Sie identifizieren dabei Muster im Verhalten des Modells. Ein Beispiel hierfür sind Erklärungsmethoden, die versuchen, durch Adversarial Examples ausgelöste Fehlklassifikationen zu erklären.
Format der Erklärungsmethode
Erklärungen zu maschinellen Lernverfahren können in verschiedenen Formaten dargestellt werden. Die gebräuchlichsten Darstellungsformen sind Statistiken, Diagramme, menschliche Sprache und Datenpunkte.
- Statistiken: Erklärungsmethoden liefern oft Erklärungen in Form von zusammenfassenden Statistiken. Diese Statistiken stellen eine Erklärung in Zahlen und Tabellen dar. Ein Beispiel ist die Vergabe von Punkten für die Wichtigkeit einzelner Merkmale der Eingabedaten, z. B. Merkmal A hat eine Wichtigkeit von 3, Merkmal B hat eine Wichtigkeit von 1,5 und Merkmal C hat eine Wichtigkeit von 0,5.
- Diagramme: Erklärungen von KI-Modellen können auch visualisiert und in Form von Diagrammen dargestellt werden. Diagramme bieten eine für den Menschen leicht verständliche grafische Veranschaulichung des Modellverhaltens. Beispielsweise kann die Wichtigkeit verschiedener Merkmale in Form eines Balkendiagramms illustriert werden.
- Menschliche Sprache: Erklärungsmethoden können auch Erklärungen in menschlicher Sprache liefern. Erklärungen in menschlicher Sprache können in Form von Text, Audioaufzeichnungen oder, im Falle der Gebärdensprache, visuell dargestellt werden. Ein Beispiel hierfür ist die Erklärung für die Ablehnung eines Kreditantrags in der Form „Dieser Kreditantrag wurde aufgrund des geringen monatlichen Nettoeinkommens von 1.000 Euro abgelehnt.
- Datenpunkte: Erklärungen zu KI-Modellen können auch in Form von repräsentativen Beispielinstanzen gegeben werden, wie dies bei beispielbasierten Erklärungen der Fall ist. Diese Beispielinstanzen können entweder reale Datenpunkte aus dem Datensatz oder künstlich erzeugte Datenpunkte sein. Es ist wichtig, dass die Datenpunkte, die als Erklärung gegeben werden, von Menschen verstanden werden können. Andernfalls ist die Erklärung wenig hilfreich. Erklärungen in Form von Datenpunkten funktionieren daher besonders gut, wenn es sich bei den Datenpunkten um Bilder, Text oder Audio handelt.
Unterschiedliche Erklärungsmethoden für verschiedene Zielgruppen
Jede Erklärungsform hat ihre eigenen Vor- und Nachteile und kann je nach Anwendungsfall und Zielgruppe unterschiedlich geeignet sein. Beispielsweise benötigen Vorstände globale und nicht zu detaillierte Erklärungen in Form von einfacher Sprache oder Visualisierungen, um ein grobes Verständnis für ein KI-System zu entwickeln. Im Gegensatz dazu benötigen Entwickler von KI-Algorithmen sehr detaillierte Erklärungen auf lokaler und globaler Ebene, um Fehlverhalten eines Modells erkennen und korrigieren zu können.
Weiterführende Literatur
In diesem Abschnitt findest Du weiterführende Literatur, die Dir helfen wird, tiefer in die Thematik der Erklärbaren Künstlichen Intelligenz einzusteigen.
Bücher
Wissenschaftliche Publikationen
- Adadi, Amina, and Mohammed Berrada. „Peeking inside the black-box: a survey on explainable artificial intelligence (XAI).“ IEEE access 6 (2018): 52138-52160.
- Arrieta, Alejandro Barredo, et al. „Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI.“ Information fusion 58 (2020): 82-115.
- La Rosa, Biagio, et al. „State of the Art of Visual Analytics for eXplainable Deep Learning.“ Computer Graphics Forum. 2023.
Zusammenfassung
In diesem Artikel hast Du verschiedene Arten von Erklärungsmethoden kennengelernt und mehr darüber erfahren, was Erklärbare Künstliche Intelligenz ist und warum sie so wichtig ist.
Konkret hast Du gelernt:
- Erklärbare Künstliche Intelligenz befasst sich mit der Entwicklung von KI-Systemen, die Details oder Gründe liefern, um ihre Funktionsweise für eine bestimmte Zielgruppe klar oder leicht verständlich zu machen.
- Erklärbare Künstliche Intelligenz ist wichtig, um Fehlverhalten von KI-Systemen zu korrigieren, das Vertrauen der Stakeholder zu gewinnen, neues Wissen zu entdecken und rechtliche Anforderungen zu erfüllen.
- Erklärbare Künstliche Intelligenz hat je nach Anwendung unterschiedliche Zielgruppen, darunter Entwickler, Anwender, Führungskräfte, Regulierungsbehörden und Personen, die von KI-Entscheidungen betroffen sind.
- Die durch Erklärbare Künstliche Intelligenz erzeugten Erklärungen können nach Art, Umfang, Zweck und Format unterschieden werden.
Hast Du noch Fragen?
Schreibe Deine Fragen gerne unten in die Kommentare und ich werde mein Bestes tun, sie zu beantworten.
P.S.: Natürlich freue ich mich auch über konstruktives Feedback zu diesem Blogpost 😊

Hallo, mein Name ist René Heinrich. Ich bin Data Scientist und promoviere im Bereich der vertrauenswürdigen künstlichen Intelligenz. Auf diesem Blog teile ich meine Erfahrungen und alles, was ich auf meiner eigenen Wissensreise gelernt habe.