Die Prüfung von künstlicher Intelligenz

WP/StB/CPA Prof. Dr. Rüdiger Loitz / Stephan Hinze

Während zu dem Einsatz von künstlicher Intelligenz bereits viele Anwendungsfälle vorliegen, spielt diese Technologie im Finanzwesen noch nicht die tragende Rolle. Es ist zu erwarten, dass dies sich wesentlich ändert. Daraus ergibt sich zwingend, sich bereits jetzt über die Prüfung derartiger, komplexer Systeme, die insb. datengesteuert sind, Gedanken zu machen.

WP/StB/CPA Prof. Dr. Rüdiger Loitz

Wenn man den Zeitungen Glauben schenkt, sind wir bereits überschüttet von Systemen der künstlichen Intelligenz (im Folgenden kurz: „KI“). Im Finanzwesen wäre die Buchhaltung und die Abschlussprüfung bereits durch KI ersetzt. Nach einem Blick in die Realität sieht dies allerdings ganz anders aus. Der sensible Bereich der Finanzinformationen verfügt gar nicht so oft über derartige Systeme, insb. in den wenig standardisierten Themen. Nichtsdestotrotz kommt man nicht umhin, sich mit dem Thema näher auseinander zu setzen. Prognostiziert ist ein progressives technologisches Wachstum, insb. beim Einsatz von KI. Bisher wird nicht die Frage gestellt, ob die KI Systeme – unabhängig von wem sie ins „künstliche Leben“ gerufen wurden – per se einwandfrei und ordnungsgemäß arbeiten. Die größte Herausforderung für die Beurteilung der Qualität ist es, dass die menschlichen Anwender die Wirkungsweise von KI erst einmal verstehen. Nur wenn KI-Experten die Qualität eines KI-Modells ganzheitlich verstehen und strukturiert überprüfen, können Schwachstellen und Fehler vermieden werden. Systeme der KI müssen hinsichtlich der vier Komponenten analysiert werden:

Stephan Hinze

ihre Algorithmen,
ihre Trainingsdaten,
die Plattformen, auf denen die Systeme betrieben werden und
die Umwelt, in der sie angewendet wird,

und das Ganze auf Robustheit, Verständlichkeit und Leistungsfähigkeit.

Herausforderungen für die Beurteilung von Algorithmen, .…

Für die Algorithmen lehrt die Erfahrung, dass es erhebliche Qualitätsunterschiede gibt. Noch beziehen sie sich nicht häufig auf das Finanzwesen, viele Anwendungen exisitieren bereits im Gesundheitswesen, im Automobilbereich und sonstigen sicherheitskritischen Bereichen. So mancher programmierte Code könnte in seiner Anzahl von Zeilen und der davon ausgehenden Komplexität und vor allem dem Risiko, dass bei Änderungen wie bei einem Dominospiel irgendwo Steine umfallen und eine Kettenreaktion auslösen, in Frage gestellt werden.

Zudem kann im Grunde ein System der KI nur so gut sein, wie die Daten, die in das System gesteckt werden. Und das sind viele Daten. Die Datenerfassung, -verteilung und -vorbereitung – kurz Annotation – ist der entscheidende Faktor für die Qualität der später herauskommenden Daten. Dazu sind verheerende Beispiele bekannt. Auf einem Bild mit einem Husky wurde durch eine KI ein Wolf erkannt. Der Grund war nicht, dass der Husky einem Wolf ähnelt sondern, dass die KI bei dem Training immer wieder auf einen schneebedeckten Hintergrund geschaut hat, der gleichermaßen auf dem Husky-Bild erkannt wurde. Ein weiteres Beispiel kommt aus einer KI-Bilderkennungsmaschine, die dunkelhäutige Menschen als Gorillas identifizierte. Das Thema konnte in der KI nicht einfach gelöst werden. Denkbar wäre künftig auch eine nicht erkannte Option in einem Leasingvertrag, da Kaffeeflecken auf dem Deckblatt sein könnten.

…. von Trainingsdaten, ….

Eine weitere Problematik des Themas liegt in der Verfügbarkeit von Trainingsdaten. Grds. sind Unmengen von Daten verfügbar, aber nicht Daten, die einen Sinn ergeben. Dies könnte z.B. ein Bild sein, auf dem ein Flugzeug abgebildet ist, oder ein Leasingvertrag, in dem eine Option erkannt wird. Sowohl das Bild, als auch der Leasingvertrag selbst sind nicht entscheidend, die Verbindung zu dem erkannten Flugzeug und der Option dagegen schon. Solche angereicherten Daten haben einen hohen Preis. Ansätze aus dem Lernen von anonymisierten Daten stecken noch in den Kinderschuhen und sind derzeit nur wenigen Firmen aufgrund des Intellectual Property vorenthalten.

…. der Plattform ….

Weiterhin spielt die Plattform eine wichtige Rolle in der Beurteilung von KI-Instrumenten. Ein einfaches Beispiel ist eine KI für eine Gangschaltung im Auto. Allgemein bekannt ist, dass ein Getriebe zerstört wird, wenn während der Fahrt vom 4. Gang in den 1. Gang geschaltet wird. Ein kognitives System sollte so etwas nicht lernen, sondern im Vorfeld wissen. In der Praxis muss gefordert sein, dass die Entwickler frühzeitig Annahmen in den Spezifikationen und im Trainingsplan/-methode berücksichtigen. Eine Verifikation hinsichtlich der KI ist theoretisch teilweise möglich, wird jedoch nicht gelebt.

…. und der Umwelt von KI-Systemen

Abschließend ist die Umwelt, in der KI-Module eingesetzt werden, wichtig für die Beurteilung ihrer Qualität. Eine besondere Stellung haben intelligente autonome Systeme. Schon in der Trainingsphase ist es bedeutsam, ob bspw. ein automatisch fahrendes Auto auf der Teststrecke, in Simulationen oder im Straßenverkehr trainiert werden soll. Letzteres wäre wahrscheinlich unverantwortlich, da Menschenleben in Gefahr wären. Im Finanzwesen wären KI-Trainings für Daten im laufenden Zahlungsverkehr vergleichsweise kritisch. Das Klassifizieren der Umwelt und die damit verbundenen Risiken sind entscheidend zur Beurteilung der Sicherheit in dem laufenden Betrieb der KI.

Konsequenzen für die Prüfung von KI-Systemen

Wagen wir damit einen Blick in die Zukunft. In einer Welt der End-to-End-Finanzprozesse muss gerade die Datenquelle, und sie wäre maßgeblich KI-bestimmt, einwandfrei arbeiten. Vielleicht wird sie nicht besser als die menschliche Intelligenz, aber mindestens genauso gut – ohne das damit verbundene ethische Thema zu öffnen – ob von einer Maschine mehr erwartet wird als von einem Menschen. Wenn das KI-System geprüft wird, also z.B. mit Testdaten, Sichtung der Spezifikation, formalen mathematischen Methoden oder KI-Modell-Analysen im Quelltext, die ganz bewusst das System auf die sachgerechte Übertragung der richtigen Daten untersucht, dann ist es schwieriger als bei den bisher eher datenanalytischen Systemen. Letztlich prüft man – anspruchsvoll formuliert – eine Intelligenz, wenn auch eine „künstliche“. Die obigen Ausführungen wiesen darauf hin, dass KI Systeme so gut sind, wie ihre Algorithmen, aber vor allem die Daten, die Plattform oder die Umwelt in Verbindung mit der Verständlichkeit, Robustheit und Leistungsfähigkeit. Deutlich wird hieraus, dass eine derartige Prüfung künftig vielmehr auf der Basis von integrierten Kompetenzen, nicht nur IT, sondern fachlich-orientiert, use-case-orientiert, erfolgen muss. Prüfsoftware wird hierfür in Zukunft eingesetzt (ggf. prüft sogar eine KI die andere KI), da die komplexen multidimensionalen Systeme nicht mehr alleine durch Experten zu prüfen sind. Die Qualitätssicherung derartiger Systeme basiert auf einer Zusammenkunft von Prüfsoftware, verschiedenen Disziplinen und Know-how. Deren Effizienz basiert darauf, wie gut das Ineinandergreifen der Kompetenzen realisiert wird.

Was folgt daraus: Die Qualität von KI Systemen ist ein entscheidender Faktor, wenn nicht sogar der zukünftig entscheidende Faktor für Systeme, die im Finanzsystem arbeiten. Qualitätsthemen sind der deutschen Entwicklung um Technologie sehr nahe, anderen Ländern weniger. Wir sind gut beraten, uns damit frühzeitig zu beschäftigen, um uns einmal mehr als Qualitätsführer zu behaupten.