CFOs, die KI-Lösungen evaluieren, stellen zu Recht zentrale Fragen:
Wie kann man KI einsetzen? Wie schnell? Wie hoch ist der ROI?
Doch eine entscheidende Frage wird oft nicht gestellt: Aus welchen Daten hat diese KI gelernt?
Für einen CFO ist die Antwort auf diese Frage aber essenziell. Sie entscheidet darüber, ob ein KI-System Zahlungsverhalten, Muster im Kreditmanagement oder Dynamiken im Forderungsmanagement wirklich versteht – oder ob sich die KI eher durch Finanzprozesse tastet, weil das Modell primär auf Reddit-Threads und Wikipedia-Einträgen trainiert wurde, und dadurch lediglich die allgemeinen Kompetenz eines generischen Modells mitbringt.
Die Performance in einer Domäne ist abhängig von den Daten der Domäne
Generische Large Language Models werden mit Inhalten aus dem Internet trainiert – Millionen Webseiten, Bücher und Artikel, die breites Allgemeinwissen vermitteln. Für generische Aufgaben funktioniert das gut. Finanzoperationen fallen jedoch nicht in diese Kategorie.
Untersuchungen von Gartner zeigen, dass domänenspezifische Modelle wesentlich optimierter auf branchenspezifische Aufgaben ausgerichtet sind, und dadurch eine schnellere Time-to-Value, bessere Performance und höhere Sicherheit in KI-Projekten ermöglichen.
Als Google beispielsweise Med-PaLM 2 mit medizinischen Fachdaten trainierte, erreichte das Modell 86,5% Genauigkeit bei medizinischen Prüfungsfragen auf Expertenlevel – weit über dem Niveau generischer Modelle.
Im Finanzbereich gibt es eine vergleichbare domänenbezogene Dynamik. Das Zahlungsverhalten folgt Mustern, die in öffentlichen Datensätzen nicht vorkommen. Unter welchen Umständen Kunden das Zahlungsziel überziehen, wann Disputes in bestimmten Branchen sprunghaft ansteigen, welche Collection-Strategien etwa im Manufacturing besser funktionieren als im Retail – diese Muster existieren in Transaktionsdaten – nicht in Blogs oder Posts.
Und dieser Unterschied ist im täglichen Einsatz entscheidend:
Eine domänenspezifisch trainierte KI, die erkennt, dass die verspätete Zahlung eines einzelnen Kunden vergleichbaren Mustern ähnelt, die bei tausenden anderen Kunden in derselben Branche ebenfalls zu erkennen sind: Eine derartige KI führt zu einer wesentlich besseren Entscheidung, wie dann im Tagesgeschäft die Prioritäten zu setzen sind, um bestmöglich auf die Situation zu reagieren. Im Gegensatz zu einer KI, die auf Basis von lediglich allgemeinem Business-Wissen nicht mehr als „Educated Guesses“ liefern kann.
Die Trainingsqualität bestimmt die Qualität der Governance
Finance-Leader stehen außerdem zunehmend unter Druck, KI-Entscheidungen zu erklären. Regulierungsbehörden wollen wissen, warum Kredite gewährt oder verweigert wurden. Auditoren müssen Entscheidungen im Forderungsmanagement auf der zugrunde liegenden Logik zurückverfolgen können. Compliance-Teams verlangen Nachweise, dass keine systematischen Verzerrungen („Bias“) in den Modellen verankert wurden.
Wenn Organisationen nicht wissen, worauf deren KI trainiert wurde, lassen sich diese Fragen nicht beantworten.
Die Datenherkunft („Data Provenance“) – und damit die Nachvollziehbarkeit der Trainingsquellen – ist zentral in der modernen AI-Governance geworden. Wenn ein Modell zum Beispiel empfiehlt, einen Case im Forderungsmanagement zu eskalieren oder Kreditkonditionen anzupassen, muss nachvollziehbar sein, auf welchen Trainingsgrundlagen diese Empfehlung der KI basiert: Wurde das Modell mit anonymisierten, aggregierten Real-World-Zahlungsdaten trainiert? Oder mit Inhalten aus Internet-Scraping, mit nicht bestimmbarer Qualität, die möglicherweise zudem bereits mit einem Bias behaftet waren?
Der Markt für AI-Governance wächst stark – von 620 Mio. US-Dollar im Jahr 2024 auf prognostizierte 7,38 Mrd. US-Dollar bis 2030 – getrieben vor allem durch Anforderungen an die Erklärbarkeit („Explainability“) und Auditierbarkeit. Organisationen, die KI in sensiblen Finanzprozessen einsetzen, benötigen Systeme, deren Entscheidungen durch die Trainingsdaten bis zu den zugrunde liegenden Ursprungstransaktionen zurückverfolgbar sind.
Und Privacy-by-Design wird dabei zur Grundvoraussetzung. Training mit realen Finanzdaten erfordert strikte Kontrollen:
- Keine personenbezogenen Daten (PII)
- Einweg-Hashing
- Datenminimierung („Minimum Source Requirements“) zur Vermeidung individueller Identifizierbarkeit
- Sicherstellung, dass die Daten die Private Infrastructure nicht verlassen: keine Nutzung externer Modelle oder Public-Training-Infrastrukturen
Das sind keine „Nice-to-haves“, sondern Voraussetzungen für verantwortungsvolle KI im Finanzbereich.
Einige Unternehmen versuchen, diese Regeln einzuhalten, indem sie generische Modelle mit eigenen Daten nachtrainieren (Fine-Tuning). Das hilft in gewissem Umfang – aber das spezifische Wissen in der eigenen Domäne wird lediglich auf eine generische Basis gesetzt, anstatt von Grund auf durchgängig das Domänen-Wissen zu nutzen. Das Basismodel trifft dabei weiterhin Annahmen, die aus dem generischen Training mit Internetdaten resultieren. Dies kann an vielen Stellen zu unerwarteten Effekten führen, gerade bei spezifischen Szenarien im Finanzwesen.
Agentic AI erhöht die Governance-Anforderungen
Frühere KI-Systeme lieferten Empfehlungen, die vor der Ausführung von Menschen überprüft wurden. Agentic AI hingegen agiert autonom.
Eine Studie von IBM und Morning Consult zeigt, dass 99% der Enterprise-KI-Entwickler bereits KI-Agenten evaluieren oder entwickeln – also Systeme, die planen, schlussfolgern und handeln, ohne bei jedem Schritt auf eine Freigabe durch einen Menschen zu warten.
Diese Autonomie verändert die Governance-Anforderungen grundlegend.
Wenn ein KI-Agent zum Beispiel eigenständig entscheidet, einen Kunden zu kontaktieren, einen Streitfall zu eskalieren oder Zahlungsbedingungen zu modifizieren, muss im Audit-Trail nicht nur dokumentiert sein, welche Aktion ein KI-Agent ausgeführt hat. Vielmehr fordern moderne KI-Governance-Frameworks die Dokumentation darüber, warum ein KI-Agent eine spezifische Entscheidung getroffen hat.
In Finanzwesen, wo Entscheidungen direkten Einfluss auf Cashflow und die Kundenbeziehungen haben, ist diese Erklärbarkeit nicht verhandelbar. Ein KI-Agent, der auf realen Order-to-Cash-Daten, die einen jahrelangen Zeitraum umfassen, trainiert wurde (zum Beispiel auf anonymisierte Zahlungserfahrungen, Dispute-Mustern und Collection-Ergebnissen), kann bei der Begründung seiner Entscheidung auf konkret gelernte Muster verweisen. Ein KI-Agent, der auf generischen Daten trainiert wurde, kann das nicht.
Hinzu kommt die Dynamik von Echtzeit-Datenströmen. Die größten domänenspezifischen Finanz-Data-Lakes verarbeiten heute Zahlungserfahrungen kontinuierlich. Ein Beispiel ist der Sidetrade Data Lake. Dieser verarbeitet mehr als 8 Billionen US-Dollar an B2B-Transaktionen von vielen Millionen Unternehmen weltweit. Diese Größe ermöglicht es der KI, neue Muster frühzeitig zu erkennen, wie etwa:
- Veränderungen im Zahlungsverhalten
- Dispute-Häufungen in bestimmten Sektoren
- Saisonale Collection-Dynamiken
Generische Modelle mit periodischen Updates können diese Aktualität und Tiefe nicht erreichen.
Welche Fragen sollten Finance-Leader stellen
Bei der Bewertung verschiedener KI-Systeme für Finanzoperationen ist die Beantwortung einer Reihe unterschiedlicher Fragen wichtig:
- Woher stammen die Trainingsdaten?
Aus breitem, ungezielten Internet-Scraping – oder aus tatsächlich domänenspezifischen Finanztransaktionsdaten?
Gibt es Evidenz für eine ausreichend große Datenmenge, die notwendig ist um branchenspezifische Muster valide abzubilden? - Sind Entscheidungen der KI bis zur Datenquelle, mit der trainiert wurde, rückverfolgbar?
Ist es ersichtlich, welche Muster zu einer konkreten Empfehlung der KI geführt haben? - Wie wird Datenschutz gewährleistet?
Welche Mechanismen verhindern individuelle Identifizierbarkeit?
Wer hat Zugriff auf die Daten und Modelle? - Lernt das KI-System kontinuierlich aus aktuellen Daten?
Oder stützt sich die KI lediglich auf ein statisches Training?
In dynamischen Finanzumgebungen reichen statische Trainingsstände nicht aus. Es braucht kontinuierlich neue und aktuelle Muster.
Die Antworten auf diese Fragen trennen die verschiedenen Systeme: KI, die wirklich für Finance entwickelt wurde, im Gegensatz zu KI, die lediglich an Finance angepasst wurde.
Generische KI hat ihre Anwendungsbereiche. Aber das Ausführen von autonomen Finanzoperationen erfordert Systeme, die auf den spezifischen Mustern, Verhaltensweisen und Ergebnissen trainiert sind, die den Cashflow im Unternehmen tatsächlich bestimmen.
Trainingsdaten dürfen dabei auf keinen Fall nur als technisches Detail betrachtet werden.
Sie sind die Grundlage, die entscheidend dafür ist, ob eine KI die Nuancen der Prozesse im Finanzwesen in der Tiefe beherrscht, die diese Prozesse erfordern.
