27. November 2023 von Azza Baatout

Die Bedeutung der Rückverfolgbarkeit in der Künstlichen Intelligenz

In der Welt der Künstlichen Intelligenz (KI) besteht ein weit verbreitetes Problem, das als das Black-Box-Dilemma bekannt ist. KI-Praktikerinnen und -Praktiker stehen vor der Herausforderung, die undurchsichtigen Entscheidungsprozesse von KI-Systemen zu klären. Dieses Problem hängt mit der Tatsache zusammen, dass KI-Modelle oft als undurchsichtige "Black Boxes" angesehen werden, deren Funktionsweise schwer nachvollziehbar ist.

Rückverfolgbarkeit (Traceability) ist eine Lösung für dieses Dilemma, da sie den Benutzerinnen und Benutzern ermöglicht, die Vorhersagen und Prozesse einer KI nachzuverfolgen. Dies schließt die genutzten Daten, die verwendeten Algorithmen und die getroffenen Entscheidungen ein. Rückverfolgbarkeit ist von entscheidender Bedeutung, um das Vertrauen in KI-Systeme zu stärken und ethische Standards zu wahren.

Ein grundlegender Aspekt der Rückverfolgbarkeit ist die Dokumentation der Herkunft von Daten, Prozessen und Artefakten, die in der Entwicklung eines KI-Modells eine Rolle spielen. Zum Beispiel kann ein neuronales Netzwerk, das entwickelt wurde, um Kunst zu generieren, urheberrechtlich geschützte Bilder in seinen Trainingsdaten enthalten. Ohne Rückverfolgbarkeit wäre es nahezu unmöglich, solche Datenpunkte zu lokalisieren und zu entfernen. Dies könnte zu rechtlichen Problemen führen, wie beispielsweise Urheberrechtsverletzungen.

Warum ein Rückverfolgbarkeitssystem im KI-Bereich unverzichtbar ist

In der Welt von KI sind die Potenziale und Herausforderungen gleichermaßen faszinierend. KI-Systeme beeinflussen immer mehr Bereiche unseres täglichen Lebens, von der Gesundheitsversorgung bis zur Logistik und von der Finanzwelt bis zur Bildung. Doch mit dieser wachsenden Präsenz von KI in unserem Alltag entstehen auch Fragen, die über die bloße Implementierung von Algorithmen und Modellen hinausgehen. Eine dieser entscheidenden Fragen lautet: Warum ist ein Rückverfolgbarkeitssystem in der ki unverzichtbar? Ich stütze meine Überlegungen auf den wissenschaftlichen Artikel mit dem Titel "Traceability for Trustworthy AI: A Review of Models and Tools" von Mora-Cantallops. In diesem Artikel wird die Bedeutung der Rückverfolgbarkeit (Traceability) als wesentliche Anforderung für vertrauenswürdige künstliche Intelligenz betont. Diese Anforderung bezieht sich auf die Notwendigkeit, eine vollständige Aufzeichnung der Herkunft von Daten, Prozessen und Artefakten, die in der Produktion eines KI-Modells involviert sind, zu gewährleisten. In diesem Blog-Beitrag werde die zentrale Rolle der Rückverfolgbarkeit in KI-Projekten erkunden und aufzeigen, warum es nicht nur ein Wunsch, sondern eine Notwendigkeit ist, Transparenz, Ethik und Verantwortlichkeit in der KI-Entwicklung sicherzustellen:

1. Transparente Entscheidungsfindung: Rückverfolgbarkeit in KI-Systemen ermöglicht es, die Entscheidungsprozesse nachvollziehbar zu machen. Das bedeutet, dass Entwicklerinnen, Entwickler sowie Benutzerinnen und Benutzer verstehen können, wie ein KI-System zu einer bestimmten Schlussfolgerung oder Empfehlung gelangt ist. Dies ist besonders wichtig in kritischen Anwendungen wie der Medizin, wo es notwendig ist zu erklären, warum ein KI-System eine bestimmte Diagnose gestellt hat. Transparenz fördert das Vertrauen in die KI und ermöglicht es, mögliche Bias oder unerwünschte Auswirkungen in den Entscheidungen offenzulegen.
2. Ethik und Verantwortlichkeit: Rückverfolgbarkeit spielt eine entscheidende Rolle bei der Sicherstellung ethischer Standards in der KI. Es ermöglicht, die Herkunft und den Verlauf von Daten und Modellen zu dokumentieren, um sicherzustellen, dass keine diskriminierenden, unethischen oder unrechtmäßigen Entscheidungen getroffen werden. Dadurch können Entwicklerinnen und Entwickler sowie Organisationen Verantwortung für die Handlungen ihrer KI-Systeme übernehmen und ethische Standards einhalten.
3. Compliance und Regulierung: KI-Systeme unterliegen zunehmend strengen gesetzlichen Vorschriften und Regulierungen, insbesondere im Hinblick auf Datenschutz (etwa der DSGVO) und Sicherheit (zum Beispiel der EU-KI-VO). Rückverfolgbarkeit unterstützt Unternehmen und Organisationen bei der Einhaltung dieser Vorschriften. Sie ermöglicht die Nachverfolgung und Dokumentation aller Schritte im KI-Entwicklungsprozess, was bei Prüfungen und Audits hilfreich ist. Dies kann rechtliche Risiken minimieren und Strafen verhindern.
4. Vertrauen aufbauen: Rückverfolgbarkeitssysteme sind ein Schlüssel zur Schaffung von Vertrauen in KI-Systeme. Wenn Benutzerinnen und Benutzer sowie Stakeholder verstehen, wie KI-Entscheidungen getroffen werden und wie Daten verwendet werden, sind sie eher bereit, KI-Systeme zu akzeptieren und zu nutzen. Das Vertrauen in die KI ist entscheidend, um ihre Akzeptanz und den langfristigen Erfolg von KI-Projekten zu gewährleisten.

Erkundung von Rückverfolgbarkeitswerkzeugen

Konzepte wie Rückverfolgbarkeit (Traceability), Wiederholbarkeit (Repeatability) und Reproduzierbarkeit (Reproducibility) spielen eine entscheidende Rolle. Traceability ermöglicht die klare Dokumentation des Ursprungs und der Entwicklung von Daten und Prozessen, während Repeatability sicherstellt, dass ein Experiment unter denselben Bedingungen wiederholt werden kann. Reproducibility hingegen gewährleistet, dass andere Forscherinnen und Forscher ähnliche Ergebnisse erzielen können, indem sie dasselbe Experiment mit unabhängigen Datensätzen durchführen.

Material, das in vielen Daten-Repositories veröffentlicht wird, stellt oft eine Herausforderung für die Wiederholbarkeit oder Reproduzierbarkeit dar. Das Hauptproblem liegt in der unzureichenden Erfassung der erforderlichen Software- und Systemabhängigkeiten, die für die Ausführung des Codes vonnöten sind. Selbst wenn Forscherinnen und Forscher einige Anmerkungen oder Anweisungen hinterlassen haben, fehlt oft der notwendige Kontext oder Einblick in den Arbeitsablauf. Das Ergebnis ist, dass die Ausführung des Codes entweder praktisch unmöglich ist oder erheblichen zusätzlichen Aufwand erfordert.

Die Ablage von Code und Daten auf persönlichen Websites oder in Repositorys wie GitLab oder GitHub erweist sich häufig als ineffektiv, da in den meisten Fällen wichtige Informationen fehlen, darunter die Laufzeitumgebung, der Kontext und Systeminformationen.

Cloud-Speicherung und Containerisierungstechnologien wie Docker sind die Grundlage vieler Online-Tools, die auf den Markt gekommen sind. Diese Tools haben das gemeinsame Ziel, die Umgebungen, in denen Forschung betrieben wird, umfassend zu erfassen, um den gesamten Forschungsprozess wiederverwendbar, teilbar und schließlich reproduzierbar zu machen. Die umfassendsten dieser Tools decken vor allem die technischen Aspekte der Reproduzierbarkeit ab, einschließlich Umgebung, Code, Daten und Herkunftsinformationen.

Vergleich von Tools zur Unterstützung der reproduzierbaren Forschungsmethoden, Quelle: “Traceablity for Trustworthy AI: A review of models and tools” von Mora-Cantallops

Ein oft vernachlässigter Aspekt in vielen Tools ist die Dokumentation von Narrativen. Hierbei geht es nicht nur darum, den Code in Textform zu dokumentieren. Es geht vielmehr darum, auch die textuellen Elemente zu dokumentieren, die dazu geführt haben, dass eine Entwicklerin oder ein Entwickler sich für bestimmte Tools und Arbeitsabläufe entschieden hat, anstelle anderer Varianten. Detaillierte Informationen über die Motivation der Forscher, eine bestimmte Datensammlung auszuwählen, sowie die Überlegungen hinter dem Aufbau und Test des Modells sind von entscheidender Bedeutung für die Transparenz und die Reproduzierbarkeit der Methoden.

Es gibt Tools wie Code Ocean, Whole Tale und Renku, die besonders auf die Prinzipien der Reproduzierbarkeit ausgerichtet sind. Diese Plattformen bieten Funktionen und Ressourcen, die es Forscherinnen und Forschern erleichtern, ihre Forschungsergebnisse und Methoden für andere transparent und reproduzierbar zu machen. Sie unterstützen dabei die Dokumentation von Narrativen und ermöglichen eine umfassende Nachverfolgbarkeit des gesamten Forschungsprozesses. Dies trägt dazu bei, die Transparenz und Vertrauenswürdigkeit in der KI-Forschung zu erhöhen und die Wiederholbarkeit und Reproduzierbarkeit der Methoden zu gewährleisten.

Ganz konkret legt das Tool Binder seinen Schwerpunkt auf die Bereitstellung einer Umgebung, in der Code ausgeführt werden kann. Ähnlich ist es auch bei anderen Tools, die nicht in der Tabelle aufgeführt sind, wie OpenML und Madagascar der Fall ist. Die meisten anderen Werkzeuge konzentrieren sich auf die Bereitstellung von Pipelines, um Experimente wiederholbar zu machen. Es ist zudem von Bedeutung zu betonen, dass in den meisten Fällen die Unfähigkeit, das Experiment unter denselben Betriebsbedingungen und am selben Ort wie das Original zu reproduzieren, nicht nur die Replizierbarkeit, sondern sogar die Wiederholbarkeit gefährdet.

Trotz der oben gezeigten umfangreichen Liste und der Darstellungen aller Tools, reproduzierbare Forschung zu ermöglichen, zeigt die Analyse ihrer aufgeführten Merkmale (sei es auf ihren Websites oder in Werbematerialien), dass die meisten davon von ihnen noch weit davon entfernt sind, den Anforderungen der AI-HLEG-Richtlinien zur Nachverfolgbarkeit in vollem Umfang zu entsprechen. Auch die Reproduzierbarkeit (beziehungsweise Replizierbarkeit) von Methoden wird oft unzureichend berücksichtigt.

Es ist jedoch erwähnenswert, dass einige der analysierten Tools aus der zugrundeliegenden wissenschaftlichen Publikation nicht mehr aktiv unterstützt oder aktualisiert werden. Zum Beispiel wurde VisTrails seit 2016 nicht mehr gewartet, und die aktuelle Version von Sumatra (0.7.0) stammt aus dem Jahr 2015. Somit gefährden Veraltete Tools die Reproduzierbarkeit von Forschungsmethoden ebenso wie der Verlust von Verfahren oder Daten.

Ausblick

In der spannenden Reise durch die Welt der Rückverfolgbarkeit in KI-Projekten habe ich einen Einblick in die Herausforderungen des Black-Box-Dilemmas gegeben und euch die Schlüsselrolle der Rückverfolgbarkeit in der transparenten und ethisch verantwortlichen Entwicklung von KI-Systemen näher erklärt. Der Weg zur transparenten KI-Forschung ist jedoch noch nicht abgeschlossen. Während bereits beeindruckende Werkzeuge existieren, die technische Aspekte der Reproduzierbarkeit unterstützen, steht die umfassende Erfassung von Narrativen und Motivationen noch im Fokus der Weiterentwicklung. Die Brücke zwischen Code und den Entscheidungen dahinter zu schlagen, wird entscheidend sein, um nicht nur reproduzierbare, sondern auch verständliche KI-Forschung zu gewährleisten.

Im nächsten Blog-Beitrag tauche ich tiefer mit euch in die Welt der vielversprechenden Rückverfolgbarkeitswerkzeuge ein und gehe über die Theorie hinaus, indem ich praxisnahe Anwendungen in KI-Projekten zeige. Ich werde eine Demo durchführen, um zu zeigen, wie diese Werkzeuge nicht nur die technische Seite der Forschung unterstützen, sondern auch, wie sie in der Praxis eingesetzt werden können.

Ihr möchtet mehr über spannende Themen aus der adesso-Welt erfahren? Dann werft auch einen Blick in unsere bisher erschienenen Blog-Beiträge.

Autor Azza Baatout

Azza Baatout arbeitet derzeit als Werkstudentin im Bereich Data Science und Artificial Intelligence bei adesso in München. In dieser Position unterstützt sie die Line of Business Data and Analytics, insbesondere im Bereich Machine Learning Operations. Mit ihren fundierten Kenntnissen in den Bereichen Machine Learning und Deep Learning bringt sie wertvolle Expertise in ihr Team ein.

Kategorie:	KI
Schlagwörter:	Künstliche Intelligenz (KI)