Wissen

Gute KI braucht hochwertige Daten: Ein Modell und Arbeitshilfen zur Bewertung und Verbesserung von KI-Datenqualität

Veröffentlicht am 13. Dez 2024

Quality in, Quality out: Das Forschungsprojekt KITQAR hat erstmals ein umfassendes Modell für KI-Datenqualität entwickelt. Die daraus abgeleiteten Arbeitshilfen unterstützen Entscheider*innen und Expert*innen bei der Evaluation und Optimierung eigener Datensätze.

Daten sind ein notwendiger Bestandteil der weitaus meisten KI-Anwendungen. Mit ihnen werden beispielsweise neuronale Netze für bestimmte Aufgaben trainiert und getestet. Mittlerweile stehen umfangreiche Datenrepositorien zur Entwicklung von KI zur Verfügung. Große Sprachmodelle, wie etwa ChatGPT, nutzen sogar weite Teile der öffentlich zugänglichen Inhalte im Internet als Datenquelle. Allerdings ist heute längst klar, dass es nicht nur auf die schiere Menge an Daten ankommt: Für die Güte von KI-Systemen ist vor allem auch die Qualität dieser Daten entscheidend. Sie beeinflusst sowohl die Leistung und die Zuverlässigkeit von KI-Anwendungen als auch ihre Sicherheit und Vertrauenswürdigkeit. Wie immer, wenn es um Digitalisierung geht, gilt auch beim Training von KI-Anwendungen das Prinzip Garbage in, Garbage out. Deshalb besteht für eine breite Nutzung und Akzeptanz von KI durch Beschäftigte, Unternehmen und Gesellschaft die große Herausforderung in der Verfügbarkeit ausreichender, qualitativ hochwertiger Daten. Das von der Abteilung Denkfabrik Digitale Arbeitsgesellschaft geförderte Forschungsprojekt „KI-Test- und Trainingsdatenqualität in der digitalen Arbeitsgesellschaft“ (KITQAR) hat nun bislang fehlende Arbeitshilfen für die Messung und Prüfung von Datenqualität erarbeitet, die in der Praxis von Unternehmen und Organisationen anwendbar sind.

Datenqualität: Viele Aspekte und nicht auf Knopfdruck zu beurteilen

Für eine möglichst umfassende und differenzierte Betrachtung hat das Projekt Datenqualität in informatischer, ethischer, rechtlicher und normungstechnischer Perspektive betrachtet und insgesamt 30 Dimension herausgearbeitet, anhand derer sich die Qualität der Daten für KI-Anwendungen beurteilen und verbessern lässt. Wichtig und oft diskutiert sind beispielsweise die Aktualität von Daten, deren Diskriminierungsfreiheit oder ein hoher Grad der Diversität. So kann ein veralteter Datensatz zur Arbeitsmarktentwicklung den aktuellen Bedarf an Fachkräften in bestimmten Branchen nicht korrekt widerspiegeln, sodass beispielsweise ein damit trainiertes KI-System ungeeignete Qualifikationsmaßnahmen für Arbeitssuchende vorschlägt. KI-Systeme zur Bewertung von Bewerbungen, die mit verzerrten Daten trainiert wurden, können, wie in der Vergangenheit in verschiedenen konkreten Fällen geschehen, bestimmte demografische Gruppen benachteiligen. Und wenn die Datenbasis einer KI-Anwendung nicht divers genug ist, kann sie möglicherweise nicht sinnvoll auf unterschiedliche Nutzer*innenbedürfnisse reagieren oder deckt nicht alle vorgesehenen Anwendungsfälle ab – beispielsweise, wenn ein Sprachassistent die Eingaben bestimmter Nutzer*innengruppen nicht zuverlässig erkennt oder ein Übersetzungsprogramm die kulturellen Nuancen bestimmter Sprachgemeinschaften nicht abbilden kann.

Mitunter können Zielkonflikte zwischen einzelnen Dimensionen von Datenqualität bestehen. So kann etwa im Kontext der Arbeitsmarktforschung die Anonymisierung von Beschäftigungsdaten zum Schutz der Privatsphäre die Aussagekraft von Analysen zur regionalen Arbeitsmarktentwicklung einschränken. Andererseits kann eine hohe Aktualität von Daten ihre Validierung und Überprüfbarkeit erschweren, etwa wenn gerade erhobene Umfragedaten noch nicht ausreichend auf ihre Repräsentativität geprüft wurden.

Eine wichtige Botschaft ist daher: Die Prüfung der Datenqualität kann nicht automatisiert werden. In der Praxis muss je nach Kontext beurteilt werden, ob vorhandene Daten für die Entwicklung oder Nutzung eines KI-Systems geeignet sind und eine dafür ausreichende Qualität besitzen. Hierfür sind sowohl Data-Science-Expertise als auch Domänenwissen notwendig. Die Entscheidung, welche Daten wofür genutzt werden, bleibt also eine Aufgabe bei der Gestaltung von KI, für die es den Menschen braucht.

Befähigung in der Breite stärken: Die Qualität eigener Datensätze einschätzen und verbessern können

Das Forschungsprojekt legt den Schwerpunkt auf eine fundierte Aufklärung und Befähigung unterschiedlicher Zielgruppen. Das Ziel ist es, Entscheider*innen und Anwender*innen mit verschiedenen Erfahrungsstufen und Fachkenntnissen ein Verständnis für die Bedeutung und die Aspekte von Datenqualität zu ermöglichen, die notwendige Expertise für die Beurteilung eigener Daten aufzubauen und die Kommunikation zwischen Data-Science-Expert*innen und Anwender*innen mit Domänenwissen zu verbessern. Hierfür hat KITQAR eine adressat*innengerechte Learning-Journey entwickelt.

Die DQ-Learning-Journey besteht aus

einer anschaulichen Erklärwebseite, die aus der Perspektive einer Projektmanagerin und anhand konkreter Anwendungsfälle einen ersten Überblick gibt und das Thema greifbar macht.
einem OpenHPI-Onlinekurs, der vertiefendes, interdisziplinäres Wissen zu Datenqualität aus Sicht der Data Science, Ethik, Normung und des Rechts vermittelt. Er richtet sich neben der interessierten Öffentlichkeit vor allem an Praktiker*innen, die bei der Entwicklung und beim Einsatz von KI-Systemen nicht nur hohe Ergebnisqualität erzielen wollen, sondern auch Wert auf ethische und rechtliche Aspekte legen.
der Arbeitshilfe KI-Datenqualität, die Anwender*innen bei der Bewertung und Verbesserung der Qualität eigener Datensätze für KI-Anwendungen unterstützt. Gezielt ausgewählte Fragen decken eine große Bandbreite von Anforderungen an Datenqualität aus informatischer, ethischer, rechtlicher, normungstechnischer und praktischer Perspektive ab. Ihre Beantwortung ermöglicht es den Nutzer*innen, die Qualität ihrer Datensätze zu analysieren, zu diskutieren und daraus selbstständig Verbesserungspotentiale abzuleiten. Die Arbeitshilfe wurde auf der Grundlage einer Metanalyse der relevantesten Dokumente zum Thema Datenqualität entwickelt.
und einem umfassenden Glossar, das 30 Datenqualitätsdimensionen definiert und damit eine Grundlage für eine systematische und interdisziplinäre Auseinandersetzung mit dem Thema bietet.

Die Forschungsergebnisse wurden in wissenschaftlichen Publikationen und Konferenzbeiträgen veröffentlicht und diskutiert.

Normungsprozess im Zuge der KI-Verordnung gestartet

Die KI-Verordnung der EU schafft durch einheitliche Regelungen Rechtssicherheit für alle Anbieter von KI im europäischen Binnenmarkt und kann so die Verbreitung vertrauenswürdiger KI fördern. Die Erkenntnisse des Forschungsprojektes fließen in den nun gestarteten Normungsprozess, der u. a. Regelungen zur Datenqualität und Daten-Governance im Hinblick auf die Entwicklung von KI-Systemen konkretisieren wird.

Ausblick/Fazit

Das von der Abteilung Denkfabrik Digitale Arbeitsgesellschaft des Bundesministeriums für Arbeit und Soziales (BMAS) mit 1,2 Mio. Euro geförderte Forschungsprojekt KITQAR hat sich von Dezember 2021 bis Dezember 2024 mit den Qualitätsanforderungen an KI-Test-, Validierungs- und Trainingsdaten in der digitalen Arbeits- und Wissensgesellschaft beschäftigt. Ziele des Forschungsprojektes waren die Entwicklung eines umfassenden Modells für Datenqualität von KI-Anwendungen und die Bereitstellung von Instrumenten und Ressourcen, die Anwendern den Umgang mit Datenqualität erleichtern und die Entwicklung vertrauenswürdiger KI fördern. Zum Projektkonsortium gehörten der Verband der Elektrotechnik Elektronik Informationstechnik e.V. (VDE) als Konsortialführer, die Universität zu Köln, das Internationale Zentrum für Ethik in den Wissenschaften (IZEW) die Universität Tübingen sowie das Hasso-Plattner-Institut (HPI).

Weiterführende Informationen

KITQAR-Projektwebsite des VDE