Springe direkt zum: Inhalt

Wissen

Neues Forschungsprojekt: KITQAR entwickelt Qualitätsstandards für KI-Test- und Trainingsdaten

Veröffentlicht am 17. Jan 2022

Künstliche Intelligenz (KI) ist eine Schlüsseltechnologie der Zukunft - immer mehr Anwendungen in Beruf und Alltag greifen darauf zurück. Um eine KI-Anwendung zu entwickeln, braucht es jede Menge Trainingsdaten. Doch bisher existieren kaum Qualitätsstandards dafür. Diese sollen im neuen, von der Abteilung Denkfabrik geförderten Forschungsprojekt KITQAR erarbeitet werden.

Viele Anwendungen Künstlicher Intelligenz (KI) brauchen Daten: Gerade auch bei der Entwicklung von KI-Anwendungen werden sie benötigt. Gemeint sind sogenannte Trainings-, Test- und Validierungsdaten. Diese dienen dazu, eine KI-Anwendung zu trainieren und ihre Funktionsfähigkeit zu überprüfen, etwa im Bereich des maschinellen Lernens. Das Problem dabei: Es existieren bislang keine einheitlichen Qualitätsstandards für diese Daten. Diese braucht es jedoch, wenn KI-Anwendungen künftig bestimmte technische, rechtliche, ethische oder soziale Anforderungen erfüllen sollen. Denn wenn die zugrundeliegenden Daten fehlerhaft oder verzerrt sind, kann dies negative Konsequenzen für die Funktionsweise der Anwendungen haben, etwa im Hinblick auf die Sicherheit, Diskriminierungsfreiheit oder den Datenschutz.

KITQAR: Mehr Qualität bei Trainingsdaten für Künstliche Intelligenz

Das von der Abteilung Denkfabrik Digitale Arbeitsgesellschaft im Bundesministerium für Arbeit und Soziales (BMAS) geförderte Forschungsprojekt KITQAR soll diese Lücke schließen. Es untersucht im ersten Schritt, welche Qualitätsanforderungen bei Trainingsdaten für KI-Anwendungen überhaupt erfüllt sein müssen und wie die Datenqualität mess- und prüfbar gemacht werden kann. Hierfür greift das Projekt sowohl auf Datensätze aus der Praxis als auch auf synthetische Daten zurück. Das so entwickelte „Datenqualitätsframework“, das die verschiedensten Aspekte von Datenqualität abdecken soll, wird anschließend in Testläufen überprüft. Außerdem soll ein teilautomatisiertes Testkit entstehen, mit dem Anwender*innen künftig die Datenqualität bewerten können.

Breite Expertise aus Praxis und Wissenschaft

Für einen klaren Praxisbezug des Forschungsprojekts und den interdisziplinären Austausch sorgt die enge Verzahnung von Wirtschaft und Wissenschaft. Der VDE (Verband der Elektrotechnik Elektronik Informationstechnik) leitet das Projekt, an dem Wissenschaftler*innen der Universität zu Köln, der Universität Tübingen sowie des Hasso-Plattner-Instituts der Universität Potsdam mitarbeiten. Darüber hinaus werden zahlreiche Stakeholder*innen aus Unternehmen, Zivilgesellschaft, Gewerkschaften und Regulierung eingebunden. In diesem Kreis werden Anwendungsfälle von Trainingsdaten diskutiert sowie Vorschläge für deren künftige Normung entwickelt.