Künstliche Intelligenz trainieren Sensible Unternehmensdaten für Maschinelles Lernen nutzen?

Gute Trainingsdaten sind für maschinelles Lernen, ein Verfahren der Künstlichen Intelligenz, von grundlegender Bedeutung – doch was, wenn sie datenschutzrechtlich sensibel sind?

Bild: iStock, metamorworks
06.04.2023

Unternehmensdaten wie E-Mails, interne Berichte, die Inhalte von Datenbanken oder andere Datensätze sind oft vertraulich. Solche sensiblen Daten könnten sich dennoch zum Training von KI-Modellen verwenden lassen – mit dem Verfahren des föderalen Lernens. Einen entsprechenden Prototyp zu entwickeln und zu evaluieren ist Ziel einer Forschungskooperation der Universität Oldenburg mit dem Institut für KI-Sicherheit des Deutschen Zentrums für Luft- und Raumfahrt (DLR).

Wie können Wirtschaftsunternehmen auch sensible Daten nutzen, um Modelle der Künstlichen Intelligenz zu trainieren? Eine Forschungskooperation der Universität Oldenburg mit dem Institut für KI-Sicherheit des Deutschen Zentrums für Luft- und Raumfahrt (DLR) will dies durch den Ansatz des Föderalen Lernens erreichen.

Bei diesem Verfahren bleiben die Trainingsdaten an ihrem jeweiligen Speicherort und werden nicht, wie sonst üblich, an einem zentralen Ort zusammengeführt. Das Vorhaben ColDa (Collaborative Machine Learning for Data Value Creation) unter Leitung des Oldenburger Wirtschaftsinformatikers Prof. Dr. Jorge Marx Gómez vom Department für Informatik und Dr. Michael Karl vom DLR hat eine Laufzeit von drei Jahren und wird durch das DLR mit rund 450.000 Euro gefördert.

Geschäftsgeheimnisse verwenden, ohne sie weiterzugeben

Gute Trainingsdaten sind für maschinelles Lernen, ein Verfahren der Künstlichen Intelligenz, von grundlegender Bedeutung. Mit je mehr und vielfältigeren Daten diese Programme gefüttert werden, desto besser können sie später etwa Muster in Bildern oder Zusammenhänge in Texten erkennen. Auch Unternehmen nutzen maschinelles Lernen für verschiedene Aufgaben. „Dabei stehen sie häufig vor dem Problem, dass die zum Training der Modelle benötigten Daten unter den Datenschutz fallen oder auch Geschäftsgeheimnisse enthalten. Es ist daher oft nicht ohne weiteres möglich, sie zentral etwa in einem Rechenzentrum zu speichern, wie es beim maschinellen Lernen sonst üblich ist“, erläutert Prof. Dr. Frank Köster, Gründungsdirektor des DLR-Instituts für KI-Sicherheit.

Dieses Problem will das Team um Marx Gómez durch das sogenannte föderale Lernen lösen. Die Daten bleiben zum Training des Modells an ihrem lokalen Speicherort und müssen nicht weitergegeben werden. „Auf diese Weise können sensible Unternehmensdaten für maschinelles Lernen genutzt werden, ohne ihre Schutzwürdigkeit zu gefährden“, erläutert Projektleiter Marx-Gómez. Das Team konzentriert sich auf die Themen Datenintegration und natürliche Sprachverarbeitung (auf Englisch: Natural Language Processing, abgekürzt NLP).

Unter Datenintegration verstehen Fachleute das Zusammenführen verschiedener Datenansammlungen in eine einheitliche Struktur. „Der Prozess erfordert nach wie vor oft einen hohen manuellen Aufwand, der durch den Einsatz von KI drastisch reduziert werden kann“, erläutert Projektmitarbeiter Jan-Philipp Awick. Dabei stehen Unternehmen jedoch vor einem Dilemma: Für das Training der KI werden in der Regel mehr Daten benötigt, als ein Unternehmen alleine bereitstellen könnte. Daher müssten mehrere Organisationen ihre Daten austauschen – was aufgrund der Datensensibilität in der Praxis häufig jedoch nicht möglich ist. Das Oldenburger Team untersucht deshalb, wie sich hierbei föderales Lernen einsetzen lässt. Die Forscher wollen zunächst ein Modell konzipieren und anschließend einen Prototyp entwickeln und evaluieren.

Einsatz natürlicher Sprachverarbeitung

Das zweite Thema des Projekts ist der Einsatz natürlicher Sprachverarbeitung innerhalb von Unternehmen. Diese Technologie erlaubt es Computern, menschliche Sprache zu interpretieren und zu erzeugen. Sie bildet die Grundlage für Chat-Bots wie beispielsweise das derzeit vieldiskutierte Programm ChatGPT.

„Die für das Training solcher Bots benötigten Textdaten sind meist allerdings nur eingeschränkt zugänglich“, erklärt der Oldenburger Wirtschaftsinformatiker Gerrit Schumann. Schon innerhalb eines Unternehmens könnten Textdaten wie E-Mails, interne Berichte oder Lieferscheine nicht ohne Weiteres zwischen unterschiedlichen Abteilungen oder Zweigstellen ausgetauscht werden. Auch hier will das Forschungsteam das föderale Lernen erproben – mit dem Ziel, dem Sprachmodell etwa alle lokal verwendeten Vokabeln, Satzstrukturen oder Zusammenhänge beizubringen. Anschließend evaluieren die Forscher den Erfolg ihrer Methode in einem globalen Modell.

Firmen zu diesem Artikel
Verwandte Artikel