Sensible Unternehmensdaten für Maschinelles Lernen nutzen?

Wie können Wirtschaftsunternehmen auch sensible Daten nutzen, um Modelle der Künstlichen Intelligenz zu trainieren? Eine Forschungskooperation der Universität Oldenburg mit dem Institut für KI-Sicherheit des Deutschen Zentrums für Luft- und Raumfahrt (DLR) will dies durch den Ansatz des Föderalen Lernens erreichen.

Bei diesem Verfahren bleiben die Trainingsdaten an ihrem jeweiligen Speicherort und werden nicht, wie sonst üblich, an einem zentralen Ort zusammengeführt. Das Vorhaben ColDa (Collaborative Machine Learning for Data Value Creation) unter Leitung des Oldenburger Wirtschaftsinformatikers Prof. Dr. Jorge Marx Gómez vom Department für Informatik und Dr. Michael Karl vom DLR hat eine Laufzeit von drei Jahren und wird durch das DLR mit rund 450.000 Euro gefördert.

Geschäftsgeheimnisse verwenden, ohne sie weiterzugeben

Gute Trainingsdaten sind für maschinelles Lernen, ein Verfahren der Künstlichen Intelligenz, von grundlegender Bedeutung. Mit je mehr und vielfältigeren Daten diese Programme gefüttert werden, desto besser können sie später etwa Muster in Bildern oder Zusammenhänge in Texten erkennen. Auch Unternehmen nutzen maschinelles Lernen für verschiedene Aufgaben. „Dabei stehen sie häufig vor dem Problem, dass die zum Training der Modelle benötigten Daten unter den Datenschutz fallen oder auch Geschäftsgeheimnisse enthalten. Es ist daher oft nicht ohne weiteres möglich, sie zentral etwa in einem Rechenzentrum zu speichern, wie es beim maschinellen Lernen sonst üblich ist“, erläutert Prof. Dr. Frank Köster, Gründungsdirektor des DLR-Instituts für KI-Sicherheit.

Dieses Problem will das Team um Marx Gómez durch das sogenannte föderale Lernen lösen. Die Daten bleiben zum Training des Modells an ihrem lokalen Speicherort und müssen nicht weitergegeben werden. „Auf diese Weise können sensible Unternehmensdaten für maschinelles Lernen genutzt werden, ohne ihre Schutzwürdigkeit zu gefährden“, erläutert Projektleiter Marx-Gómez. Das Team konzentriert sich auf die Themen Datenintegration und natürliche Sprachverarbeitung (auf Englisch: Natural Language Processing, abgekürzt NLP).

Unter Datenintegration verstehen Fachleute das Zusammenführen verschiedener Datenansammlungen in eine einheitliche Struktur. „Der Prozess erfordert nach wie vor oft einen hohen manuellen Aufwand, der durch den Einsatz von KI drastisch reduziert werden kann“, erläutert Projektmitarbeiter Jan-Philipp Awick. Dabei stehen Unternehmen jedoch vor einem Dilemma: Für das Training der KI werden in der Regel mehr Daten benötigt, als ein Unternehmen alleine bereitstellen könnte. Daher müssten mehrere Organisationen ihre Daten austauschen – was aufgrund der Datensensibilität in der Praxis häufig jedoch nicht möglich ist. Das Oldenburger Team untersucht deshalb, wie sich hierbei föderales Lernen einsetzen lässt. Die Forscher wollen zunächst ein Modell konzipieren und anschließend einen Prototyp entwickeln und evaluieren.

Einsatz natürlicher Sprachverarbeitung

Das zweite Thema des Projekts ist der Einsatz natürlicher Sprachverarbeitung innerhalb von Unternehmen. Diese Technologie erlaubt es Computern, menschliche Sprache zu interpretieren und zu erzeugen. Sie bildet die Grundlage für Chat-Bots wie beispielsweise das derzeit vieldiskutierte Programm ChatGPT.

„Die für das Training solcher Bots benötigten Textdaten sind meist allerdings nur eingeschränkt zugänglich“, erklärt der Oldenburger Wirtschaftsinformatiker Gerrit Schumann. Schon innerhalb eines Unternehmens könnten Textdaten wie E-Mails, interne Berichte oder Lieferscheine nicht ohne Weiteres zwischen unterschiedlichen Abteilungen oder Zweigstellen ausgetauscht werden. Auch hier will das Forschungsteam das föderale Lernen erproben – mit dem Ziel, dem Sprachmodell etwa alle lokal verwendeten Vokabeln, Satzstrukturen oder Zusammenhänge beizubringen. Anschließend evaluieren die Forscher den Erfolg ihrer Methode in einem globalen Modell.

KI und Digitaler Zwilling: Turbo der Industrie

Sensible Unternehmensdaten für Maschinelles Lernen nutzen?

Geschäftsgeheimnisse verwenden, ohne sie weiterzugeben

Einsatz natürlicher Sprachverarbeitung

Carl von Ossietzky Universität Oldenburg

Mehr Produktivität, mehr Wertschöpfung: So gelingt die KI-Disruption!

Vom Hindernis zur High-Performance

Realistische Produktionsplanung berücksichtigt Maschine und Mensch

KI-Agent als Datendieb: Erkenntnisse aus dem Hugging-Face-Vorfall

Integriert oder modular: EtherCAT-Antriebsarchitekturen von 10 bis 5.000 W

Neues Web-Tool zur bedarfsgerechten Schaltschrankplanung

Björn Twiehaus wird neuer CEO der Wago-Gruppe

KI, Passwörter, öffentliches WLAN: Cybersicherheit scheitert am Alltag

Rezension: „Industrial AI: from Pilot to Profit“ von Boris Scharinger

Zurück zur Innovationsstärke der deutschen Industrie

RUTRONIK Elektronische Bauelemente GmbH

Bürkert Fluid Control Systems

HMS Industrial Networks GmbH

Faulhaber Drive Systems

VIVAVIS AG

SAB Bröckskes GmbH & Co. KG

ILME GmbH

Spectra GmbH & Co. KG