Rainer Mümmler von Mathworks beschreibt, wie die Simulation von KI-Daten gelingen kann.

Bild: Mathworks

Interview zur Simulation von KI-Daten „Zukünftig fährt in der Cloud immer ein digitaler Zwilling mit“

04.03.2019

Für KI-Anwendungen werden sehr große Datenmengen benötigt. Diese sind aber in der notwendigen Menge nicht immer verfügbar. Rainer Mümmler, Applikationsingenieur bei Mathworks, kennt dieses Problem aus der Realität. Im Interview verrät er, wie er dennoch KI-Modelle erstellt und welche Hürden es dabei zu überwinden gibt.

E&E:

Sie simulieren große Datenmengen für KI-Anwendungen. Wozu ist das notwendig?

Rainer Mümmler:

Ein Algorithmus wird beispielsweise für die vorausschauende Wartung einer Anlage benötigt. Dafür erstellt man zunächst ein Modell mit historischen Daten, um dann mit den Live-Daten herauszufinden, wann ein Fehler auftreten wird. Dadurch kann rechtzeitig ein Wartungsteam losgeschickt oder ein Ersatzteil bestellt werden und die Maschinenlaufzeit erhöht sich.

Wieso simulieren Sie dafür Daten und greifen nicht auf existierende zurück?

Bei vielen Maschinen fehlen die Fehlerdaten, da noch kein Fehler vorliegt oder ein bestimmter Fehler noch nicht aufgetreten ist. Dennoch will man diese frühzeitig erkennen und beheben. Hier kommt die Simulation ins Spiel: Anhand eines Modells der Maschine - einem digitalen Zwilling - kann ich gezielt einen Fehler in dieses Modell einbauen. Der so simulierte Fehler generiert Daten, die dem Deep-Learning-Algorithmus in Zukunft helfen, ähnliche Probleme in der realen Maschine zu erkennen.

Für welche Maschinen werden diese Algorithmen erstellt?

Das könnte eine Gasturbine sein oder eine Fertigungsanlage. In beiden Fällen will der Kunde natürlich Fehler vermeiden, denn diese können große Auswirkungen haben. Im schlimmsten Fall wird die Anlage komplett zerstört. Durch eine Simulation auf Basis von Fehlerdaten lässt sich das verhindern. Dazu muss man aber das Modell so realitätsnah wie möglich gestalten. Wir hatten zum Beispiel den Fall einer Firma, die Trucks zur Gasgewinnung nutzt, also zum Fracking. In diesen Lastwagen stecken Pumpen, die immer wieder ausgefallen sind. Wenn durch die kaputte Pumpe gleich der ganze Truck ausfällt und die Gasförderung solange still steht, kostet das die Firma eine Menge Geld. Also haben sie mehrere Terabyte an Daten gesammelt, um daraus einen Algorithmus zu erstellen, der rechtzeitig voraussagt, wann die Pumpe ersetzt werden muss.

In diesem Beispiel wurden aber echte Daten für den Algorithmus benutzt, keine simulierten.

Genau. Aber ich kann so ein Beispiel auch simulieren, indem ich einen digitalen Zwilling der Pumpe und des Trucks erstelle. In dieser Simulation lassen sich auch unterschiedliche Fehlerkombinationen ausprobieren. Man kann dort so viele Datenkombinationen einbringen, dass man entsprechend viele Ergebnisse für den Algorithmus bekommt. Dadurch entsteht ein riesiger Datensatz mit Fehlern, die in der Realität auftreten können. Wenn ich diese mit der realen Pumpe vergleiche, erkenne ich anhand der Signale, dass beispielsweise bald der Einlass verstopft sein oder eine Dichtung kaputt gehen wird. Diese Fehler lassen sich dadurch rechtzeitig beheben und ein Ausfall der Anlage als Folge einer kaputten Komponente vermeiden.

Wie läuft so eine Simulation ab?

Um ein Modell zu verifizieren, benötige ich eine echte Messreihe und die Konstruktionszeichnungen der Anlage. Anhand dieser Messreihe verfeinere ich das Modell so stark, dass dieselben Werte oder Signale herauskommen wie bei der echten Anlage. Habe ich das sichergestellt, kann ich an dem Modell unterschiedliche Veränderungen vornehmen und Fehlerwerte einbringen. Diese müssen der Realität entsprechen, damit der Algorithmus auch richtig reagiert, wenn ein echter Fehler in der Anlage auftritt.

Können dabei auch Fehler übersehen werden? Also Fehlerdaten nicht simuliert werden?

Diese Simulation von Daten erfordert natürlich eine gewisse Expertise. Die Ingenieure und Konstrukteure müssen ein Verständnis für die jeweilige Anlage mitbringen und mir den Input geben, damit ich genügend und richtige Daten simulieren kann. Zudem ist es noch wichtig, zu erkennen, welche Messdaten überhaupt relevant sind. Das geht nur im Dialog mit den Maschinenbauern. Die wissen aus der Erfahrung, an welcher Stelle schon mal Probleme aufgetreten sind. Dann kann ich wiederum bestimmten Signalen eine höhere Priorität vergeben. Wenn zusätzlich noch Techniken des Machine Learnings hinzugezogen werden, können dabei noch weitere Daten entdeckt werden, die vorher vielleicht nicht aufgefallen sind. Damit erreiche ich noch eine höhere Genauigkeit bei der Simulation. Während dem Erstellen einer Simulation können auch noch weitere Optimierungsmöglichkeiten entdeckt werden. Beispielsweise fällt uns oder dem Kunden oft auf, dass noch weitere Stellen mit Sensoren versehen werden sollten, um künftig noch genauere Messdaten zu bekommen. Eine gute Simulation entwickelt sich stetig weiter und erzeugt dadurch eine bessere Abschätzung für künftig auftretende Fehler.

Aus dieser Simulation entsteht dann der Algorithmus?

Genau. Aus der Kombination der Messdaten und der simulierten Daten generiere ich den Algorithmus, der das Auftreten von Fehlern rechtzeitig melden wird. Und mit diesen Simulationsdaten kann ich etliche Fehler, die nicht gemessen wurden, in den Algorithmus miteinbeziehen. Das große Problem ist in vielen Fällen nämlich nicht unbedingt, dass nicht genügend Daten vorhanden sind, sondern oft nicht die richtigen. Beispielsweise kann ein Fehler bereits einmal aufgetreten sein, aber er wurde nicht zugewiesen, sodass die Quelle beziehungsweise Ursache dieses Fehlers nicht bekannt ist. Für eine rechtzeitige Wartung reicht das natürlich nicht aus.

Es reicht somit nicht, nur Daten zu erheben?

Diese Daten müssen gesammelt, klassifiziert und in einer Datenbank zusammengeführt werden, damit ein anderer Mitarbeiter darauf auch zugreifen kann. Ohne ein passendes System dahinter nützt das Datensammeln nichts. Das müssen viele Firmen noch lernen.

Wie zuverlässig sind simulierte Daten verglichen mit echten Messdaten?

Das kommt auf das Feintuning an; die Zeit und den Aufwand, den ich in das Simulieren stecke. Je mehr Arbeit ich investiere, desto näher gelange ich an die Realität. Ich muss selten einen digitalen Zwilling von Null an erstellen. Viele Firmen haben bereits ein Modell, dass ich dann verfeinere.

Wird die Korrektheit der Daten überprüft?

Natürlich sollte immer wieder evaluiert werden, dass die Ergebnisse der Realität entsprechen. Spätestens im Einsatz wird man merken, wenn ein Algorithmus einen Fehler nicht erkannt hat. Bei der angesprochenen Pumpe konnten wir das bereits im Vorfeld testen. Wir haben eine Druckmessung gemacht und getestet, ob diese Messdaten auch denen der Simulation entsprechen. Wären die Werte nun auseinander gegangen, hätten wir an den entsprechenden Stellen den Algorithmus nochmal nachjustieren müssen. Echte Messdaten und simulierte Werte ergänzen sich gegenseitig.

Wenn nach wie vor Messdaten für die Algorithmen relevant sind und immer mehr Daten durch das Messen gesammelt werden, braucht es dann in Zukunft immer noch simulierte Daten?

In zehn Jahren werden viel, viel mehr Daten simuliert werden. Die Kombination aus gemessenen und simulierten Daten ist entscheidend für die vorausschauende Wartung. Da in Zukunft immer mehr digitale Zwillinge gebraucht werden, wird es auch immer mehr Daten geben müssen, mit denen diese ausgestattet sind. Besonders in der Automobilindustrie zeichnet sich dieser Trend ab: In der Cloud fährt dann immer ein digitaler Zwilling mit, um eine Panne rechtzeitig zu melden und somit zu vermeiden.

Firmen zu diesem Artikel
Verwandte Artikel