Hochwertige Erkennungsraten mit synthetischen Daten

DSGVO-konforme KI-Trainingsdaten für zuverlässige Gesichtserkennung

Um ein Gesichtserkennungsnetzwerk zu trainieren, werden Bilder von Gesichtern möglichst vieler Menschen benötigt.

Bild: iStock, Nilang Kachare
26.01.2026

Die biometrische Gesichtserkennung wird beispielsweise in Zeiterfassungs- und Zutrittskontrollsystemen als Authentifizierungsmethode, oder als Absicherung eingesetzt. Doch das Training entsprechender KI-Modelle bringt Probleme mit sich: Das Grundsatzurteil des LG München vom 11.11.2025, das OpenAI die Nutzung geschützter Liedtexte für das KI-Training untersagt, wirft einmal mehr die Frage auf, welche Daten DSGVO-konform eingesetzt werden können. TQ hat eine Studie durchgeführt, die untersucht, wie datenschutzkonforme biometrische Gesichtserkennung auf Embedded-Hardware funktioniert.

Der Kern der TQ-Untersuchung ist der Einsatz synthetischer Trainingsdaten aus Microsofts DigiFace-1M-Datenbank zur Wahrung der DSGVO-Vorgaben. Auf Basis eines TQ-internen, kommerziell nutzbaren Bildarchivs wurde das Finetuning der KI-Modelle mit echten Gesichtern optimiert. Ziel der Untersuchung war die Erprobung robuster, effizienter Netzwerke für Anwendungen wie Zutrittskontrolle und Zeiterfassung auf dem TQMa93xxLA-Modul. Neben technischen Verbesserungen wie Quantisierung und Regularisierung stand die Erhaltung vortrainierter Fairness- und Verteilungsmerkmale im Fokus. Die Studie zeigt einen praxisnahen Weg auf, KI-Modelle für Gesichtserkennung DSGVO-konform und kommerziell einsetzbar zu machen.

Die biometrische Gesichtserkennung kann in Zeiterfassungs- und Zutrittskontrollsystemen grundsätzlich auf zwei Arten eingesetzt werden: Zum einen als zweiter Sicherheitsfaktor, um den Missbrauch verlorener oder gestohlener Zugangskarten zu verhindern oder zumindest zu erschweren und damit die Sicherheit weiter zu erhöhen. Die andere Einsatzmöglichkeit ist die Authentifizierung mittels Gesichtserkennung anstelle einer Zugangskarte für weniger sicherheitskritische Anwendungen. Beispiele hierfür sind die Zeiterfassung, die Zutrittskontrolle zu weniger kritischen Bereichen oder die Nutzung von Aufzügen und Maschinen, die nur von autorisiertem Personal bedient oder konfiguriert werden dürfen.

Das Datenschutzproblem

Um ein Gesichtserkennungsnetzwerk zu trainieren, werden Bilder von Gesichtern möglichst vieler Menschen benötigt. Die bisher gängige Methode, um möglichst schnell an große Datenmengen zu gelangen, war die Verwendung von Bildern, die in sozialen Medien hochgeladen wurden. 2018 wurde jedoch die Europäische Datenschutzgrundverordnung (DSGVO) EU-weit geltendem Recht und ist seitdem verpflichtend einzuhalten. Sie verbietet die Verarbeitung personenbezogener Daten von EU-Bürgern ohne deren vorherige ausdrückliche Einwilligung, was auch die bisher verwendeten Gesichtsdaten einschließt und deren rechtmäßige Verwendung für das Training von Gesichtserkennungsalgorithmen faktisch unmöglich macht.

Angesichts dieser Schwierigkeiten beschränken sich die für das Training verwendeten öffentlichen Datensätze auf die mittels Computergrafik synthetisch erzeugte DigiFace-1M-Datenbank von Microsoft. Es handelt sich dabei gegenwärtig um den effektivsten, für Forschungszwecke öffentlich zugänglichen synthetischen Datensatz für Gesichtserkennung. Dennoch eignet er sich lediglich für das Vortrainieren des Modells, für das Finetuning werden immer noch reale Daten verwendet, die dabei benötigte Menge von Gesichtsbildern realer Personen ist aber vergleichsweise gering.

Zur Validierung während des Trainings wird das Benchmark-Protokoll von LFW („Labeled Faces in the Wild“) verwendet. Als Test und Vergleich der fertig trainierten Modelle dient zudem das Testprotokoll von YouTube Faces DB, kurz YTF. Die Genauigkeit errechnet sich dabei aus der Summe der Wahr-Positiv- (TPR) und Wahr-Negativ-Anteile (TNR), bei der optimalen Entscheidungsgrenze. In den Anwendungsfällen der Zugangskontrolle und Zeiterfassung ist eine geringe Falsch-Positiv-Rate (FPR) von besonderem Interesse, um unberechtigten Personen nicht den Zugang zu gewähren. Daher werden auch die Erkennungsraten bei FPR von 0,1 Prozent und 0,01 Prozent ausgewertet.

Finetuning der vortrainierten Modelle

Für das Finetuning der Modelle wurde aus dem TQ-internen Medienarchiv eine eigene kleine Datenbank aufgebaut. Die Inhalte des Archivs sind kommerziell nutzbar. Der DigiFace-1M-Datensatz ist ausschließlich für Forschungszwecke bestimmt. Da für die Erstellung nur Techniken verwendet wurden, die in der VFX- (Visual Effects) und Computerspielindustrie üblich sind, ist davon auszugehen, dass die Beschaffung vergleichbarer Daten für eine kommerzielle Nutzung kein größeres Problem darstellt.

Die synthetisch erzeugten Gesichter unterscheiden sich in ihrem Aussehen von echten Gesichtern. Da die trainierten Modelle bisher nur synthetische Daten gesehen haben, sollen sie nun durch Finetuning auf echte Daten angepasst werden. Dabei sollen die relevanten, durch das Vortraining gelernten Informationen möglichst nicht verloren gehen. Die Autoren von DigiFace-1M verwenden unterschiedliche Anzahlen an realen Identitäten, um zu ermitteln wie viele für gute Ergebnisse notwendig sind. Die Anzahl der Bilder je Person beträgt 20, die geringste getestete Anzahl an Identitäten beträgt 200, wobei mit dem LFW-Testprotokoll eine Genauigkeit von etwa 97 Prozent erreicht wird. Sie empfehlen dabei die Lernrate des Netzwerks gegenüber dem Vortraining um den Faktor 100 und die des Klassifizierungs-Layer um den Faktor 10 zu senken, damit das Netzwerk zuvor Gelerntes nicht vergisst.

Die TQ-Datenbank wurde mithilfe des „BlazeFace“-Detektors nach Gesichtern in den verfügbaren Bildern gesucht und anschließend mit einem der DigiFace-1M vortrainierten „ResNet50“ (Residual-Netz mit 50 Schichten) in Identitäten vorgruppiert. Letztendlich wurden alle Bilder manuell begutachtet und falsche Zuordnungen korrigiert. Auch Bilder ohne Zuordnung wurden mit den jeweils drei wahrscheinlichsten Zugehörigkeiten verglichen und anschließend von Hand richtig zugeordnet. Am Ende wurden nur die Identitäten behalten, die aus mindestens zwei Bildern bestehen. Auf diese Weise ist ein Datensatz mit 207 Klassen und 1151 Samples entstanden. Das ist etwa um den Faktor 3,6 kleiner als die kleinste getestete Menge an realen Daten in der Vorlage.

Um den größtmöglichen Nutzen aus den wenigen verfügbaren Daten zu ziehen, wird nach Möglichkeiten gesucht, das Finetuning zu verbessern. Ziel ist es, mehr Training zu ermöglichen, bevor das Netz durch das Auswendiglernen der begrenzten Daten beschädigt wird, was als Overfitting bezeichnet wird.

Neben den etablierten Regularisierungsmethoden wie Data Augmentation, L2-Regularisierung und Dropout, wird hier versucht bestimmte Information aus dem Vortraining gezielt vor dem Verlust zu bewahren.

Der große Vorteil synthetischer Daten liegt darin, dass die Verteilung von Geschlecht, Hautfarbe, ethnischer Herkunft und Alter der im Datensatz repräsentierten Identitäten steuerbar ist und somit leicht an die tatsächliche Verteilung in der Weltbevölkerung angepasst werden kann. Im Gegensatz dazu ist die Verteilung der für die Feinabstimmung verfügbaren Daten typischerweise suboptimal.

Die Identitäten im Datensatz verteilen sich während des Trainings gleichmäßig auf der durch das Embedding gebildeten Hypersphäre. So maximiert sich die Distanz zwischen den Klassenzentren und auch die Zuverlässigkeit der Erkennung. Die gleichmäßige und faire Verteilung der Bevölkerungsgruppen, die durch die synthetischen Daten antrainiert wird, ist also auch im Embedding gespeichert, welches am Modell-Output erzeugt wird. Optische Merkmale, bei denen sich reale und synthetische Daten unterscheiden, liegen hingegen eher in der Bildebene und werden typischerweise in den vorderen Netzwerkschichten nahe dem Modell-Input verarbeitet.

Vor der Implementierung der trainierten Modelle auf dem Target müssen diese zunächst in das erforderliche Format gebracht werden. Typischerweise müssen die Netzwerkparameter für die Inferenz mit NPU-Architekturen von 32-Bit Fließkommazahlen in 8-Bit Ganzzahlen quantisiert werden. Wie im i.MX Machine Leaning User’s Guide beschrieben, muss das trainierte Netz außerdem in das Tensorflow Lite Format übertragen und anschließend mit einer von NXP bereitgestellten Software für die NPU des i.MX 93 kompiliert werden.

Ergebnisse

In Tabelle 1 (Bild 1) sind Ergebnisse mit den verschiedenen, nur mit DigiFace-1M vortrainierten Netzarchitekturen abgebildet. Mit ResNet50 wird ein Ergebnis von 93,50 Prozent mit LFW erreicht, was dem in der Veröffentlichung zu DigiFace-1M mit demselben Netz erreichten Wert von 94,55 Prozent sehr nahekommt. Es ist anzunehmen, dass der leicht geringere Wert auch auf die etwas niedrigere, hier verwendete

Inputauflösung zurückzuführen ist. Das EfficientNet-lite0 Modell, das Testweise mit der höheren Auflösung trainiert wurde, erzielt mit beiden Protokollen etwa 0,9 Prozentpunkte mehr, die Erfolgsrate bei FPR<0,01 Prozent nimmt durch die Erhöhung der Auflösung besonders zu.

Bei den effizienteren Modellen erreichen besonders MobileNetV3 Large und die Ausbaustufe EfficientNet-lite1 vergleichsweise hohe Erkennungsraten bei FPR von <0,1 Prozent und <0,01 Prozent.

Nach Finetuning

Wie in Tabelle 2 (Bild 2) zu sehen, ist der Unterschied zwischen den Ergebnissen der kleineren Modelle und denen des deutlich größeren ResNet50 durch das Finetuning weiter geschrumpft. Auch der Vorsprung des mit höherer Auflösung trainierten EfficientNet-lite0 ist hier nun größtenteils verschwunden. Auffällig ist aber, dass nach dem Finetuning die Werte für FPR<0,01 mit YTF in fast allen Fällen gegenüber den vortrainierten Versionen in Tabelle 1 eingebrochen sind.

Bei oberflächlicher Betrachtung des Problems fällt auf, dass die in YTF enthaltenen Daten häufig besonders schlechte Bildqualität aufweisen. In manchen Fällen scheitert aufgrund dessen schon das Alignment (Festlegung des Bildausschnitts) durch BlazeFace, was dem Modell die Klassifizierung zusätzlich erschwert. Zudem müssen für korrekte Klassifizierung oft starke Unterschiede bei Perspektive, Gesichtsausdruck, Frisur und Accessoires, Beleuchtung, partieller Überdeckung und in einigen Fällen auch Alter überwunden werden. Auch LFW testet Modelle auf diese typischen Hürden, allerdings deutlich weniger stark ausgeprägt.

In den DigiFace-1M-Datensatz wurden diesbezüglich sehr starke Variationen künstlich eingebaut, während die Daten aus dem TQ-Medienarchiv fast nichts dergleichen enthalten, da hier für die meisten Personen alle Bilder am selben Tag unter ähnlichen Bedingungen gemacht wurden. Es liegt also nahe, dass durch das Finetuning etwas an Robustheit gegenüber diesen Variationen verloren gegangen ist, was sich nun besonders bei YTF in den Ergebnissen mit effektiv Null Toleranz gegenüber Falsch Positiv äußert.

Die hier erreichten Ergebnisse liegen im Vergleich zu großen Datensätzen mit realen Identitäten weit zurück. So erreicht „ArcFace“ 99,83 Prozent mit LFW und 98,02 Prozent mit YTF. Auch in „FaceNet“ werden bereits 99,63 Prozent mit LFW und 95,10 Prozent mit YTF ermöglicht. Dennoch ist das wie beschrieben trainierte Netzwerk in einer Messedemo für das TQMa93xxLA zum Einsatz gekommen.

Für die Demo wurde das EfficientNet-lite0 verwendet, die Entscheidungsschwelle wurde auf etwa denselben Wert gesetzt, bei dem laut LFW ein FPR von kleiner 0,01 Prozent möglich ist. Obwohl mit dieser Entscheidungsschwelle etwa die Hälfte aller berechtigten Zugangsversuche scheitern müsste, hat das System im Verhältnis dazu sowohl bei Tests als auch auf der Messe sehr zuverlässig funktioniert.

Der Grund dafür ist wohl die anwendungsbedingt deutlich reduzierte Anforderung gegenüber unterschiedlichen Perspektiven, Gesichtsausdrücken und partieller Überdeckung robust sein zu müssen. Bei Zugangskontrollsystemen und dem verwendeten Demoaufbau kommt nur ein Kameratyp zum Einsatz, die Personen stehen immer in ähnlichen Abständen frontal vor der Kamera und haben auch in den meisten Fällen einen neutralen Gesichtsausdruck.

Fazit und Ausblick

Im Rahmen der Studie konnte ein für Demonstrationszwecke gut funktionierendes und auf der Zielhardware performant laufendes Gesichtserkennungssystem erfolgreich trainiert werden, trotz einer sehr ungünstigen Ausgangslage bei den Trainingsdaten. Zugangskontroll- und Zeiterfassungssysteme stellen deutlich geringere Anforderungen an den Gesichtserkennungsalgorithmus selbst als zum Beispiel Überwachungssysteme. Es ist zu erwarten, dass eine bessere Anpassung der Trainingsdaten an die Anwendung die Ergebnisse weiter verbessern kann. Bei einer synthetischen Generierung der Trainingsmuster nach dem Vorbild von DigiFace-1M ist dies mit keinem zusätzlichen Aufwand verbunden. Um die Sicherheit und Robustheit des Systems zuverlässig testen zu können, sollte ein anwendungsspezifisches Testprotokoll verwendet werden. Die Entwicklung eines auf Gesichtserkennung basierenden Zutrittskontroll- oder Zeiterfassungssystems ist somit mit überschaubaren Ressourcen realisierbar.

Bildergalerie

  • Tabelle 1: Mit DigiFace-1M vortrainierten Netzarchitekturen

    Tabelle 1: Mit DigiFace-1M vortrainierten Netzarchitekturen

    Bild: TQ

  • Tabelle 2: Unterschied zwischen den Ergebnissen der kleineren Modelle und denen des deutlich größeren ResNet50.

    Tabelle 2: Unterschied zwischen den Ergebnissen der kleineren Modelle und denen des deutlich größeren ResNet50.

    Bild: TQ

Firmen zu diesem Artikel
Verwandte Artikel