Das neue Spracherkennungssystem kann erstmals Alltagsgespräche besser und schneller erfassen als menschliche Zuhörer.

Bild: KIT

Verstehen von Spontansprache KI schlägt Mensch bei Spracherkennung

22.10.2020

Ein alltägliches Gespräch zu verfolgen und genau wiederzugeben, ist eine der größten Herausforderungen für Künstliche Intelligenzen. Nun haben Forscher aber ein Computersystem entwickelt, das bei solchen Gesprächen eine höhere Erkennungsgenauigkeit an den Tag legen konnte als der Mensch.

Ein alltägliches Gespräch ist im Normalfall weit von einem verschriftlichten Dialog entfernt. Es gibt nicht beendete Sätze, Umgangssprache und Stotterer – alles Herausforderungen für KI-Systeme. Selbst Menschen fällt es teilweise schon schwer, solchen Wortwechseln zu folgen und sie akkurat und sinngemäß wiederzugeben.

„Einer KI fiel dies bislang noch schwerer“, sagt Alex Waibel, Professor für Informatik am Karlsruher Institut für Technologie (KIT). Denn abgesehen von sprachlichen Hürden wie „Ähs“, „Ähms“ oder halbfertigen Sätzen würden Worte zudem häufig noch undeutlich ausgesprochen.

Menschliche Fehlerrate unterschritten

Ein Team aus KIT-Wissenschaftlern und Mitarbeitern der Firma Kites, einer Ausgründung des Karlsruher Forschungsinstituts, hat nun das weltweit erste Computersystem programmiert, das diese Aufgabe besser erledigt als Menschen und schneller als andere Systeme. Die Ergebnisse zeigen sie auf der Internet-Plattform ArXiv.

Waibel hat dabei bereits einen automatischen Live-Übersetzer entwickelt, der Universitätsvorlesungen aus dem Deutschen oder Englischen schritthaltend mit der Vorlesung in die Sprachen ausländischer Studierender überträgt. Der „Lecture Translator“ ist seit 2012 in den Hörsälen des KIT im Einsatz.

„Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel, „da Fehler und Verzögerungen bei der Erkennung die Übersetzung unverständlich machen. Die menschliche Fehlerrate liegt hier bei circa 5,5 Prozent. Unser System erreicht nun fünf Prozent.“

Niedrigste Latenz erreicht

Allerdings sei nicht nur die Genauigkeit ausschlaggebend, sondern auch, wie rasch das System das Ergebnis ausgibt, damit Studierende der Vorlesung live folgen können. Diese Verzögerung konnten die Forscher erstmalig auf eine Sekunde reduzieren. Das sei der niedrigste Wert in der sogenannten Latenz, den je ein Spracherkennungssystem dieser Qualität erreicht habe, betont Waibel.

Gemessen werden Fehlerrate und Verzögerung mit dem standardisierten und wissenschaftlich international anerkannten „Switchboard-Benchmark“-Test. Dieser gilt als bislang unerreichte Messlatte im Wettbewerb der internationalen KI-Forschergemeinde, eine Maschine zu bauen, die an die menschliche Fähigkeit, Spontansprache zu erkennen, herankommt oder diese übertrifft.

Inhalte oder Zusammenhänge verstehen könne ein Erkennungssystem alleine aber noch nicht, räumt Waibel ein. „Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“

Dialog-, Übersetzungs- und weitere KI-Module können durch die Neuentwicklung nun aber schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.

Verwandte Artikel