KI schlägt Mensch bei Spracherkennung

Ein alltägliches Gespräch ist im Normalfall weit von einem verschriftlichten Dialog entfernt. Es gibt nicht beendete Sätze, Umgangssprache und Stotterer – alles Herausforderungen für KI-Systeme. Selbst Menschen fällt es teilweise schon schwer, solchen Wortwechseln zu folgen und sie akkurat und sinngemäß wiederzugeben.

„Einer KI fiel dies bislang noch schwerer“, sagt Alex Waibel, Professor für Informatik am Karlsruher Institut für Technologie (KIT). Denn abgesehen von sprachlichen Hürden wie „Ähs“, „Ähms“ oder halbfertigen Sätzen würden Worte zudem häufig noch undeutlich ausgesprochen.

Menschliche Fehlerrate unterschritten

Ein Team aus KIT-Wissenschaftlern und Mitarbeitern der Firma Kites, einer Ausgründung des Karlsruher Forschungsinstituts, hat nun das weltweit erste Computersystem programmiert, das diese Aufgabe besser erledigt als Menschen und schneller als andere Systeme. Die Ergebnisse zeigen sie auf der Internet-Plattform ArXiv.

Waibel hat dabei bereits einen automatischen Live-Übersetzer entwickelt, der Universitätsvorlesungen aus dem Deutschen oder Englischen schritthaltend mit der Vorlesung in die Sprachen ausländischer Studierender überträgt. Der „Lecture Translator“ ist seit 2012 in den Hörsälen des KIT im Einsatz.

„Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel, „da Fehler und Verzögerungen bei der Erkennung die Übersetzung unverständlich machen. Die menschliche Fehlerrate liegt hier bei circa 5,5 Prozent. Unser System erreicht nun fünf Prozent.“

Niedrigste Latenz erreicht

Allerdings sei nicht nur die Genauigkeit ausschlaggebend, sondern auch, wie rasch das System das Ergebnis ausgibt, damit Studierende der Vorlesung live folgen können. Diese Verzögerung konnten die Forscher erstmalig auf eine Sekunde reduzieren. Das sei der niedrigste Wert in der sogenannten Latenz, den je ein Spracherkennungssystem dieser Qualität erreicht habe, betont Waibel.

Gemessen werden Fehlerrate und Verzögerung mit dem standardisierten und wissenschaftlich international anerkannten „Switchboard-Benchmark“-Test. Dieser gilt als bislang unerreichte Messlatte im Wettbewerb der internationalen KI-Forschergemeinde, eine Maschine zu bauen, die an die menschliche Fähigkeit, Spontansprache zu erkennen, herankommt oder diese übertrifft.

Inhalte oder Zusammenhänge verstehen könne ein Erkennungssystem alleine aber noch nicht, räumt Waibel ein. „Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“

Dialog-, Übersetzungs- und weitere KI-Module können durch die Neuentwicklung nun aber schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.

Die Rolle der Verbindungstechnik für sichere Gebäudeinfrastrukturen

Verbindungstechnik im Technologiewandel

Snap In – der Turbo für den Aufbau komplexer Installationen

Batteriecheck von innen: Intelligentes Management für längere Lebensdauer

KI schlägt Mensch bei Spracherkennung

Menschliche Fehlerrate unterschritten

Niedrigste Latenz erreicht

Karlsruher Institut für Technologie (KIT) Int. Department GmbH

„Back on Track“: Ebm-papst ist zurück auf Wachstumskurs

Investitionen in moderne Energiesysteme sichern Deutschlands Zukunft

Zu viel Strom, zu wenig Netz – und nun?

Drei Säulen der Cyberresilienz in Zeiten der agentischen KI

KI-Agenten für die industrielle Lieferketten

Flüssigkeitskühlung für KI-Chips erreicht zehnfache Effizienz

Zwei Drittel der Büroangestellten nutzen nicht autorisierte KI-Tools

CRA zeigt Wirkung: Compliance ersetzt keine echte IT-Sicherheit

Energieeffizienter FRAM wird fertigungstauglich

„Wer nicht kommt, verpasst Entscheidendes“

VERBUND Energy4Business Germany GmbH

PEAK-System Technik GmbH

Helmholz GmbH & Co. KG

ZENNER International GmbH & Co. KG

REMBE® GmbH Safety + Control

J. Engelsmann AG

Vention GmbH

tec4U-Solutions GmbH