KI schlägt Mensch bei Spracherkennung

Ein alltägliches Gespräch ist im Normalfall weit von einem verschriftlichten Dialog entfernt. Es gibt nicht beendete Sätze, Umgangssprache und Stotterer – alles Herausforderungen für KI-Systeme. Selbst Menschen fällt es teilweise schon schwer, solchen Wortwechseln zu folgen und sie akkurat und sinngemäß wiederzugeben.

„Einer KI fiel dies bislang noch schwerer“, sagt Alex Waibel, Professor für Informatik am Karlsruher Institut für Technologie (KIT). Denn abgesehen von sprachlichen Hürden wie „Ähs“, „Ähms“ oder halbfertigen Sätzen würden Worte zudem häufig noch undeutlich ausgesprochen.

Menschliche Fehlerrate unterschritten

Ein Team aus KIT-Wissenschaftlern und Mitarbeitern der Firma Kites, einer Ausgründung des Karlsruher Forschungsinstituts, hat nun das weltweit erste Computersystem programmiert, das diese Aufgabe besser erledigt als Menschen und schneller als andere Systeme. Die Ergebnisse zeigen sie auf der Internet-Plattform ArXiv.

Waibel hat dabei bereits einen automatischen Live-Übersetzer entwickelt, der Universitätsvorlesungen aus dem Deutschen oder Englischen schritthaltend mit der Vorlesung in die Sprachen ausländischer Studierender überträgt. Der „Lecture Translator“ ist seit 2012 in den Hörsälen des KIT im Einsatz.

„Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel, „da Fehler und Verzögerungen bei der Erkennung die Übersetzung unverständlich machen. Die menschliche Fehlerrate liegt hier bei circa 5,5 Prozent. Unser System erreicht nun fünf Prozent.“

Niedrigste Latenz erreicht

Allerdings sei nicht nur die Genauigkeit ausschlaggebend, sondern auch, wie rasch das System das Ergebnis ausgibt, damit Studierende der Vorlesung live folgen können. Diese Verzögerung konnten die Forscher erstmalig auf eine Sekunde reduzieren. Das sei der niedrigste Wert in der sogenannten Latenz, den je ein Spracherkennungssystem dieser Qualität erreicht habe, betont Waibel.

Gemessen werden Fehlerrate und Verzögerung mit dem standardisierten und wissenschaftlich international anerkannten „Switchboard-Benchmark“-Test. Dieser gilt als bislang unerreichte Messlatte im Wettbewerb der internationalen KI-Forschergemeinde, eine Maschine zu bauen, die an die menschliche Fähigkeit, Spontansprache zu erkennen, herankommt oder diese übertrifft.

Inhalte oder Zusammenhänge verstehen könne ein Erkennungssystem alleine aber noch nicht, räumt Waibel ein. „Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“

Dialog-, Übersetzungs- und weitere KI-Module können durch die Neuentwicklung nun aber schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.

Zwei Jahrzehnte Erfahrung mit WEEE-Directive und ElektroG

Qualitätssprung in der Batteriefertigung: Neue Prüfmethodik im Fokus

Programmierbare Widerstandsmodule für sichere Hochspannungssimulation

Ein Jahr EU-Batterieverordnung: Herausforderungen, Chancen, nächste Schritte

Verstehen von Spontansprache KI schlägt Mensch bei Spracherkennung

Ein alltägliches Gespräch zu verfolgen und genau wiederzugeben, ist eine der größten Herausforderungen für Künstliche Intelligenzen. Nun haben Forscher aber ein Computersystem entwickelt, das bei solchen Gesprächen eine höhere Erkennungsgenauigkeit an den Tag legen konnte als der Mensch.

Menschliche Fehlerrate unterschritten

Niedrigste Latenz erreicht

Karlsruher Institut für Technologie (KIT) Int. Department GmbH

Deutschlands KI-Pläne: Leuchtturm oder Schlusslicht Europas?

Kommt der „USB-C-Standard“ für KI-Agenten?

Kostenlose Open-Source-Lösung zur Wartung im Energiesektor

Sensorik und KI verbessern Abläufe in industriellen Kläranlagen

Autonome Fahrzeuge lernen, Fußgänger-Absichten zu erkennen

Die Grenzen von KI in der Materialwissenschaft

Welche Unternehmen werden gestärkt aus der KI-Revolution hervorgehen?

Wissen auf Knopfdruck: Neue SaaS-Lösung für die Industrie

95  Prozent der Unternehmen scheitern an Responsible AI

Nur wer clever ist, findet den Weg