Audio-Dateien für die Sprachführung erstellen IoT-Geräten das Sprechen beibringen

RUTRONIK Elektronische Bauelemente GmbH

Sprechende Geräte können etwa die Hausarbeit deutlich vereinfachen, kommen aber auch in der Industrie oder Gesundheitsbranche zum Einsatz.

Bild: Rutronik
09.06.2020

Der Bedarf an Geräten mit Sprachführung und Audiowiedergabe wächst stetig. Wie Sie qualitativ hochwertige Audio-Dateien einfach und auch in verschiedenen Sprachen erstellen können, zeigt dieser Beitrag.

Sponsored Content

Moderne Heimelektronik mit integrierter Sprachausgabe, die eine visuelle Darstellung ersetzt oder ergänzt, wird immer beliebter. Dabei geht es nicht nur um die barrierefreie Nutzung von Haushaltsgeräten auch für sehbehinderte Menschen. Elektrogeräte werden immer intelligenter, aber oft auch komplexer in der Bedienung. Sprechende Geräte, die in der Lage sind, Wörter und Sätze zu bilden, um den Kunden individuellen Text auszugeben, können hier unterstützen. Aber auch die zunehmende Digitalisierung, Vernetzung und Bequemlichkeit der Nutzer trägt zu einer höheren Nachfrage an Geräten mit Sprachführung und Audiowiedergabe bei.

Die Anwendungsbereiche beschränken sich dabei nicht nur auf weiße und braune Ware, sondern sind in ihrer Vielfalt sehr breit gefächert. Zum Beispiel könnte Sprachausgabe die Benutzerschnittstelle der Wahl auch in Spielzeugen, in vielen Industrieanwendungen wie bei der Gebäudeautomation oder in Aufzügen, in Gesundheits- und Fitnessgeräten oder als Alarmfunktion in Produktionsstätten oder Leitsystemen in Einkaufskomplexen sein.

Für derartige Anwendungen reicht meist eine unidirektionale Sprachausgabe aus. Hier ist im Gegensatz zur bidirektionalen Sprachkommunikation, wie sie viele Anwender von virtuellen Assistenten, Smartphones oder intelligenten Fernsehbedienungen kennen, der Hard- und Softwareaufwand stark reduziert. Es bedarf keiner aufwendigen Infrastruktur mit einer Anbindung an das Internet, über die auch eine Sprachauswertung und Spracherzeugung in der Cloud möglich ist.

In der Vergangenheit wurde die benötigte Sprachdatei, auch für die eher preisgünstigeren Anwendungen, durch Einsprechen des Textes über Sprachenexperten in jeder gewünschten Sprache erzeugt. Dazu mussten ein Studio und ein professioneller Sprecher für eine Aufnahme gebucht oder ein eigenes Aufnahmestudio eingerichtet werden – eine teure und zeitintensive Lösung.

Sprachdateien aus Textdateien generieren

Um die Entwicklungszeit und -kosten für Produkte mit unidirektionaler Sprachausgabe zu reduzieren, bietet Epson das Esper2 Voice Data Creation Tool an, eine PC-basierte Entwicklungsumgebung. Damit lassen sich hochqualitative Audiodateien erzeugen.

Esper2 kann bereits formulierte Sätze, welche im CSV-Format vorliegen, importieren und daraus Sprachdateien erzeugen. Dazu analysiert das Tool die Texte hinsichtlich Satzbau und Wortposition, um so, zusammen mit einem hinterlegten und sehr umfangreichen Wörterbuch, die korrekte Aussprache und Betonung von Silben und Wörtern abzuleiten. Es entstehen hochwertige Computer-generierte Audiodateien, die sich kaum vom gesprochenen Wort eines echten Menschen unterscheiden. Die Aussprache von Wörtern, die nicht im Wörterbuch hinterlegt sind oder eine spezielle Betonung besitzen, beispielsweise Produktnamen, kann der Entwickler mit der integrierten Editierfunktion anpassen.

Das Tool ist aktuell für zwölf Sprachen (amerikanisches Englisch, amerikanisches Spanisch, kanadisches Französisch, britisches Englisch, Französisch, Deutsch, Italienisch, Russisch, Spanisch, Chinesisch, Japanisch und Koreanisch) erhältlich und bedient nun neben dem amerikanischen und asiatischen auch den europäischen Sprachraum. Wichtig ist jedoch, dass keine Übersetzungsfunktion existiert. Das heißt, der Text muss in der gewünschten Sprache im CSV-Format vorliegen und in Esper2 importiert oder manuell direkt in Esper2 eingegeben werden. Jede Sprache unterstützt eine Frauenstimme. Die Sprachgeschwindigkeit und Tonlage sind variabel einstellbar, um auch hier die sprachspezifischen Besonderheiten abzubilden.

Vorhandene Sprach- und Audiodaten (WAV, 16 kHz Abtastrate, Mono-Format) in bereits bestehenden Designs können Nutzer weiter verwenden. Dazu importiert der Entwickler die vorhandenen WAV-Dateien in die Entwicklungsumgebung, welche anschließend die Dateien einfach mit den Esper2-generierten Dateien verbindet. Epson arbeitet weiterhin daran, einfache Geräusche sowie eine Bibliothek zur Verfügung zu stellen, mit der man hochqualitative Sprach- und Audiodateien zu gängigen Einheiten wie Währungen, Gewichten und ähnlichen Größen erzeugen kann. Auch können die bereits definierten Sätze als Excel-Download im CSV-Format zur weiteren Bearbeitung exportiert werden.

Verluste bei der Sprachqualität vermeiden

Das Esper2 Voice Creation Tool verwendet das Epson-eigene Codec-Format Epson Own Voice (EOV), um die Dateigröße für eine effektive Übertragung oder Speicherung zu reduzieren. Im Vergleich zur Standardkomprimierung Adaptive Differential Pulse Code Modulation (ADPCM) kann mit EOV die Dateigröße um ein Viertel bis zwei Drittel reduziert werden. Dennoch erreicht die Sprachübertragung eine hohe Qualität mit 16, 24, 32 oder 40 Kbit/s.

Das .eov-File (Sprach- und Audiodatenspeicher) besteht normalerweise aus einer Lookup-Tabelle und den Audiodaten. Wird einem Satz mit einer bestimmten Bedeutung in den verschiedenen Sprachen die gleiche ID zugeordnet, kann man diesen Satz sehr einfach in mehreren Sprachen abspielen, indem man immer dieselbe ID der Lookup-Tabelle für die verschiedenen Sprachen aufruft. Das verschafft den damit beschäftigten Entwicklern einen guten Überblick, vor allem wenn viele verschiedene Sätze in mehreren unterschiedlichen Sprachen ausgegeben werden sollen.

Der Speicherplatz kann weiter reduziert werden, indem bei grundlegenden beziehungsweise sich wiederholenden Formulierungen ein herkömmlicher Slash (/) eingefügt wird, etwa bei der Angabe von Temperaturen. Das Esper2 Voice Creation Tool versteht diese und ordnet und verbindet automatisch alle Textformulierungen, zum Beispiel:

  • ID Nummer 1: „Die Temperatur/ist 38 °C.“

  • ID Nummer 2: „Die Temperatur/ist 39 °C.”

  • ID Nummer 3: „Die Temperatur/ist 40 °C.“

Die erzeugten Sprachdaten in diesem ausgewählten Beispiel lauten: „Die Temperatur“ „ist 38 °C“, „ist 39 °C“, „ist 40 °C“.

Text und Audio gleichzeitig abspielen

Je nach geforderten Entwicklungsszenario bietet Epson eine integrierte sowie eine diskrete Lösung in Form eines Mikrocontrollers oder eines Sprachausgabe-ICs an, um die mit Esper2 erzeugten Sprachdaten zu speichern und entsprechend auszugeben. Der 32-Bit-ARM-Cortex-M0+-Mikrocontroller S1C31D50 stellt eine integrierte Lösung dar. Der hardwaremäßig eingebaute Sprach- und Audio-Hardware-Prozessor bietet hier die Möglichkeit, den Ton über zwei Kanäle über den S1C31D50-Mikrocontroller gleichzeitig abzuspielen (mit je einer Abtastrate von 15,625 kHz).

Die Ausgabe geschieht mithilfe von einfachen Steuerfunktionen: Esper2 vergibt an alle erzeugten Sprach- und Audiodaten eine Nummer (ID). Diese Nummer (ID) wird in ein Register des Hardware-Prozessors geschrieben, der dann die entsprechenden Audio-Dateien abspielt. Somit muss kein Code für die Verknüpfung der Tondateien erstellt werden. Sobald die Tonwiedergabe gestartet ist, werden keinerlei CPU-Ressourcen benötigt, sodass die CPU auch während der Audioausgabe uneingeschränkt für andere Aufgaben bereitsteht oder einfach nur schlafen gelegt wird.

Diese Variante ist die aktuell einzige auf dem Markt verfügbare Lösung, die Text und Audio gleichzeitig abspielen kann. Das Besondere dabei: Wird beispielsweise neben einem Text auch eine Hintergrundmusik ausgegeben, können die jeweiligen Lautstärken unabhängig voneinander kontrolliert werden. So kann zum Beispiel die Hintergrundmusik leiser werden, wenn die Sprachausgabe einsetzt.

Eine Änderung der Tonlage (hoch/tief) und der Sprachgeschwindigkeit werden hardwareseitig realisiert. Die Sprachgeschwindigkeit ist in Fünf-Prozent-Abstufungen von 75 bis 125 Prozent regelbar.

Mikrocontroller oder Sprachausgabe-IC

Die diskrete Lösung besteht aus dem Sprachausgabe-IC S1V30xxx in Kombination mit einem externen Host-Mikrocontroller. Sie ist somit eine perfekte HMI-Ergänzung für existierende Designs, bei denen ein bereits vorhandener Mikrocontroller aus unterschiedlichsten Gründen nicht ersetzt werden kann oder soll.

Um das Sprachausgabe-IC zu steuern, lässt sich prinzipiell jeder Mikrocontroller verwenden, der eine serielle Schnittstelle integriert hat. Der erste Baustein S1V3G340 kann aktuell noch keine durch zwei Kanäle gemixte Sprachausgabe realisieren. Alle neuen Sprachausgabe-ICs von Epson werden jedoch laut Unternehmen mit dieser Funktion ausgestattet und erste Systembausteine spätestens Anfang 2021 in Serie auf dem Markt sein.

Entwicklungsboard verfügbar

Für interessierte Entwickler seht bereits das S5U1C31D50T1200 Evaluation Board zum Testen der Sprachausgabe bereit. Bei Auslieferung des Boards ist bereits eine umfangreiche Test-Software in verschiedenen Sprachen aufgespielt. Hier wird die gewünschte Sprache durch DIP-Schalter ausgewählt.

Um eigene Sätze zu kreieren, ist lediglich die Installation- und Lizenzierung der kostenlosen Esper2-Software notwendig. Nach erfolgreicher Installation des Tools können eigene Sätze definiert, nach Belieben verändert und gegebenenfalls danach auf das entsprechende Evaluation Board aufgespielt werden.

Bei der Komponentenauswahl und Umsetzung stehen dem Anwender die Fachleute von Rutronik beratend zur Seite. Auch bei Fragen zu weiteren für die Anwendung geeigneten Bauelementen, wie Operationsverstärker, NOR-Flash-Speicher oder Lautsprecher, sind sie Ansprechpartner.

Bildergalerie

  • Mit dem Evaluation Board S5U1C31D50T1200 lässt sich die Sprachausgabe gut testen, da die Sprach-Software bei Auslieferung bereits aufgespielt ist.

    Mit dem Evaluation Board S5U1C31D50T1200 lässt sich die Sprachausgabe gut testen, da die Sprach-Software bei Auslieferung bereits aufgespielt ist.

    Bild: Rutronik

Verwandte Artikel