KI Stimmen für das Pediaphon

Moderne Text to Speech (TTS) Verfahren basieren auf Neuronalen Netzen (landläufig als KI bezeichnet, bei künstlicher Sprachausgabe handelt es sich aber um sogenannte „schwache KI“), die mit Sprachsamples trainiert werden. Alle der bekannten, in Windows, Android und IOS integrierten kommerziellen TTS-Stimmen nutzen heute solche Techniken. Seit einiger Zeit sind auch Open Source Stimmen entwickelt worden, die auf diesen Techniken beruhen. Meist werden die Sprachmodelle in Python trainiert und auch ausgeführt. Da ich im Pediaphon ganze und teilweise sehr  große Wikipedia-Artikel in einem Stück und nicht als Stream in Sprache umwandle, bin ich auf sehr schnelle Algorithmen angewiesen. Da kommt das Open Source Projekt Piper in Spiel, dass eine für den Raspberry Pi optimierte Sprachausgabe in Python und alternativ und viel schneller in C++ realisiert. Auf meinem Pediaphon-Server mit 6 virtuellen Intel-Kernen ist das Binary noch sehr viel schneller und ermöglicht es Text mit dem Faktor 0.1 (zur originalen Hörlänge) in Sprache umzuwandeln. D.h. für 10 Minuten künstlich gesprochenen Text benötigt Piper auf meiner virtuellen Handware ca.  eine Minute. Das ist immer noch ca. um den Faktor 6 langsamer als die bisher von mir favorisierte SVOX Pico engine, aber die Sprachqualität wird deutlich besser und zeitgemäß im Vergleich zu kommerziellen Stimmen.

Aktuell wird nun im Pediaphon nun die deutsche KI-Stimme „Kerstin“ als Beta-Test angeboten. Ich bitte allerdings um Geduld, da die Dauer der Generierung der MP3 Dateien deutlich höher ist, als im bisherigen kleinen Countdown angezeigt wird (ca. 6-8 mal so lange).

Kleines Update: Die Stimme Thorsten, siehe  https://www.thorsten-voice.de/ ist nun ebenfalls integriert. Der Contdown wurde für die neuen Stimmen angepasst, und die maximale Session-Dauer für lange Wikipedia-Artikel wurde deutlich verlängert, so dass sich nun auch längere Artikel mit den neuen Stimmen generieren lassen. Aber Achtung: Das Generieren von 7 Stunden Sprache bei ganz riesigen Artikeln dauert mit den KI-Stimmen eine Stunde!