Das Pediaphon ist ein Webdienst von mir, der seit 2006 Wikipedia-Artikel in Sprache umwandelt. Dort werden diverse Open Source TTS Generatoren und Stimmen eingesetzt. Ursprünglich basierte das Pediaphon auf einem EU-projekt namens MBROLA, später kamen TTS-Systeme wie espeak, Milena und SVOX-Pico (2010) hinzu. Moderne Text-to-Speech- (TTS) Verfahren basieren heute auf Neuronalen Netzen (landläufig als KI bezeichnet, bei künstlicher Sprachausgabe handelt es sich aber um sogenannte „schwache KI“), die mit Sprachsamples trainiert werden. Alle der bekannten, in Windows, Android und IOS integrierten kommerziellen TTS-Stimmen nutzen heute solche Techniken. Seit einiger Zeit sind auch Open Source Stimmen entwickelt worden, die auf diesen Techniken beruhen. Meist werden die Sprachmodelle in Python trainiert und auch ausgeführt. Da ich im Pediaphon ganze und teilweise sehr große Wikipedia-Artikel in einem Stück und nicht als Stream in Sprache umwandle, bin ich auf sehr schnelle Algorithmen angewiesen. Da kommt das Open Source Projekt Piper in Spiel, dass eine für den Raspberry Pi optimierte Sprachausgabe in Python und alternativ und viel schneller in C++ realisiert. Auf meinem Pediaphon-Server mit 6 virtuellen Intel-Kernen ist das Binary noch sehr viel schneller und ermöglicht es Text mit dem Faktor 0.1 (zur originalen Hörlänge) in Sprache umzuwandeln. D.h. für 10 Minuten künstlich gesprochenen Text benötigt Piper auf meiner virtuellen Handware ca. eine Minute. Das ist immer noch ca. um den Faktor 6 langsamer als die bisher von mir favorisierte SVOX Pico engine, aber die Sprachqualität wird deutlich besser und zeitgemäß im Vergleich zu kommerziellen Stimmen.
Aktuell wird nun im Pediaphon nun die deutsche KI-Stimme „Kerstin“ als Beta-Test angeboten. Ich bitte allerdings um Geduld, da die Dauer der Generierung der MP3 Dateien deutlich höher ist, als im bisherigen kleinen Countdown angezeigt wird (ca. 6-8 mal so lange).
Kleines Update: Die Stimme Thorsten, siehe https://www.thorsten-voice.de/ ist nun ebenfalls integriert. Der Countdown wurde für die neuen Stimmen angepasst, und die maximale Session-Dauer für lange Wikipedia-Artikel wurde deutlich verlängert, so dass sich nun auch längere Artikel mit den neuen Stimmen generieren lassen. Aber Achtung: Das Generieren von 7 Stunden Sprache bei ganz riesigen Artikeln dauert mit den KI-Stimmen eine Stunde!