18.08.2022
Denise Fernholz

Text-to-Speech, Deepfakes und KI in Podcasts: Was ist schon möglich und was kommt noch?

»Das ganze Internet wird ein Podcast sein.« Diese steile These haut Conal Byrne, CEO der iHeartMedia Digital Audio Group (iHeartMedia ist der größte Podcast-Publisher in den USA), am 1. März bei Forbes raus. Sie ist eine seiner Prognosen für das Podcast-Jahr 2022. Was er genau damit meint? Dass die Text-to-Speech-Technologie bald aus jedem Online-Artikel eine Podcast-Episode machen könnte. Wenn man sich so umschaut ist das gar nicht so unwahrscheinlich. Schon jetzt bieten viele Online-Magazine an, sich die Artikel vorlesen zu lassen – ja, auch in Deutschland. Axel Springer hat mit Aravoices gleich eine eigene Text-to-Speech-Anwendung entwickelt, die nicht nur mit der 08/15-Computerstimme vorlesen kann, sondern mit einer individuellen, synthetischen Markenstimme. Den Anfang macht Welt, weitere Marken sollen folgen.


Künstliche Intelligenz als Podcasterin

Das deutsche Start-up Ahearo würde gerne das »Spotify für Zeitschriften« werden. In der gleichnamigen App gibt es eine Auswahl an Magazinen, die mit Ahearo kooperieren und ausgewählte Artikel vorlesen lassen. Aber nicht von einer komplett synthetischen Stimme, sondern von bekannten Synchronsprecher:innen, deren Stimmen mit Hilfe eines KI-Algorithmus nachgebildet werden. Dafür braucht es allerdings fünf bis sechs Stunden Audiomaterial von den jeweiligen Sprecher:innen – am besten ein Hörbuch von mehr als 24 Stunden Länge. Ich war neugierig und habe mir ein paar der kostenlosen Artikel in der App angehört – und keinen Unterschied zu einer »echten« Stimme gemerkt.

Vorreiterin beim Podcasten mit einer Künstlichen Intelligenz ist ausgerechnet eine Regionalzeitung. Die Hessisch Niedersächsische Allgemeine erreichte mit ihrem Podcast »HNA Nachrichtenüberblick«, der automatisch aus Texten der eigenen Website generiert wird, bereits fünf Monate nach Start jeden Tag 5000 Hörer:innen. Hinter der Technologie steckt das Düsseldorfer Unternehmen Storyflash, das eine Software anbietet, mit der Medienhäuser automatisiert Podcasts generieren können (und übrigens auch Social Media-Posts). Laut Marie Klement, Leiterin des Digitalteams bei der HNA, brauchen sie nur zehn bis 15 Minuten, um eine Folge zu produzieren. Man könnte sie sogar vollautomatisiert produzieren lassen. »Aber so gut ist die Technik noch nicht. Ein paar Dinge müssen wir immer noch händisch lösen, zum Beispiel Ortsmarken aus den Texten entfernen«, sagt sie im Interview mit OMR.




Deepfakes machen’s möglich

Bei der Audio-Produktion arbeitet Storyflash mit dem Londoner Unternehmen Aflorithmic zusammen. Vielleicht kennt ihr deren Projekt »Digital Einstein Experience«, das nicht nur die Stimme des Physikers nachgebildet hat, sondern auch sein Gesicht. Mit dem Deepfake-Einstein lässt sich per Sprache chatten – probiert es ruhig mal aus! Wer keine Lust auf Reden hat, kann sich auch Buchklassiker wie »Dracula«, »Alice im Wunderland« oder sogar Franz Kafka von Rapper Gucci Mane vorlesen lassen. Möglich macht das Project Gucciberg (angelehnt an das Project Gutenberg, einer kostenlosen Bibliothek mit über 60.000 E-Books) – ebenfalls mit einer Deepfake-KI. Wer sich noch tiefer in diese Bubble bewegen will, sollte diesen Artikel der Los Angeles Times lesen. (Leider gibt es dort noch keine Vorlesefunktion.) Aufhänger war damals eine Doku, in der die Stimme des verstorbenen TV-Kochs Anthony Bourdain gedeepfaked wurde. Sowas ist erst der Anfang.

Ein Blogpost von Programmierer Sanjeet Chatterjee legt nahe, dass man in Zukunft auch komplette KI-generierte Podcasts mit (prominenten) Gäst:innen hören könnte. Ausprobiert hat er das mit Elon Musk, der drei Mal zu Gast bei Joe Rogan war. Das sind mehr als acht Stunden Gespräch. Er hat an der Open-Source-KI GPT-2 noch ein bisschen Finetuning vorgenommen – und rausgekommen ist Elon Tusk! Naja, er klingt noch sehr nach Roboter. Aber wir wissen ja, synthetische Stimmen werden immer besser. Und die Vorstellung, unendlich viele Folgen der eigenen Lieblingspodcasts hören zu können, ist schon ziemlich abgefahren. Und wahrscheinlich sehr langweilig. Aber, egal!




Text-to-Speech-Podcasts für alle

Man braucht aber nicht unbedingt viel Geld für eine Software oder Erfahrung mit KI-Programmierung – um aus den eigenen Texten einen Podcast zu machen, braucht man nur einen WordPress-Blog und einen Account bei Spotifys Podcast-Hosting-Plattform Anchor. Bereits seit Februar 2021 gibt es bei Anchor eine Text-to-Speech-Integration, die aus den selbstgeschriebenen Blogposts bei WordPress kleine Podcast-Episoden generiert. Man kann zwischen zwei Stimmen auswählen (Remy und Cassidy) und anschließend noch Elemente wie Musik oder ein selbsteingesprochenes Intro hinzufügen. Wie so eine Folge mit KI-Stimme klingt, hört ihr in diesem Beispiel ab ca. 0:30.




Was hat Spotify mit Sonantic vor?

Apropos Anchor: Mutterkonzern Spotify hat vor zwei Monaten das Sprach-KI-Unternehmen Sonantic gekauft. Dessen Technologie wurde zum Beispiel im neuen Film »Top Gun: Maverick« mit Tom Cruise genutzt, um die Stimme des Schauspielers Val Kilmer nachzustellen, der nach seiner Kehlkopfkrebserkrankung nicht mehr sprechen kann. Dafür wurden alte Aufnahmen von ihm genutzt.



»Wir freuen uns sehr über das Potenzial, die AI-Voice-Technologie von Sonantic auf die Spotify-Plattform zu bringen und neue Erlebnisse für unsere Nutzer:innen zu schaffen«, sagt Ziad Sultan, Vice President of Personalization bei Spotify. »Diese Integration wird es uns ermöglichen, Nutzer:innen auf eine neue und noch personalisiertere Weise anzusprechen.« In der Pressemitteilung heißt es außerdem, Spotify habe bereits mehrere Einsatzfelder für Text-to-Speech auf der Plattform identifiziert. »Diese Sprachtechnologie könnte es uns beispielsweise ermöglichen, Nutzer:innen Kontext zu bevorstehenden Empfehlungen zu geben, wenn sie nicht auf ihren Bildschirm schauen.«


Ein Blick in die Podcast-Zukunft

Neben den Ansagen für Empfehlungen gibt es auch noch andere Zukunftvisionen für die Technologie im Podcasting. Ganze Podcast-Folgen mit Leuten, die gar nicht anwesend sind, wird es auch von Spotify mit sehr hoher Wahrscheinlichkeit nicht geben. Aber in der Postproduktion kommt es häufiger vor, dass man von dem Host oder der Hostin noch einen Aufsager braucht oder eine Korrektur im Intro. Sind die Leute für die Podcast-Produktion extra angereist und haben zu Hause keine Möglichkeit nachträglich Audio-Schnipsel aufzunehmen, wäre eine Text-to-Speech-Lösung bestimmt super. Die Frage ist dann eher, wie teuer es sein würde, die Stimme synthetisch herstellen zu lassen.

Das größte Potenzial bei Text-to-Speech, Deepfakes und KI-Podcasts sehe ich persönlich im Storytelling-Bereich. Wie wir gesehen haben, wird die Deepfake-Technologie in Film und Fernsehen bereits verwendet, um Stimmen von Verstorbenen oder Erkrankten zu imitieren. In dem Artikel über den Anthony Bourdain-Deepfake sagt Zeena Qureshi, Gründerin von Sonantic: »Die Möglichkeiten sind unbegrenzt. Wir glauben, dass dies die CGI von Audio ist.« Stellt euch vor, ein Podcast über Albert Einstein könnte von seiner eigenen Stimme eingesprochen werden. Das wird noch richtig wild, Leute!

Du liebst Podcasts? Dann schnell unseren Podcast-Newsletter MIXDOWN abonnieren! Da gibt es nicht nur tägliche und wöchentliche News aus dem Podcast-Kosmos – sondern auch spannende Fakten und knackige Interviews von Branchen-Expert:innen. Eben alles, was wir auch gerne jeden Tag lesen würden!

Denise Fernholz

Schreibt für Podstars den Podcast-Newsletter MIXDOWN und versucht, möglichst viele Fotos ihrer Katzen Polly und Coco darin unterzubringen. (Klappt meistens.)

Weitere Beiträge

05.10.2022
Denise Fernholz

Problem Discovery: Können Radios das ...

Brauchen wir ein MTV für Podcasts? Das habe ich mich im März 2021 das erste Mal in unserem...

04.10.2022
Maren Papenbroock

Das sind die besten True Crime Podcas...

Liebt ihr True-Crime-Podcasts auch so sehr wie ich? Wenn »Crime«, »Mord« oder ein anderes...

30.09.2022
Feline Heck

Podcast PR – sind Public Relations un...

Wenn (laut einer Umfrage in Großbritannien) mehr als jede dritte Person angibt, keine Podcasts...

28.09.2022
Maren Papenbroock

»Kaulitz Hills«: Was halten eure Fans...

Wir schreiben den 15. April 2007. Es ist 5 Uhr morgens und ich bin mit meinem Vater und einer...

26.09.2022
Denise Fernholz

Problem Podcast-Discovery: Warum ist ...

34 Prozent der Befragten einer Umfrage in Großbritannien geben 2022 an, dass sie aufgehört haben...

16.09.2022
Feline Heck

Branded Podcasts aus der Nische: das ...

Was macht einen Branded Podcast wirklich erfolgreich, wenn es nicht die riesigen Reichweiten von...