Die Hälfte der öffentlich-rechtlichen Sender verwendet inzwischen auch synthetische oder mit Künstlicher Intelligenz (KI) generierte Stimmen, um für Fernsehformate Audiodeskriptionen zu erstellen. Das ergibt sich aus Nachfragen von M bei den neun ARD-Landesrundfunkanstalten und beim ZDF. Neben professionellen Sprecher*innen setzen der MDR, WDR, NDR, Radio Bremen und das ZDF auch auf synthetische oder KI-Stimmen für die akustische Bildbeschreibung.
Dies nutzen der BR, SWR, HR, RBB und der SR bislang nicht. Der BR erklärt, er sehe derzeit keinen Mehrwert für die Mitarbeitenden und die Nutzer*innen, wenn synthetische Stimmen bzw. KI-generierte Stimmen bei der Audiodeskriptionen verwendet würden. Der HR plant, im kommenden Jahr für ausgewählte Sendungen Audiodeskriptionen mit KI-generierten Stimmen anzufertigen. So lasse sich der Anteil an Produktionen mit akustischer Bildbeschreibung ausbauen, erklärt der Sender. Der SWR prüft derzeit, ob synthetische Stimmen für die Audiodeskription beispielsweise von kurzfristig produzierten Dokumentationen oder Reportagen eingesetzt werden könnten.
KI soll Zeit sparen
Unter anderem auf den Faktor Zeit verweist der NDR, warum man bei der Audiodeskription auch auf synthetische Stimmen setze. Für Sendungen, die erst kurz vor der Ausstrahlung fertig würden, könne so noch eine Audiodeskription erstellt werden. Ähnlich äußert sich der MDR. Auch das ZDF nennt „Zeitersparnis im Herstellungsprozess“. Dadurch könne „eine größere Bandbreite von Formaten regelmäßig mit Audiodeskription“ angeboten werden.
Das ZDF setzt nach eigenen Angaben etwa bei der Jugendserie „Echt“ und der Doku-Reihe „Terra X“ auf technische Unterstützung. Bei „Terra X“ werde seit April 2024 die Audiodeskription „mit einer KI-optimierten synthetischen Stimme erstellt“, wie am Ende der Hörfilmfassung erwähnt wird. Das ZDF wie auch die ARD-Landesrundfunkanstalten haben in ihren Grundsätzen zum Umgang mit KI festgelegt, dass sie deren Einsatz transparent machen.
Bei Dokumentationen verwende der WDR seit zwei Jahren regelmäßig synthetische Stimmen für die Audiodeskription, teilt die Rundfunkanstalt mit. Für die Umsetzung ist dann die Tochterfirma WDR Mediagroup zuständig. Der MDR hat, wie der Sender erläutert, bereits 2019 damit begonnen, für Audiodeskriptionen neben Sprecher*innen auch synthetische bzw. mit KI generierte Stimmen einzusetzen. Ziel sei gewesen, die Barrierefreiheit der MDR-Angebote weiterzuentwickeln.
KI auch bei der Sesamstraße
Als öffentlich-rechtlicher Sender geht es für den MDR aber auch um Wirtschaftlichkeit und Sparsamkeit. Durch den Einsatz von KI-gestützten Stimmen ließen sich Audiodeskriptionen wirtschaftlicher produzieren. Aktuell gebe es im MDR Fernsehen täglich im Durchschnitt zirka sechs Stunden Programm mit Audiodeskription. Ohne KI-gestützte Stimmen würde es deutlich reduzierter ausfallen. Durch den Einsatz von KI gebe es also mehr Sendungen mit Audiodeskription, erklärt der MDR. So argumentiert auch der NDR, der etwa die Sesamstraße mit synthetischer Stimme audiodeskribiert. Der Sender verweist auf geringere Kosten durch den Wegfall der Studioaufnahme.
Menschliche Stimme sorgt für Stimmung
Der Deutsche Blinden- und Sehbehindertenverband (DBSV) hat, wie dessen Geschäftsführer Andreas Bethke erklärt, „den Eindruck, dass der Einsatz von hochwertigen KI-Stimmen aktuell nicht zu Kostenersparnissen führt“. Bethke hält für es notwendig, eine professionelle menschliche Stimme einzusetzen, um eine hochwertige Audiodeskription zu erstellen. Dadurch lasse sich, vor allem bei fiktionalen Formaten, auch die Stimmung eines Films oder einer Serie transportieren. Das passt auch zu dem Ziel, das die Rundfunkanstalten in gemeinsamen Grundsätzen zu Audiodeskriptionen festgelegt haben: blinden und sehbehinderten Menschen „ein barrierefreies Filmerlebnis zu ermöglichen, das dem Erlebnis der Sehenden entspricht“.
Den Einsatz von KI-Stimmen bei der Audiodeskription lehnt DBSV-Geschäftsführer Bethke aber nicht grundsätzlich ab: Derzeit sei dies etwa bei bestimmten Dokumentationen denkbar. Andreas Meese, professioneller Sprecher, der auch Hörfilme macht, hebt die Vorzüge der Stimme von gut ausgebildeten Sprecher*innen hervor: Sie könne emotional mitgehen. Menschen, die auf akustische Bildbeschreibungen angewiesen seien, wüssten, wie gut eine solche Audiodeskription sein könne. So lasse sich zum Beispiel ein „Tatort“ mit Audiodeskription wie ein Hörspiel hören. Für ihn seien die KI-Audiodeskriptionen, die er bislang gehört habe, „unüberhörbar seelenlos“, sagt Meese.
Jobs von Sprecher*innen bedroht
Doch synthetische bzw. KI-generierte Stimmen bedrohen die Arbeit von Meese und seiner Kolleg*innen erheblich. So schreibt der Verband Deutscher Sprecher:innen (VDS) auf seiner Internet-Seite: „Die KI-Stimmtechnologie birgt die Gefahr, die wirtschaftliche Grundlage professionell Sprechender im schlimmsten Fall zu vernichten und die Selbstbestimmung über die eigene Stimme zu verlieren.“ Der Rat des Verbandes: Sprecher*innen sollten Verträge gewissenhaft prüfen, insbesondere was den Einsatz und die Anwendung von KI angehe.
Anna-Sophia Lumpe, erste Vorsitzende des VDS, befürchtet, dass Stimmen von Sprecher*innen für KI-gestützte Stimmen, etwa zu Trainingszwecken, genutzt würden, ohne dass dafür aber Zustimmungen vorlägen. Letztlich trete sie mit ihrer Arbeit dann in Konkurrenz zu einer Maschine. Lumpe verweist darauf, dass die Aufnahme einer menschlichen Stimme ab einer gewissen Schöpfungshöhe urheberrechtlich geschützt sei. Auch erfasse das Persönlichkeitsrecht die Stimme, zudem griffen datenschutzrechtliche Bestimmungen. Ohne Zustimmung dürfe also die menschliche Stimme nicht für KI-generierte Stimmen eingesetzt werden.
Die WDR Mediagroup erklärt, sie erstelle „keine KI-generierten Stimmen anhand von Stimmen realer Sprecher*innen“. So setzt die WDR-Tochterfirma wie bei der Audiodeskription zur Dokumentation „USA: Demokratie unter Beschuss“ auf „eine KI-generierte Stimme aus einem Tool eines Drittanbieters“. Diese Stimme sei ausschließlich künstlich generiert und nicht auf Basis realer Stimmen trainiert worden.
Mehr zum Thema KI im Journalismus
Beim Einsatz von generischer Künstlicher Intelligenz im Journalismus müssen Sorgfalt, Transparenz und Qualität gewährleistet werden, so der Kern des nun veröffentlichten Diskussionspapiers der Fachgruppe Medien, Journalismus und Film in ver.di. „KI-Systeme kommen im Journalismus seit Jahren zur Anwendung. Mit jeder nächsten Stufe der Entwicklung stellt sich die Frage nach der Art ihrer Einbindung im redaktionellen Prozess neu, aktuell angesichts von generischer KI in Wort-, Bild- und Video-Ausgabe. Dafür benennt ver.di fünf Schlüsselfaktoren.