Audiodeskription: Die KI liest vor

Foto: Fotolia/agsandrew

Die Hälfte der öffentlich-rechtlichen Sender verwendet inzwischen auch synthetische oder mit Künstlicher Intelligenz (KI) generierte Stimmen, um für Fernsehformate Audiodeskriptionen zu erstellen. Das ergibt sich aus Nachfragen von M bei den neun ARD-Landesrundfunkanstalten und beim ZDF. Neben professionellen Sprecher*innen setzen der MDR, WDR, NDR, Radio Bremen und das ZDF auch auf synthetische oder KI-Stimmen für die akustische Bildbeschreibung.

Dies nutzen der BR, SWR, HR, RBB und der SR bislang nicht. Der BR erklärt, er sehe derzeit keinen Mehrwert für die Mitarbeitenden und die Nutzer*innen, wenn synthetische Stimmen bzw. KI-generierte Stimmen bei der Audiodeskriptionen verwendet würden. Der HR plant, im kommenden Jahr für ausgewählte Sendungen Audiodeskriptionen mit KI-generierten Stimmen anzufertigen. So lasse sich der Anteil an Produktionen mit akustischer Bildbeschreibung ausbauen, erklärt der Sender. Der SWR prüft derzeit, ob synthetische Stimmen für die Audiodeskription beispielsweise von kurzfristig produzierten Dokumentationen oder Reportagen eingesetzt werden könnten.

KI soll Zeit sparen

Unter anderem auf den Faktor Zeit verweist der NDR, warum man bei der Audiodeskription auch auf synthetische Stimmen setze. Für Sendungen, die erst kurz vor der Ausstrahlung fertig würden, könne so noch eine Audiodeskription erstellt werden. Ähnlich äußert sich der MDR. Auch das ZDF nennt „Zeitersparnis im Herstellungsprozess“. Dadurch könne „eine größere Bandbreite von Formaten regelmäßig mit Audiodeskription“ angeboten werden.

Das ZDF setzt nach eigenen Angaben etwa bei der Jugendserie „Echt“ und der Doku-Reihe „Terra X“ auf technische Unterstützung. Bei „Terra X“ werde seit April 2024 die Audiodeskription „mit einer KI-optimierten synthetischen Stimme erstellt“, wie am Ende der Hörfilmfassung erwähnt wird. Das ZDF wie auch die ARD-Landesrundfunkanstalten haben in ihren Grundsätzen zum Umgang mit KI festgelegt, dass sie deren Einsatz transparent machen.

Bei Dokumentationen verwende der WDR seit zwei Jahren regelmäßig synthetische Stimmen für die Audiodeskription, teilt die Rundfunkanstalt mit. Für die Umsetzung ist dann die Tochterfirma WDR Mediagroup zuständig. Der MDR hat, wie der Sender erläutert, bereits 2019 damit begonnen, für Audiodeskriptionen neben Sprecher*innen auch synthetische bzw. mit KI generierte Stimmen einzusetzen. Ziel sei gewesen, die Barrierefreiheit der MDR-Angebote weiterzuentwickeln.

KI auch bei der Sesamstraße

Als öffentlich-rechtlicher Sender geht es für den MDR aber auch um Wirtschaftlichkeit und Sparsamkeit. Durch den Einsatz von KI-gestützten Stimmen ließen sich Audiodeskriptionen wirtschaftlicher produzieren. Aktuell gebe es im MDR Fernsehen täglich im Durchschnitt zirka sechs Stunden Programm mit Audiodeskription. Ohne KI-gestützte Stimmen würde es deutlich reduzierter ausfallen. Durch den Einsatz von KI gebe es also mehr Sendungen mit Audiodeskription, erklärt der MDR. So argumentiert auch der NDR, der etwa die Sesamstraße mit synthetischer Stimme audiodeskribiert. Der Sender verweist auf geringere Kosten durch den Wegfall der Studioaufnahme.

Menschliche Stimme sorgt für Stimmung

Der Deutsche Blinden- und Sehbehindertenverband (DBSV) hat, wie dessen Geschäftsführer Andreas Bethke erklärt, „den Eindruck, dass der Einsatz von hochwertigen KI-Stimmen aktuell nicht zu Kostenersparnissen führt“. Bethke hält für es notwendig, eine professionelle menschliche Stimme einzusetzen, um eine hochwertige Audiodeskription zu erstellen. Dadurch lasse sich, vor allem bei fiktionalen Formaten, auch die Stimmung eines Films oder einer Serie transportieren. Das passt auch zu dem Ziel, das die Rundfunkanstalten in gemeinsamen Grundsätzen zu Audiodeskriptionen festgelegt haben: blinden und sehbehinderten Menschen „ein barrierefreies Filmerlebnis zu ermöglichen, das dem Erlebnis der Sehenden entspricht“.

Den Einsatz von KI-Stimmen bei der Audiodeskription lehnt DBSV-Geschäftsführer Bethke aber nicht grundsätzlich ab: Derzeit sei dies etwa bei bestimmten Dokumentationen denkbar. Andreas Meese, professioneller Sprecher, der auch Hörfilme macht, hebt die Vorzüge der Stimme von gut ausgebildeten Sprecher*innen hervor: Sie könne emotional mitgehen. Menschen, die auf akustische Bildbeschreibungen angewiesen seien, wüssten, wie gut eine solche Audiodeskription sein könne. So lasse sich zum Beispiel ein „Tatort“ mit Audiodeskription wie ein Hörspiel hören. Für ihn seien die KI-Audiodeskriptionen, die er bislang gehört habe, „unüberhörbar seelenlos“, sagt Meese.

Jobs von Sprecher*innen bedroht

Doch synthetische bzw. KI-generierte Stimmen bedrohen die Arbeit von Meese und seiner Kolleg*innen erheblich. So schreibt der Verband Deutscher Sprecher:innen (VDS) auf seiner Internet-Seite: „Die KI-Stimmtechnologie birgt die Gefahr, die wirtschaftliche Grundlage professionell Sprechender im schlimmsten Fall zu vernichten und die Selbstbestimmung über die eigene Stimme zu verlieren.“ Der Rat des Verbandes: Sprecher*innen sollten Verträge gewissenhaft prüfen, insbesondere was den Einsatz und die Anwendung von KI angehe.

Anna-Sophia Lumpe, erste Vorsitzende des VDS, befürchtet, dass Stimmen von Sprecher*innen für KI-gestützte Stimmen, etwa zu Trainingszwecken, genutzt würden, ohne dass dafür aber Zustimmungen vorlägen. Letztlich trete sie mit ihrer Arbeit dann in Konkurrenz zu einer Maschine. Lumpe verweist darauf, dass die Aufnahme einer menschlichen Stimme ab einer gewissen Schöpfungshöhe urheberrechtlich geschützt sei. Auch erfasse das Persönlichkeitsrecht die Stimme, zudem griffen datenschutzrechtliche Bestimmungen. Ohne Zustimmung dürfe also die menschliche Stimme nicht für KI-generierte Stimmen eingesetzt werden.

Die WDR Mediagroup erklärt, sie erstelle „keine KI-generierten Stimmen anhand von Stimmen realer Sprecher*innen“. So setzt die WDR-Tochterfirma wie bei der Audiodeskription zur Dokumentation „USA: Demokratie unter Beschuss“ auf „eine KI-generierte Stimme aus einem Tool eines Drittanbieters“. Diese Stimme sei ausschließlich künstlich generiert und nicht auf Basis realer Stimmen trainiert worden.


Mehr zum Thema KI im Journalismus

Beim Einsatz von generischer Künstlicher Intelligenz im Journalismus müssen Sorgfalt, Transparenz und Qualität gewährleistet werden, so der Kern des nun veröffentlichten Diskussionspapiers der Fachgruppe Medien, Journalismus und Film in ver.di. „KI-Systeme kommen im Journalismus seit Jahren zur Anwendung. Mit jeder nächsten Stufe der Entwicklung stellt sich die Frage nach der Art ihrer Einbindung im redaktionellen Prozess neu, aktuell angesichts von generischer KI in Wort-, Bild- und Video-Ausgabe. Dafür benennt ver.di fünf Schlüsselfaktoren.

nach oben

Weitere aktuelle Beiträge

ÖRR und AfD: Normalisierung statt Strategie

Die aktuelle Debatte um das ARD-Sommerinterview mit der AfD-Vorsitzenden Alice Weidel zeigt deutlich: Der öffentlich-rechtliche Rundfunk hat keine klare Idee, wie er mit der, laut Verfassungsschutz, gesichert rechtsextremistischen Partei umgehen soll. Sender-Verantwortliche regen sich über „Störer“ auf, anstatt zu hinterfragen, ob es eine gute Idee ist, der AfD immer wieder eine Plattform zu bieten. Eine konkrete Nachfrage bei ARD und ZDF offenbart: Es gibt keine Strategie, die nicht der Normalisierung der AfD Vorschub leistet.
mehr »

„Von Wertschätzung meilenweit entfernt“

Der Juli ist Urlaubszeit, aber auch Verhandlungszeit. Nach zehn zähen Verhandlungsrunden mit den Zeitungsverlegern und mehrfachen Warnstreiks, hat die dju in ver.di endlich einen Abschluss für Tausende von Journalisten in ganz Deutschland erreichen können. Einer der beim Tarifvertrag mitverhandelte, ist Peter Freitag, Co-Vorsitzender der dju in ver.di und Redakteur für Kölner Stadt-Anzeiger und Kölnische Rundschau.
mehr »

Ver.di macht Druck bei TikTok

In der Auseinandersetzung um die Kündigungen der Content-Moderator*innen versucht TikTok nach Einschätzung von ver.di Fakten zu schaffen und zieht nun vor Gericht. Der Arbeitgeber forciert ein gerichtliches Verfahren gegenüber dem Betriebsrat, das nach Einschätzung von ver.di dazu dient, möglichst schnell Kündigungen aussprechen zu können. Bisher hat TikTok den Beschäftigten und dem Betriebsrat Angebote vorgelegt, die diese als unzureichend bewerten.
mehr »

NIUS: Eine Bühne für rechte Hetze

Der ehemalige „Bild“-Chefredakteur Julian Reichelt inszeniert sich seit zwei Jahren auf der Krawall-Plattform „Nius“ als Kämpfer gegen alles vermeintlich oder tatsächlich Linke, Woke, gegen „verlogene Eliten“ und als Gegenpol gegen den verhassten Berliner Hauptstadt-Journalismus.
mehr »