Audiodeskription: Die KI liest vor

Foto: Fotolia/agsandrew

Die Hälfte der öffentlich-rechtlichen Sender verwendet inzwischen auch synthetische oder mit Künstlicher Intelligenz (KI) generierte Stimmen, um für Fernsehformate Audiodeskriptionen zu erstellen. Das ergibt sich aus Nachfragen von M bei den neun ARD-Landesrundfunkanstalten und beim ZDF. Neben professionellen Sprecher*innen setzen der MDR, WDR, NDR, Radio Bremen und das ZDF auch auf synthetische oder KI-Stimmen für die akustische Bildbeschreibung.

Dies nutzen der BR, SWR, HR, RBB und der SR bislang nicht. Der BR erklärt, er sehe derzeit keinen Mehrwert für die Mitarbeitenden und die Nutzer*innen, wenn synthetische Stimmen bzw. KI-generierte Stimmen bei der Audiodeskriptionen verwendet würden. Der HR plant, im kommenden Jahr für ausgewählte Sendungen Audiodeskriptionen mit KI-generierten Stimmen anzufertigen. So lasse sich der Anteil an Produktionen mit akustischer Bildbeschreibung ausbauen, erklärt der Sender. Der SWR prüft derzeit, ob synthetische Stimmen für die Audiodeskription beispielsweise von kurzfristig produzierten Dokumentationen oder Reportagen eingesetzt werden könnten.

KI soll Zeit sparen

Unter anderem auf den Faktor Zeit verweist der NDR, warum man bei der Audiodeskription auch auf synthetische Stimmen setze. Für Sendungen, die erst kurz vor der Ausstrahlung fertig würden, könne so noch eine Audiodeskription erstellt werden. Ähnlich äußert sich der MDR. Auch das ZDF nennt „Zeitersparnis im Herstellungsprozess“. Dadurch könne „eine größere Bandbreite von Formaten regelmäßig mit Audiodeskription“ angeboten werden.

Das ZDF setzt nach eigenen Angaben etwa bei der Jugendserie „Echt“ und der Doku-Reihe „Terra X“ auf technische Unterstützung. Bei „Terra X“ werde seit April 2024 die Audiodeskription „mit einer KI-optimierten synthetischen Stimme erstellt“, wie am Ende der Hörfilmfassung erwähnt wird. Das ZDF wie auch die ARD-Landesrundfunkanstalten haben in ihren Grundsätzen zum Umgang mit KI festgelegt, dass sie deren Einsatz transparent machen.

Bei Dokumentationen verwende der WDR seit zwei Jahren regelmäßig synthetische Stimmen für die Audiodeskription, teilt die Rundfunkanstalt mit. Für die Umsetzung ist dann die Tochterfirma WDR Mediagroup zuständig. Der MDR hat, wie der Sender erläutert, bereits 2019 damit begonnen, für Audiodeskriptionen neben Sprecher*innen auch synthetische bzw. mit KI generierte Stimmen einzusetzen. Ziel sei gewesen, die Barrierefreiheit der MDR-Angebote weiterzuentwickeln.

KI auch bei der Sesamstraße

Als öffentlich-rechtlicher Sender geht es für den MDR aber auch um Wirtschaftlichkeit und Sparsamkeit. Durch den Einsatz von KI-gestützten Stimmen ließen sich Audiodeskriptionen wirtschaftlicher produzieren. Aktuell gebe es im MDR Fernsehen täglich im Durchschnitt zirka sechs Stunden Programm mit Audiodeskription. Ohne KI-gestützte Stimmen würde es deutlich reduzierter ausfallen. Durch den Einsatz von KI gebe es also mehr Sendungen mit Audiodeskription, erklärt der MDR. So argumentiert auch der NDR, der etwa die Sesamstraße mit synthetischer Stimme audiodeskribiert. Der Sender verweist auf geringere Kosten durch den Wegfall der Studioaufnahme.

Menschliche Stimme sorgt für Stimmung

Der Deutsche Blinden- und Sehbehindertenverband (DBSV) hat, wie dessen Geschäftsführer Andreas Bethke erklärt, „den Eindruck, dass der Einsatz von hochwertigen KI-Stimmen aktuell nicht zu Kostenersparnissen führt“. Bethke hält für es notwendig, eine professionelle menschliche Stimme einzusetzen, um eine hochwertige Audiodeskription zu erstellen. Dadurch lasse sich, vor allem bei fiktionalen Formaten, auch die Stimmung eines Films oder einer Serie transportieren. Das passt auch zu dem Ziel, das die Rundfunkanstalten in gemeinsamen Grundsätzen zu Audiodeskriptionen festgelegt haben: blinden und sehbehinderten Menschen „ein barrierefreies Filmerlebnis zu ermöglichen, das dem Erlebnis der Sehenden entspricht“.

Den Einsatz von KI-Stimmen bei der Audiodeskription lehnt DBSV-Geschäftsführer Bethke aber nicht grundsätzlich ab: Derzeit sei dies etwa bei bestimmten Dokumentationen denkbar. Andreas Meese, professioneller Sprecher, der auch Hörfilme macht, hebt die Vorzüge der Stimme von gut ausgebildeten Sprecher*innen hervor: Sie könne emotional mitgehen. Menschen, die auf akustische Bildbeschreibungen angewiesen seien, wüssten, wie gut eine solche Audiodeskription sein könne. So lasse sich zum Beispiel ein „Tatort“ mit Audiodeskription wie ein Hörspiel hören. Für ihn seien die KI-Audiodeskriptionen, die er bislang gehört habe, „unüberhörbar seelenlos“, sagt Meese.

Jobs von Sprecher*innen bedroht

Doch synthetische bzw. KI-generierte Stimmen bedrohen die Arbeit von Meese und seiner Kolleg*innen erheblich. So schreibt der Verband Deutscher Sprecher:innen (VDS) auf seiner Internet-Seite: „Die KI-Stimmtechnologie birgt die Gefahr, die wirtschaftliche Grundlage professionell Sprechender im schlimmsten Fall zu vernichten und die Selbstbestimmung über die eigene Stimme zu verlieren.“ Der Rat des Verbandes: Sprecher*innen sollten Verträge gewissenhaft prüfen, insbesondere was den Einsatz und die Anwendung von KI angehe.

Anna-Sophia Lumpe, erste Vorsitzende des VDS, befürchtet, dass Stimmen von Sprecher*innen für KI-gestützte Stimmen, etwa zu Trainingszwecken, genutzt würden, ohne dass dafür aber Zustimmungen vorlägen. Letztlich trete sie mit ihrer Arbeit dann in Konkurrenz zu einer Maschine. Lumpe verweist darauf, dass die Aufnahme einer menschlichen Stimme ab einer gewissen Schöpfungshöhe urheberrechtlich geschützt sei. Auch erfasse das Persönlichkeitsrecht die Stimme, zudem griffen datenschutzrechtliche Bestimmungen. Ohne Zustimmung dürfe also die menschliche Stimme nicht für KI-generierte Stimmen eingesetzt werden.

Die WDR Mediagroup erklärt, sie erstelle „keine KI-generierten Stimmen anhand von Stimmen realer Sprecher*innen“. So setzt die WDR-Tochterfirma wie bei der Audiodeskription zur Dokumentation „USA: Demokratie unter Beschuss“ auf „eine KI-generierte Stimme aus einem Tool eines Drittanbieters“. Diese Stimme sei ausschließlich künstlich generiert und nicht auf Basis realer Stimmen trainiert worden.


Mehr zum Thema KI im Journalismus

Beim Einsatz von generischer Künstlicher Intelligenz im Journalismus müssen Sorgfalt, Transparenz und Qualität gewährleistet werden, so der Kern des nun veröffentlichten Diskussionspapiers der Fachgruppe Medien, Journalismus und Film in ver.di. „KI-Systeme kommen im Journalismus seit Jahren zur Anwendung. Mit jeder nächsten Stufe der Entwicklung stellt sich die Frage nach der Art ihrer Einbindung im redaktionellen Prozess neu, aktuell angesichts von generischer KI in Wort-, Bild- und Video-Ausgabe. Dafür benennt ver.di fünf Schlüsselfaktoren.

nach oben

Weitere aktuelle Beiträge

KI-Lösungen: Heise macht es selbst

Das Medienhaus „Heise Medien“ hat kürzlich das auf generative Künstliche Intelligenz (KI) spezialisierte Medienhaus „Deep Content“ (digitale Magazine „Mixed“ und „The Decoder“) aus Leipzig gekauft. Damit will Heise die Zukunft generativer KI mitgestalten. „Deep Content“ entwickelte mit „DC I/O“ ein professionelles KI-gestütztes Workflow-Framework für Content-Teams und Redaktionen. Bereits seit Juni dieses Jahres kooperiert Heise mit „Deep Content“ bei der Produktion des Podcasts „KI-Update“. Hinter der Übernahme steckt die Idee, den neuen Markt weiter zu erschließen und hohe Gewinne einzufahren.
mehr »

Schon entdeckt: Das Wetter

5000 verkaufte Exemplare alle Vierteljahr, Titelseiten, die ausschließlich auf Ästhetik setzen, noch dazu mit inzwischen auf 12 angewachsenen unterschiedlichen Coverstories - zumindest bei der letzten, der immerhin schon 35. Ausgabe. „Das Wetter“-Magazin weiß sich zu präsentieren. Seit über zehn Jahren zähle es, so heißt es, zu „den schillerndsten Printmagazinen des Landes“.
mehr »

Komplett-Verweigerung der Rundfunkpolitik

Nachdem die Ministerpräsident*innen am heutigen Donnerstag zur Rundfunkpolitik beraten haben, zeichnet sich ein düsteres Bild für die öffentlich-rechtlichen Medien, ihre Angebote und die dort Beschäftigten ab. Beschlossen haben die Ministerpräsident*innen eine Auftrags- und Strukturreform und einen ab 2027 geltenden neuer Mechanismus zur Festsetzung des Rundfunkbeitrags. Nicht verabschiedet wurde jedoch der fällige Rundfunkbeitragsstaatsvertrag.
mehr »

Gendergerechtigkeit per KI überprüfen

Ein Gender-Analyse-Tool der Technischen Universität München zeigt, wie Frauen medial ausgeklammert werden. Das Ziel vom  Gender Equality Tech Tool – GETT  ist es, die Sichtbarkeit von Frauen in der Berichterstattung bewusst zu fördern. Mit GETT kann über eine Kombination aus klassischen Algorithmen und Open-Source-KI-Modellen nachgeprüft werden, wie oft Frauen im Vergleich zu Männern in den Medien genannt und wie sie dargestellt werden.
mehr »