Datensparsame Audio-Transkription

Foto: 123rf

Interviews führen macht Spaß. Auf das Vergnügen folgte jedoch traditionell das mühsame manuelle Transkribieren des Gesprächs. Dank KI entfällt dieser Schritt. Das kostenlose Programm ersetzt das Abtippen von Interviews. NoScribe ist langsamer als kommerzielle Dienste, garantiert aber eine maximale Vertraulichkeit von Daten.

Man lädt auf der Webseite eines Onlinedienstes oder in einer App eine Audio-Datei hoch und erhält innerhalb weniger Minuten ein nahezu fehlerfreies Transkript. Einige dieser Dienste sind kostenpflichtig, andere lassen sich mit Einschränkungen kostenlos nutzen. Sie haben jedoch alle ein Manko: Man gibt die Daten aus der Hand.

Die jeweiligen Transkriptionsanbieter könnten die Aufnahmen und Transkripte für Trainings- und Werbezwecke auswerten. Zudem ist zumindest theoretisch möglich, dass Behörden Daten beschlagnahmen oder heimlich abgreifen. Gerade bei Roh-Interviews oder reinen Hintergrundgesprächen stellt dies ein ernsthaftes ethisches und juristisches Problem dar.

Auch für sensible Daten geeignet

Bei NoScribe hingegen verbleiben alle Daten auf dem eigenen Rechner. Das Programm basiert auf einem der weltweit besten KI-Transkriptionsmodelle – Whisper von OpenAI. Da das Modell unter einer freien Lizenz steht, kann man es herunterladen und selbstständig laufen lassen. Theoretisch zumindest. Für Menschen ohne IT-Hintergrund ist das sehr herausfordernd.

NoScribe hingegen ist auch für IT-Laien geeignet. Kai Dröge, ein Soziologe an der Universität Luzern, hat das nichtkommerzielle Programm zusammen mit einer kleinen ehrenamtlichen Community entwickelt. Er ist im Bereich der qualitativen Sozialforschung tätig und erzählt: „In unserer Arbeit haben wir viel mit persönlichen Interviews zu tun, die mitunter sensible Informationen enthalten. Deshalb hatte ich immer Bauchschmerzen damit, Clouddienste zu nutzen.“

Als Whisper veröffentlicht wurde, beschloss er, auf dieser Grundlage ein leicht zugängliches Programm zu entwickeln. Die primäre Zielgruppe war die eigene Wissenschaftscommunity. Die Software ist aber für journalistische Zwecke gut nutzbar. Man kann Interviews oder auch eingesprochene Textentwürfe transkribieren.

Zwei unterschiedlich schnelle und genaue Unter-Modelle stehen im Programm zur Auswahl. Beim Modus „precise“ liegt das Verhältnis von Aufnahmedauer und zu Transkriptionszeit bei etwa eins zu eins und die Genauigkeit bei bis zu 99 Prozent. Der Modus „fast“ arbeitet etwas weniger genau, dafür aber schneller.

Editor und Sprechererkennung

In das Programm hat Dröge außerdem einen Editor eingebaut, der die Audiospur und das fertige Transkript miteinander verbindet. Man kann einzelne Wrter oder Sätze anklicken und nachhören. Das ist sinnvoll, so Dröge: „Wie bei ChatGPT kann es manchmal zu Halluzinationen kommen. Etwa in der Form, dass das Modell bei Nebengeräuschen einfach so Wörter hinzufügt.“ Deshalb empfiehlt er, Transkripte am Ende stets zu kontrollieren.

Zusätzlich ist eine Software zur Sprechererkennung integriert. Diese ordnet bei Interviews die Antworten einzelnen Gesprächspartner*innen zu. Dann dauert es allerdings deutlich länger. Für die reine Transkription von einer Stunde Interview im „precise“-Modus benötigt NoScribe etwa eine Stunde. Bei aktivierter Sprechererkennung kommen drei weitere Stunden hinzu. Längere Interviews transkribiert man deswegen am besten über Nacht. Oder man lässt den Rechner im Hintergrund laufen, während man an anderen Texten arbeitet.

Abwägung: Geschwindigkeit vs. Vertraulichkeit
Auch kommerzielle Anbieter haben das freie KI-Modell Whisper eingebaut. Deren Dienste arbeiten sehr viel schneller, da sie Hochleistungsrechner einsetzen. Der Nachteil ist: Man kann die Vertraulichkeit der Daten nicht garantieren. Bei NoScribe hingegen verlässt kein Bit und Byte den eigenen Rechner. Ein Zugriff von außen auf sensible Sprachaufnahmen ist schlicht nicht möglich.


NoScribe ist für die PC-Betriebssysteme Windows, macOS und Linux verfügbar. Man lädt das Programm von der Softwareplattform Github herunter.

nach oben

Weitere aktuelle Beiträge

Trauer um Franz Kotteder

Die Deutsche Journalistinnen- und Journalisten-Union (dju) in ver.di trauert um Franz Kotteder. „Kotti" oder „der Franz", wie ihn Freunde und Kollegen wahlweise nannten, starb am 30. Dezember nach schwerer Krankheit viel zu früh im Alter von 62 Jahren. Seine Kolleginnen und Kollegen in der dju und im Süddeutschen Verlag verlieren mit Franz einen ebenso engagierten wie geistreichen, humorvollen und liebenswürdigen Streiter für Pressefreiheit, Qualitätsjournalismus und vor allem für die Interessen von Journalistinnen und Journalisten sowie aller Beschäftigten in der Zeitungsbranche.
mehr »

Guatemala: Eine ernüchternde Bilanz

Knapp zwei Jahre ist Guatemalas Präsident Bernardo Arévalo im Amt und erklärtes Ziel seiner Regierung ist es einen Schutzmechanismus für Journalist*innen einzuführen. Doch das innovative Projekt kommt nicht vom Fleck, moniert die Medienanalystin Silvia Trujillo gemeinsam mit zahlreichen bekannten Berichterstatter*innen. Dafür machen sie nicht nur den omnipräsenten „Pakt der Korrupten“ verantwortlich, sondern auch das Zögern der Regierung. Die verharre im Stand-By.
mehr »

Europas Machtprobe mit den Plattformen

Wegen mangelnder Transparenz bei Werbung und Nutzerkonten hat die EU-Kommission eine Strafe in Höhe von 120 Millionen Euro gegen den Onlinedienst X verhängt. Mit dem Digital Services Act (DSA) will die EU das Netz demokratisch kontrollieren. Doch Verfahren gegen X, TikTok und Meta zeigen, wie schnell die angestrebte Regulierung zur politischen Auseinandersetzung wird.
mehr »

Gespräche aufnehmen: Was ist erlaubt?

"Ich lasse nun die Aufnahme mitlaufen.“ In Interviewsituationen am Telefon sind Tonaufnahmen unproblematisch, wenn die Beteiligten sich darauf verständigen. Unsicherheiten bestehen aber, wenn Gespräche heimlich aufgenommen wurden, beispielsweise von Informant*innen. Darf die Aufnahme veröffentlicht werden? Können die Informationen aus dem Gespräch verwendet werden?
mehr »