KI-Bots: Kompletten Schutz gibt es nicht

Branko Trebsche

Branko Trebsche: Foto privat

KI-Bots durchstreifen das Netz, „scrapen“, also sammeln dabei auch journalistische Inhalte, um damit KI-Modelle wie Chat GPT zu trainieren. Welche technischen Maßnahmen können Journalist*innen ergreifen, um ihren Content zu schützen? Tipps des KI-Beraters Branko Trebsche.

Wie muss man sich die Arbeit eines KI-Beraters vorstellen?

Ich bin beim Verband der Selbständigen und Gründer Deutschland e.V und arbeite seit mehr als 20 Jahren als Unternehmensberater in den Themenfeldern Digitalisierung, Automatisierung und Künstliche Intelligenz.

Ein Teil meiner Arbeit ist die journalistische, aber immer dem Copyright entsprechende Aufbereiten von Trendthemen für die Social Media Kanäle meiner Kunden. Und dazu wiederum gehört auch der systematische Einsatz von KI – von der Recherche von Themen, über die Aufbereitung der Texte bis zur Veröffentlichung. Und eben auch der Schutz der eigenen Inhalte vor der Nutzung durch fremde KI.

Inzwischen kooperieren erste große Verlage und Agenturen, wie z.B. Springer und Associated Press vertraglich mit KI-Plattformen. Sie versuchen exklusive Angebote zu schaffen, die Nutzung ihrer Inhalte als Trainingsdaten honoriert zu bekommen und dabei selbst weiter mit KI zu experimentieren. Welche Motive haben die KI-Anbieter?

Man muss zunächst fragen, warum Verlage das machen und warum die KI-Anbieter inzwischen dazu bereit sind, Geld für neuen Content zu bezahlen.

In den Anfangszeiten der wissenschaftlichen KI-Entwicklung war es – auch juristisch – vollkommen OK, Daten aus einem Entwicklungsinteresse heraus zu scrapen, zu ernten.

Inzwischen kann man sich – auch juristisch – ernsthaft fragen, ob z.B. die Weiterentwicklung von Chat GPT 4 zu Chat GPT 5 noch der Wissenschaft dient. Das könnte man auch mit Nein beantworten und dann würde das Scrapen unter Umständen illegal.

Irgendwann ist das Internet aber auch „leergelesen“. Die KI-Anbieter benötigen immer neue aktuelle und qualitative Inhalte, Texte, Videos, Podcasts, wissenschaftliche Fachartikel, um ihre Systeme besser zu trainieren. Hier sind sie auf die Verlage angewiesen und dafür sind sie inzwischen auch bereit zu zahlen.

Bereiten auch die zunehmenden Paywalls den KI-Anbietern Probleme beim Scrapen?

Es gibt inzwischen Webarchive, wie z.B. Archive.is oder 12ft.io, die offen zugänglich sind und Artikel vorhalten, die sich normalerweise hinter einer Paywall verbergen. Die können dann anstelle der Originalsites gescrapt werden.

Dazu muss man nur die URL des Originalbeitrags um einige Elemente ergänzen und schon hat man den Beitrag frei zugänglich. Das kann natürlich auch die KI. Aber sind diese Archive legal? Sehr wahrscheinlich nicht.

Wie können sich Contentanbieter*innen, schützen? Wie kann ich, als freier Fachjournalist, verhindern, dass meine Beiträge von meiner Site oder meinem Blog von der KI abgegriffen werden?

Die gute Nachricht? Das geht durchaus! Sie können sich z.B., quasi analog zur Paywall, einen bestimmten Mechanismus in Ihre Site einbauen. Der ermöglicht es einem Besucher zunächst nur die ersten fünf Zeilen des Beitrags zu lesen. Danach zeigen Sie ihm die Cookie-Richtlinie und er muss entweder OK drücken, oder eine Zahlenkombination eingeben, um weiterlesen zu können. So kann man durch eine bestimmte Nutzerführung verhindern, dass Scripte meine Daten einfach abgreifen. Die Betonung liegt auf einfach.

Ist das ein vollständiger Schutz? Nein.

Programmierer können ein Script schreiben, das den OK-Button automatisch drückt. Dann wird Ihr Beitrag in einem sogenannten headless browser, also ohne die sonst dazugehörige grafische Nutzungsoberfläche, angezeigt und zur Übernahme durch die Maschine freigestellt.

Welche weiteren Schutzmöglichkeiten hätte ich?

Sie könnten Ihre Website oder Ihren Blog durch einen Accountzugang schützen. Nutzer müssten sich dann zunächst anmelden, um Ihre Beiträge lesen zu können. Das ist für die aber natürlich weniger komfortabel. Aber auch dazu könnte man einen Bot programmieren, der sich zuerst automatisiert registriert und danach einloggt, um die Texte von Ihrer Site abzugreifen.

Sie merken schon: Keine dieser Schutzmaßnahmen ist unüberbrückbar.

Eine dritte Schutzmöglichkeit wäre die robots.txt. Das ist eine Datei, die im Hauptverzeichnis Ihrer Website liegt und die – Achtung Wording! – fairerweise jeder Robot, der Ihre Site besucht, zunächst lesen sollte, um zu lernen, was er auf Ihrer Website tun darf und was nicht. Dort formuliere ich Nutzungsregeln für den Bot, wie z.B. „diese Seite darfst du lesen, diese Seite nicht“.

Das ist aber nicht mehr als eine freiwillige Selbstverpflichtung. Man kann sich an diese Regeln halten, oder es auch bleiben lassen. Ob eine Missachtung solcher Regeln justiziabel ist, müsste man einen Fachjuristen fragen.

Können solche Schutzmaßnahmen gegen KI-Bots auch die Sichtbarkeit meiner Site für Suchmaschinen beeinträchtigen? Das möchte ich ja womöglich nicht haben.

Sie können in der robots.txt entsprechende Freigaben für einzelne Bots einrichten.

Gibt es noch weitere Ideen bezüglich des Schutzes meiner Inhalte vor KI-Scraping?

Das ist es im Grunde erstmal. Am Ende muss Content ja immer irgendwo lesbar ausgegeben werden, etwa im Browser, unverschlüsselt auf einem Endgerät. Und da können KI-Scraper dann zugreifen.

Welche Vorstellungen haben die Berufsverbände bezüglich eines Schutzes vor KI-Scraping?

Ich beschäftige mich eher technisch und lebenspraktisch mit dem Thema und bin kein Jurist. Deshalb kann ich Ihnen schlecht juristische Expertise bieten.

Die Verbände sind aber nach meiner Einschätzung noch sehr unsicher bei dem Thema. Man hat mich auch von deren Seite bereits gefragt, wie man Inhalte schützen kann, oder verhindern kann, dass sie fürs Training von KI benutzt werden. Mein Eindruck ist, dass dort große Träume auf wenig Ahnung und schwierige technische Realisierbarkeit treffen.

Zusammenfassend war deren Idee, dass man für veröffentlichte Beiträge von irgendwoher eine Tantieme bekommt – nur weil es KI gibt. Da fehlt aber so etwas wie das Grundverständnis dafür, wie Content durch die KI verwendet wird.

Ein Beispiel: Chat GPT 4 verwendet Ihren Text ja nicht im herkömmlichen Sinne, reproduziert ihn auch nicht im herkömmlichen Sinne. Der Text und die Worte werden mathematisch-statistisch aufgearbeitet und durch spezifische Wissensfragmente der KI ergänzt.

In der Maschine ist der Text nur noch in Form von Vektoren und als Zahlentabellen vorhanden. Es werden von ihm in der KI nur Wahrscheinlichkeiten dargestellt: Wie hoch ist die Wahrscheinlichkeit, dass Worte oder Textteile in genau dieser Kombination wieder vorkommen.

Nun könnte man eine pauschale Nutzungsgebühr dafür verlangen, dass der Text überhaupt zum Training einer KI verwendet wurde. Man könnte aber kein Modell entwickeln, in dem jedes Mal eine Lizenzgebühr anfällt, wenn der Text oder Teile des Textes durch die KI ausgespielt werden.

Das aber war die Vorstellung der Verbandsleute – und so funktioniert es einfach nicht. Beim Ausspielen von Ergebnissen durch die KI wird ja keine ursprünglich journalistische Leistung ausgespielt, sondern einzelne Elemente, die in hoher Wahrscheinlichkeit in genau dieser Kombination benutzt werden können.

Aber eine KI kann doch durchgängige Textfragmente zitieren?

Ja, aber das dann entweder ein Zufall oder das passiert, weil ich beim Prompten (also bei der Eingabe meiner Aufgabenstellung in die KI-Oberfläche) explizit den Auftrag gegeben habe: „Suche mir dazu Belege oder Zitate aus dem oder dem Text heraus“.

Auf der einen Seite ist die KI für Journalist*innen eine potenzielle Konkurrentin, speziell bei ganz bestimmten Genres und Formaten. Auf der anderen Seite profitieren Journalist*innen vom KI-Einsatz bei Ihrer Arbeit. Wie sollten sie sich zur KI verhalten?

Journalisten können sich tatsächlich von einer KI helfen lassen. Das ist ein superwichtiger Aspekt im Verhältnis von Journalismus und KI. Aber viele Journalisten vergessen dabei immer wieder, dass die KI ja nur nach Wahrscheinlichkeiten kombinierte Texte liefert. Das hilft bei einigen journalistischen Tätigkeiten, nicht bei allen.

Beim Recherchieren mit KI z.B. ist Vorsicht geboten, denn sie liefert ja nur Informationen aus Quellen, auf die Sie sie angesetzt haben. Ansonsten halluziniert sie leicht Dinge zusammen, oder liefert Ergebnisse aus ihrem jeweiligen kulturellen Umfeld.

Wenn Sie z.B. nach „Obst“ und „rot“ suchen, wird sie ihnen vielleicht in Deutschland einen Apfel, eine Kirsche, eine Erdbeere zeigen und in China und Italien vielleicht einen Pfirsich. Die KI assoziiert. Wenn sie ihr keine klaren Quellen nennen, bei denen sie suchen soll, wird sie schnell halluzinieren. Das muss man wissen.


Hier geht es zum KI-Themenheft der M 3/2023:
https://mmm.verdi.de/ausgaben/heft-3-2023/

nach oben

Weitere aktuelle Beiträge

Filmtipp:  Nürnberg ’45 

Hauptfigur des bewegenden Dokudramas über die Nürnberger Prozesse ist der junge jüdische Auschwitz-Überlebende Ernst Michel, der nun als Journalist über die Verhandlungen berichtet. Den dokumentarischen Teil prägen Michel selbst (gesprochen von Heino Ferch), seine Tochter (Annette Frier) und der Sohn (Herbert Knaup) einer polnischen Überlebenden. In den Spielszenen wirken außerdem Francis Fulton Smith als Hermann Göring und Wotan Wilke Möhring als dessen Anwalt mit.
mehr »

dju fordert Schutz für Medienschaffende

Die Deutsche Journalistinnen- und Journalisten-Union (dju) in ver.di fordert nach dem erschreckend milden Urteil im Verfahren zum Angriff auf Journalist*innen in Dresden-Laubegast staatlich garantierten Schutz für Medienschaffende. Über zehn Männer hatten im Februar 2022 in Dresden-Laubegast am Rande einer Demonstration im verschwörungsideologischen Milieu sechs Journalist*innen und ihren Begleitschutz angegriffen.
mehr »

Unsicherheit in der Medienlandschaft

Künstliche Intelligenz (KI) und ihre Auswirkungen auf die Medienbranche wurden auch bei des diesjährigen Münchner Medientagen intensiv diskutiert. Besonders groß sind die Herausforderungen für Online-Redaktionen. Im Zentrum der Veranstaltung  mit 5000 Besucher*innen, mehr als 350 Referent*innen aus Medienwirtschaft und -politik, Kultur, Wissenschaft und Gesellschaft, stand allerdings die Frage, wie Tech-Konzerne reguliert werden sollten.
mehr »

Für faire Arbeit bei Filmfestivals

„Wir müssen uns noch besser vernetzen und voneinander lernen!“, war die einhellige Meinung bei der Veranstaltung der ver.di-AG Festivalarbeit im Rahmen des  Leipziger Festivals für Dokumentar- und Animationsfilm. Die AG hatte zu einer Diskussionsrunde mit dem Titel Labour Conditions for Festival Workers: Roundtable & Fair Festival Award Launch eingeladen. Zu Gast waren internationale Teilnehmer*innen. Die Veranstaltung war auch der Startschuss zur ersten Umfragerunde des 4. Fair Festival Awards.
mehr »