KI-Bots durchstreifen das Netz, „scrapen“, also sammeln dabei auch journalistische Inhalte, um damit KI-Modelle wie Chat GPT zu trainieren. Welche technischen Maßnahmen können Journalist*innen ergreifen, um ihren Content zu schützen? Tipps des KI-Beraters Branko Trebsche.
Wie muss man sich die Arbeit eines KI-Beraters vorstellen?
Ich bin beim Verband der Selbständigen und Gründer Deutschland e.V und arbeite seit mehr als 20 Jahren als Unternehmensberater in den Themenfeldern Digitalisierung, Automatisierung und Künstliche Intelligenz.
Ein Teil meiner Arbeit ist die journalistische, aber immer dem Copyright entsprechende Aufbereiten von Trendthemen für die Social Media Kanäle meiner Kunden. Und dazu wiederum gehört auch der systematische Einsatz von KI – von der Recherche von Themen, über die Aufbereitung der Texte bis zur Veröffentlichung. Und eben auch der Schutz der eigenen Inhalte vor der Nutzung durch fremde KI.
Inzwischen kooperieren erste große Verlage und Agenturen, wie z.B. Springer und Associated Press vertraglich mit KI-Plattformen. Sie versuchen exklusive Angebote zu schaffen, die Nutzung ihrer Inhalte als Trainingsdaten honoriert zu bekommen und dabei selbst weiter mit KI zu experimentieren. Welche Motive haben die KI-Anbieter?
Man muss zunächst fragen, warum Verlage das machen und warum die KI-Anbieter inzwischen dazu bereit sind, Geld für neuen Content zu bezahlen.
In den Anfangszeiten der wissenschaftlichen KI-Entwicklung war es – auch juristisch – vollkommen OK, Daten aus einem Entwicklungsinteresse heraus zu scrapen, zu ernten.
Inzwischen kann man sich – auch juristisch – ernsthaft fragen, ob z.B. die Weiterentwicklung von Chat GPT 4 zu Chat GPT 5 noch der Wissenschaft dient. Das könnte man auch mit Nein beantworten und dann würde das Scrapen unter Umständen illegal.
Irgendwann ist das Internet aber auch „leergelesen“. Die KI-Anbieter benötigen immer neue aktuelle und qualitative Inhalte, Texte, Videos, Podcasts, wissenschaftliche Fachartikel, um ihre Systeme besser zu trainieren. Hier sind sie auf die Verlage angewiesen und dafür sind sie inzwischen auch bereit zu zahlen.
Bereiten auch die zunehmenden Paywalls den KI-Anbietern Probleme beim Scrapen?
Es gibt inzwischen Webarchive, wie z.B. Archive.is oder 12ft.io, die offen zugänglich sind und Artikel vorhalten, die sich normalerweise hinter einer Paywall verbergen. Die können dann anstelle der Originalsites gescrapt werden.
Dazu muss man nur die URL des Originalbeitrags um einige Elemente ergänzen und schon hat man den Beitrag frei zugänglich. Das kann natürlich auch die KI. Aber sind diese Archive legal? Sehr wahrscheinlich nicht.
Wie können sich Contentanbieter*innen, schützen? Wie kann ich, als freier Fachjournalist, verhindern, dass meine Beiträge von meiner Site oder meinem Blog von der KI abgegriffen werden?
Die gute Nachricht? Das geht durchaus! Sie können sich z.B., quasi analog zur Paywall, einen bestimmten Mechanismus in Ihre Site einbauen. Der ermöglicht es einem Besucher zunächst nur die ersten fünf Zeilen des Beitrags zu lesen. Danach zeigen Sie ihm die Cookie-Richtlinie und er muss entweder OK drücken, oder eine Zahlenkombination eingeben, um weiterlesen zu können. So kann man durch eine bestimmte Nutzerführung verhindern, dass Scripte meine Daten einfach abgreifen. Die Betonung liegt auf einfach.
Ist das ein vollständiger Schutz? Nein.
Programmierer können ein Script schreiben, das den OK-Button automatisch drückt. Dann wird Ihr Beitrag in einem sogenannten headless browser, also ohne die sonst dazugehörige grafische Nutzungsoberfläche, angezeigt und zur Übernahme durch die Maschine freigestellt.
Welche weiteren Schutzmöglichkeiten hätte ich?
Sie könnten Ihre Website oder Ihren Blog durch einen Accountzugang schützen. Nutzer müssten sich dann zunächst anmelden, um Ihre Beiträge lesen zu können. Das ist für die aber natürlich weniger komfortabel. Aber auch dazu könnte man einen Bot programmieren, der sich zuerst automatisiert registriert und danach einloggt, um die Texte von Ihrer Site abzugreifen.
Sie merken schon: Keine dieser Schutzmaßnahmen ist unüberbrückbar.
Eine dritte Schutzmöglichkeit wäre die robots.txt. Das ist eine Datei, die im Hauptverzeichnis Ihrer Website liegt und die – Achtung Wording! – fairerweise jeder Robot, der Ihre Site besucht, zunächst lesen sollte, um zu lernen, was er auf Ihrer Website tun darf und was nicht. Dort formuliere ich Nutzungsregeln für den Bot, wie z.B. „diese Seite darfst du lesen, diese Seite nicht“.
Das ist aber nicht mehr als eine freiwillige Selbstverpflichtung. Man kann sich an diese Regeln halten, oder es auch bleiben lassen. Ob eine Missachtung solcher Regeln justiziabel ist, müsste man einen Fachjuristen fragen.
Können solche Schutzmaßnahmen gegen KI-Bots auch die Sichtbarkeit meiner Site für Suchmaschinen beeinträchtigen? Das möchte ich ja womöglich nicht haben.
Sie können in der robots.txt entsprechende Freigaben für einzelne Bots einrichten.
Gibt es noch weitere Ideen bezüglich des Schutzes meiner Inhalte vor KI-Scraping?
Das ist es im Grunde erstmal. Am Ende muss Content ja immer irgendwo lesbar ausgegeben werden, etwa im Browser, unverschlüsselt auf einem Endgerät. Und da können KI-Scraper dann zugreifen.
Welche Vorstellungen haben die Berufsverbände bezüglich eines Schutzes vor KI-Scraping?
Ich beschäftige mich eher technisch und lebenspraktisch mit dem Thema und bin kein Jurist. Deshalb kann ich Ihnen schlecht juristische Expertise bieten.
Die Verbände sind aber nach meiner Einschätzung noch sehr unsicher bei dem Thema. Man hat mich auch von deren Seite bereits gefragt, wie man Inhalte schützen kann, oder verhindern kann, dass sie fürs Training von KI benutzt werden. Mein Eindruck ist, dass dort große Träume auf wenig Ahnung und schwierige technische Realisierbarkeit treffen.
Zusammenfassend war deren Idee, dass man für veröffentlichte Beiträge von irgendwoher eine Tantieme bekommt – nur weil es KI gibt. Da fehlt aber so etwas wie das Grundverständnis dafür, wie Content durch die KI verwendet wird.
Ein Beispiel: Chat GPT 4 verwendet Ihren Text ja nicht im herkömmlichen Sinne, reproduziert ihn auch nicht im herkömmlichen Sinne. Der Text und die Worte werden mathematisch-statistisch aufgearbeitet und durch spezifische Wissensfragmente der KI ergänzt.
In der Maschine ist der Text nur noch in Form von Vektoren und als Zahlentabellen vorhanden. Es werden von ihm in der KI nur Wahrscheinlichkeiten dargestellt: Wie hoch ist die Wahrscheinlichkeit, dass Worte oder Textteile in genau dieser Kombination wieder vorkommen.
Nun könnte man eine pauschale Nutzungsgebühr dafür verlangen, dass der Text überhaupt zum Training einer KI verwendet wurde. Man könnte aber kein Modell entwickeln, in dem jedes Mal eine Lizenzgebühr anfällt, wenn der Text oder Teile des Textes durch die KI ausgespielt werden.
Das aber war die Vorstellung der Verbandsleute – und so funktioniert es einfach nicht. Beim Ausspielen von Ergebnissen durch die KI wird ja keine ursprünglich journalistische Leistung ausgespielt, sondern einzelne Elemente, die in hoher Wahrscheinlichkeit in genau dieser Kombination benutzt werden können.
Aber eine KI kann doch durchgängige Textfragmente zitieren?
Ja, aber das dann entweder ein Zufall oder das passiert, weil ich beim Prompten (also bei der Eingabe meiner Aufgabenstellung in die KI-Oberfläche) explizit den Auftrag gegeben habe: „Suche mir dazu Belege oder Zitate aus dem oder dem Text heraus“.
Auf der einen Seite ist die KI für Journalist*innen eine potenzielle Konkurrentin, speziell bei ganz bestimmten Genres und Formaten. Auf der anderen Seite profitieren Journalist*innen vom KI-Einsatz bei Ihrer Arbeit. Wie sollten sie sich zur KI verhalten?
Journalisten können sich tatsächlich von einer KI helfen lassen. Das ist ein superwichtiger Aspekt im Verhältnis von Journalismus und KI. Aber viele Journalisten vergessen dabei immer wieder, dass die KI ja nur nach Wahrscheinlichkeiten kombinierte Texte liefert. Das hilft bei einigen journalistischen Tätigkeiten, nicht bei allen.
Beim Recherchieren mit KI z.B. ist Vorsicht geboten, denn sie liefert ja nur Informationen aus Quellen, auf die Sie sie angesetzt haben. Ansonsten halluziniert sie leicht Dinge zusammen, oder liefert Ergebnisse aus ihrem jeweiligen kulturellen Umfeld.
Wenn Sie z.B. nach „Obst“ und „rot“ suchen, wird sie ihnen vielleicht in Deutschland einen Apfel, eine Kirsche, eine Erdbeere zeigen und in China und Italien vielleicht einen Pfirsich. Die KI assoziiert. Wenn sie ihr keine klaren Quellen nennen, bei denen sie suchen soll, wird sie schnell halluzinieren. Das muss man wissen.
Hier geht es zum KI-Themenheft der M 3/2023:
https://mmm.verdi.de/ausgaben/heft-3-2023/