Man findet, was man sucht

Panama Papers: Hoher Anspruch der Öffenlichkeit an die Auswertung

Massenleaks stellen Journalist_innen vor besondere Herausforderungen: Wie sollen sie ihre Geschichten in dem Datenwust von Millionen Dateien finden? Und welchen Anforderungen muss ihre Datenanalyse genügen, zumal die Ansprüche des Publikums an eine professionelle Informationsaufarbeitung steigen? Eine Erschließung der Daten über eine Suchfunktion, wie sie die Süddeutsche Zeitung vorgenommen hat, gehört mittlerweile zu den Basics. Die automatische Auswertung darf hier allerdings nicht stehen bleiben, mahnen Datenprofis. Denn sonst prägen unvermeidlich die Absichten und Fähigkeiten der Rechercheure die Ergebnisse zu stark.

2,6 Terabyte Daten, „das bislang größte Datenleck” sagt die Süddeutsche Zeitung. Auch sonst sind die „Panama Leaks” ein Projekt der Superlative: Sie enthalten 11,5 Mio. Dokumente aus rund 40 Jahren, die unter der Federführung von SZ und des „International Consortium for Investigative Journalists” (ICIJ) von fast 400 Journalist_innen aus mehr als 80 Ländern im Zeitraum von einem Jahr ausgewertet wurden.
Dieses Zahlenmantra findet sich immer wieder in den Berichten über die „Panama Leaks” – aber was genau sagen sie über die Qualität der Rechercheergebnisse aus? Erst einmal wenig – und die Kritik an den Veröffentlichungen rund um die Panama Papers zeigt, dass sich Journalist_innen zunehmend neuen Anforderungen an ihre Profession ausgesetzt sehen. Sie müssen gleich staatlich beauftragten Ermittlern möglichst
alles auswerten – und möglichst objektiv bewerten.

Maschinelle Aufarbeitung

Ein Blick auf die Analysemethode, die das „International Consortium for Investigative Journalists” (ICIJ) den Journalist_innen für die „Panama Papers” vorgegeben hat, ist deshalb notwendig: Die geleakten
Daten lagen zunächst als E-Mails, Bilder, Datenbankformate, Word-Dokumente, Power-Point-Dateien, Excel-Dateien und eingescannte Dokumente im PDF-Format vor. Über die Auswertungsmethode berichteten die SZ-Journalist_innen, dass das ICIJ die Scans, die aus technischer Sicht zunächst Bilder darstellen, mit einem optischen Erkennungssystem (OCR) bearbeitete, um den darin enthaltenen Text in maschinenlesbaren Text umzuwandeln. In einem weiteren Schritt wurden die Dokumente in eine Datenbank überführt und indexiert.
Für diesen Prozess verwendete das ICIJ das Programm Nuix, das auch von Ermittlungsbehörden verwendet wird. Das ICIJ hatte es bereits bei den „Offshore
Leaks” im Jahr 2013 eingesetzt. Zwei Wochen dauerte es, die MossFon-Dateien elektronisch lesbar zu machen. Dabei indexierte das System den Text und erschloss die Metadaten, aus denen hervorgeht, wer die Datei wann erstellt und geändert hat. Ein Drittel der Daten konnte danach als Duplikat erkannt und wegsortiert werden. Die Journalisten griffen anschließend über eine Suchmaske auf die in einer Datenbank erfassten Dateien zu.

Grafik: Christiane Schulzki-Haddouti
Grafik: Christiane Schulzki-Haddouti

Die Suchergebnisse zeigten, in welchen Dateien ein Name auftauchte. Die Analyse der Daten erfolgte damit weitgehend händisch durch die Journalisten. So griffen sie beispielsweise auf Listen der Parteispenden-Affäre oder auf die UN-Sanktionsliste zurück, was eine schnell zu produzierende Skandalisierung ermöglicht. Datenanalytikerin Annette Brückner (Blogs: police-it.org und cives), die selbst große Datenauswertungen für Untersuchungsausschüsse und Sicherheitsbehörden begleitet hat, erklärt, „dass eine solche Suche immer nur die Hypothese verifizieren kann, die man vorher aufgestellt hat.” Sie hält eine derart vorgenommene Auswertung für „eine sehr subjektive Ange­legenheit, da sie abhängig von den Absichten und Fähigkeiten des Fragestellers ist.”

Laut einem Screenshot von Nuix kann das Auswertungssystem bestimmte Zusammenhänge auf einer Zeitleiste anzeigen. Doch wesentliche weitere Analyseschritte bleiben seitens des Systems aus. So hätten etwa die relevanten Inhalte aus den erfassten Volltexten automatisch extrahiert werden können: Ein auf
semantische Auswerteverfahren gestützter Prozess könnte Personen- und Firmennamen, Adressangaben, Telefonnummern, Steuernummern und andere Objekte wie etwa Frachtcontainer automatisch extrahieren. Damit könnten in einem weiteren Schritt Be­ziehungen zwischen verschiedenen Personen über Adressen, Bankkonten, Kreditkartennummern und Mittelsmänner grafisch dargestellt werden. Dieser
Datenbestand könnte schließlich auf bestimmte Regionen, etwa Deutschland begrenzt werden, meint Brückner. Über solche systematischen Analyse-Schritte ist aber in den Berichten der SZ nichts zu lesen.

Algorithmen zur Mustererkennung

Der Anspruch der Öffentlichkeit an die Auswertung von Massenleaks ist inzwischen hoch: Nicht der journalistische Scoop wird goutiert, sondern eine möglichst hohe Objektivität. Dies legt eine an professionell-wissenschaftlichen Maßstäben orientierte Auswertung nahe. Christian Nietner, Experte für Machine Learning-Algorithmen sagt, dass „ein wesentlicher Teil der Auswertung gar nicht in der Konsolidierung der Daten besteht, sondern im Aufdecken und Validieren von unbekannten und eventuell auch nicht
offensichtlichen Mustern und Zusammenhängen in den Daten.” Mit Algorithmen zur Mustererkennung könnten automatisiert semantische, temporale, geografische oder thematische Zusammenhänge in Texten, und Bildern erkannt und sichtbar gemacht werden. Christian Nietner: „Sollten die herausragenden Möglichkeiten der Data Science dazu nicht oder nicht richtig genutzt worden sein, wäre das fahrlässig.”

Die Erstellung einer solchen Datenbank kann Monate dauern. Über diesen Arbeitsschritt hat aber die SZ nie berichtet. „Man muss ein gewisses Verständnis dafür haben, dass technisch unerfahrene Journalisten glauben, mit einem mit ihren Mitteln relativ leicht zu erstellenden Volltextsystem sei die Sache getan”, meint Annette Brückner, „zumal sie die notwendigen finanziellen und technischen Mittel zum Aufbau einer solchen Index-Datenbank wahrscheinlich von keinem Verlag finanziert bekommen.” Gleichwohl sei aber zu erwarten, dass sich die Journalist_innen die Begrenztheit ihres Ansatzes bewusstmachen und diesen offenlegen.

Ursprünglich hatte die SZ eine Veröffentlichung des gesamten Datenbank-Korpus mit dem Argument abgelehnt, dass damit unter Umständen der Whistleblower enttarnt werden könne. Anfang Mai hat das ICIJ aber einen Teil der Daten in Form einer Datenbank dennoch veröffentlicht. Erste organisierte Auswertungen fanden bereits statt, so etwa im Rahmen eines Hackathons in Brüssel. Es ist aber zu bezweifeln, dass solche Auswertungsmarathons wesentliche Erkenntnisse bringen werden, da für die Analyse wichtige Dateiinhalte wie Bankkonten, E-Mails und Finanztransaktionen vor der Veröffentlichung entfernt wurden. Auch lassen sich die Eigentümer der Schattenfirmen kaum rekonstruieren, da diese oftmals nur in den E-Mails und internen Notizen genannt werden. Gleichwohl kann mit den Daten wohl die Rolle der Banken und Anwaltskanzleien untersucht werden, die als Mittelsmänner auftreten.

Selektive Wahrnehmung

Schon sehr früh wurde die Publikationsstrategie der Süddeutschen Zeitung an den Pranger gestellt. Eine Kritik lautete: Sie vernachlässige die Amerikaner, während sie Putin in den Mittelpunkt ihrer Skandalisierung rücke. Der jedoch sei gar nicht Bestandteil des Leaks, sondern nur seine Freunde. Die Kritik ist inzwischen weitgehend verstummt. Inzwischen ist ja geklärt, dass die USA kaum Bedarf an Briefkastenfirmen haben, da einige ihrer Bundesstaaten selbst Steuer­oasen darstellen.

Neue Kritik wendet sich nun gegen die zurückhaltende Berichterstattung über deutsches Finanzgebaren. Nur wenige neue Akteure aus Deutschland wurden bisher ans Licht gebracht, wie eine inzwischen auf
Wikipedia eingerichtete „Liste von Personen, die in den Panama Papers genannt werden” zeigt, obgleich nach SZ-eigenen Berichten über tausend Deutsche in den Dokumenten auftauchen sollen. Dafür hatten die Protagonisten verjährter Skandale ihren Auftritt, so etwa der altgediente Helfer der deutschen Sicherheitsdienste, Werner Mauss, und die Schmiergeld-erfahrenen Siemensianer. Noch nicht wurde hingegen die Steuer- und Immo­bilienmarktpolitik der Bundesregierung beleuchtet. Das könnte sich lohnen, da eine Netzwerkanalyse der Parteispenden bei Zeit online schon vor Jahren eine auffallende Nähe der Immobilienbranche zur CDU aufgezeigt hat. Aufgrund der Datenbankbereinigung ist das aber mit den jetzt veröffentlichten Daten nicht von Dritten umzusetzen.
Webseiten

The International Consortium of Investigative Journalists

Süddeutschen Zeitung

nach oben

Weitere aktuelle Beiträge

Fakten for Future

Menschen jeden Alters machen sich Sorgen um die Zukunft unseres Planeten. Carla Reemtsma ist Klimaschutzaktivistin und Mitorganisatorin des Schulstreiks Fridays for Future („Klimastreik“) in Deutschland. Als Sprecherin vertritt sie die Bewegung auch in der medialen Öffentlichkeit. Wir sprachen mit ihr über Kommunikationsstrategien, Aktivismus und guten Journalismus.
mehr »

Öffentlichkeit ohne Journalismus

Schwindende Titel, schrumpfende Redaktionen, immer geringere Abonnentenzahlen – dass gerade der Lokaljournalismus vielerorts unter Druck steht, ist nicht neu. Doch was bedeutet das für die lokale Öffentlichkeit, die inzwischen von vielen selbstbewussten Medien-Akteuren mitgestaltet wird? Eine aktuelle Studie der Otto-Brenner-Stiftung beschäftigt sich mit genau dieser Frage.
mehr »

Die Medienwende nach dem Mauerfall

35 Jahre nach dem Mauerfall bietet die Medienlandschaft im Osten Deutschlands ein zwiespältiges Bild. Nach wie vor verlieren die von westdeutschen Großverlagen kontrollierten ehemaligen DDR-Traditionstitel überdurchschnittlich an Auflage und Anzeigenvolumen. Der aufgelöste staatliche DDR-Rundfunk ist nach anfänglichem Hickhack erfolgreich in ARD und ZDF integriert. Gescheitert ist indes früh der Traum der Ex-Bürgerrechtler von einem „Dritten“ Medienweg.
mehr »

Kodex für mehr Respekt beim Film

Auf Initiative der Vereinte Dienstleistungsgewerkschaft ver.di, des Bundesverbands Schauspiel (BFFS) und Allianz Deutscher Produzentinnen und Produzenten – Film, Fernsehen und Audiovisuelle Medien hat eine Gruppe aus Branchenvertreter*innen von Verbänden, TV-Sendern, Streamingdiensten, Förderern und unter Beteiligung der BKM, der Themis Vertrauensstelle e. V. und der BG ETEM nach über einem Jahr gemeinsamer Beratung heute den Respect Code Film (RCF) beschlossen.
mehr »