Den Daten auf der Spur

13. März 2017 10. Januar 2020 von Monique Hofmann

Praktische Arbeit gepaart mit mathematischem und technischem Verständnis

Der Trend zu niedrigeren Arbeitslosenzahlen setzt sich fort: Im Januar 2017 ist die Arbeitslosenquote mit 6,3 Prozent im Vergleich zum Vorjahreszeitraum (6,7 Prozent) um 0,4 Prozent gesunken. Stimmt das? Nein. Tatsächlich ist die Arbeitslosenquote um 0,4 Prozentpunkte gesunken. Für Datenjournalisten gehört solches Wissen zur mathematischen und statistischen Grundausstattung. Und das sind nur die Basics. Denn auch wenn man kein Programmierer oder IT-Experte sein muss, so erfordert die praktische Arbeit mit Daten doch so einiges an mathematischem und technischem Verständnis. Daten müssen recherchiert und zusammengetragen, gesäubert und analysiert werden, bevor sie zumeist in interaktiven Anwendungen visualisiert werden.

Was eine gute Daten-Story ausmacht

Die Entscheidung, aus einem Datensatz eine Story zu machen, basiert zunächst im Wesentlichen auf den gleichen Fragen, die auch am Anfang jeder sonstigen journalistischen Recherche stehen: Ist das Thema relevant und bringt es neue Erkenntnisse? Bietet das Ergebnis der (Daten-)Recherche den Leser_innen/Nutzer_innen einen Mehrwert an Information? Damit ein Projekt datenjournalistisch und nicht mit ‚herkömmlicher’ journalistischer Methodik aufbereitet wird, müssen allerdings noch weitere Kriterien gegeben sein. So sollte mit einer Datenvisualisierung auch der Anspruch verbunden sein, ein komplexes Thema besser verständlich zu machen, als es ein geschriebener Text könnte. Dazu muss die Frage beantwortet werden, ob eine solche Visualisierung eine neue Perspektive auf den Sachverhalt schaffen kann. Grafiken und interaktive Anwendungen fungieren im datenjournalistischen Storytelling nicht als Beiwerk, sondern als zentrales Erzählelement. Wenn feststeht, dass eine journalistische Frage am besten mit Hilfe von Daten beantwortet werden kann, folgt der nächste Schritt auf dem Weg zur Daten-Story: Die Datenrecherche und Datenbeschaffung.

Scraping, API, Open Data

Im vergangenen Januar hat die Bundesregierung den Gesetzentwurf zu einer Reform des eGovernment-Gesetzes, das sogenannte Open-Data-Gesetz, beschlossen. Damit soll der Zugang zu öffentlich finanzierten Daten verbessert werden: „Die Daten werden in unbearbeiteter Form, maschinenlesbar ohne Zugangsbeschränkung bereitgestellt und können von jedermann frei verwendet, nachgenutzt und verbreitet werden”, so Bundesinnenminister Thomas de Maizière. Bereitgestellt werden die Daten auf dem bereits bestehenden Portal GovData, das Portal für offene Verwaltungsdaten in Deutschland. Dort können Datensätze in insgesamt zwölf Kategorien, darunter Wirtschaft und Arbeit, Transport und Verkehr oder Bildung und Wissenschaft eingesehen werden. Solche Open-Data-Kataloge werden auch von Kommunen, Ländern und zunehmend auch privatwirtschaftlichen Unternehmen bereitgestellt und können ein nützliches Instrument für die Datenrecherche sein. Wer in den bereits verfügbaren offenen Daten nicht fündig wird, der kann auf Bundes- oder Länderebene Anfragen an Behörden auf Grundlage der jeweiligen Informationsfreiheitsgesetze (IFG) stellen. Wird das Auskunftsbegehren abgelehnt, besteht im Gegensatz zu Anfragen nach dem Open-Data-Gesetz das Recht auf gerichtliche Durchsetzung des Zugangs zu den gewünschten Daten. Wem die Dokumente verwehrt werden, der kann also zunächst auf die Vermittlung durch den Datenschutzbeauftragten setzen und notfalls auch auf die Herausgabe der Informationen klagen. Erst kürzlich etwa hat das Verwaltungsgericht Köln nach Klage eines Medienvertreters entschieden, dass der Bundesrechnungshof Journalist_innen Zugang zu abgeschlossenen Prüfmitteilungen gewähren muss. (M Online hat über das Thema berichtet.)

Eine weitere und häufig genutzte Möglichkeit, an Daten zu gelangen, sind Programmierschnittstellen, also APIs (Application programming interface). APIs werden von Softwaresystemen und Internetdiensten zur Anbindung an das System zur Verfügung gestellt und können von Usern befragt werden. Meist muss dazu ein Code geschrieben werden, aber auch wer nicht auf die Hilfe eines Programmierers zählen kann, kann durch Browser-Erweiterungen wie etwa RESTeasy für Firefox Programmierschnittstellen nach Daten durchforsten. Solche Browsererweiterungen ermöglichen auch das Scrapen von Webseiten. Scraping bezeichnet das Auslesen von Websites mit Hilfe kleiner Programme. Diese suchen systematisch nach den gewünschten Daten und ziehen sie von der Seite. Auch hier gilt: Je mehr Programmier-Know-How vorhanden ist, umso mehr ist möglich.

So gut wie kein Programmier-Know-How benötigt man hingegen für das Crowdsourcing. Diese Methode hat darüber hinaus noch einen weiteren Vorteil. Durch die Einbindung der User_innen von Anfang an ist eine hohe Reichweite quasi vorprogrammiert. Vorgemacht haben es etwa Zeit Online mit der interaktiven Karte zu Deutschlands besten Bäckereien oder Correctiv mit der Recherche zu den Dispozinssätzen der deutschen Sparkassen. >

Daten säubern und verfeinern

Wer bei Ämtern oder Pressestellen Datensätze erfragt, bekommt diese fast immer in Formaten geliefert, die sich nicht für die Datenauswertung eignen, wie etwa das PDF-Format. Glück hat man meistens nur bei Open-Data-Portalen, wo die Daten maschinenlesbar bereitgestellt werden und deshalb problemlos weiterverarbeitet werden können. Ansonsten lohnt es sich, immer nachzufragen, ob der Datensatz auch im Excel oder CSV-Format (also in komma-separierten Listen) übermittelt werden kann. Wenn auch das nichts hilft, stehen dem Datenjournalisten verschiedene Tools zur Auswahl, um Datensätze für die nachfolgende Analyse in maschinenlesbare Formate zu bringen. So kann beispielsweise die Open-Source-Software Tabula Tabellen aus PDFs (funktioniert nicht für eingescannte PDFs!) extrahieren und ins CSV-Format umwandeln.

Für die Datenanalyse ist dann Excel das Tool der Wahl. Dazu müssen die Daten jedoch zunächst gesäubert und verfeinert sowie gegebenenfalls veredelt, das heißt, mit zusätzlichen Informationen angereichert werden. Säuberung meint in diesem Fall, den Datensatz von Fehlern und etwa uneinheitlichen Schreibweisen zu bereinigen, sodass die Daten für die Auswertung miteinander verglichen werden können. Eine der Hürden auf dem Weg zur Datenauswertung ist das Encoding, also die Darstellung von Zeichen. Probleme bereiten hier zum Beispiel oft die deutschen Umlaute. Beheben kann man dieses Problem, indem man für die Datei das UTF-8-Encoding einstellt, der aktuelle Zeichenkodierungsstandard, mit dem auch fast alle Programme klarkommen.

Darüber hinaus gilt es, uneinheitliche Schreibweisen und etwa überflüssige Leerzeichen zu beseitigen, bevor die Daten aus einem Dokument ausgewertet werden können. Oft genügt es hierfür, zumindest in der Einstiegsphase, die wichtigsten Handgriffe in Excel zu beherrschen. So lassen sich mit den Excel-Funktionen „=SÄUBERN” und „=GLÄTTEN” zum einen Steuerzeichen und unbrauchbare Sonderzeichen und zum anderen überflüssige Leerzeichen beseitigen. Mit „Suchen & Ersetzen” lassen sich hingegen Zeichen finden, die man entfernen will und gegebenenfalls durch andere (vereinheitlichte) Zeichen ersetzen. Das ist nützlich, wenn in einem Dokument unterschiedliche Zeichen wie Kommata und Punkt, zum Beispiel zur Kennzeichnung der Dezimalstelle, verwendet werden. Einen guten Einstieg in das Thema bietet die klassische Google-Suche. Unter der Anfrage „Excel für Journalisten” findet sich eine Reihe von Hilfestellungen und Tipps, wie sich Journalist_innen Excel für die Arbeit mit Daten nutzbar machen können.

Sollen mit „Suchen & Ersetzen” komplexere Zeichenfolgen gefunden und modifiziert werden, dann empfiehlt sich das Verfahren der regulären Ausdrücke (RegEx, Regular Expressions). Damit können Buchstabenfolgen nach Mustern durchsucht und gegebenenfalls ersetzt werden. Bei vielen Texteditoren, wie den Open-Source-Versionen TextWrangler für Mac und Notepad++ für Windows, kann RegEx einfach in der Suchfunktion aktiviert werden. Wichtig: Für jeden größeren Arbeitsschritt sollte zumindest eine neue Spalte, besser noch eine neue Arbeitsmappe angelegt und der Originaldatensatz nicht einfach überschrieben werden. So lassen sich die einzelnen Schritte zu jedem beliebigen Zeitpunkt zurückverfolgen.

Visualisieren und veröffentlichen

Sind die Daten gesäubert und veredelt, folgt die eigentliche Datenanalyse (data mining), in der das Material nach Mustern und Zusammenhängen befragt wird. Spätestens jetzt sollte man sich noch einmal die Frage stellen, ob die entdeckten Korrelationen auch relevant sind und für die Leser_innen einen Erkenntniswert besitzen. Wird diese Frage mit ja beantwortet, muss überlegt werden, wie die Daten dargestellt werden können. Obwohl die Ergebnisse einer Datenrecherche grundsätzlich auch in einem geschriebenen Text vorgestellt werden können, kommen meistens auch (interaktive) Visualisierungen zum Einsatz. Häufig genutzte Darstellungsformen sind etwa Karten oder die Bereitstellung von Datenbanken mit Suchfunktion, die von den Nutzer_innen nach bestimmten Kriterien befragt werden können. Ein gutes Beispiel dafür ist das Projekt „Euros für Ärzte”, eine Kooperation von Spiegel Online und Correctiv. Die Journalist_innen haben dafür Daten über die von Pharmakonzernen an Ärzte in Deutschland geleisteten Geldzahlungen ausgewertet und eine Datenbank mit den Namen von 20.489 Medizinern veröffentlicht, die von den Internetnutzer_innen nach Namen, Orten und Postleitzahlen durchsucht werden kann.

Bei der Entscheidung für eine Visualisierungsform muss immer auch die Darstellung auf mobilen Endgeräten mitgedacht werden. In vielen Redaktionen gilt mittlerweile die Standardregel, dass Grafiken „mobile first” entwickelt werden müssen. Ein geeignetes Format, um Trends in Diagrammen zum Beispiel auch auf dem Smartphone gut erkennbar zu machen, sind Small Multiples, eine Serie von kleinen Diagrammen mit gleichen Achsen und Skalen.

Sorgfalt und Transparenz

Ob bei der Analyse oder bei der Visualisierung, datenjournalistisches Arbeiten verlangt ein hohes Maß an Sorgfalt und unterscheidet sich in dieser Hinsicht nicht von der klassischen journalistischen Arbeitsweise. Im Gegensatz zu letzterer birgt es jedoch in sich das Potenzial, durch evidenzbasierte Berichterstattung und Transparenz bei der Offenlegung von Quellen und Analysemethoden das Vertrauen in die Medien zu stärken. Dazu macht es Sinn, im Zuge der Veröffentlichung der Rechercheergebn38721Links zu den genannten Beispielen:isse auch die Daten selbst sowie die benutzten Software-Codes etwa auf GitHub gleich mit zu veröffentlichen.

Links zu den genannten Beispielen:

https://mmm.verdi.de/recht/journalist-darf-dokumente-einsehen-38721

http://www.zeit.de/zeit-magazin/essen-trinken/2014-11/baeckerei-brot-backen-handwerk-deutschland-karte

http://schnee-von-morgen.br.de/#stage-1

https://correctiv.org/recherchen/sparkassen/artikel/2016/11/10/deutschlands-sparkassen-sind-grosszuegig-beim-spenden-und-knausrig-bei-den-ausschuettungen-die-kommunen/

https://correctiv.org/recherchen/euros-fuer-aerzte/datenbank/

https://mmm.verdi.de/30-journalistentag-blickt-in-die-Zukunft-37021

nach oben