Den Daten auf der Spur

Praktische Arbeit gepaart mit mathematischem und technischem Verständnis

Der Trend zu niedrigeren Arbeitslosenzahlen setzt sich fort: Im Januar 2017 ist die Arbeitslosenquote mit 6,3 Prozent im Vergleich zum Vorjahreszeitraum (6,7 Prozent) um 0,4 Prozent gesunken. Stimmt das? Nein. Tatsächlich ist die Arbeitslosenquote um 0,4 Prozentpunkte gesunken. Für Datenjournalisten gehört solches Wissen zur mathematischen und statistischen Grundausstattung. Und das sind nur die Basics. Denn auch wenn man kein Programmierer oder IT-Experte sein muss, so erfordert die praktische Arbeit mit Daten doch so einiges an mathematischem und technischem Verständnis. Daten müssen recherchiert und zusammengetragen, gesäubert und analysiert werden, bevor sie zumeist in interaktiven Anwendungen visualisiert werden.

Was eine gute Daten-Story ausmacht

Die Entscheidung, aus einem Datensatz eine Story zu machen, basiert zunächst im Wesentlichen auf den gleichen Fragen, die auch am Anfang jeder sonstigen journalistischen Recherche stehen: Ist das Thema relevant und bringt es neue Erkenntnisse? Bietet das Ergebnis der (Daten-)Recherche den Leser_innen/Nutzer_innen einen Mehrwert an Information? Damit ein Projekt datenjournalistisch und nicht mit ‚herkömmlicher’ journalistischer Methodik aufbereitet wird, müssen allerdings noch weitere Kriterien gegeben sein. So sollte mit einer Datenvisualisierung auch der Anspruch verbunden sein, ein komplexes Thema besser verständlich zu machen, als es ein geschriebener Text könnte. Dazu muss die Frage beantwortet werden, ob eine solche Visualisierung eine neue Perspektive auf den Sachverhalt schaffen kann. Grafiken und interaktive Anwendungen fungieren im datenjournalistischen Storytelling nicht als Beiwerk, sondern als zentrales Erzählelement. Wenn feststeht, dass eine journalistische Frage am besten mit Hilfe von Daten beantwortet werden kann, folgt der nächste Schritt auf dem Weg zur Daten-Story: Die Datenrecherche und Datenbeschaffung.

Scraping, API, Open Data

Im vergangenen Januar hat die Bundesregierung den Gesetzentwurf zu einer Reform des eGovernment-Gesetzes, das sogenannte Open-Data-Gesetz, beschlossen. Damit soll der Zugang zu öffentlich finanzierten Daten verbessert werden: „Die Daten werden in unbearbeiteter Form, maschinenlesbar ohne Zugangsbeschränkung bereitgestellt und können von jedermann frei verwendet, nachgenutzt und verbreitet werden”, so Bundesinnenminister Thomas de Maizière. Bereitgestellt werden die Daten auf dem bereits bestehenden Portal GovData, das Portal für offene Verwaltungsdaten in Deutschland. Dort können Datensätze in insgesamt zwölf Kategorien, darunter Wirtschaft und Arbeit, Transport und Verkehr oder Bildung und Wissenschaft eingesehen werden. Solche Open-Data-Kataloge werden auch von Kommunen, Ländern und zunehmend auch privatwirtschaftlichen Unternehmen bereitgestellt und können ein nützliches Instrument für die Datenrecherche sein. Wer in den bereits verfügbaren offenen Daten nicht fündig wird, der kann auf Bundes- oder Länderebene Anfragen an Behörden auf Grundlage der jeweiligen Informations­freiheitsgesetze (IFG) stellen. Wird das Auskunftsbegehren abgelehnt, besteht im Gegensatz zu Anfragen nach dem Open-Data-Gesetz das Recht auf gericht­liche Durchsetzung des Zugangs zu den gewünschten Daten. Wem die Dokumente verwehrt werden, der kann also zunächst auf die Vermittlung durch den Datenschutzbeauftragten setzen und notfalls auch auf die Herausgabe der Informationen klagen. Erst kürzlich etwa hat das Verwaltungsgericht Köln nach Klage eines Medienvertreters entschieden, dass der Bundesrechnungshof Journalist_innen Zugang zu abgeschlossenen Prüfmitteilungen gewähren muss. (M Online hat über das Thema berichtet.)

Eine weitere und häufig genutzte Möglichkeit, an Daten zu gelangen, sind Programmierschnittstellen, also APIs (Application programming interface). APIs werden von Softwaresystemen und Internetdiensten zur Anbindung an das System zur Verfügung gestellt und können von Usern befragt werden. Meist muss dazu ein Code geschrieben werden, aber auch wer nicht auf die Hilfe eines Programmierers zählen kann, kann durch Browser-Erweiterungen wie etwa RESTeasy für Firefox Programmierschnittstellen nach Daten durchforsten. Solche Browsererweiterungen ermöglichen auch das Scrapen von Webseiten. Scraping bezeichnet das Auslesen von Websites mit Hilfe kleiner Programme. Diese suchen systematisch nach den gewünschten Daten und ziehen sie von der Seite. Auch hier gilt: Je mehr Programmier-Know-How vorhanden ist, umso mehr ist möglich.

So gut wie kein Programmier-Know-How benötigt man hingegen für das Crowdsourcing. Diese Methode hat darüber hinaus noch einen weiteren Vorteil. Durch die Einbindung der User_innen von Anfang an ist eine hohe Reichweite quasi vorprogrammiert. Vorgemacht haben es etwa Zeit Online mit der interaktiven Karte zu Deutschlands besten Bäckereien oder Correctiv mit der Recherche zu den Dispozinssätzen der deutschen Sparkassen.     >

Daten säubern und verfeinern

Abb: www.freepik.com

Wer bei Ämtern oder Pressestellen Datensätze erfragt, bekommt diese fast immer in Formaten geliefert, die sich nicht für die Datenauswertung eignen, wie etwa das PDF-Format. Glück hat man meistens nur bei Open-Data-Portalen, wo die Daten maschinenlesbar bereitgestellt werden und deshalb problemlos weiterverarbeitet werden können. Ansonsten lohnt es sich, immer nachzufragen, ob der Datensatz auch im Excel oder CSV-Format (also in komma-separierten Listen) übermittelt werden kann. Wenn auch das nichts hilft, stehen dem Datenjournalisten verschiedene Tools zur Auswahl, um Datensätze für die nachfolgende Analyse in maschinenlesbare Formate zu bringen. So kann beispielsweise die Open-Source-Software Tabula Tabellen aus PDFs (funktioniert nicht für eingescannte PDFs!) extrahieren und ins CSV-Format umwandeln.

Für die Datenanalyse ist dann Excel das Tool der Wahl. Dazu müssen die Daten jedoch zunächst gesäubert und verfeinert sowie gegebenenfalls veredelt, das heißt, mit zusätzlichen Informationen angereichert werden. Säuberung meint in diesem Fall, den Datensatz von Fehlern und etwa uneinheitlichen Schreibweisen zu bereinigen, sodass die Daten für die Auswertung miteinander verglichen werden können. Eine der Hürden auf dem Weg zur Datenauswertung ist das Encoding, also die Darstellung von Zeichen. Probleme bereiten hier zum Beispiel oft die deutschen Umlaute. Beheben kann man dieses Problem, indem man für die Datei das UTF-8-Encoding einstellt, der aktuelle Zeichenkodierungsstandard, mit dem auch fast alle Programme klarkommen.

Darüber hinaus gilt es, uneinheitliche Schreibweisen und etwa überflüssige Leerzeichen zu beseitigen, bevor die Daten aus einem Dokument ausgewertet werden können. Oft genügt es hierfür, zumindest in der Einstiegsphase, die wichtigsten Handgriffe in Excel zu beherrschen. So lassen sich mit den Excel-Funktionen „=SÄUBERN” und „=GLÄTTEN” zum einen Steuerzeichen und unbrauchbare Sonderzeichen und zum anderen überflüssige Leerzeichen beseitigen. Mit „Suchen & Ersetzen” lassen sich hingegen Zeichen finden, die man entfernen will und gegebenenfalls durch andere (vereinheitlichte) Zeichen ersetzen. Das ist nützlich, wenn in einem Dokument unterschiedliche Zeichen wie Kommata und Punkt, zum Beispiel zur Kennzeichnung der Dezimalstelle, verwendet werden. Einen guten Einstieg in das Thema bietet die klassische Google-Suche. Unter der Anfrage „Excel für Journalisten” findet sich eine Reihe von Hilfestellungen und Tipps, wie sich Journalist_innen Excel für die Arbeit mit Daten nutzbar machen können.

Sollen mit „Suchen & Ersetzen” komplexere Zeichenfolgen gefunden und modifiziert werden, dann empfiehlt sich das Verfahren der regulären Ausdrücke (Reg­Ex, Regular Expressions). Damit können Buchstabenfolgen nach Mustern durchsucht und gegebenenfalls ersetzt werden. Bei vielen Texteditoren, wie den Open-Source-Versionen TextWrangler für Mac und Notepad++ für Windows, kann RegEx einfach in der Suchfunktion aktiviert werden. Wichtig: Für jeden größeren Arbeitsschritt sollte zumindest eine neue Spalte, besser noch eine neue Arbeitsmappe angelegt und der Originaldatensatz nicht einfach überschrieben werden. So lassen sich die einzelnen Schritte zu jedem beliebigen Zeitpunkt zurückverfolgen.

Visualisieren und veröffentlichen

Sind die Daten gesäubert und veredelt, folgt die eigentliche Datenanalyse (data mining), in der das Material nach Mustern und Zusammenhängen befragt wird. Spätestens jetzt sollte man sich noch einmal die Frage stellen, ob die entdeckten Korrelationen auch relevant sind und für die Leser_innen einen Erkenntniswert besitzen. Wird diese Frage mit ja beantwortet, muss überlegt werden, wie die Daten dargestellt werden können. Obwohl die Ergebnisse einer Datenrecherche grundsätzlich auch in einem geschriebenen Text vorgestellt werden können, kommen meistens auch (interaktive) Visualisierungen zum Einsatz. Häufig genutzte Darstellungsformen sind etwa Karten oder die Bereitstellung von Datenbanken mit Suchfunktion, die von den Nutzer_innen nach bestimmten Kriterien befragt werden können. Ein gutes Beispiel dafür ist das Projekt „Euros für Ärzte”, eine Kooperation von Spiegel Online und Correctiv. Die Journalist_innen haben dafür Daten über die von Pharmakonzernen an Ärzte in Deutschland geleisteten Geldzahlungen ausgewertet und eine Datenbank mit den Namen von 20.489 Medizinern veröffentlicht, die von den Internetnutzer_innen nach Namen, Orten und Postleitzahlen durchsucht werden kann.

Bei der Entscheidung für eine Visualisierungsform muss immer auch die Darstellung auf mobilen Endgeräten mitgedacht werden. In vielen Redaktionen gilt mittlerweile die Standardregel, dass Grafiken „mobile first” entwickelt werden müssen. Ein geeignetes Format, um Trends in Diagrammen zum Beispiel auch auf dem Smartphone gut erkennbar zu machen, sind Small Multiples, eine Serie von kleinen Diagrammen mit gleichen Achsen und Skalen.

Sorgfalt und Transparenz

Ob bei der Analyse oder bei der Visualisierung, datenjournalistisches Arbeiten verlangt ein hohes Maß an Sorgfalt und unterscheidet sich in dieser Hinsicht nicht von der klassischen journalistischen Arbeitsweise. Im Gegensatz zu letzterer birgt es jedoch in sich das Potenzial, durch evidenzbasierte Berichterstattung und Transparenz bei der Offenlegung von Quellen und Analysemethoden das Vertrauen in die Medien zu stärken. Dazu macht es Sinn, im Zuge der Veröffentlichung der Rechercheergebn38721Links zu den genannten Beispielen:isse auch die Daten selbst sowie die benutzten Software-Codes etwa auf GitHub gleich mit zu veröffentlichen.


Links zu den genannten Beispielen:

https://mmm.verdi.de/recht/journalist-darf-dokumente-einsehen-38721

http://www.zeit.de/zeit-magazin/essen-trinken/2014-11/baeckerei-brot-backen-handwerk-deutschland-karte

http://schnee-von-morgen.br.de/#stage-1

https://correctiv.org/recherchen/sparkassen/artikel/2016/11/10/deutschlands-sparkassen-sind-grosszuegig-beim-spenden-und-knausrig-bei-den-ausschuet­tungen-die-kommunen/

https://correctiv.org/recherchen/euros-fuer-aerzte/datenbank/

https://mmm.verdi.de/30-journalistentag-blickt-in-die-Zukunft-37021

 

 

nach oben

Weitere aktuelle Beiträge

Die Zukunft der Filmförderung

In der morgigen Plenarsitzung des Bundestages wird über die Zukunft der deutschen Filmwirtschaft entschieden, der vom Bundestagsausschuss für Kultur und Medien beschlossene Gesetzentwurf zum Filmfördergesetz (FFG) steht zur Abstimmung auf der Tagesordnung. ver.di begrüßt eine Reform der Filmförderung, denn in Zukunft müssen Filmproduktionen Tarif- und Urheber-Vergütungen verbindlich einhalten.
mehr »

Rundfunkreform mit vielen Fragezeichen

Bis zuletzt hatten die öffentlich-rechtlichen Anstalten auf ein Ende der Blockade einer Beitragserhöhung durch die Ministerpräsidenten der Länder gehofft. Die Verweigerungshaltung der Politik ließ ihnen am Ende keine Wahl: Am 19. November kündigten ARD und ZDF eine Klage beim Bundesverfassungsgericht an, um ihren Anspruch auf die von der Kommission zur Ermittlung des Finanzbedarfs (KEF) errechnete Empfehlung einer Beitragserhöhung um 58 Cent auf 18,94 Euro monatlich durchzusetzen.
mehr »

Audiodeskription: Die KI liest vor

Die Hälfte der öffentlich-rechtlichen Sender verwendet inzwischen auch synthetische oder mit Künstlicher Intelligenz (KI) generierte Stimmen, um für Fernsehformate Audiodeskriptionen zu erstellen. Das ergibt sich aus Nachfragen von M bei den neun ARD-Landesrundfunkanstalten und beim ZDF. Neben professionellen Sprecher*innen setzen der MDR, WDR, NDR, Radio Bremen und das ZDF auch auf synthetische oder KI-Stimmen für die akustische Bildbeschreibung.
mehr »

Gendergerechtigkeit per KI überprüfen

Ein Gender-Analyse-Tool der Technischen Universität München zeigt, wie Frauen medial ausgeklammert werden. Das Ziel vom  Gender Equality Tech Tool – GETT  ist es, die Sichtbarkeit von Frauen in der Berichterstattung bewusst zu fördern. Mit GETT kann über eine Kombination aus klassischen Algorithmen und Open-Source-KI-Modellen nachgeprüft werden, wie oft Frauen im Vergleich zu Männern in den Medien genannt und wie sie dargestellt werden.
mehr »