Sie bevölkern das Netz, folgen unseren Datenschatten, dringen in die Privatsphäre ein: Algorithmen. Sie dienen uns bei der Recherche nach mehr Wissen und manipulieren uns gleichermaßen zugunsten fremder Wirtschaftsinteressen, steuern die Aufmerksamkeit. Die wohl spannendste Frage in Zeiten von Big Data: Wie können wir sie kontrollieren und für das Gemeinwohl nutzen?
Vernetzte Technik wird immer mehr Teil unseres Alltags: Smartphones, intelligente Stromzähler, vernetzte Autos und Fitness-Tracker sind nur einige Beispiele für Technologien, die uns täglich begleiten und dabei fleißig Daten über uns sammeln. Und auch wenn wir im Internet unterwegs sind, werden wir von einer Vielzahl von Anbietern in Echtzeit vermessen und analysiert. Fragt man Unternehmen, warum sie uns so auf Schritt und Tritt verfolgen, lautet die Antwort oft: Um unser Nutzererlebnis – neusprachlich „User Experience“ – zu verbessern.
Die Logik dahinter ist extrem simpel: Weiß ein Werbe-Anbieter, dass ich im Internet regelmäßig Kaffee-Foren besuche, kann er mir Werbung für guten Kaffee zeigen. Da diese mich dann vermutlich eher interessiert als andere Werbung, ist die Wahrscheinlichkeit, dass ich darauf klicke, höher und die Chance auf Gewinn für den Werbetreibenden steigt ebenfalls. Bei Fitness-Trackern, Smartphones oder vernetzten Autos ist die Motivation ähnlich: Je besser eine Anwendung mich als Nutzer kennt und vorausschauen kann, was ich vielleicht als nächstes tue oder wofür ich mich interessiere, umso besser kann sie meine „User Experience“ gestalten und umso zufriedener bin ich als Kunde: So kann mir mein Streaming-Anbieter passende Filme vorschlagen, mein Smart-phone weiß, wann ich nicht gestört werden möchte und mein Auto findet – theoretisch – selbstständig die beste Route zurArbeit. Klingt verlockend, ist in der Umsetzung aber kompliziert, denn wir Menschen sind ja – zum Glück – nicht immer einfach zu verstehen.
Damit es funktionieren kann, braucht es zwei Dinge: Eine große Menge an Daten und einen guten Algorithmus – sprich eine Software – die anhand dieser Daten ein Modell erstellen kann. So ein Modell kann dann dazu genutzt werden, Vorhersagen über unser Verhalten zu machen, also z.B. „Frau Maier wird heute Abend vermutlich wieder ihre Lieblings-Serie schauen“, oder uns einer Gruppe zuordnen, z.B. „Herr Müller interessiert sich für Motorradfahren“. Solche Vorhersage- oder Klassifikations-Modelle erstellt man, indem man zunächst einen passenden Algorithmus auswählt und diesen dann mit geeigneten Daten „trainiert“: Man zeigt dem Algorithmus hierfür Datensätze, die man gesammelt und klassifiziert hat, zum Beispiel indem man Nutzer manuell zu ihren Interessen befragt hat. Dann werden die Aussagen des Algorithmus mit dem wirklichen Zustand verglichen und die Parameter des Algorithmus so angepasst, dass er möglichst oft die richtigen Vorhersagen trifft.
Nutzerinteressen aufgespürt
Ein Beispiel aus der Praxis: Online-Tracker versuchen zu erfassen, welche Webseiten wir wann und wie oft besuchen. Mit diesem Wissen können sie herausfinden, welche Nutzer welche und wie viele Gemeinsamkeiten haben. Diese Daten können dann mit anderen Informationsquellen kombiniert werden: Weiß ich zum Beispiel, dass Frau Müller sich für Beauty-Produkte und Fernreisen interessiert und immer die gleichen drei Webseiten zu diesen Themen besucht, kann ich daraus schließen, dass Nutzer welche ebenfalls diese Seiten besuchen, vielleicht auch an diesen Themen interessiert sind. Die Informationen über die Interessen eines Nutzers können dabei aus anderen Quellen wie Umfragen stammen oder sie können durch das System selbst generiert werden: So kann der Algorithmus Nutzern testweise Werbung zu einem bestimmten Produkt oder Interessensgebiet zeigen und dann einfach nachzählen, wie oft Nutzer auf diese Werbung klicken: Wird oft geklickt, liegt die Vermutung nahe, dass Nutzer am Thema interessiert sind und der Algorithmus die richtige Entscheidung getroffen hat. Diese Information kann dann mit den Webseitenbesuchen kombiniert werden zu einer Schlussfolgerung in der Form: „Nutzer, die sich für Anzeigen aus Bereich X interessieren besuchen sehr oft Webseiten A, B und C“. So lernt der Algorithmus automatisiert und alleine über unser Verhalten, welche Interessen wir haben. Das gleiche Prinzip lässt sich auf viele andere Bereiche übertragen: Egal ob wir uns Filme anschauen, unsere Smartphones nutzen, Waren bestellen oder Webseiten besuchen: Immer wenn zwei oder mehr Verhaltensmuster gemeinsam von einem System beobachtet werden, können Algorithmen Zusammenhänge ableiten. Beim Programmieren dieser Algorithmen gibt man lediglich die Grundstruktur und die Anzahl und Art ihrer Parameter vor. Diese Parameter werden anschließend durch das besprochene Training mit Daten schrittweise angepasst, um die Vorhersagekraft des Algorithmus zu verbessern. Da dieses Training ohne manuelles Zutun passiert und der Algorithmus somit selbständig aus seinen Erfahrungen lernt, spricht man hier von „künstlicher Intelligenz (KI)“ oder auch „maschinellem Lernen (ML)“.
Dass solche Algorithmen funktionieren und gewinnbringend sind, scheint klar, denn einige der größten IT-Unternehmen der Welt verdanken ihnen ihren Aufstieg und ihre beherrschende Marktstellung. Unternehmen stehen dem Einsatz von Algorithmen und künstlicher Intelligenz daher oft sehr positiv gegenüber.
Aber welche Aspekte des Einsatzes von Algorithmen können für uns und unsere Gesellschaft problematisch sein? So kann das ständige und weitreichende Sammeln von Daten zunehmend zum Problem für unsere Privatsphäre werden, insbesondere da viele der Daten, die über uns gesammelt werden, „hochdimensional“ sind. Dies bedeutet, dass jeder einzelne Datenpunkt sehr viele verschiedene Werte annehmen kann: Beispielsweise gibt es Milliarden von Webseiten im Internet. Besuche ich als Nutzer regelmäßig einige wenige von diesen – meine üblichen Nachrichtenseiten, Shopping-Portale, Abo-Dienste oder mein Online-Banking – so ist die Kombination aus diesen Seiten oft schon einzigartig, da kein anderer Nutzer ebenfalls genau diese Webseiten regelmäßig besucht. Sammelt ein Unternehmen nun zusätzlich weitere Daten aus anderen Bereichen – z.B. GPS-Daten von meinem Handy oder IP-Adressen von meinem Computer – so ergibt sich sehr schnell ein digitaler Fingerabdruck, der mich selbst in großen Datensätzen mit vielen Millionen anderen Nutzern eindeutig identifizieren kann. Dass dies in der Praxis wirklich möglich ist, haben verschiedene Untersuchungen gezeigt.
In die passende Schublade
Was ist dabei das Risiko für uns? Abgesehen von dem generellen Risiko des Verlustes großer Teile unserer Privatsphäre riskieren wir, durch diese Nachverfolgbarkeit gegenüber Unternehmen auch zunehmend „digital durchschaubar“ zu werden, denn bereits nach wenigen Klicks oder Interaktionen sind wir für Algorithmen kategorisierbar und können in eine passende – aber nicht immer richtige – Schublade gesteckt werden. Unser Datenschatten kann uns so wie ein Ruf vorauseilen und bestimmen, wie wir online wahrgenommen und behandelt werden. Ohne eine Möglichkeit, die Erhebung und Verarbeitung unserer Daten zu kontrollieren, kann es für uns Nutzer daher zunehmend schwierig werden, uns selbstbestimmt in der digitalen Welt zu bewegen.
Die neue Datenschutz-Grundverordnung (DSGVO) versucht genau dieses Problem zu lösen, indem sie Unternehmen strikte Regeln für die Nutzung personenbezogener Daten auferlegt. So sollen unter anderem mehr Transparenz und Kontrolle für uns Nutzer geschaffen und zudem die Sicherheit bei der Verarbeitung von Daten verbessert werden. Wollen Unternehmen weiterhin Nutzerdaten für das Training von Algorithmen einsetzen, brauchen sie hierfür nach der neuen Verordnung nun im Normalfall die explizite Zustimmung des Nutzers. Und entzieht dieser dem Unternehmen die Erlaubnis zur Verarbeitung der Daten, müssen sie im Regelfall unverzüglich gelöscht oder anonymisiert werden.
Anonymisierung personenbezogener Daten bedeutet dabei, diese Daten so zu verändern, dass es unmöglich wird, konkrete Rückschlüsse über einzelne Personen zu ziehen, es aber möglich bleibt, Informationen über größere Gruppen von Personen zu erlangen. Einfacher gesagt heißt das, dass anonymisierte Datensätze Rückschlüsse auf gruppenspezifische Zusammenhänge geben dürfen – z.B. „Rauchen und Übergewicht erhöht das Herzinfarktrisiko bei Männern zwischen 50 und 55 Jahren, die im PLZ-Gebiet 10… wohnen statistisch um 60 Prozent – ohne dabei Informationen über einzelne Personen preiszugeben: Weiß ich, dass Herr Müller 53 Jahre alt ist, 96 kg wiegt, im PLZ-Gebiet 10707 wohnt und Teil des anonymisierten Datensatzes ist, so darf ich aus diesen Daten nicht mit Sicherheit oder auch mit hoher Wahrscheinlichkeit ableiten können, ob er wirklich schon einmal einen Herzinfarkt hatte. Anonymisierung schützt daher – wenn sie richtig angewandt wird – unsere Privatsphäre und erlaubt gleichzeitig, weiterhin interessante Zusammenhänge in Datensätzen zu erkennen. Sie kann uns allerdings nicht generell davor schützen, von Algorithmen bewertet und kategorisiert zu werden, denn Verhaltensmuster lassen sich auch aus anonymisierten Daten ableiten, wenn auch oft weniger gut als mit personenbezogenen Daten.
Gerade da sich schwer einschätzen lässt, was in naher Zukunft mit Daten machbar sein wird, sind Verfahren wie Anonymisierung und klare Rahmenbedingungen für die Verarbeitung extrem wichtig, um der unkontrollierten Weiterverbreitung unserer Daten entgegenzuwirken. Die Datenschutzgrundverordnung ist dabei ein wichtiger erster Schritt, alleine aber nicht ausreichend, da sie sich nur am Rande mit Algorithmen beschäftigt. Sie lässt viele Fragen außen vor: Wie sollen Algorithmen für die Betroffenen transparent gemacht werden? Wie können wir Fairness bei automatisierten Entscheidungen sicherstellen und überprüfen? Wie können wir Nutzern bessere Kontrollmöglichkeiten beim Einsatz von Algorithmen geben?
Hierbei ist insbesondere wichtig, dass die Nutzer bessere Möglichkeiten bekommen, um zu verstehen, welche Ziele algorithmische Systeme verfolgen. Denn Algorithmen dienen primär den Interessen der Unternehmen, die sie einsetzen. Algorithmisch optimierte Video-Dienste beispielsweise versuchen nicht in erster Linie uns schlauer zu machen, sondern wollen uns vor allem möglichst lange vor dem Bildschirm fesseln. Dies war natürlich auch schon im klassischen Fernsehgeschäft der Fall, algorithmische Systeme haben hier aber sehr viel größere Macht, denn sie können jeden unserer Schritte festhalten und analysieren.
Die Frage ist daher: Wollen wir Algorithmen beliebige Informationsvorteile einräumen oder müssen wir ihr Wissen über uns vielleicht künstlich beschränken? Die Datenschutz-Grundverordnung beinhaltet hierfür bereits das „Recht auf Vergessen werden“, welches Personen ermöglicht, von Unternehmen die Löschung eigener Daten zu fordern. Ebenso räumt uns die DSGVO das Recht ein, digitale Kopien aller über uns gespeicherten Daten anzufordern, die Verarbeitung unserer Daten zu beschränken oder unsere Daten auch einfach zwischen Unternehmen übertragen zu können (Daten-Portabilität). Gerade im Hinblick auf algorithmische Entscheidungen sollten wir von diesen Rechten Gebrauch machen, um unsere Daten regelmäßig zu kontrollieren und ihre Nutzung an unsere eigenen Bedürfnisse anzupassen. Die konkrete Umsetzung dieser sogenannten Betroffenenrechte innerhalb der DSGVO ist zwar in einigen Punkten noch offen, sicher ist jedoch, dass Unternehmen in naher Zukunft sehr viel transparenter im Umgang mit personenbezogenen Daten sein müssen und wir als Nutzer bessere Möglichkeiten erhalten werden, die Verwendung unserer Daten zu kontrollieren.
Sammeln zum Allgemeinwohl
Eine weitere Frage lautet: Sollen wir die Gestaltung und den Einsatz von Algorithmen alleine der Privatwirtschaft überlassen oder können wir diese Systeme auch im weiteren gesellschaftlichen Kontext sinnvoll einsetzen? Mögliche Anwendungen in der Bildung, der öffentlichen Verwaltung oder dem Gemeinwohl gibt es zur Genüge, die Bereitschaft über den Einsatz nachzudenken, fehlt jedoch oft noch. Dies ist sicher auch dem schlechten Ruf geschuldet, den Algorithmen aufgrund der zahlreichen Daten-Skandale der letzten Jahre zunehmend haben. Wir sollten uns davon aber nicht zu sehr abschrecken lassen, denn Daten – auch personenbezogene – können für unser Allgemeinwohl gesammelt und genutzt werden. Es existieren schon heute eine Vielzahl von Verfahren, um algorithmische Systeme sicher, robust und nachvollziehbar zu gestalten. Im öffentlichen sowie im gewerkschaftlichen Bereich könnten wir diese nutzen und damit gute Beispiele für den sinnvollen Einsatz von Algorithmen schaffen. Diese könnten dann auch als Maßstab für die Bewertung, Kontrolle und den sinnvollen Einsatz von Algorithmen in der Privatwirtschaft dienen. Seien wir daher aufgeschlossen dafür, neuen Technologien positiv, aber kritisch, gegenüberzutreten, ihre Stärken und Schwächen zu verstehen und sie gemeinwohlorientiert einzusetzen.