Datenanalyse ohne Direktzugriff

Blinded Analysis - ein Vorschlag, wie Big Data genutzt werden kann, ohne den Datenschutz und das Vertrauen der Nutzer zu gefährden.

von Luigi Scorzato & Stefan Rustler* 29.03.2017 14:37

   

Noch im 19. Jahrhundert betrug die Lebenserwartung eines Neugeborenen durchschnittlich 40 Jahre. Heute liegt sie in entwickelten Ländern bei etwa 80 Jahren. Der wissenschaftliche Fortschritt – v. a. in der Medizin – hat uns effektiv ein zweites Leben beschert. Ohne die systematische Analyse medizinischer und auch anderer sensibler Daten ­wäre diese Errungenschaft undenkbar. Daten bilden das Fundament für Medizin, Wissenschaft und Wohlstand.

In jüngerer Zeit haben neuartige Methoden und die stetig wachsende Rechenleistung uns befähigt, grosse Datenmengen in den verschiedensten Bereichen zu sammeln und auszuwerten. Die Folge sind entsprechende Verbesserungen beispielsweise in Gesundheit, Bildung, Kommunikation oder Transport.

Datenschutz vs. Datennutzung

Um weitere Verbesserungen zu erreichen, führt kein Weg an der Nutzung sensibler oder personenbezogener Daten vorbei. Und diese Verbesserungen sind nötig, denn eine funk­tionierende Welt mit 10 Milliarden Menschen, die nicht datengetrieben ist, ist kaum vorstellbar. Wir stossen schon jetzt an die Grenzen unserer Ressourcen, der Optimierungsdruck wächst weiter.

Allerdings gibt es legitime Bedenken zu Datenschutz und möglichem Missbrauch, wenn personenbezogene Daten involviert sind. Leider gehen viele Organisationen nicht adäquat mit solchen Bedenken um und die Gesetzgebung hinkt hinterher. Der Versuch, den Nutzer eines Services zu beschwichtigen, kann gar nach hinten losgehen: Viele Nutzungsvereinbarungen wirken schon durch ihren Umfang erschlagend. Erreicht man die Passagen, in denen andere Nutzungszwecke erläutert werden, sind sie schwammig formuliert. Auch der Ausschluss der Weitergabe der Daten an Dritte beruhigt nur bedingt: Was ist heute wirklich innerhalb und was ausserhalb grosser multinationaler Organisationen?

Selbst die Zusicherung, dass personenbezogene Daten anon­ymisiert werden, ist oft unzulänglich. Denn in vielen Fällen müsste man eigentlich von einer Pseudonymisierung sprechen: Offensichtlich sensible Felder wie Namen oder Adressen werden gelöscht oder durch Hilfsschlüssel ersetzt. In manchen Situationen reicht das aus, aber im Allgemeinen ist dies keine Garantie dafür, dass man individuelle Identitäten mit Daten, die zunächst unbedenklich scheinen, nicht rekons­truieren kann. Analysiert man zum Beispiel die Handy-Verbindungsdaten in einer dünn besiedelten Gegend, kann das Aggregationslevel bezüglich Lokation zu niedrig sein, um ausreichend Anonymisierung zu bieten.

Jedoch ist die vollkommene Anonymisierung auch keine universelle Lösung, da sehr granulare oder individuelle Informationen für eine bedeutsame Analyse manchmal eben gebraucht werden. Um beispielsweise das Elektrizitätsnetz einer Stadt zu optimieren, bedarf es der genauen Daten örtlicher und zeitlicher Nutzungsprofile. Dieses Dilemma zwischen wirklichem Datenschutz und nutzenstiftender Datenanalyse zu lösen, ist die Voraussetzung für den Weg in eine bessere Zukunft.

Nächste Seite: Gewaltentrennung für Daten

Gewaltentrennung für Daten

   

Doch Fortschritt durch Datennutzung setzt nicht einfach nur grosse Datenmengen voraus, sondern viel eher gute Daten. «Good Data» statt «Big Data». Wenn der Prozess der Datensammlung und -auswertung nicht transparent ist, die Interaktion zwischen Nutzern und Organisationen nicht von Vertrauen geprägt ist, dann wird die Datenqualität irgendwann darunter leiden und auch nicht durch grössere Datenmengen kompensiert werden können. Eine Welt voller «Big Bad Data», in welcher der Fortschritt stagniert, ist mindestens ebenso besorgniserregend wie eine «Big Brother»-Welt.

Doch ist das Dilemma zwischen Datenschutz und Datenanalyse ein echtes Dilemma? Die weitläufige Meinung sieht beide Werte zwangsläufig in einer Wechselbeziehung, in der das eine nicht erhöht werden kann ohne das andere zu verringern. Doch diese Ansicht ist technologisch naiv und lässt ausser Acht, dass die Gleichung «mehr Datenanalyse = weniger Datenschutz» kein naturgegebenes Prinzip, sondern eher Konvention ist. Ebendiese Konvention bricht das Konzept der «Blinded Analysis» oder zu Deutsch «Blindanalyse»: In diesem Ansatz wird die Verantwortung des Datenschutzes dem Datenanalysten entzogen, indem diesem kein direkter Zugriff auf die auszuwertenden Daten selbst, sondern lediglich auf Metadaten und das Ergebnis von vordefinierten Aggregationsanfragen gewährt wird. Somit wird eine Zweckentfremdung verunmöglicht und eine Anonymisierung eingebaut. Zudem werden diese Anfragen vollständig erfasst, um die Transparenz gegenüber Auditoren und Verbrauchern zu steigern.

Praktische Auswirkungen

Auf den ersten Blick scheint dieser Ansatz, Unternehmen und Organisationen in ihrer Analyse zu beschneiden. Doch letzten Endes sollten diese nicht an den Daten selbst, sondern nur an den Anfrageergebnissen interessiert sein. Die eigent­lichen Daten liegen stattdessen in einer separaten Entität des «Datenverwalters», die ausschliesslich mit dem Schutz der Daten und der Anfrageerfassung beauftragt ist, ohne selbst auf die Daten zuzugreifen. Diese Dienstleistung der Datenverwaltung wird heute bereits von verschiedenen Cloud-Service-Providern angeboten.

Absoluten Schutz vor Missbrauch bietet der Ansatz der Blindanalyse natürlich nicht. Anstelle des Datenanalysten kann der Datenverwalter, der Zugang zu den Verschlüsselungscodes hat, die Daten prinzipiell zweckentfremden. Doch es ist nicht das Ziel der Blindanalyse, per Design Vertrauen überflüssig zu machen – ein gewisses Mass an Vertrauen wird immer notwendig sein –, sondern die Rollen der Datenanalyse und des Datenschutzes klarer zu trennen und somit zu stärken.

Eine Blindanalyse nun tatsächlich durchzuführen, ist aufwendiger als eine traditionelle Datenanalyse, da der Analyst die Daten nicht direkt inspizieren kann. Doch in Zeiten von Big Data wird genau diese Art der Analyse, die aufgrund der schieren Grösse der Datenmengen die Daten selbst nicht vollständig einsehen kann, immer wichtiger. Um solch grosse Datensätze auswertbar zu machen, müssen bereits in der Phase der Datenbereinigung und -exploration die Anfragen mit hohem Aggregationsgrad – und oftmals ohne direkten Zugriff auf einzelne Einträge – erfolgen.

In der Praxis hätte die Blindanalyse viele Vorteile. Der wichtigste ist das grosse Potenzial, das Vertrauen zwischen den Organisationen, die Daten auswerten, und den Nutzern, welche die Daten generieren, wiederherzustellen und zu stärken. Ein Unternehmen könnte beispielsweise zweifelsfrei bestätigen, dass es keinen direkten Zugriff auf sensible, personenbezogene Daten hat und lediglich über aggregierte Auswertungen verfügt. Die Tatsache, dass alle Datenanfragen erfasst und geteilt werden, eliminiert die Angst vor Ausspähung und Datenmissbrauch. Die Interaktion zwischen Organisation und Nutzer beziehungsweise Datenanalyst und -generierer, könnte sich in eine vertrauensvollere Konver­sation wandeln, aus der «Good Data» und somit grösserer Nutzen für alle Parteien resultiert.

Nächste Seite: Qualität geht vor Exklusivität

Qualität geht vor Exklusivität

   

Viele Sektoren könnten von einem solchen Ansatz der Blindanalyse und ihren Implikationen profitieren. Versicherungsunternehmen etwa stehen zwei grossen Herausforderungen gegenüber: Zum einen wird ihnen vorgeworfen, Kunden­daten und exklusives Wissen auszunutzen, um Risiken prä­ziser auszurechnen, als dies die Öffentlichkeit tun könnte.
Dies schädigt das Vertrauen zwischen Kundschaft bzw. Öffentlichkeit und Versicherungsunternehmen. Zum anderen erschwert ebendieses Misstrauen die Akquise akkurater und bedeutsamer Daten der Kunden.

In der Tat wäre der Zugang zu akkurateren, wenngleich nicht exklusiven Daten weitaus nützlicher für Versicherungen als der exklusive Zugang zu inakkuraten Daten. Durch die Veröffentlichung der aggregierten Datenanfrage der Versicherung an den Datenverwalter würde die Transparenz in der Risiko- und Beitragserrechnung gefördert. Davon profitieren beide Parteien: Der Kunde versteht besser, wie sein Risiko errechnet wurde und vermag dieses somit zu reduzieren. Die Versicherung wiederum kann bessere Kundendaten nutzen.

Bessere Zusammenarbeit möglich

Die Grundursache dieser höheren Datenqualität liegt in der erhöhten Datensicherheit der Blindanalyse, die mehrere Risiken eindämmt: Datendiebstahl, vorsätzlicher Missbrauch einzelner Analysten oder versehentliches Teilen sensibler Daten wären allesamt dadurch beseitigt, dass die Daten selbst nicht beim Unternehmen liegen.

Daten bewusst für Analysezwecke zu teilen – auch innerhalb derselben Organisation –, ist häufig sehr heikel oder gar unmöglich, weil verschiedene Datenausschnitte unter der Obhut unterschiedlicher Abteilungen oder Geschäftseinheiten stehen. Diese dürfen auf keinen Fall die Kontrolle über potenziell sensible Daten verlieren. Um aber neue Erkenntnisse über Daten zu erlangen, müssen jene Datenausschnitte zusammengeführt und kombiniert betrachtet werden. Dieser Prozess ist jedoch häufig mühselig – innerhalb grosser Organisationen und noch viel mehr organisationsübergreifend.

Ein Grund hierfür ist, dass Organisation A alle möglichen Nutzungsszenarien ihrer Daten, die sie mit Organisation B teilt, erwägen und ihnen gegebenenfalls vorbeugen muss. Diese Bewertung ist extrem schwierig und unsicher. Sie benötigt lange, oftmals ergebnislose Diskussionen zwischen Rechts- und Fachexperten und endet meist darin, dass eine Partei entweder ein zu hohes Risiko auf sich nimmt oder letztlich eine nutzlose Sicht auf mehrere Datenausschnitte erhält. Auch hier würde die Blindanalyse Abhilfe verschaffen, da Daten an sich nicht geteilt werden. Die Organisationen A und B einigen sich auf die zu kombinierenden aggregierten Analysen, ohne potenzielle Missbräuche zu imaginieren. Dabei werden die Anfragen und Analysen erfasst.

Vor dem Hintergrund der 2018 in Kraft tretenden EU-Datenschutz-Grundverordnung bietet die Blindanalyse einen weiteren Vorteil: Personenbezogene Daten liegen abgeschlossen an einem definierten Ort. Dies ermöglicht bei Bedarf eine gezielte und effiziente Löschung von Daten. Die Blindanalyse könnte somit insgesamt einen gangbaren Weg bieten, unsere datengetriebene Gesellschaft in eine von Vertrauen geprägte Zukunft zu führen, in der Privatsphäre und Transparenz nicht im Konflikt stehen.

* Luigi Scorzato ist Data Engineering Manager und Stefan Rustler Analytics Consultant bei Accenture Digital

Big Data: Vorteile und Probleme