Informatik

Big Data: Anonymisieren reicht nicht

Einzelpersonen sind selbst in legal verkauften, anonymisierten Datensätzen identifizierbar

Big Data
In anonymisierter Form dürfen unsere Daten ganz legal verkauft und genutzt werden – doch wie gut ist unsere Identität dabei geschützt? © Vladimir Timofeev/ iStock.com

Von wegen anonym: Unsere Identität und unsere persönlichen Daten lassen sich selbst in anonymisierten Datensätzen leicht zuordnen, wie nun eine Studie enthüllt. Demnach sind die meisten Menschen selbst über ganz legal verkaufte Daten identifizierbar – trotz Anonymisierung. Dafür reichen oft schon vier gängige Angaben aus, die meisten Datensätze enthalten allerdings weit mehr Attribute pro Person, wie die Forscher im Fachmagazin „Nature Communications berichten.

Ob beim Surfen, der App-Nutzung oder beim Bezahlen mit EC- und Kreditkarten: Bei fast allem, was wir tun, hinterlassen wir inzwischen eine Datenspur. Diese persönlichen Daten geraten jedoch oft an Dritte, zum Beispiel weil Apps die Daten weitergeben, Datenbanken gehackt werden oder aber weil die Datensätze von Marketingunternehmen oder auch zu Forschungszwecken genutzt werden – oft ganz legal. Denn wenn die Datensätze anonymisiert sind – also der Name und andere eindeutige Kennzeichen wie Kontonummer, Sozialversicherungsnummer und ähnliches entfernt werden, ist diese Nutzung und Weitergabe erlaubt.

Das aber weckt die Frage: Wie anonym sind diese Daten wirklich? Besteht nicht doch die Gefahr, dass eine Person allein aufgrund der noch enthaltenen Merkmale identifiziert werden kann? Tatsächlich haben Forscher schon vor einigen Jahren anhand von Kreditkartendaten demonstriert, dass genau dies möglich ist – mit teilweise erstaunlich wenigen Anhaltspunkten.

Wie verräterisch sind unsere Attribute?

Einen noch umfassenderen Test haben nun Luc Rocher von der Universität Louvain und seine Kollegen durchgeführt. Sie nutzen einen lernfähigen Algorithmus, um herauszufinden, mit welcher Sicherheit man eine anonymisierte Person selbst in einer großen Datenmenge eindeutig identifizieren kann. Als Datenquellen verwendeten die Forscher die anonymisierten Daten der US-Volkszählung und vier weitere öffentlich verfügbare Datensätze.

Kernfrage der Studie war: Wie viele und welche Merkmale, wie beispielsweise Alter, Geschlecht, Wohnort oder Anzahl der Kinder, benötigt man, um eine Person trotz Anonymisierung zu identifizieren? Der von den Wissenschaftlern entwickelte Algorithmus wurde darauf trainiert zu erkennen, wie einzigartig eine Merkmalskombination jeweils war.

„Es gibt sicher sehr viele Personen, die männlich sind, in ihren 30ern und in New York City leben“, erklärt Rocher. „Aber schon weitaus weniger von diesen sind am 5. Januar geboren, fahren einen roten Sportwagen und leben mit zwei Töchtern und einem Hund in ihrem Haushalt.“ Zwar gelten

Schon vier Parameter reichen meist

Die Auswertung ergab: Entgegen den Beteuerungen der einschlägigen Firmen oder Behörden ist die gängige Anonymisierung kein Hindernis, um eine Person anhand ihrer Datenspur zu identifizieren. Allein mit den Informationen zu Postleitzahl, Geburtsdatum, Geschlecht und Zahl der Kinder könnte man knapp 80 Prozent aller Einwohner des US-Bundesstaats Massachusetts eindeutig identifizieren, wie Rocher und sein Team ermittelten.

„Und dies sind Daten, die von Unternehmen ziemlich standardmäßig abgefragt werden“, sagt Koautor Yves-Alexandre de Montjoye vom Imperial College London. Hat man dagegen mit 15 Parametern pro Person nur ein wenig mehr Daten, könnte man damit schon 99,8 Prozent aller Einwohner von Massachusetts eindeutig zuordnen. „Das zeigt, wie leicht und akkurat Individuen über solche Datensätze identifiziert werden können“, betont de Montjoye.

Hinzu kommt: Viele der ganz legal weitergegebenen Datensätze enthalten noch weitaus mehr Parameter pro Person: „Der Datenbroker Experian hat beispielsweise einen anonymisierten Datensatz von 120 Millionen US-Amerikanern mit jeweils 248 Attributen pro Haushalt weiterverkauft“, berichten die Forscher.

Online-Tool zum Selbstausprobieren

Wer selbst herausfinden möchte, wie leicht er anhand seiner Attribute identifizierbar ist, kann dies in einem von den Forschern entwickelten Online-Tool prüfen. Dieses fragt zunächst nur die Postleitzahl, das Geschlecht und das Geburtsdatum ab und gibt auf dieser Basis eine erste Einschätzung des Re-Identifizierungsrisikos. Die Daten werden dabei nicht gespeichert, wie die Wissenschaftler betonen.

Im nächsten Schritt kann man dann weitere Parameter wie Beziehungsstatus, Zahl der Autos, oder den Berufsstatus angeben und das Programm rechnet erneut. Dadurch lässt sich leicht erkennen, wie viele und welche Parameter nötig sind, um die Zahl der möglichen Personen auf nur noch eine zu reduzieren – uns selbst.

Weckruf für Politik und Gesetzgeber

Nach Ansicht von Rocher und seinem Team reichen die gängigen Methoden der Anonymisierung demnach nicht aus, um unsere individuelle Datenspur zu verwischen. „Uns wird oft versichert, dass die Anonymisierung unsere persönlichen Informationen schützt. Aber unsere Studie belegt, dass diese einfache De-Identifikation nicht einmal ansatzweise genügt, um die Privatsphäre unserer Daten zu schützen“, sagt Rochers Kollege Julien Hendrickx.

Die Forscher sehen in ihren Ergebnissen auch einen Weckruf für Politiker und Gesetzgeber: „Wenn die Standards für die Anonymisierung neu definiert werden, wie unter anderem in der EU der Fall, dann ist es essenziell, dass diese Vorgaben robust sind und auch neue Gefahren wie die hier von uns präsentierten mit berücksichtigen“, betonen Rocher und seine Kollegen. (Nature Communications, 2019; doi: 10.1038/s41467-019-10933-3)

Quelle: Imperial College London

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

News des Tages

Diaschauen zum Thema

Dossiers zum Thema

Big Data - Mehr Daten – mehr Erkenntnis?

Bücher zum Thema

Die berechnete Welt - Leben unter dem Einfluss von Algorithmen Von Nora S. Stampfl

Smarte Maschinen - Wie Künstliche Intelligenz unser Leben verändert von Ulrich Eberl

Maschinen mit Bewusstsein - Wohin führt die künstliche Intelligenz? von Bernd Vowinkel

Top-Clicks der Woche