08810 Datenschutz und k-Anonymität: Innovatives Datenmanagement im Forschungsprojekt track4science
|
Der Umgang mit Mobilitätsdaten ist sowohl mit technischen als auch mit rechtlichen Herausforderungen verbunden – insbesondere im Hinblick auf den Datenschutz. Der vorliegende Beitrag beleuchtet am Beispiel des Open-Science-Projekts track4science, wie durch den Einsatz innovativer Anonymisierungstechniken wie k-Anonymität und durch differenzierte organisatorische Maßnahmen Mobilitätsdaten sowohl rechtskonform als auch wissenschaftlich nutzbar gemacht werden können. Dabei wird praxisnah gezeigt, wie sich ein hohes Datenschutzniveau mit den Anforderungen der Forschung in Einklang bringen lässt, ohne die Datenqualität zu beeinträchtigen. Der Beitrag bietet wertvolle Einblicke in technische, rechtliche und organisatorische Vorgehensweisen und liefert Best Practices, die auf andere IT-Projekte mit sensiblen Daten übertragbar sind. Praktische Lösungsansätze wie die Umsetzung von Schutzmechanismen und die Sicherstellung der Datenminimierung liefern wertvolle Impulse. von: |
1 Einleitung
Technologie und Datenschutz
Gerade in Zeiten von „KI”, Big Data, Cloud-Computing sowie der zunehmenden Überwachung der Menschen durch die immer smartere Technik wird es immer wichtiger zu gewährleisten, dass der Mensch dadurch gerade nicht zum Objekt degradiert wird. Es ist daher zu verhindern, dass er aus den Daten, die er von sich bei der Nutzung dieser Technologie preisgibt, identifiziert wird bzw. werden kann und sich daraus in Konsequenz wie auch immer geartete Risiken für ihn ergeben.
Gerade in Zeiten von „KI”, Big Data, Cloud-Computing sowie der zunehmenden Überwachung der Menschen durch die immer smartere Technik wird es immer wichtiger zu gewährleisten, dass der Mensch dadurch gerade nicht zum Objekt degradiert wird. Es ist daher zu verhindern, dass er aus den Daten, die er von sich bei der Nutzung dieser Technologie preisgibt, identifiziert wird bzw. werden kann und sich daraus in Konsequenz wie auch immer geartete Risiken für ihn ergeben.
Optimalerweise sollen die Daten des Betroffenen bzw. des Nutzungsverhaltens weiterhin genutzt werden können, insbesondere auch, um dem Gemeinwohl zu dienen. Spannungsfeld Gemeinwohl
Das Problem beim „Gemeinwohl” ist jedoch, dass die DSGVO die Verarbeitung von Daten für das Gemeinwohl für sich gesehen als keinen eigenen Rechtfertigungsgrund der Datenverarbeitung ansieht. Gleichwohl ist dieser Gemeinwohlzweck im Forschungsprivileg implizit enthalten. Die Unwägbarkeit, die durch diese gesetzliche Umsetzung entsteht, ist jedoch gerade für die Wissenschaft und Forschung sehr unbefriedigend, denn die Forschung ist gerade auf offene und breit nutzbare Datenbestände angewiesen, die sie zum Wohle der Menschen bzw. der Allgemeinheit nutzen kann. Daher entsteht zwangsläufig ein Spannungsfeld zwischen „Datenschutz” zum Wohle eines Betroffenen und der Datennutzung für das Gemeinwohl.
Das Problem beim „Gemeinwohl” ist jedoch, dass die DSGVO die Verarbeitung von Daten für das Gemeinwohl für sich gesehen als keinen eigenen Rechtfertigungsgrund der Datenverarbeitung ansieht. Gleichwohl ist dieser Gemeinwohlzweck im Forschungsprivileg implizit enthalten. Die Unwägbarkeit, die durch diese gesetzliche Umsetzung entsteht, ist jedoch gerade für die Wissenschaft und Forschung sehr unbefriedigend, denn die Forschung ist gerade auf offene und breit nutzbare Datenbestände angewiesen, die sie zum Wohle der Menschen bzw. der Allgemeinheit nutzen kann. Daher entsteht zwangsläufig ein Spannungsfeld zwischen „Datenschutz” zum Wohle eines Betroffenen und der Datennutzung für das Gemeinwohl.
Anonymisierung als Lösung
Um den Datenschutz mit den Anforderungen wissenschaftlicher Auswertung in Einklang zu bringen, bietet sich eine Anonymisierung der Daten an. Weil damit eine Personenbeziehbarkeit der Daten ausgeschlossen ist, entfallen die Anforderungen des Datenschutzes.
Um den Datenschutz mit den Anforderungen wissenschaftlicher Auswertung in Einklang zu bringen, bietet sich eine Anonymisierung der Daten an. Weil damit eine Personenbeziehbarkeit der Daten ausgeschlossen ist, entfallen die Anforderungen des Datenschutzes.
Herausforderung Bewegungsdaten
Insbesondere die Nutzung von Mobilitätsdaten wie Bewegungsprofile etc. stellt die Forschung vor große Herausforderungen. Denn selbst wenn direkt identifizierende Merkmale aus diesen Daten entfernt werden, erlauben wiederkehrende Bewegungsmuster häufig Rückschlüsse auf Einzelpersonen. Daher erreicht man durch das bloße „Weglassen” oftmals nur eine sogenannte faktische Anonymisierung. Damit ist die Identifizierung für den Verantwortlichen möglicherweise nicht mehr möglich. Andere, die weitere Fähigkeiten zur Identifizierung haben, mithin „Zusatzwissen”, können den Personenbezug mit verhältnismäßig geringem Aufwand wiederherstellen. In einem solchen Fall sind diese Daten daher nicht wirklich als „anonym” im Sinne des Gesetzes anzusehen. Vielmehr muss man diese Daten, gerade weil sie noch einen Personenbezug zulassen, bei kritischer Betrachtung eher als „pseudonym” ansehen. Damit wird die Personenbeziehbarkeit nicht vollends ausgeschlossen, aber das Risiko für den Betroffenen gesenkt. Bei „pseudonymen” Daten finden also die Datenschutzregelungen weiterhin Anwendung, jedoch ist das Risiko für den Betroffenen oftmals reduziert, was als sinnvolle technische und organisatorische Maßnahme anzusehen ist.
Insbesondere die Nutzung von Mobilitätsdaten wie Bewegungsprofile etc. stellt die Forschung vor große Herausforderungen. Denn selbst wenn direkt identifizierende Merkmale aus diesen Daten entfernt werden, erlauben wiederkehrende Bewegungsmuster häufig Rückschlüsse auf Einzelpersonen. Daher erreicht man durch das bloße „Weglassen” oftmals nur eine sogenannte faktische Anonymisierung. Damit ist die Identifizierung für den Verantwortlichen möglicherweise nicht mehr möglich. Andere, die weitere Fähigkeiten zur Identifizierung haben, mithin „Zusatzwissen”, können den Personenbezug mit verhältnismäßig geringem Aufwand wiederherstellen. In einem solchen Fall sind diese Daten daher nicht wirklich als „anonym” im Sinne des Gesetzes anzusehen. Vielmehr muss man diese Daten, gerade weil sie noch einen Personenbezug zulassen, bei kritischer Betrachtung eher als „pseudonym” ansehen. Damit wird die Personenbeziehbarkeit nicht vollends ausgeschlossen, aber das Risiko für den Betroffenen gesenkt. Bei „pseudonymen” Daten finden also die Datenschutzregelungen weiterhin Anwendung, jedoch ist das Risiko für den Betroffenen oftmals reduziert, was als sinnvolle technische und organisatorische Maßnahme anzusehen ist.
Pseudonymisierung und Risiko
Daher gilt es bspw. bei Forschungsprojekten die Daten so zu verändern, dass bei den Daten optimalerweise der Personenbezug entfällt, sie aber weiterhin so aussagekräftig sind, dass man sie für Forschungsvorhaben unter Umständen einer breiten Community zur Verfügung stellen kann. Diese soll dann die veränderten Daten nutzen können, ohne etwaige Betroffene unnötigen Risiken auszusetzen.
Daher gilt es bspw. bei Forschungsprojekten die Daten so zu verändern, dass bei den Daten optimalerweise der Personenbezug entfällt, sie aber weiterhin so aussagekräftig sind, dass man sie für Forschungsvorhaben unter Umständen einer breiten Community zur Verfügung stellen kann. Diese soll dann die veränderten Daten nutzen können, ohne etwaige Betroffene unnötigen Risiken auszusetzen.
In der Praxis stellt sich oft die Frage, wie man bei einer „gesetzeskonformen” Anonymisierung vorgehen sollte und welche Schritte dabei zu beachten sind. Etwaige „good practices” sucht man jedoch oft vergebens.
Forschung und Anonymität
Daher soll Ihnen dieser Beitrag Hinweise dazu geben, wie man eine „Anonymisierung von Daten” am Beispiel von Mobilitätsdaten gesetzeskonform für Forschungsvorhaben umsetzen kann. Die Basis dazu bildet das Vorgehen im Forschungsprojekt „track4science”, in dem der Verfasser als rechtlicher Berater tätig war.
Daher soll Ihnen dieser Beitrag Hinweise dazu geben, wie man eine „Anonymisierung von Daten” am Beispiel von Mobilitätsdaten gesetzeskonform für Forschungsvorhaben umsetzen kann. Die Basis dazu bildet das Vorgehen im Forschungsprojekt „track4science”, in dem der Verfasser als rechtlicher Berater tätig war.
In nachfolgenden Ausführungen erhalten Sie Anregungen, wie Sie die im Projekt unternommenen Schritte auf eigene (Forschungs-)Projekte übertragen können und welche Aspekte Sie etwa im Rahmen des Projektmanagements beachten sollten.
Impuls für Projekte
Zwar richtet sich das Projekt in erster Linie an Forschungsinstitutionen und betrifft Sachverhalte, in denen diese sich auf das sog. Forschungsprivileg berufen können. Gleichwohl kann es durchaus auch für wirtschaftlich orientierte Unternehmen wichtige Hinweise dazu liefern, wie sie mit den Herausforderungen der Datennutzung von schwer zu anonymisierenden Daten umgehen können.
Zwar richtet sich das Projekt in erster Linie an Forschungsinstitutionen und betrifft Sachverhalte, in denen diese sich auf das sog. Forschungsprivileg berufen können. Gleichwohl kann es durchaus auch für wirtschaftlich orientierte Unternehmen wichtige Hinweise dazu liefern, wie sie mit den Herausforderungen der Datennutzung von schwer zu anonymisierenden Daten umgehen können.
k-Anonymität in der Forschung
Am Beispiel des Forschungsprojekts „track4science”, das Mobilitätsdaten und subjektive Merkmale erhebt, wird gezeigt, wie solche Daten mittels sog. „k-Anonymität” (Näheres zur k-Anonymität s. Abschnitt 5) sowie weiterer technischer und organisatorischer Maßnahmen geschützt werden können und wie dadurch gleichzeitig kooperative Forschung ermöglicht wird.
Am Beispiel des Forschungsprojekts „track4science”, das Mobilitätsdaten und subjektive Merkmale erhebt, wird gezeigt, wie solche Daten mittels sog. „k-Anonymität” (Näheres zur k-Anonymität s. Abschnitt 5) sowie weiterer technischer und organisatorischer Maßnahmen geschützt werden können und wie dadurch gleichzeitig kooperative Forschung ermöglicht wird.
Aggregation und Datenschutz
Ein wesentliches Element ist dabei die Aggregation seltener Merkmalsausprägungen zu größeren Kategorien, um faktische Anonymität herzustellen und Re-Identifikationsrisiken zu minimieren. Während subjektive Merkmale aus Umfragen in der Regel ein geringes Risiko bergen, weisen insbesondere Standortdaten ein großes Re-Identifikationspotenzial auf. Das Projekt verdeutlicht insgesamt, dass wissenschaftliche Forschung und Datenschutz miteinander vereinbar sind, sofern k-Anonymisierung, Pseudonymisierung und abgestufte Freigabemechanismen konsequent implementiert werden.
Ein wesentliches Element ist dabei die Aggregation seltener Merkmalsausprägungen zu größeren Kategorien, um faktische Anonymität herzustellen und Re-Identifikationsrisiken zu minimieren. Während subjektive Merkmale aus Umfragen in der Regel ein geringes Risiko bergen, weisen insbesondere Standortdaten ein großes Re-Identifikationspotenzial auf. Das Projekt verdeutlicht insgesamt, dass wissenschaftliche Forschung und Datenschutz miteinander vereinbar sind, sofern k-Anonymisierung, Pseudonymisierung und abgestufte Freigabemechanismen konsequent implementiert werden.
2 Projektüberblick: track4science – ein Open-Science-Projekt
Open Science – Ziele
Das Projekt „track4science”, das nachfolgend vorgestellt wird, ist ein Open-Science-Projekt. Open Science zielt darauf ab, wissenschaftliches Wissen offen verfügbar, zugänglich und wiederverwendbar zu machen. Es beruht unter anderem auf einem offenen Zugang zu wissenschaftlichen Mikrodaten, um Kostenersparnisse in der wissenschaftlichen Forschung zu realisieren, die Replizierbarkeit von Ergebnissen zu ermöglichen sowie Transparenz und Zusammenarbeit in der wissenschaftlichen Gemeinschaft zu stärken.
Das Projekt „track4science”, das nachfolgend vorgestellt wird, ist ein Open-Science-Projekt. Open Science zielt darauf ab, wissenschaftliches Wissen offen verfügbar, zugänglich und wiederverwendbar zu machen. Es beruht unter anderem auf einem offenen Zugang zu wissenschaftlichen Mikrodaten, um Kostenersparnisse in der wissenschaftlichen Forschung zu realisieren, die Replizierbarkeit von Ergebnissen zu ermöglichen sowie Transparenz und Zusammenarbeit in der wissenschaftlichen Gemeinschaft zu stärken.
track4science
Das Forschungsprojekt „track4science” ist eine gemeinsame Initiative des Ferdinand-Steinbeis-Instituts (FSTI) und der Technischen Universität München (TUM). Das Ziel des Projekts ist es, einen umfassenden Forschungsdatensatz zu Mobilitätsdaten zu erstellen, der als Reallabor dient und der wissenschaftlichen Gemeinschaft zugänglich gemacht werden kann. Dafür werden mittels einer Tracking-App hochwertige Mobilitätsdaten erhoben, die individuelle Bewegungsmuster automatisiert aufzeichnen.
Das Forschungsprojekt „track4science” ist eine gemeinsame Initiative des Ferdinand-Steinbeis-Instituts (FSTI) und der Technischen Universität München (TUM). Das Ziel des Projekts ist es, einen umfassenden Forschungsdatensatz zu Mobilitätsdaten zu erstellen, der als Reallabor dient und der wissenschaftlichen Gemeinschaft zugänglich gemacht werden kann. Dafür werden mittels einer Tracking-App hochwertige Mobilitätsdaten erhoben, die individuelle Bewegungsmuster automatisiert aufzeichnen.