Pseudonymisering og anonymisering

Pseudonymisering og anonymisering

Pseudonymisering og anonymisering er vigtige teknikker til at forbedre sikkerheden for de registrerede. Der har siden tidernes morgen være fokus på anonymisering, hvorimod pseudonymisering er et nyere begreb. I denne artikel vil vi se lidt på, hvordan pseudonymisering og anonymisering kan spille en rolle i forhold til at skabe GDPR-compliance og beskytte de registreredes rettigheder.

Baggrund

Anonymisering omtales i persondataforordningens præambel 26 som ”oplysninger, der ikke vedrører en identificeret eller identificerbar fysisk person, eller for personoplysninger, som er gjort anonyme på en sådan måde, at den registrerede ikke eller ikke længere kan identificeres”. Der må altså ikke være nogen som kan genkende personerne ud fra oplysningerne eller ved kombination med andre oplysninger. Det er en betingelse af anonymiseringen er uigenkaldelig i den betydning, at der ikke findes en måde for nogen til at tilknytte oplysningerne til en fysisk person igen. Når data er anonymiseret er de ikke længere personoplysninger og falder dermed helt udenfor persondataforordningen. Allerede fra databeskyttelsesdirektivet 95/46/EF, har dette været praksis.

Pseudonymisering er defineret i persondataforordningens artikel 4 som en ”behandling af personoplysninger på en sådan måde, at personoplysningerne ikke længere kan henføres til en bestemt registreret uden brug af supplerende oplysninger, forudsat at sådanne supplerende oplysninger opbevares separat og er underlagt tekniske og organisatoriske foranstaltninger for at sikre, at personoplysningerne ikke henføres til en identificeret eller identificerbar fysisk person”. Pseudonymisering er et nyere begreb, som ikke var omtalt i databeskyttelsesdirektivet, men som har fundet indpas i persondataforordningen, hvor begrebet er omtalt 15 steder – især som en sikkerhedsforanstaltning eller en designforanstaltning.

Der er ikke nogen tvivl om at anonymisering og pseudonymisering har et enormt potentiale til at øge sikkerheden for de registrerede! Men det forudsætter, at det er gjort korrekt. I forhold til persondataforordningen er det centrale spørgsmål, om uvedkommende kan hæve anonymiseringen eller pseudonymiseringen og på den måde re-identificere de registrerede. Hvis det sker, er der tale om et sikkerhedsbrud i forordningens forstand, og den dataansvarlige kan potentielt set få en bøde for ikke at have iværksat sine foranstaltninger på den rette måde.

Mislykket anonymisering, to berømte cases

Case 1
I 2006 offentliggjorde AOL 20 millioner søgninger fra en tremåneders periode fra 650.000 brugere med det formål at stille søgningerne til rådighed for videnskaben. AOL havde forinden anonymiseret data ved at fjerne IP-adresser og erstatte brugernavne med en unik kode pr. brugernavn. På baggrund af selve søgningerne lykkedes det forholdsvist hurtigt for to journalister ved The New York Times at identificere en ældre dame som en af de såkaldt anonymiserede brugere. Hun havde i sine søgninger brugt personnavne, geografiske oplysninger, signaleret at hun havde hund og var interesseret i 60 årige mænd. Som journalisterne skriver: ”Her searches are a catalog of intentions, curiosity, anxieties and quotidian questions.”. 

Case 2
I 2006 offentliggjorde Netflix et anonymiseret datasæt med over 100 millioner ikke-offentlige filmratings fra 480.000 brugere, hvor brugernes navne var erstatte med et nummer. Samtidig udlovede Netflix en præmie på 1 mio. $ til den, som kunne bidrage til at forbedre Netflix filmanbefalingsalgoritme på baggrund af denne data. To forskere analyserede data og koblede dem sammen med en lille stikprøve af offentlige data fra filmdatabasen, IMDb, hvor brugere også ratede film, og hvor ratings var offentlige. Ved at korrelere de to datasæt kunne forskerne identificere 84% af Netflix-brugerne. De kunne samtidig på baggrund af de ikke-offentlige ratings vurdere, om brugerne havde interesse for visse politiske, religiøse og seksuelt orienterede film, og på den baggrund med en vis sandsynlighed sige noget om brugere politiske observans, religiøse overbevisning og seksuelle præferencer.

Tre risici mod vellykket anonymisering

Når man anonymiserer, kan man for at vurdere, om anonymiseringen kan angribes, prøve at se på nogle af de trusler, som kan rettes mod det anonymiserede datasæt. Der er tre typer af risici:

  • Udskilning / Singling out: isolere nogle records i et dataset, så et individ kan identificeres
  • Sammenkobling / Linkability: skabe et link mellem to records om en registreret
  • Udledning / Inference: med tilstrækkelig sandsynlighed deducere værdien af en attribut ud fra værdien af andre attributter og på den baggrund identificere den registrerede.

Disse tre typer af risici har artikel 29-gruppen afprøvet i forhold til de gængse anonymiseringsteknikker.

Anonymiseringsteknikker

Overordnet set er der to måder at anonymisere på: randomisering og generalisering.
Randomisering vil sige, at man ændrer på datas nøjagtighed, således at det ikke længere er muligt at skabe en forbindelse mellem data og person. Der findes forskellige måder at randomisere på:

Randomisering

  • Noise addition:
    Her tilføjer man støj til observationerne i et datasæt. Hvis støjen er tilfældig kan man forvanske de enkelte data, men bevare gennemsnittet af observationerne. Hvis man f.eks. har et datasæt med ti højde målinger og tilføjer støj af formen +/- 10 cm til hver af målingerne er gennemsnittet det samme, men hvad der tidligere var højest er ikke længere nødvendigvis højest, så f.eks. den indbyrdes rangorden er dermed ændret.
  • Permutation:
    Her bytter man om på observationerne i et datasæt, så nogle data tilknyttes et andet individ end oprindeligt. Fordelen ved dette er, at der ikke ændres på værdierne i sig selv.
  • Differential privacy:
    Her tilføjer man også støj, men gør det først efter at en analytiker har præsenteret det spørgsmål, han gerne vil have svar på. Støjen tilføjes på en sådan måde, at svaret er repræsentativt, men uden at analytikeren kan vide, om de data, han får adgang til faktisk er korrekte. Pointen er at analytikerens resultat skal være det samme uafhængigt af om en bestemt person er med i databasen eller ej.

Generalisering

Generalisering vil sige, at man ændrer på den relative størrelsesorden af de værdier, der er tilknyttet den registrerede. Man sænker dermed detaljeringsniveauet. I stedet for at tilknytte en alder på 47 år til den registrerede, kan man f.eks. sige at den registrerede er i aldersgruppen 40-50 år. På den måde er der typisk flere registrerede der tilknyttes den samme alder, og det bliver mindre sandsynligt at den enkelte registrerede kan udpeges. Man kan generalisere på f.eks. geografi, alder, løn, tidspunkt, vægt, højde eller doser.

  • Aggregering og k-anonymitet:
    Her fortsætter man med at generalisere i klasser, indtil det ikke længere er muligt at identificere en registreret i en gruppe af k individer. Ingen uvedkommende må med den baggrundsviden at en bestemt registreret indgår i et datasæt og viden om en attribut være i stand at udlede andre attributter. Informationen om enhver registreret I datasættet må ikke kunne udskilles fra de resterende k-1 personer i datasættet.

Et eksempel:
Nedenfor kan en uvedkommende med viden om, at en registreret er i et datasæt og viden om at alderen er 20 år fastslå den registreredes diagnose med sikkerhed.

Et andet eksempel:
Nedenfor har vi 2-anonymitet for attributterne alder, køn og by. Enhver kombination af disse attributter kan findes i mindst to rækker i datasættet. Vi kan dog samtidig konstatere at en bestemt mand på 19 år, som vi kender har en af tre diagnoser.

  • L-diversitet og T-closeness:
    L-diversitet udvider k-anonymitet sådan, at der i hver klasse skal være mindst L forskellige værdier. Selv med L-diversitet kan man ud fra en sandsynlighedsbetragtning, hvis der er en skæv fordeling af registrerede, med stor sandsynlighed identificere en registrets attribut. Det søges elimineret med T-closeness, hvor det er et krav, at hver af de L værdier i klassen, skal følge den samme fordeling som den initiale fordeling af hver attribut. Fordelen ved L-diversitet og T-closeness er at en angriber ikke kan være fuldstændig sikker på at en registreret har en bestemt attribut.

Pseudonymiseringsteknikker

Pseudonymisering består i at erstatte noget umiddelbart identificerende som f.eks. CPR-nummer med en anden talværdi i et datasæt. Sammenhængen mellem denne talværdi og CPR-nummeret opbevares så i et andet datasat adskilt fra det første datasæt. Pseudonymiserede oplysninger er stadig personoplysninger fordi nogen kan genskabe sammenhængen – nemlig dem, som er i besiddelse af det andet datasæt. Sikkerheden bliver højnet fordi en angriber ikke nødvendigvis umiddelbart kan skabe sammenhængen mellem den registrerede og data i det første datasæt.

Pseudonymiseringsteknikker omfatter bl.a.:

  • Kryptering med hemmelig nøgle: identificerende data (f.eks. CPR-nummer) krypteres med den hemmelige nøgle, hvor den der er i besiddelse af nøglen kan genskabe sammenhængen.
  • Hash-funktioner: identificerende data (f.eks. CPR-nummer) i en database hashes, men hvis en angriber hasher alle CPR-numre og sammenligner disse med hashværdierne i databasen, kan man udpege de identificerede data (f.eks. CPR-nummer) ved at sammenligne hashværdierne.
  • Forskellige andre kryptoteknikker.

Konklusion

I praksis er det vanskeligt at anonymisere personoplysninger fuldstændig og mange dataansvarlige har gennemhistorien måttet erfare, at deres forsøg er slået fejl. Pseudonymisering og anonymisering har dog et stort potentiale, fordi den registreredes risici ved en behandling reduceres betragteligt. I praksis kan man lave rigtig meget sagsbehandling på pseudonyme data, således at kun en meget begrænset kreds af aktører faktisk kan finde ud af, hvem de behandler data om. Tilsvarende kunne man forestille sig, at nøglen til at genskabe sammenhængen mellem identitet og pseudonym blev overladt til den registrerede og dermed gav den registrerede maksimal kontrol over sine personoplysninger.

Links

Artikel 29-gruppens Opinion om anonymiseringsteknikker (Opinion 05/2014):
https://www.dataprotection.ro/servlet/ViewDocument?id=1085

Det norske datatilsyns vejledning om anonymisering (især bilagene):
https://www.datatilsynet.no/globalassets/global/regelverk/veiledere/anonymisering-veileder-041115.pdf

New York Times om mislykket anonymisering hos AOL:
https://www.nytimes.com/2006/08/09/technology/09aol.html

Arvind Narayanan og Vitaly Shmatikov, ”Robust De-anonymization of Large Datasets (How to Break Anonymity of the Netflix Prize Dataset):
https://arxiv.org/pdf/cs/0610105.pdf

Differential privacy – simply explained:
https://www.youtube.com/watch?v=gI0wk1CXlsQ

Om Henning Mortensen

Om Henning Mortensen

Henning har igennem mere end 15 år rådgivet og udgivet en række vejledninger og værktøjer til danske virksomheder om it-sikkerhed og persondataret i sin rolle som chefkonsulent i Dansk Industri. I dag er Henning IT-sikkerhedschef og Chief Privacy Officer ved Brødrene A&O Johansen A/S og sidder derfor på daglig basis og arbejder med forordningen i praksis. Henning er desuden formand for Rådet for Digital Sikkerhed, medlem af Virksomhedsrådet for IT-sikkerhed, Privacy Evangelist for Wired Relations – easy GDPR software og en hyppigt anvendt underviser og foredragsholder. Henning Mortensen blev tildelt Databeskyttelsesprisen 2018 for sit lange seje træk med at omsætte databeskyttelse til konkret vejledning og gode råd, som er anvendelige for både myndigheder og store og små virksomheder.

Følg Henning Mortensen på Linkedin