Tietosuojavaltuutetun ohjaus avoimen tieteen periaatteiden toteuttamisesta henkilötietoja sisältävän tutkimusaineiston osalta

Dnro 3744/41/2016
6.3.2017

Asian kuvaus

Tietosuojavaltuutetun toimistoon saatettiin vireille asia, jossa pyydettiin ohjausta ja neuvontaa henkilötietolain sekä muun tietosuojalainsäädännön asettamista reunaehdoista koskien avoimen tieteen periaatteita. Ohjausta pyydettiin siitä, kuinka avoimen tieteen periaatteita voidaan noudattaa kliinisissä lääketutkimuksissa siten, että huomioidaan henkilötietolain säännökset ja muut tietosuojalainsäädännön ehdot. Ohjausta pyydettiin myös genomitiedon jakamisesta julkisissa tietokannoissa.

Tietosuojavaltuutetun vastaus

Taustaa

Viime vuosina avoimen tieteen vaatimukset tutkimustoiminnalle ovat kasvaneet. Niin tutkimusten rahoittajat kuin tieteellisiä artikkeleja julkaisevat journaalit edellyttävät usein sitä, että tutkija noudattaa avoimen tieteen ja datan periaatteita tutkimuksensa osalta mahdollisimman laaja-alaisesti. Avoimuuden vaatimukset kohdistuvat niin tutkimuksen tuloksena julkaistaviin artikkeleihin kuin tulosten taustalla olevaan tutkimusaineistoon. Avoimuudella pyritään muun muassa edistämään tietoaineistojen uudelleen hyödyntämistä, tutkimuksen laatua ja vaikuttavuutta sekä ehkäisemään tiedevilppiä.

Se, kuinka avoimuutta voidaan toteuttaa, riippuu tutkimusaineistosta. Tutkijan oman oikeusturvan kannalta on erittäin tärkeää, että hän tunnistaa tutkimusaineistoon käsittelyyn liittyvän oikeudellisen vastuun sekä ymmärtää lain säännöksistä sekä käyttölupaehdoista tulevat reunaehdot tutkimusaineiston käsittelylle omassa toiminnassaan.

Silloin kun tutkimusaineisto koostuu henkilötiedoista, tulee avoimuuden toteuttamisessa huomioida tietojen luovuttamisesta koskevasta sääntelystä sekä tietosuojasääntelystä tulevat reunaehdot avoimuuden toteuttamiselle.

Seuraavassa ohjauksessa tarkastellaan:
1) mikä on henkilötieto (ml. pseydonymisoitu aineisto) sekä
2) niitä säännöksiä, jotka ohjaavat henkilötietojen käsittelyä ja luovat käsittelylle reunaehtoja tutkimustoiminnassa
3) henkilötiedon anonymisointia sekä
4) geneettisten tietojen anonymisointiin liittyviä kysymyksiä.

Henkilötiedon käsite

Henkilötietolain 3 §:n mukaan henkilötiedolla tarkoitetaan kaikenlaisia luonnollista henkilöä taikka hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavia merkintöjä, jotka voidaan tunnistaa häntä tai hänen perhettään tai hänen kanssaan yhteisessä taloudessa eläviä koskeviksi.

Silloin kun henkilö voidaan suoraan tunnistaa esimerkiksi nimen tai muun suoran tunnisteen perusteella, voidaan henkilötiedon käsitteen määrittämistä pitää jokseenkin yksinkertaisena. Välillisellä tai epäsuoralla tunnistamisella tarkoitetaan puolestaan sitä, että käytettävissä olevat tunnisteet eivät ole riittäviä henkilön tunnistamiseen tietyssä tilanteessa. Tiedot voidaan kuitenkin muuttaa tunnisteelliseksi jostain muualta saatavan tiedon avulla. Myös välillisesti tai epäsuorasti tunnistettavat tiedot ovat henkilötietoja.

Henkilötietodirektiivin 29 artiklalla perustettu tietosuojatyöryhmä on henkilötietojen käsitteestä antamassaan lausunnossa 4/2007 todennut välillisen tunnistettavuuden osalta, että "Jos käytettävissä olevat tunnisteet eivät lähtökohtaisesti mahdollista henkilön tunnistamista, henkilö saattaa silti olla "tunnistettavissa", koska tieto yhdistettynä muihin tietoihin (joiden ei välttämättä tarvitse olla rekisterinpitäjän hallussa) mahdollistaa henkilön erottamisen muista."

Tutkimustoiminnassa on tyypillistä, että ennen kuin tietoja ryhdytään käsittelemään, ne pseudonymisoidaan. Uudelleentunnistamistekniikat ja käytäntö ovat osoittaneet sen, että peitenimillä suojattujen eli pseudonymisoitujen tietojen käsittely kuuluu henkilötietojen suojaa koskevan lainsäädännön soveltamisalaan. Peitenimillä suojaamisella tarkoitetaan tietueen yhden (tavallisesti ainutkertaisen) attribuutin korvaamista toisella. Henkilötietojen ns. koodaaminen on yksi pseudonymisointimenetelmä, jossa koodiavaimen haltija voi helposti tunnistaa uudelleen jokaisen rekisteröidyn purkamalla tietoaineiston salauksen.

WP 29 lausunnossa 5/2014 todetaan, että "erityinen salakuoppa on pitää peitenimillä suojattuja (pseudonymisoituja) tietoja anonyymeina tietoina. Teknistä analyysia käsittelevässä jaksossa selitetään, että peitenimillä suojattuja tietoja, ei voida rinnastaa anonyymeihin tietoihin, koska niiden avulla yksilö voidaan edelleen erottaa joukosta ja yhdistää eri tietoaineistoissa. Peitenimillä suojaaminen mahdollistaa todennäköisesti tunnistettavuuden, ja siksi peitenimillä suojatut tiedot kuuluvat edelleen tietosuojalainsäädännön piiriin. Tällä on merkitystä erityisesti tieteellisen, tilastollisen ja historian tutkimuksen yhteydessä."

Tutkimusrekisterit sisältävät usein hyvin laaja-alaisesti (useita tietotyyppejä) tietoa yksittäisistä rekisteröidyistä, joten lähtökohtaisesti pelkkä suorien tunnisteiden poistaminen on riittämätön toimenpide aineiston anonymisoimiseksi. Kerättävä aineisto voi sisältää yksityiskohtaista tietoa rekisteröidystä (esim. harvinainen sairaus) myös siten, että rekisteröity on välillisesti tunnistettavissa, vaikka suoria henkilötunnisteita ei sisältyisikään henkilörekisteriin tai rekisteröityä koskevien tietotyyppien määrä olisi vähäinen. Tärkeää on myös havaita, että henkilön tunnistaminen ei tarkoita välttämättä henkilön nimen selvittämistä, vaan henkilö voi olla tunnistettavissa myös muiden tietojen perusteella.

Henkilötietojen suojaa koskevat säännökset tulevat sovellettavaksi niin kauan, kun kyseessä olevat tiedot ovat palautettavissa tunnisteellisiksi tai muutoin välillisesti tunnistettavissa tiettyä henkilöä koskeviksi.

Henkilötietojen käsittelyn reunaehdot tutkimustoiminnassa

Kun henkilötietoja käsitellään tieteellisen tutkimuksen tarkoituksia varten, tutkimusaineiston rekisterinpitäjän määräysvaltaa tutkimusaineiston käsittelyn osalta rajaavat 1) luovutusta koskevat säännökset (ml. salassapitosäännökset), 2) käyttölupaan sisällytetyt ehdot, 3) henkilötietojen käsittelyn oikeudellinen perusta, 4) henkilötietolain 14 §:ssä säädetyt suojatoimenpiteet ja 5) muut tietosuojaperiaatteista kumpuavat vaatimukset henkilötietojen käsitellylle. Tutkimuksen tekijän oman oikeusturvan kannalta on erittäin tärkeää, että hän tunnistaa näiden reunaehtojen rajaavan vaikutuksen tutkimusaineistoon kohdistuvan määräysvallan osalta.

Käytännössä tutkimusaineiston käsittelyperusteet voidaan jakaa kahteen kategoriaan: 1) rekisteröidyn suostumuksella kerätyt tutkimusaineistot, joiden käsittelyperusteena on henkilötietolain mukainen suostumus (henkilötietolain 3 §, 8 § ja 12 §) ja 2) viranomaisen henkilörekisteristä viranomaisen luvalla saadut tietoaineistot, joiden käsittelyperuste tieteellisen tutkimuksen osalta pohjaa useimmiten henkilötietolain 14 §:ään [1] (sekä arkaluonteisten tietojen osalta 12 §:ään). Tutkimusaineisto voi olla kokonaan suostumukseen tai viranomaisen lupaan pohjautuva tai tutkimusaineisto voi sisältää sekä suostumuksella että luvan nojalla saatuja henkilötietoja.

Suostumus on henkilötietolain mukaan vapaaehtoinen, yksilöity ja tietoinen tahdon ilmaisu, jolla rekisteröity hyväksyy henkilötietojensa käsittelyn (henkilötietolain 3 §), yksiselitteinen (henkilötietolain 8 §) ja arkaluonteisten henkilötietojen osalta lisäksi nimenomainen (henkilötietolain 12 §). Suostumuksella kerättyjen tietojen käyttöä, ja näin ollen myös tutkijan mahdollisuutta käsitellä henkilötietoja, rajaa suostumuksen sisältö eli se, minkälaiseen käsittelyyn suostumus on annettu. Suostumuksen tulee täyttää edellä mainitut laissa määritellyt kriteerit, jotta se voi toimia henkilötietojen lainmukaisena käsittelyperusteena.

Viranomaisaineistojen osalta käsittelyä rajaavat viranomaisten toiminnan julkisuudesta annetun lain (621/1999) eli julkisuuslain luovutusta koskevat säännökset (mm. 16 §:n 3 momentti sekä 28 §). Tietojen luovuttaminen edellyttää usein myös käyttölupaa, jossa asetetaan ehdot tutkimusaineiston käsittelylle. Silloin kun tutkimuksessa käsitellään salassa pidettäviä tietoja (kts. tarkemmin julkisuuslain 24 §), jotka on saatu viranomaiselta luvan nojalla, tutkijaa koskevat myös julkisuuslain mukaiset salassapitovelvoitteet (julkisuuslain 23 § 2 momentti), joihin sisältyy asiakirjasalaisuus (22 §) sekä vaitiolovelvollisuus ja hyväksikäyttökielto (23 §). Näin ollen tutkijaa, joka käsittelee viranomaisrekisteristä saatua aineistoa, koskee lähtökohtaisesti samat salassapitovelvoitteet, kuin tietoja luovuttanutta viranomaista.

Käsittelyperusteista tulevien reunaehtojen ohella, on kaikessa tutkimustoiminnassa huomioitava myös henkilötietolain 14 §:stä tulevat "suojatoimenpiteet". Suojatoimenpiteet edellyttävät suostumuksen priorisoinnin ohella, että 1) henkilörekisterin käyttö perustuu asianmukaiseen tutkimussuunnitelmaan ja tutkimuksella on vastuullinen johtaja tai siitä vastaava ryhmä, 2) henkilörekisteriä käytetään ja siitä luovutetaan henkilötietoja vain historiallista tai tieteellistä tutkimusta varten sekä muutoinkin toimitaan niin, että tiettyä henkilöä koskevat tiedot eivät paljastu ulkopuolisille sekä 3) henkilörekisteri hävitetään tai siirretään arkistoitavaksi tai sen tiedot muutetaan sellaiseen muotoon, ettei tiedon kohde ole niistä tunnistettavissa, kun henkilötiedot eivät enää ole tarpeen tutkimuksen suorittamiseksi tai sen tulosten asianmukaisuuden varmistamiseksi. On otettava huomioon, että mainittuja suojatoimenpiteitä sovelletaan riippumatta siitä, mikä on henkilötietojen käsittelyn oikeusperuste.

Tämän lisäksi on huomioitava vielä muista tietosuojaperiaatteista kumpuavat käsittelyohjeet tutkimusaineistolle. Henkilötietolain 5 § edellyttää, että rekisterinpitäjä noudattaa tietosuojasäännöksiä sekä huolellisuutta käsitellessään henkilötietoja. Henkilötietolain 6 §:n mukainen suunnitteluvelvoite sekä 7 §:n mukainen käyttötarkoitussidonnaisuus toteutuu pääsääntöisesti sitä kautta, että tutkimuksesta laaditaan asianmukainen tutkimussuunnitelma, jonka kautta henkilötietojen käsittely sidotaan tiettyyn, yksilöityyn tutkimushankkeeseen. Asianmukainen tutkimussuunnitelma sisältää myös vaatimuksen tutkimustehtävän, aineiston sekä menetelmien määrittelemisestä mahdollisimman yksilöidysti. Henkilötietolain 9 §:n mukainen tarpeellisuusvaatimus edellyttää, että tutkimuksen yhteydessä käsitellään vain määritellyn käyttötarkoituksen (eli tutkimussuunnitelman) kannalta tarpeellisia henkilötietoja. Tutkimustulosten oikeellisuutta varmistaa henkilötietolain 9 §:n mukainen virheettömyysvaatimus, jonka mukaisesti "Rekisterinpitäjän on huolehdittava siitä, ettei virheellisiä, epätäydellisiä tai vanhentuneita henkilötietoja käsitellä." Henkilötietolain 32 §:n mukainen suojaamisvelvoite puolestaan edellyttää, että "Rekisterinpitäjän on toteutettava tarpeelliset tekniset ja organisatoriset toimenpiteet henkilötietojen suojaamiseksi asiattomalta pääsyltä tietoihin ja vahingossa tai laittomasti tapahtuvalta tietojen hävittämiseltä, muuttamiselta, luovuttamiselta, siirtämiseltä taikka muulta laittomalta käsittelyltä. Toimenpiteiden toteuttamisessa on otettava huomioon käytettävissä olevat tekniset mahdollisuudet, toimenpiteiden aiheuttamat kustannukset, käsiteltävien tietojen laatu, määrä ja ikä sekä käsittelyn merkitys yksityisyyden suojan kannalta." Tämän lisäksi jokaista tutkimusaineiston käsittelijää koskee henkilötietolain 33 §:n mukainen vaitiolovelvollisuus, joka edellyttää, ettei käsittelytoimenpiteiden yhteydessä saatuja tietoja toisen henkilön ominaisuuksista, henkilökohtaisista oloista tai taloudellisesta asemasta ilmaista sivullisille [2].

Mikäli tutkimuksen yhteydessä on tarpeellista siirtää henkilötietoja EU:n tai ETA-alueen ulkopuolelle ns. kolmansiin maihin, tulee varmistua siitä, että tällaiselle siirrolle on olemassa lainmukainen perusta (henkilötietolain 5 luku).

Anonymisointi

Tietosuojaa koskevia periaatteita ei sovelleta tietoihin, jotka on tehty anonyymeiksi siten, ettei rekisteröity ole enää tunnistettavissa. Se, voiko tietojen avulla tunnistaa henkilön ja voidaanko tietoja pitää anonyymeinä vai ei, riippuu tilanteesta. Kutakin tapausta on tarkasteltava erikseen ottaen huomioon missä määrin kohtuullisesti toteutettavissa olevia keinoja todennäköisesti käytetään kyseisen henkilön tunnistamiseksi.

Tietosuojaryhmä 29 (WP 29) lausunnossa 5/2014 anonymisointitekniikoista todetaan, että "anonymisointi tapahtuu käsittelemällä henkilötietoja siten, että henkilön tunnistaminen estyy peruuttamattomasti. Rekisterinpitäjän olisi näin tehdessään otettava huomioon kaikki "kohtuudella toteutettavissa" olevat keinot, joita joko rekisterinpitäjä tai jonkin kolmas osapuoli voi tunnistamiseen käyttää." Olennaista on havaita, että arvio tiedon anonymiteetistä tehdään niin alkuperäisen rekisterinpitäjän kuin kolmannen osapuolen näkökulmasta. Henkilötietojen käsittelystä on kysymys myös silloin, kun kolmas osapuoli (esim. sairastuneen lähisukulainen, muu sivullinen henkilö, joka on tavalla tai toisella saanut tiedon henkilön sairaudesta tai muusta yksilöivästä tiedosta tai terveydenhuollon ammattihenkilö, joka on osallistunut kyseisen henkilön hoitoon) voi tunnistaa henkilön, riippumatta siitä, mistä tai miten tunnistamisen mahdollistava taustatieto on saatu käyttöön. Se, onko mahdollinen taustatieto julkinen vai salassa pidettävä, ei tee tarpeettomaksi arvioita siitä, voidaanko kyseinen tieto taustatietojen avulla muuttaa henkilötiedoksi vai ei. Tunnistamisen kannalta tarpeelliset taustatiedot omaavalla henkilöllä on "kohtuullisen keinoin" mahdollisuus tunnistaa yksittäinen rekisteröity aineistosta, jos aineisto on laadittu siten, että siitä on pääteltävissä, mitkä tietueet koskevat yksittäistä rekisteröityä.

Koska anonymisointia tekevällä taholla ei useinkaan tosiasiassa ole olemassa varmuutta siitä, kuinka monesta rekisteröidystä ja kuinka laajalla ihmisryhmällä on olemassa sellaisia taustatietoja, jotka mahdollistavat tunnistamisen, tulee lähtökohdaksi ottaa anonymisoinnin toteuttaminen siten, ettei yksittäinen rekisteröity ole tuotetusta aineistossa varmuudella välillisesti tunnistettavissa edes omasta toimestaan. Esimerkiksi tilastoidun aineiston osalta rekisteröidyllä voi olla tieto siitä, että hänen tietonsa sisältyy kyseiseen tilastoon (esimerkiksi rintasyöpään sairastuneet vuonna 2016), mutta hänen ei pitäisi pystyä yksilöimään sitä, mikä tilastossa oleva tieto liittyy nimenomaisesti häneen.

Samaisessa WP 29 anonymisointia koskevassa lausunnossa todetaan, että "Jos rekisterinpitäjä ei poista alkuperäisiä (tunnistettavissa olevia) tietoja tapahtumatasolla ja luovuttaa tästä aineistosta osan edelleen, tuloksena olevassa aineistossa on edelleen henkilötietoja - - Jos rekisterinpitäjä aggregoi tiedot tasolle, jossa yksittäisiä tapahtumia ei ole mahdollista tunnistaa, aineistoa voidaan pitää anonyyminä". Näin ollen, jos alkuperäisestä tutkimusrekisteristä otetaan kopio, jota osin karkeistetaan, mutta tämä karkeistettu versio olisi yhä muutettavissa tunnisteelliseksi, kun sitä verrataan yhä olemassa olevaan alkuperäiseen tutkimusrekisteriin, on tämä kopioitu versio yhä katsottavissa henkilörekisteriksi. Tämänkaltaisessa tilanteessa anonymisoidun tiedon saavuttamisen edellytyksenä voi olla se, että alkuperäinen tutkimusrekisteri hävitetään. Mikäli alkuperäisen tutkimusrekisterin säilyttäminen on tarpeen esimerkiksi rekisterinpitäjälle kuuluvan arkistointivelvoitteen vuoksi tai rekisteriä muutoin säilytetään tutkimustulosten asianmukaisuuden varmistamiseksi, saattaa anonymisointiprosessin aloittaminen olla mahdollista vasta tämän säilytysajan päättymisen jälkeen. Kliinisten lääketutkimusten osalta on huomioitava Fimean määräys, joka määrittää tutkimustiedostojen ja tutkimusasiakirjojen säilytysaikaa [3]. Tutkimustoiminnassa hyödynnetään usein viranomaisrekisterissä olevia tietoja, joten tiedon anonymiteettia arvioidessa on huomioitava myös se, voitaisiinko tuotettu aineisto saada takaisin tunnisteelliseksi, jos sitä verrataan aineiston pohjarekisterinä toimineisiin viranomaisrekistereihin.

WP 29 mukaan "tehokas anonymisointiratkaisu estää kaikkia osapuolia erottamasta yksilöä tietoaineistosta, yhdistämästä kahta tietuetta tietoaineiston sisällä (tai kahden erillisen tietoaineiston välillä) ja päättelemästä mitään tietoja tällaisessa tietoaineistossa. Siitä syystä suorien tunniste-elementtien poistaminen ei yleensä riitä varmistamaan, että rekisteröidyn tunnistaminen ei ole mahdollista." Näin ollen pelkkien suorien tunnistetietojen poistaminen on pääsääntöisesti riittämätön toimenpide muuttamaan aineiston anonyymiin muotoon.

On tärkeä havaita, että anonymisointikäytäntöjen ja -tekniikoiden vahvuus vaihtelee. Anonymisoitu aineisto sisältää periaatteessa kolme keskeistä riskiä tunnistettavuuden osalta:

1. Erottaminen joukosta tarkoittaa mahdollisuutta eristää jokin tai kaikki tietueet, joilla yksilö tunnistetaan tietoaineistosta.

2. Yhdistettävyys tarkoittaa mahdollisuutta yhdistää vähintään kaksi tietuetta, jotka koskevat samaa rekisteröityä tai rekisteröityjen ryhmää (joko samassa tietokannassa tai kahdessa eri tietokannassa). Jos hyökkääjä voi (esim. korrelaatioanalyysin avulla) todeta, että kaksi tietuetta koskee samaa yksilöiden ryhmää, mutta ei pysty erottamaan yksilöitä kyseisestä ryhmästä, tekniikka tarjoaa suojan joukosta erottamista vastaan, mutta ei yhdistettävyyttä vastaan.

3. Päättely tarkoittaa mahdollisuutta päätellä attribuutin arvo muiden attribuuttien sarjan arvoista huomattavan todennäköisesti.

Rekisterinpitäjän on tärkeä tunnistaa, että anonymisointi sisältää aina jäännösriskin tunnistettavuudesta. Tunnistamisriskiä on arvioitava säännöllisesti, joten anonymisointi ei tästä näkökulmasta katsottuna ole kertaluonteinen toimenpide, vaan anonymiteetin turvaaminen edellyttää aineiston jatkuvaa seurantaa. On syytä myös havaita, että käytettävissä on yhä enemmän edullisia teknisiä keinoja tunnistaa yksilöitä tietoaineistoista ja se, että julkisesti saatavissa on aiempaa enemmän muita tietoaineistoja (muun muassa avoimen datan periaatteen mukaisesti julkaistuja). Tunnistamisriski saattaa ajan mittaan kasvaa ja se riippuu myös tieto- ja viestintätekniikan kehityksestä. Jo nyt on olemassa monia esimerkkejä, joissa epätäydellinen anonymisointi on vaikuttanut myöhemmin haitallisesti ja toisinaan korjaamattomasti rekisteröityihin.

Geneettisen tiedon anonymisoinnista

Geneettiset tiedot kuuluvat henkilötiedon määritelmän piiriin. Yleisen tietosuoja-asetuksen 34 resitaalin mukaan "Geneettiset tiedot olisi määriteltävä henkilötiedoiksi, jotka liittyvät luonnollisen henkilön perittyihin tai hankittuihin ominaisuuksiin, koska ne on saatu kyseisen luonnollisen henkilön biologisesta näytteestä analysoimalla, erityisesti kromosomien DNA:sta tai RNA:sta tai muusta vastaavia tietoja tarjoavasta tekijästä tehdyllä analyysilla." Geneettiset tiedot luetaan yleisessä tietosuoja-asetuksessa ns. "erityisiin tietoryhmiin", eli kyseiset tiedot ovat luonteeltaan arkaluonteisia.

Tietosuojaryhmä WP 29 on vuonna 2004 laatinut geneettisiä tietoja käsittelevän valmisteluasiakirjan, jossa todetaan, että geneettisten tietojen erityispiirteisiin kuuluu muun muassa se, että tiedot ovat ainutkertaisia ja erottavat yksilön toisista yksilöistä, mutta samalla ne voivat antaa informaatiota kyseisen yksilön biologisista sukulaisista edeltäviä ja seuraavia sukupolvia myöten. Lisäksi ne voivat kuvata yksilöistä koostuvaa ryhmää (esim. etnisiä yhteisöjä). Geneettisten tietojen perusteella voidaan selvittää sukulaisuussuhteita (esim. vanhemmuus).

Geneettisen tiedon osalta on tärkeä tunnistaa, että siihen sisältyvät tietyt profiilit ovat luonteeltaan ainutlaatuisia. Tämän vuoksi geneettinen tieto voi olla luonteeltaan yhä tunnistettavissa olevaa, vaikkei sen yhteydessä olisikaan suoria tai muita tunnistetietoja.

Geneettisen tiedon anonymisoinnissa on haasteena myös se, että geenianalyysin raakadataa säilytetään usein analyysin tehneessä laboratoriossa pidemmän aikaa syytä tai toisesta. Vastaavasti, jos tutkimuksen pohjarekisteriä säilytetään tutkimustulosten oikeellisuuden tarkistamista varten tai aineisto muusta syytä arkistoidaan, voi tämä säilytysaika osaltaan, kuten jo aiemmin esitetty, kaventaa anonymisointimahdollisuuksia. WP 29 geneettisiä tietoja käsittelevässä valmisteluasiakirjassa anonymisoinnin osalta ongelmaksi on nostettu muun muassa se, että
" - - tutkimuksen tekijän on tietyn ajan ja tutkimuksen tarkoituksia varten pystyttävä yhdistämään tiedot rekisteröityyn (esim. arvioidakseen sairauden etenemistä tai reagoimista hoitoon). Lisäksi on osoittautunut, että varastoitu DNA voidaan yhdistää johonkuhun tiettyyn henkilöön eräiden lisätietojen avulla, vaikkei näytteitä olisikaan varastoitu yksilöidysti."

Geenitiedon anonymisoinnissa haastavuutta lisää myös se, että geneettinen tieto liittyy useampaan henkilöön ja jonkun muun henkilön luovuttama tieto (esimerkiksi kaukainen serkku) voi johtaa toisen henkilön yksilöimiseen. Avoimessa verkossa on saatavilla kansainvälisiä nettisukupuita, jotka tarjoavat mahdollisuuden selvittää omaa perhetaustaa ja eri henkilöiden välisiä sukulaisuussuhteita muun muassa geenitestauksella ja DNA-palveluilla [4]. Tätä taustaa vasten sen olennaisen seikan arviointi, mitä tunnistamisessa hyödynnettävä taustatietoja on saatavilla avoimista lähteistä, voi olla erityisen haastavaa geneettisen tiedon kohdalla.

Todettakoon, että jo nyt on tutkimuksissa havaittu, että tietyn genomijakson näytteeksi luovuttaneiden ihmisten henkilöllisyys voidaan paljastaa julkisesti saatavilla olevan tiedon avulla. Näin tutkijat ovat onnistuneet tunnistamaan nimettömän DNA-luovuttajan henkilöllisyyden (Yaniv Erlich 2013). Tiettyjen yksilöiden henkilöys voidaan paljastaa yhdistämällä julkisesti saatavilla olevia geneettisiä resursseja (kuten sukutauluja, kuolinilmoituksia ja hakukonetuloksia) ja luovuttajien dna:ta koskevat metatiedot (luovutusajankohta, ikä, asuinpaikka), vaikka dna olisikin luovutettu "nimettömänä" (John Bohannon 2013).On myös osoitettu, että DNA-näytteestä saatavan tiedon avulla voidaan määrittää, onko henkilö osallistunut genomilaajuiseen assosiaatioanalyysiin (Genome-wide association study GWAS), vaikka tutkimustulokset olisikin julkaistu satoja tai tuhansia henkilöitä koskevana tilastollisena tietona (David Craig 2008).

Geneettisen tiedon osalta on olemassa lukuisia tekijöitä, jotka entisestään lisäävät anonymisoinnin haastavuutta. Erityisesti haastavuutta lisää se, että geneettinen tieto koskee useampaa kuin yhtä henkilöä ja toisen henkilön geneettinen tieto voi johtaa toisen henkilön tunnistamiseen. Tästä johtuen yksittäiselle rekisterinpitäjälle sen hahmottaminen, mitä tunnistamisen mahdollistavaa tietoa on yleisesti tai muutoin saatavilla, voi olla äärimmäisen hankalaa. Geneettisen tiedon kohdalla tiedon anonymiteettiä ei voi välttämättä peilata vain yksittäisen rekisteröidyn kautta. Geneettistä tietoa ei tule jakaa julkisessa tietokannassa, jollei tiedon anonymiteetistä voida varmistua.

Johtopäätös

Vain anonyymiä dataa voidaan julkaista avoimen tieteen periaatteiden mukaisesti. Usein rahoittajat ja tieteelliset julkaisut tiedostavat sen, että on olemassa lainsäädännöllisiä rajoituksia sille, mitä tietoa voidaan saattaa julkisesti saataville.

Ottaen huomioon henkilötiedon käsitteen laajuuden ja toisaalta tiedon anonymisoinnin haasteellisuuden, yksittäisen tutkijan tai tutkijaryhmän osalta saattaa olla hyvin riskialtista lähteä toteuttamaan anonymisointiprosessia, jollei tutkijalla ja tutkimusryhmällä ole syvällistä asiantuntemusta anonymisointiprosessista sekä siitä, kuinka tiedon anonymiteettiä arvioidaan. Tutkijan on tällaisessa tilanteessa perusteltua kieltäytyä saattamasta tutkimusdataa muiden tahojen saataville avoimesti, jos se on tarpeen tietojen luovuttamista koskevien säännösten, käyttölupaehtojen ja tietosuojasäännösten noudattamiseksi. Oman toiminnan lainmukaisuuden varmistaminen on painava ja pätevä syy kieltäytyä luovuttamasta aineistoa.

Henkilötietoaineistoihin pohjautuvien tutkimusten osalta avoimen datan politiikkaa on mahdollista toteuttaa esimerkiksi siten, että tutkimusaineisto, tietolähteet ja analyysissä käytetyt metodit tai koodit kuvataan yksityiskohtaisesti julkaistavassa artikkelissa, jotta tarvittaessa tutkimus voidaan pyrkiä toistamaan mahdollisimman samanlaisena.

Lisätietoja tietosuojasta löydätte toimistomme sivuilta www.tietosuoja.fi. Ohjaan teitä myös tutustumaan tarkemmin seuraaviin WP 29 -lausuntoihin:

WP 29 Geneettisiä tietoja käsittelevä valmisteluasiakirja: http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2004/wp91_fi.pdf

WP 29 lausuntoon 5/2014 anonymisointitekniikoista: http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2014/wp216_fi.pdf


[1] Henkilötietolain 14 § toimii tutkimustoiminnassa käsittelyperusteena silloin, kun käsittelylle ei ole löydettävissä muuta henkilötietolain 8 §:ssä säädettyä perustetta.

[2] Sivullisella tarkoitetaan henkilötietolain 3 §:n mukaan muuta henkilöä, yhteisöä, laitosta tai säätiötä kuin rekisteröityä, rekisterinpitäjää, henkilötietojen käsittelijää tai henkilötietoja kahden viimeksi mainitun lukuun käsittelevää.

[3] FIMEA:n määräys 2/2012: Alkuperäiset tutkimusasiakirjat on säilytettävä vähintään 15 vuoden ajan tutkimuksen päättymisestä. Potilastiedostojen säilyttämiseen sovelletaan niitä koskevia yleisiä säännöksiä ja määräyksiä. Tutkimusrekistereihin sovelletaan lisäksi, mitä henkilötietolaissa (523/1999) on säädetty.

[4] www.geni.com, http://fi.geneanet.org , www.myheritage.com, www.ancestry.com


 
Julkaistu 16.3.2017