Datanhallinnan muistilista

Miten huolehtia aineistosta?

Tutkimuksen läpinäkyvyyden, luotettavuuden, toistettavuuden ja todennettavuuden vuoksi on pystyttävä osoittamaan, mihin aineistoon tutkimuksen tulokset perustuvat. Useat rahoittajatahot vaativat, että tutkimussuunnitelmaan sisällytetään myös aineistonhallintasuunnitelma ja usein edellytyksenä on myös aineiston julkaiseminen luotettavassa säilytyspalvelussa. Kaikkea ei voi kuitenkaan julkaista avoimesti, jolloin kannattaa julkaista ainakin metadataa – tietoja aineistosta. Tutkimusaineistojen julkaiseminen on suhteellisen uusi ilmiö, jonka käytännöt ovat vielä kehittymässä. FAIR-periaatteiden mukaiset palvelut ja työkalut, kuten opetus- ja kulttuuriministeriön tarjoama Fairdata–palvelukokonaisuus, auttavat tuomaan muuttuvaan toimintaympäristöön läpinäkyvyyttä ja luotettavuutta.

Aineistojen kerääminen on usein työläs ja aina arvokas osa tutkimustyötä. Aineistojen julkaiseminen ja jakaminen voivat vähentää päällekkäistä työtä ja mahdollistaa resurssien uudelleenkäyttöä. Lisäksi yhä enemmän ymmärretään, että aineisto on yhtä validi tutkimuksen tuotos kuin julkaisu (katso esim. DORA-julistus, jonka tavoitteena on parantaa tutkimuksen evaluoinnin kriteereitä). Julkaistut aineistot saavat Fairdata-palveluissa pysyvän tunnisteen, joka mahdollistaa aineistojen löydettävyyden ja viittaamisen aineistoon. Uudelleenkäyttö ja viittaukset lisäävät tutkimuksen, tutkijan sekä organisaation näkyvyyttä ja vaikuttavuutta. Hyvä datanhallinta hyödyttää siis kaikkia osapuolia.

Datanhallintaan kuuluu aineiston keruun suunnittelu, datan järjestely, kuvailu, säilyttäminen, versionhallinta ja päätökset valmiiden tutkimusaineistojen pidempiaikaisesta säilytyksestä tai hävittämisestä sekä jakamisesta. Datanhallinta kannattaa suunnitella hyvin jo ennen tutkimusprojektin aloittamista ja suunnittelussa tulee ottaa huomioon koko tutkimusprojektin elinkaari:

Lähde: UK Data Services

1. Suunnitteluvaihe

Laadi aineistonhallintasuunnitelma (DMP – Data Management Plan). Sen kirjoittamisen tueksi on käytettävissä työkalu DMPTuuli, josta löydät eri rahoittajatahojen ja tutkimusorganisaatioiden (mm. Suomen Akatemian) datanhallintasuunnitelman pohjia. Vastaavia kansainvälisiä palveluita ovat DMPOnline ja DMPTool.

Pohdi suunnitteluvaiheen alussa seuraavia kysymyksiä:

  • Millaista aineistoa keräät ja mitä menetelmiä käytät? Onko jo olemassa aineistoja, joita voisit hyödyntää omassa tutkimuksessa?
  • Mistä haet rahoitusta? → Tarkista rahoittajatahon vaatimukset (esim. palvelussa Sherpa Juliet).
  • Onko kotiorganisaatiollasi datapolitiikka? → Selvitä mitä organisaatiosi edellyttää.
  • Tuleeko aineistosi sisältämään sensitiivistä dataa? → Tutustu ohjeisiin: Tunnisteellisuus ja anonymisointi (Tietoarkiston Aineistonhallinnan käsikirja). Tässä CSC:n sensitiivistä dataa käsittelevässä webinaarissa avataan tarkemmin, mitä on sensitiivinen data ja miten sitä tulee käsitellä.
  • Edellyttääkö tutkimuksesi riskinarviointia tai eettistä ennakkoarviointia? → Tutkimuseettisen neuvottelukunnan (TENK) sivu eettisestä ennakkoarvioinnista, tieteenalasi tai kotiorganisaatiosi oma eettinen toimikunta. Tarvittaessa suunnittele, miten tutkimuksessa toteutuu tutkittavien informointi ja tietoon perustuva suostumus (ohjeet esimerkiksi Aineistonhallinnan käsikirjassa).
  • Huolehdi jo suunnitteluvaiheessa sopimusasioista.  Tutkimusaineistoihin liittyvät omistus-, hallinta- ja tekijänoikeudet kannattaa määritellä hyvissä ajoin: kuka on aineistojen omistaja, kuka pääsee tutkimuksen toteutusvaiheessa lukemaan, muokkaamaan ja käsittelemään dataa? Sopikaa projektin jäsenten kesken selkeästi myös tekijyydestä. Lisätietoja saa esimerkiksi Aineistonhallinnan käsikirjasta tai TENKin ohjeista.
  • Määrittäkää mitä toimenpiteitä datalle pitää missäkin datan elinkaaren vaiheessa tehdä ja kuka varmistaa, että ne tulevat tehdyiksi.

Toimenpiteiden suunnittelun tukena voit käyttää seuraavissa kohdissa (2.-4.) esitettyjä kysymyksiä aineiston käsittelystä, säilytyksestä ja käytöstä sen elinkaaren eri vaiheissa. Tiivistelmän tärkeimmistä kysymyksistä löydät DCC:n laatimasta datanhallinnan tarkistuslistasta. Sarah Jonesin ja Marjan Grootveldin muistilista How fair are your data? auttaa hahmottamaan, onko aineistonhallinnan suunnitelma FAIR-periaatteiden mukainen. Jokaista yksityiskohtaa ei voi määritellä ja tietää heti suunnitteluvaiheessa, joten aineistonhallintasuunnitelmaan kannattaa palata ja päivittää tai täsmentää sitä tarvittaessa.

Tämä Research Data Netherlandsin video ”The what, why and how of research data management” antaa yleiskuvan aineistonhallintasuunnitelman rakenteesta ja hyvän suunnittelun hyödyistä.

2. Toteutusvaihe

Aineiston keruuseen ja käsittelyyn liittyvät toimintatavat ovat tieteenalasidonnaisia ja riippuvat pitkälti datan tyypistä ja ominaisuuksista. Muutamia hyvän käytännön ohjeita:

  • Huolehdi hyvästä dokumentaatiosta koko projektin aikana, koska kuvailun täydentäminen jälkikäteen on työlästä, ja joskus mahdotonta. Riittävä dokumentaatio tietoaineistoista, tietolähteistä ja analyyseissa käytetyistä metodeista sekä koodeista tukee tutkimuksen uudelleenkäyttöä ja toistettavuutta. Dokumentoi myös keruun, käsittelyn ja analyysin aikana tehtyjä muutoksia. Aineiston alkuperän ja kehityksen (provenanssin) tulisi olla läpinäkyvä. Se auttaa myös sinua seuraamaan, miten olet käsitellyt aineistoasi, vastaamaan siihen liittyviin kysymyksiin, ja löydät dokumentaatiosta tarvittavat tiedot jos hyödynnät myöhemmin aineistoa jatkotutkimuksissa.
  • Hyödynnä organisaatiosi tukipalveluita. Esimerkiksi yliopistojen kirjastot tarjoavat neuvontaa tai laitoksellasi saattaa olla data-agentti. Joissakin kysymyksissä organisaatiosi juridinen tuki tai tutkimusetiikan tukihenkilö voi olla avuksi.
  • Jos haluat perehtyä aineistonhallintaan syvemmin, voit hyödyntää verkkokursseja ja -materiaaleja. Tässä muutama esimerkki:

Vinkkejä hyvistä käytännöistä löydät esim. CSC:n oppaasta tai UK Data Service -palvelun oppaasta). Konkreettisia asioita, joita tulee ottaa huomioon suunnittelussa, ovat esimerkiksi:

 

3. Aineiston säilyttäminen

Pohdi datanhallintasuunnitelmassa, mitä tapahtuu aineistolle dynaamisen vaiheen jälkeen, kun aineisto on jo käsitelty ja tutkimuksen tulokset mahdollisesti jo julkaistu. Mitä pitäisi säilyttää ja missä, ja mitä saa tai pitää hävittää (esim. tietyt osat tunnisteellisesta datasta)? Mitä tulisi siirtää pitkäaikaissäilytykseen? Ota huomioon ainakin seuraavat asiat:

  • Säilytyksestä koituvat kustannukset, ml. aineiston säilytettävän version valmisteluun liittyvä työaika.
  • Rahoitustahon vaatimukset
  • Jos olet julkaissut tutkimuksesi tulokset, selvitä kustantajan ehdot, suositukset ja vaatimukset. Aineiston avaamiseen saattaa liittyä embargo, tai kustantaja voi edellyttää, että artikkeliin liittyvät aineistot ovat avoimesti saatavilla (esim. PLOS One -lehden datapolitiikka).
  • Pyri linkittämään samaan tutkimusprojektiin liittyviä tuotoksia, esim. jos aineisto sisältää monimuotoista dataa ja on mielekästä säilyttää eri osia eri arkistoissa. On myös hyvä linkittää aineistot ja niiden pohjalta kirjoitetut artikkelit. Tässä auttavat pysyvät tunnisteet.

Jos projektisi on johtanut ns. nollatulokseen, harkitse kuitenkin aineistojen avaamista. Negatiivistenkin tulosten julkaiseminen voi esimerkiksi vähentää päällekkäistä työtä, herättää keskustelua, tai sitä voi hyödyntää meta-analyysissa.

 

4. Aineiston jakaminen ja uudelleenkäyttö

Tutkimusaineiston elinkaari jatkuu vielä sen jälkeenkin, kun olet julkaissut tulokset. Kun datanhallintasuunnitelmassa pohdit jakamisen ja uudelleenkäytön mahdollisuuksia, pyri noudattamaan periaatetta ”mahdollisimman avoin, tarvittaessa suojattu”. Päätöksiin vaikuttavat mm. tekijänoikeudet, eettiset kysymykset ja aineistoon tai siihen pohjautuvaan artikkeliin liittyvät lisenssit.

Lisätietoja organisaatioille

Jos olet organisaation, kuten korkeakoulun, tieteellisen julkaisijan tai rahoittajatahon edustaja ja haluaisit tietää, miten organisaatiosi voisi edistää hyvää datanhallintaa, voit perehtyä raporttiin, jonka on laatinut Knowledge Exchange -työryhmä. Löydät suositukset organisaatioille sivuilta A4-A7, ja voit lukea yhteenvedon tekijöistä, jotka edistävät tai estävät aineistojen jakamista sivulla A11.

Incentives and motivations for sharing research data: a researcher’s perspective

Lisätietoa