Miten huolehtia aineistosta?
Tutkimuksen läpinäkyvyyden, luotettavuuden, toistettavuuden ja todennettavuuden vuoksi on pystyttävä osoittamaan, mihin aineistoon tutkimuksen tulokset perustuvat. Useat rahoittajatahot vaativat, että tutkimussuunnitelmaan sisällytetään myös aineistonhallintasuunnitelma ja usein edellytyksenä on myös aineiston julkaiseminen luotettavassa säilytyspalvelussa. Kaikkea ei voi kuitenkaan julkaista avoimesti, jolloin kannattaa julkaista ainakin metadataa – tietoja aineistosta. Tutkimusaineistojen julkaiseminen on suhteellisen uusi ilmiö, jonka käytännöt ovat vielä kehittymässä. FAIR-periaatteiden mukaiset palvelut ja työkalut, kuten opetus- ja kulttuuriministeriön tarjoama Fairdata–palvelukokonaisuus, auttavat tuomaan muuttuvaan toimintaympäristöön läpinäkyvyyttä ja luotettavuutta.
Aineistojen kerääminen on usein työläs ja aina arvokas osa tutkimustyötä. Aineistojen julkaiseminen ja jakaminen voivat vähentää päällekkäistä työtä ja mahdollistaa resurssien uudelleenkäyttöä. Lisäksi yhä enemmän ymmärretään, että aineisto on yhtä validi tutkimuksen tuotos kuin julkaisu (katso esim. DORA-julistus, jonka tavoitteena on parantaa tutkimuksen evaluoinnin kriteereitä). Julkaistut aineistot saavat Fairdata-palveluissa pysyvän tunnisteen, joka mahdollistaa aineistojen löydettävyyden ja viittaamisen aineistoon. Uudelleenkäyttö ja viittaukset lisäävät tutkimuksen, tutkijan sekä organisaation näkyvyyttä ja vaikuttavuutta. Hyvä datanhallinta hyödyttää siis kaikkia osapuolia.
Datanhallintaan kuuluu aineiston keruun suunnittelu, datan järjestely, kuvailu, säilyttäminen, versionhallinta ja päätökset valmiiden tutkimusaineistojen pidempiaikaisesta säilytyksestä tai hävittämisestä sekä jakamisesta. Datanhallinta kannattaa suunnitella hyvin jo ennen tutkimusprojektin aloittamista ja suunnittelussa tulee ottaa huomioon koko tutkimusprojektin elinkaari:
Lähde: UK Data Services
1. Suunnitteluvaihe
Laadi aineistonhallintasuunnitelma (DMP – Data Management Plan). Sen kirjoittamisen tueksi on käytettävissä työkalu DMPTuuli, josta löydät eri rahoittajatahojen ja tutkimusorganisaatioiden (mm. Suomen Akatemian) datanhallintasuunnitelman pohjia. Vastaavia kansainvälisiä palveluita ovat DMPOnline ja DMPTool.
Pohdi suunnitteluvaiheen alussa seuraavia kysymyksiä:
- Millaista aineistoa keräät ja mitä menetelmiä käytät? Onko jo olemassa aineistoja, joita voisit hyödyntää omassa tutkimuksessa?
- Mistä haet rahoitusta? → Tarkista rahoittajatahon vaatimukset (esim. palvelussa Sherpa Juliet).
- Onko kotiorganisaatiollasi datapolitiikka? → Selvitä mitä organisaatiosi edellyttää.
- Tuleeko aineistosi sisältämään sensitiivistä dataa? → Tutustu ohjeisiin: Tunnisteellisuus ja anonymisointi (Tietoarkiston Aineistonhallinnan käsikirja). Tässä CSC:n sensitiivistä dataa käsittelevässä webinaarissa avataan tarkemmin, mitä on sensitiivinen data ja miten sitä tulee käsitellä.
- Edellyttääkö tutkimuksesi riskinarviointia tai eettistä ennakkoarviointia? → Tutkimuseettisen neuvottelukunnan (TENK) sivu eettisestä ennakkoarvioinnista, tieteenalasi tai kotiorganisaatiosi oma eettinen toimikunta. Tarvittaessa suunnittele, miten tutkimuksessa toteutuu tutkittavien informointi ja tietoon perustuva suostumus (ohjeet esimerkiksi Aineistonhallinnan käsikirjassa).
- Huolehdi jo suunnitteluvaiheessa sopimusasioista. Tutkimusaineistoihin liittyvät omistus-, hallinta- ja tekijänoikeudet kannattaa määritellä hyvissä ajoin: kuka on aineistojen omistaja, kuka pääsee tutkimuksen toteutusvaiheessa lukemaan, muokkaamaan ja käsittelemään dataa? Sopikaa projektin jäsenten kesken selkeästi myös tekijyydestä. Lisätietoja saa esimerkiksi Aineistonhallinnan käsikirjasta tai TENKin ohjeista.
- Määrittäkää mitä toimenpiteitä datalle pitää missäkin datan elinkaaren vaiheessa tehdä ja kuka varmistaa, että ne tulevat tehdyiksi.
Toimenpiteiden suunnittelun tukena voit käyttää seuraavissa kohdissa (2.-4.) esitettyjä kysymyksiä aineiston käsittelystä, säilytyksestä ja käytöstä sen elinkaaren eri vaiheissa. Tiivistelmän tärkeimmistä kysymyksistä löydät DCC:n laatimasta datanhallinnan tarkistuslistasta. Sarah Jonesin ja Marjan Grootveldin muistilista How fair are your data? auttaa hahmottamaan, onko aineistonhallinnan suunnitelma FAIR-periaatteiden mukainen. Jokaista yksityiskohtaa ei voi määritellä ja tietää heti suunnitteluvaiheessa, joten aineistonhallintasuunnitelmaan kannattaa palata ja päivittää tai täsmentää sitä tarvittaessa.
Tämä Research Data Netherlandsin video ”The what, why and how of research data management” antaa yleiskuvan aineistonhallintasuunnitelman rakenteesta ja hyvän suunnittelun hyödyistä.
2. Toteutusvaihe
Aineiston keruuseen ja käsittelyyn liittyvät toimintatavat ovat tieteenalasidonnaisia ja riippuvat pitkälti datan tyypistä ja ominaisuuksista. Muutamia hyvän käytännön ohjeita:
- Huolehdi hyvästä dokumentaatiosta koko projektin aikana, koska kuvailun täydentäminen jälkikäteen on työlästä, ja joskus mahdotonta. Riittävä dokumentaatio tietoaineistoista, tietolähteistä ja analyyseissa käytetyistä metodeista sekä koodeista tukee tutkimuksen uudelleenkäyttöä ja toistettavuutta. Dokumentoi myös keruun, käsittelyn ja analyysin aikana tehtyjä muutoksia. Aineiston alkuperän ja kehityksen (provenanssin) tulisi olla läpinäkyvä. Se auttaa myös sinua seuraamaan, miten olet käsitellyt aineistoasi, vastaamaan siihen liittyviin kysymyksiin, ja löydät dokumentaatiosta tarvittavat tiedot jos hyödynnät myöhemmin aineistoa jatkotutkimuksissa.
- Hyödynnä organisaatiosi tukipalveluita. Esimerkiksi yliopistojen kirjastot tarjoavat neuvontaa tai laitoksellasi saattaa olla data-agentti. Joissakin kysymyksissä organisaatiosi juridinen tuki tai tutkimusetiikan tukihenkilö voi olla avuksi.
- Jos haluat perehtyä aineistonhallintaan syvemmin, voit hyödyntää verkkokursseja ja -materiaaleja. Tässä muutama esimerkki:
- Tietoarkiston Aineistonhallinnan käsikirja
- Edinburghin yliopiston verkkokurssi MANTRA (Research Data Management Training)
- Vastuullinen tiede -sivusto
- CSC:n lyhyt video datanhallinnan perusteista (Youtube)
- CSC:n Love your data! -webinaarit
Vinkkejä hyvistä käytännöistä löydät esim. CSC:n oppaasta tai UK Data Service -palvelun oppaasta). Konkreettisia asioita, joita tulee ottaa huomioon suunnittelussa, ovat esimerkiksi:
Miten varmistaa, että aineistoa voi tulevaisuudessa lukea, tulkita ja hyödyntää? Suunnittelussa kannattaa ottaa huomioon keinoja, jotka mahdollistavat, että tutkimusprojektin ulkopuoliset toimijat pääsevät hyödyntämään aineistoa. Pohdi ainakin seuraavia asioita:
- Datatyyppiin (haastattelut, kyselyt, kuvantamisdata jne.) ja määrään sopivat tiedostoformaatit, käsittelyyn käytettävät ohjelmistot, tallennusmediat; avoimet, ei-kaupalliset tiedostomuodot joita voi lukea eri ohjelmistoilla ja laitteilla
- Tiedostojen ja kansioiden johdonmukainen rakenne ja nimeäminen, versiointi (ohjeita esim. CSC:n ohjesivuilla)
- Muuttujien nimeäminen, menetelmien ja analyysin dokumentaatio, readme-tiedostot
Metadata tarkoittaa ”dataa datasta”. Se antaa tarvittavan kontekstin ja tiedot, jotka mahdollistavat datan ymmärrettävyyden. Pelkkä aineisto ilman kuvailua ei kerro lukijalle mitään, joten uudelleenkäyttö ei ole mahdollista eikä tutkimuksen tuloksia voida toistaa ja todistaa. Kattavan oppaan metadatasta ja aineiston kuvailusta löydät Tietoarkiston Aineistonhallinnan käsikirjasta. Tässä vain karkeasti keskeiset metadatan alaluokat:
- Tekninen ja rakenteellinen metadata: esimerkiksi aineistojen tiedostorakenne, datan käsittelyvaiheiden selostus, tieto aineistoformaateista.
- Hallinnollinen metadata: esimerkiksi lisenssit, käyttöoikeudet.
- Kuvaileva metadata: antaa kontekstin ja kertoo aineiston sisällöstä, esimerkiksi aineiston nimi, tutkimuksen tieteenala, pysyvä tunniste, aineiston keräys- ja julkaisuajankohta ja -paikka, tietoa tekijöistä ja omistajista, sisällönkuvailu (avainsanat, muuttujat jne).
Metadatastandardit ja -formaatit antavat metadatalle rakenteen ja ymmärrettävän muodon. Valinta riippuu tieteenalan käytännöistä, datatyypistä, ja huomioon pitää ottaa myös kotiorganisaation, säilytyspalvelujen tai tieteellisten julkaisujen edellytyksiä. Lisätietoja metadataformaatin valinnasta esim. DCC:n oppaassa.
Suunnittelussa pitäisi ottaa huomioon tutkimuksen toteutusvaiheen, eli dynaamisen vaiheen datan turvallinen säilytys ja jakaminen tutkimusryhmän kesken. Miten turvataan datan eheyttä sekä tietoturvaa ja tietosuojaa? Lisää tietoa eettisistä kysymyksistä löytyy Vastuullinen tiede -sivustolta. Tärkeitä asioita ovat esimerkiksi:
- Varmuuskopiointi
- Teknisen ja sisällöllisen laadun seuranta
- Tiedostojen salaaminen
- Omistus-, hallinta- ja tekijänoikeudet
- Rekisteriseloste, tietosuojaseloste
- Käyttöoikeuksien ja -lupien hallinta
- Tutkittavien informointi, suostumuslomake
3. Aineiston säilyttäminen
Pohdi datanhallintasuunnitelmassa, mitä tapahtuu aineistolle dynaamisen vaiheen jälkeen, kun aineisto on jo käsitelty ja tutkimuksen tulokset mahdollisesti jo julkaistu. Mitä pitäisi säilyttää ja missä, ja mitä saa tai pitää hävittää (esim. tietyt osat tunnisteellisesta datasta)? Mitä tulisi siirtää pitkäaikaissäilytykseen? Ota huomioon ainakin seuraavat asiat:
- Säilytyksestä koituvat kustannukset, ml. aineiston säilytettävän version valmisteluun liittyvä työaika.
- Rahoitustahon vaatimukset
- Jos olet julkaissut tutkimuksesi tulokset, selvitä kustantajan ehdot, suositukset ja vaatimukset. Aineiston avaamiseen saattaa liittyä embargo, tai kustantaja voi edellyttää, että artikkeliin liittyvät aineistot ovat avoimesti saatavilla (esim. PLOS One -lehden datapolitiikka).
- Pyri linkittämään samaan tutkimusprojektiin liittyviä tuotoksia, esim. jos aineisto sisältää monimuotoista dataa ja on mielekästä säilyttää eri osia eri arkistoissa. On myös hyvä linkittää aineistot ja niiden pohjalta kirjoitetut artikkelit. Tässä auttavat pysyvät tunnisteet.
Jos projektisi on johtanut ns. nollatulokseen, harkitse kuitenkin aineistojen avaamista. Negatiivistenkin tulosten julkaiseminen voi esimerkiksi vähentää päällekkäistä työtä, herättää keskustelua, tai sitä voi hyödyntää meta-analyysissa.
Voit valita palvelun, jossa on mahdollista säilyttää dynaamisen vaiheen dataa sekä julkaista valmiin aineiston, tai voit käyttää eri tallennusratkaisua datan keruun ja käsittelyn aikana ja siirtää vasta valmiin aineiston säilytyspalveluun. Joka tapauksessa aineistojen avaaminen vaatii ylläpitoa – ennen julkaisua pitää varmistaa, että aineisto on asianmukaisesti järjestetty, dokumentoitu, metadata on riittävä. Hävitä tai siirrä tiedostot, joita ei ole tarkoitus julkaista. Muista tunnisteellisen datan anonymisointi.
Säilytyspalvelun valintaan vaikuttavat mm. rahoittajan ja kotiorganisaatiosi vaatimukset ja alakohtaiset käytännöt. Vaihtoehtoihin kuuluvat organisaatiokohtaiset tallennusarkistot, kansainväliset palvelut (esim. Zenodo, B2SHARE), tieteenalakohtaiset tietokannat (esim. Dryad, Genbank), datatyyppikohtaiset palvelut (esim. ohjelmiston tallennuspalvelut kuten Github), kansalliset palvelut (Fairdata ja siihen kuuluva IDA). On olemassa myös tieteellisiä julkaisuja, jotka erikoistuvat tutkimusaineistojen julkaisemiseen, jolloin aineiston dokumentaatio julkaistaan artikkelin muodossa (ks. esim. Brain and Behavior tai Geoscience Data Journal).
Fairdata-kokonaisuuteen kuuluva IDA-säilytyspalvelu tarjoaa määritellylle käyttäjäryhmälle yhteistä säilytystilaa. IDA soveltuu tutkimusvaiheen aikaiseen datan tallettamiseen, sen jakamiseen käyttäjäryhmän kesken, sekä sen säilyttämiseen muuttumattomassa tilassa. Data, jonka käyttäjä on merkinnyt säilytettäväksi muuttumattomassa tilassa eli jäädyttänyt IDAssa, voidaan julkaista. Julkaisua ennen jäädytetylle datalle lisätään kuvailutietoja Qvain-palvelussa. Qvaimella julkaistu aineisto saa pysyvän tunnisteen ja kuvailusivun. Näin aineisto on löydettävissä Etsin-hakupalvelusta. Aineiston tiedostot voidaan asettaa ladattavaksi avoimesti tai käyttöluvalla, tai aineistosta voidaan julkaista vain metadata. IDA ja Etsin löytyvät luotettavien tallennusarkistojen listalta Registry of Research Data Repositories ja palvelut tunnetaan ja tunnistetaan luotettaviksi esimerkiksi Suomen Akatemian rahoitushaussa. Jos pohdit, käytätkö datanhallintaan Fairdata-palveluita, ota avuksi edellä mainitut valintakriteerit. Avainasemassa on myös datan sisältämät henkilötiedot: IDA ei sovellu arkaluonteisia henkilötietoja sisältävien aineistojen säilyttämiseen.
Monet luotettavat säilytyspalvelut tarjoavat pitkää säilytysaikaa ja huolehtivat aineistojen eheydestä bittitasolla juuri siinä muodossa, missä ne tallennetaan palveluun. Tällainen säilytysmenetelmä ei voi taata aineiston käytettävyyttä pitkillä ajanjaksoilla, sillä ohjelmistot ja tiedostoformaatit vanhenevat. Tutkimusaineistojen pitkäaikaissäilytyksen (digital preservation) tavoite on taata erittäin merkittävien aineistojen jatkokäytettävyys myös tuleville sukupolville. Pitkäaikaissäilytys vaatii paljon resursseja: se edellyttää aktiivista ylläpitoa ja toimenpiteitä, joilla pidennetään aineistojen elinikää niin, että ne pysyvät käytettävänä useiden kymmenien tai jopa satojen vuosien ajan. Tällaisia toimenpiteitä ovat esimerkiksi vanhentuneiden tiedostoformaattien muuntaminen, tai erilaisia toimenpiteitä joilla varmistetaan datan eheyttä ja laatua, luettavuutta ja käytettävyyttä ja suojellaan sitä vahingoittumiselta pidemmällä aikavälillä.
Pitkäaikaissäilytykseen valitaan vain erityisesti merkittäviä aineistoja. Säilytysratkaisut täytyy pohtia tapauskohtaisesti, mutta joitakin yleisiä pitkäaikaisemman säilytyksen kriteereitä ovat esim.
- Aineistot, joilla uskotaan olevan merkittäviä jatkokäyttömahdollisuuksia
- Tapaukset, joissa rahoittaja edellyttää pitkäaikaissäilytystä
- Arvokkaat aineistot joiden tuottamiseen on käytetty paljon resursseja, tutkimusta, jota olisi vaikeaa, kallista tai mahdotonta toistaa
- Kansallisesti merkittävät aineistot
- Organisaation profiloitumisen tai erityisosaamisen kannalta merkittävät aineistot
Pitkäaikaissäilytyspalvelut määrittelevät aineistojen luovutukseen liittyviä edellytyksiä. Usein vaaditaan, että
- metadata on riittävä ja takaa ymmärrettävyyden
- dataformaatti ja käyttöön tarvittavat ohjelmistot ovat tarpeeksi avoimia ja yleisiä jotta aineisto olisi uudelleenkäytettävissä
- tutkimusaineistoon ei liity eettisiä tai oikeudellisia ongelmia, kuten ratkaisemattomat tekijänoikeudet tai datan tunnisteellisuus.
4. Aineiston jakaminen ja uudelleenkäyttö
Tutkimusaineiston elinkaari jatkuu vielä sen jälkeenkin, kun olet julkaissut tulokset. Kun datanhallintasuunnitelmassa pohdit jakamisen ja uudelleenkäytön mahdollisuuksia, pyri noudattamaan periaatetta ”mahdollisimman avoin, tarvittaessa suojattu”. Päätöksiin vaikuttavat mm. tekijänoikeudet, eettiset kysymykset ja aineistoon tai siihen pohjautuvaan artikkeliin liittyvät lisenssit.
Kun tallennat aineistosi säilytyspalveluun, voit määritellä uudelleenkäyttöön liittyvät lisenssit (usein käytettyjä vaihtoehtoja ovat Creative Commons tai Open Data Commons -lisenssit), käyttöluvat ja oikeudet. Käyttölupien hakeminen ja myöntäminen tapahtuu kunkin säilytyspalvelun omien käyttöehtojen mukaisesti. Esimerkiksi Fairdata-palveluissa voit aineiston kuvailun yhteydessä asettaa aineiston avoimesti saatavaksi open access -periaatteella tai määritellä käyttöoikeuden myöntämisen ehdot. Fairdata Etsin sisältää palvelun, jonka kautta käyttäjät voivat tunnistautua ja hakea käyttölupaa aineiston omistajalta.
Jos itse käytät muiden keräämiä aineistoja, huolehdi siitä, että viittaat aineistoon oikein. Käytä pysyviä tunnisteita aina kun ne ovat saatavilla – pysyvä tunniste varmistaa, että viittaus yksilöi käyttämäsi aineiston, vaikuttavuuden arvioinnin työkalut tunnistavat viittauksen ja tekijä saa työstään tunnustuksen.
Pysyvä tunniste eli PID on uniikki ja yksiselitteinen koneluettava nimi objektille, tässä tapaukselle tietylle tutkimusaineistolle. Se on myös pysyvä linkki, joka vie aina tutkimusaineiston kuvailusivulle, joka puolestaan sisältää tutkimusaineiston kuvauksen ja esimerkiksi lisenssin. Yleensä pysyvä tunniste on DOI tai URN. Nämä tunnisteet ovat kahden eri järjestelmän tarjoamia ja ne voidaan tunnistaa tunnisteen ensimmäisten kirjaimien perustella.
Lue lisää CSC:n blogikirjoituksesta ”Mitä tutkijan kannattaa tietää pysyvistä tunnisteista”. Voit lukea lisää aineistojen vaikuttavuuden arvioinnista tässä ImpactStoryn blogikirjoituksessa. Tarkemmat ohjeet viittaamisesta aineistoihin löytyvät dataviittaustiekartasta (Finnish Committee for Research Data).
Voit hakea ja selailla tietoja suomalaisessa tutkimusjärjestelmässä julkaistuista tutkimusaineistoista Etsimen avulla.
Voit aloittaa laajemman haun kansainvälisistä lähteistä etsimällä ensin relevanttia arkistoa tai säilytyspalvelua, jossa voit sitten jatkaa aineistojen hakua: Re3data eli Registry of Research Data Repositories on hakemisto, jossa voit selailla säilytyspalveluita tieteenalan, maan tai sisällön tyypin (esim. ohjelmistot, audovisuaaliset aineistot jne.) mukaan.
Toinen vaihtoehto on hyödyntää viitetietokantoja, joihin haravoidaan aineistojen metatietoja säilytysarkistoista, esimerkiksi Clarivate Analyticsin palvelu Data Citation Index.
Aineiston löydettävyys hakupalvelusta perustuu riittäviin metatietoihin – haku toimii juuri metatietojen perusteella, palvelut eivät pysty menemään koko tekstin tasolle. Myös löydettävyyden vuoksi siis kannattaa huolehtia aineiston hyvästä dokumentaatiosta ja kuvailusta.
Lisätietoja organisaatioille
Jos olet organisaation, kuten korkeakoulun, tieteellisen julkaisijan tai rahoittajatahon edustaja ja haluaisit tietää, miten organisaatiosi voisi edistää hyvää datanhallintaa, voit perehtyä raporttiin, jonka on laatinut Knowledge Exchange -työryhmä. Löydät suositukset organisaatioille sivuilta A4-A7, ja voit lukea yhteenvedon tekijöistä, jotka edistävät tai estävät aineistojen jakamista sivulla A11.
Incentives and motivations for sharing research data: a researcher’s perspective