Dane badawcze


Dane badawcze (Research Data) - zarejestrowane materiały o charakterze faktograficznym (w postaci liczbowej, tekstowej, graficznej czy dźwiękowej), powszechnie uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych.

 

Dane badawcze dzielić można na:

  • Dane surowe, czyli takie, które uzyskano bezpośrednio w wyniku zastosowania narzędzia badawczego, w różnych przedsięwzięciach naukowych lub też zgromadzone na potrzeby konkretnych projektów, nieprzeanalizowane.
  • Dane, które poddane zostały obróbce.

 

Otwarte dane badawcze (Open Research Data) - dane, do których każdy ma dostęp. Można je ponownie wykorzystywać, modyfikować, redystrybuować i udostępniać z poszanowaniem prawa.

 

FAIR Data to dane badawcze, które zostały opisane, są przechowywane i publikowane zgodnie z międzynarodowym standardem. Zasady FAIR Data służą jako wytyczne dla umożliwienia ponownego wykorzystania danych naukowych w wyraźnie opisanych warunkach, zarówno przez ludzi, jak i przez maszyny.

 

Zasady FAIR Data:

  • Findable - łatwo znajdowane i wyszukiwane.
  • Accessible - dostępne dla wszystkich.
  • Interoperable - interoperacyjne, tak aby można było je połączyć z innymi danymi.
  • Reusable - wielokrotnego użytku.

https://www.go-fair.org/fair-principles/

 

Plan zarządzania danymi (Data Management Plan - DMP) -  określa, w jaki sposób dane badawcze mają być zarządzane zarówno w czasie trwania projektu badawczego, jak i po jego zakończeniu.

Instytucje i programy finansujące badania naukowe, czasopisma  coraz częściej wymagają od naukowców przedstawienia DMP na etapie składania i oceny wniosków grantowych czy przed publikacją artykułu (np. Horyzont 2020).

 

Plan zarządzania danymi powinien zawierać informacje:

- jakie dane zostaną wytworzone lub zebrane (format i typ plików, liczba danych),

- jak zostaną uporządkowane i opisane (metodologia, standardy, metadane),

- kwestie etyczne i prawne (własność intelektualna, prawa autorskie, dane niejawne),

- w jaki sposób dane zostaną udostępnione (jak, kiedy, komu),

- które dane będą przechowywane długoterminowo (kwestia sposobu przechowywania i ochrony danych).

 

Wyszukiwarka re3data.org (Registry of Research Data Repositories) to rejestr repozytoriów danych badawczych ze wszystkich dyscyplin akademickich. Jest to darmowe narzędzie, które oferuje naukowcom, organizacjom finansującym badania, bibliotekom i wydawcom przegląd repozytoriów danych badawczych. Umożliwia wyszukiwanie repozytoriów według dziedziny wiedzy, kraju oraz typu danych badawczych.

 

Linki

  1. Wyszukiwarka repozytoriów danych badawczych - re3data.org.
  2. Inicjatywa FAIRdata.
  3. Kreator planów zarządzania danymi badawczymi.

Surowe dane badawcze są to dane (materiał) powstałe w wyniku badań empirycznych w różnych przedsięwzięciach naukowych lub też zgromadzone na potrzeby konkretnych projektów.

Dane uzyskuje się w wyniku zastosowania różnych technik badawczych, m.in. ankiety, eksperymentu, obserwacji testu. Przykłady danych: filmy rejestrujące przebieg eksperymentu, materiały audio, notatki z obserwacji,  protokoły laboratoryjne.

Dane badawcze opublikowane w repozytorium mogą być wyszukiwane wprost z poziomu platformy i przez wyszukiwarki Google.

 

Metadane - podstawowe informacje stanowiące opis całego zbioru danych (autor, tytuł, data powstania, nadana licencja, etc.); wszystkie dane badawcze muszą być udostępnione wraz z ich metadanymi.

 

Dokumentacja - informacje metodologiczne, kontekst powstania, dodatkowe pliki potrzebne do skorzystania z danych (skrypty), wykorzystane standardowe słowniki, etc.

 

Standardy metadanych (Metadata Standards) dostępne są na stronach Digital Curation Centre

 

Deponowanie danych

 

Zbiór danych to zbiór plików wraz z opisem w postaci metadanych.

 

Zbiór danych (ang. dataset) może odpowiadać wszystkim danym powiązanym z jedną publikacją albo z jednym projektem naukowym, pytaniem badawczym czy typem eksperymentu. Zakres danych umieszczonych w jednym zbiorze przeznaczonym do deponowania ustala autor.  Dane dokumentujące badania mogą się składać z kilku zbiorów zapisanych w niezależnych plikach. Jednak pomiędzy tymi danymi mogą występować zależności, dlatego pliki te dobrze jest publikować jako jeden nierozłączny zbiór.  Struktura zbioru danych  może być dowolnie kształtowana (zarówno w odniesieniu do liczby plików, jak i ich  formatów).

 

Przygotowanie plików

 

Dobór formatów plików do archiwizacji zależy od decyzji autora.

 

Preferowane są formaty:

  • Bez kompresji
  • Niewymagające komercyjnego oprogramowania
  • Otwarte, z dostępną dokumentacją
  • Wykorzystujące standardowe kodowanie (ASCII, Unicode)

 

Na przykład dane w tabelach lepiej zapisywać w formacie .csv niż .xls; można też zdeponować tę samą tabelę w obydwu formatach.

 

Pliki przeznaczone do zdeponowania można pogrupować. Rozmiar pojedynczego pliku w zbiorze nie może przekroczyć 8 GB. Nazewnictwo plików powinno być przemyślane. Właściwie nazwany zbiór i pliki mogą znacząco ułatwić użytkownikowi korzystanie z danych.

 

Metadane

 

Metadane zbiorów badawczych opisują ich zawartość, pochodzenie, stosowane metody badawcze i inne. Odczytywalne maszynowo metadane są niezbędne do automatycznego wykrywania zbiorów danych. Aby było to możliwe, należy jak najdokładniej opisać sposób zbioru danych. Opisy metodologiczne można zawrzeć w plikach z danymi bądź też utworzyć osobny plik ReadMe.txt, w którym będzie szczegółowo opisana metodologia i kontekst badań. Jeżeli istnieje już publikacja naukowa, w której opisane jest, w jaki sposób dane zostały zebrane, należy też podać link do niej w przeznaczonym do tego celu polu Źródło podczas procesu deponowania.

 

Opisy danych (metadane) mogą być w języku polskim lub angielskim.

 

Przykładowe metadane ważne przy opisie zbiorów danych:

  • TITLE OF DATASET  (tytuł zbioru )
  • SOURCE OF DATA  (źródło danych)
  • NAME(S) OF DATASET CREATOR(S)  (autor)
  • DESCRIPTION OF DATA (opis danych - np. metodologia, kontekst, obszar badań)
  • CREATION DATE  (data powstania)
  • IDENTIFIER (identyfikacja publikacji powiązanej - np. ISSN, ISBN, DOI)
  • LICENSE  (licencja i sposób udostępnienia)
  • RELATED PUBLICATIONS (powiązane publikacje)

 

W procesie deponowania część pól oznaczona jest jako nieobowiązkowa (bez gwiazdki), jednak wypełnienie ich jak największej części zwiększa szansę, że osoby zainteresowane danymi faktycznie na nie trafią.

 

Licencja i sposób udostępnienia

 

Dane badawcze możemy udostępniać na różnych zasadach. Zachęca się do korzystania z otwartych licencji (CC0, CC-BY), ale możliwe jest też udostępnienie danych bez nadawania licencji, na zasadach dozwolonego użytku. Należy pamiętać o tym, że aby udostępnić dane, musimy mieć do nich odpowiednie prawa (w tym także ustną zgodę wszystkich współautorów), oraz że to deponujący (autor) odpowiada za anonimizację danych osobowych i wrażliwych.

 

Deponowanie danych w ReKUL

 

Aby rozpocząć deponowanie należy się zarejestrować jako użytkownik ReKUL (zgodnie z procedurą rejestracji) albo zalogować, jeżeli już posiada się konto indywidualne. Następnie należy dodać pozycję do Repozytorium zgodnie z instrukcją deponowania. W ramach przyznanych uprawnień wybieramy kolekcję, w której ma zostać zdeponowany zbiór danych. Następnie wprowadzamy metadane (informacje opisujące nasz zbiór danych), dobrze jest wypełnić jak najwięcej metadanych, aby zwiększyć wyszukiwalność naszych danych. W polu ŹRÓDŁO można zamieścić opis publikacji powiązanej, zaś w polu IDENTYFIKATORY dane dotyczące identyfikacji publikacji powiązanej (np. ISSN, ISBN, DOI). Na kolejnym etapie opisu metadanymi należy wypełnić także pole OPIS, w którym zawieramy dane dotyczące kontekstu badań, metodologii, użytych narzędzi, oraz obszaru badań. Przy każdym zdeponowanym pliku istnieje możliwość dodatkowego opisu poszczególnych plików w polu OPIS PLIKU. Po pozytywnie zakończonym procesie deponowania zbiór danych otrzymuje numer identyfikacji cyfrowej Handle.

 

W przypadku decyzji autora o ograniczeniu dostępu do plików (w ReKUL widoczne są tylko metadane zbioru, zaś sam zbiór danych  jest nieudostępniany w otwartym dostępie bądź tylko za zgodą autora) należy przed deponowaniem lub tuż po zgłosić taką potrzebę do redakcji i zostaną nadane stosowne zasady do określonego zbioru.

 

Zdeponowany zbiór danych podlega sprawdzeniu przez redaktora repozytorium, który weryfikuje poprawność procesu deponowania i czy nie ma błędów we wprowadzonych metadanych (ewidentne literówki może poprawić, w przypadku innych błędów bądź  konieczności uzyskania dodatkowej informacji redaktor kontaktuje się z deponującym). Redaktor nie sprawdza zawartości zbioru danych i nie ocenia jego wartości merytorycznej ani jakości. Proces akceptacji może trwać do 2 dni roboczych.

 

Wzór cytowania zbioru danych

 

Autor (rok) Tytuł. ReKUL. Adres z numerem identyfikacji cyfrowej Handle.

Na przykład: Puchalska-Wasyl, M.; Jankowski, T. (2019) Are internal dialogues in young adults influenced by mother-father incongruence in parental attitudes assessed retrospectively? ReKUL. http://hdl.handle.net/20.500.12153/433

 

Zachęcamy do skorzystania z poradnika dotyczącego Planu zarządzania danymi badawczymi.

 


 


WSPÓŁPRACA

ikona
ikona
ikona
ikona
ikona