Dane badawcze

Uniwersytet / Struktura Uniwersytetu / Pion Pełnomocnik ds. nauki / Wydawnictwo KUL / Sekcja Repozytorium i Pozycjonowania Wydawnictw / Repozytorium Instytucjonalne KUL / Deponowanie danych badawczych

Dane badawcze

Dane badawcze (Research Data) - zarejestrowane materiały o charakterze faktograficznym (w postaci liczbowej, tekstowej, graficznej czy dźwiękowej), powszechnie uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych.

Dane badawcze dzielić można na:

Dane surowe, czyli takie, które uzyskano bezpośrednio w wyniku zastosowania narzędzia badawczego, w różnych przedsięwzięciach naukowych lub też zgromadzone na potrzeby konkretnych projektów, nieprzeanalizowane.
Dane, które poddane zostały obróbce.

Otwarte dane badawcze (Open Research Data) - dane, do których każdy ma dostęp. Można je ponownie wykorzystywać, modyfikować, redystrybuować i udostępniać z poszanowaniem prawa.

FAIR Data to dane badawcze, które zostały opisane, są przechowywane i publikowane zgodnie z międzynarodowym standardem. Zasady FAIR Data służą jako wytyczne dla umożliwienia ponownego wykorzystania danych naukowych w wyraźnie opisanych warunkach, zarówno przez ludzi, jak i przez maszyny.

Zasady FAIR Data:

Findable - łatwo znajdowane i wyszukiwane.
Accessible - dostępne dla wszystkich.
Interoperable - interoperacyjne, tak aby można było je połączyć z innymi danymi.
Reusable - wielokrotnego użytku.

https://www.go-fair.org/fair-principles/

Plan zarządzania danymi (Data Management Plan - DMP) - określa, w jaki sposób dane badawcze mają być zarządzane zarówno w czasie trwania projektu badawczego, jak i po jego zakończeniu.

Instytucje i programy finansujące badania naukowe, czasopisma coraz częściej wymagają od naukowców przedstawienia DMP na etapie składania i oceny wniosków grantowych czy przed publikacją artykułu (np. Horyzont 2020).

Plan zarządzania danymi powinien zawierać informacje:

- jakie dane zostaną wytworzone lub zebrane (format i typ plików, liczba danych),

- jak zostaną uporządkowane i opisane (metodologia, standardy, metadane),

- kwestie etyczne i prawne (własność intelektualna, prawa autorskie, dane niejawne),

- w jaki sposób dane zostaną udostępnione (jak, kiedy, komu),

- które dane będą przechowywane długoterminowo (kwestia sposobu przechowywania i ochrony danych).

Wyszukiwarka re3data.org (Registry of Research Data Repositories) to rejestr repozytoriów danych badawczych ze wszystkich dyscyplin akademickich. Jest to darmowe narzędzie, które oferuje naukowcom, organizacjom finansującym badania, bibliotekom i wydawcom przegląd repozytoriów danych badawczych. Umożliwia wyszukiwanie repozytoriów według dziedziny wiedzy, kraju oraz typu danych badawczych.

Linki

Surowe dane badawcze są to dane (materiał) powstałe w wyniku badań empirycznych w różnych przedsięwzięciach naukowych lub też zgromadzone na potrzeby konkretnych projektów.

Dane uzyskuje się w wyniku zastosowania różnych technik badawczych, m.in. ankiety, eksperymentu, obserwacji testu. Przykłady danych: filmy rejestrujące przebieg eksperymentu, materiały audio, notatki z obserwacji, protokoły laboratoryjne.

Dane badawcze opublikowane w repozytorium mogą być wyszukiwane wprost z poziomu platformy i przez wyszukiwarki Google.

Metadane - podstawowe informacje stanowiące opis całego zbioru danych (autor, tytuł, data powstania, nadana licencja, etc.); wszystkie dane badawcze muszą być udostępnione wraz z ich metadanymi.

Dokumentacja - informacje metodologiczne, kontekst powstania, dodatkowe pliki potrzebne do skorzystania z danych (skrypty), wykorzystane standardowe słowniki, etc.

Standardy metadanych (Metadata Standards) dostępne są na stronach Digital Curation Centre

Deponowanie danych

Zbiór danych to zbiór plików wraz z opisem w postaci metadanych.

Zbiór danych (ang. dataset) może odpowiadać wszystkim danym powiązanym z jedną publikacją albo z jednym projektem naukowym, pytaniem badawczym czy typem eksperymentu. Zakres danych umieszczonych w jednym zbiorze przeznaczonym do deponowania ustala autor. Dane dokumentujące badania mogą się składać z kilku zbiorów zapisanych w niezależnych plikach. Jednak pomiędzy tymi danymi mogą występować zależności, dlatego pliki te dobrze jest publikować jako jeden nierozłączny zbiór. Struktura zbioru danych może być dowolnie kształtowana (zarówno w odniesieniu do liczby plików, jak i ich formatów).

Przygotowanie plików

Dobór formatów plików do archiwizacji zależy od decyzji autora.

Preferowane są formaty:

Bez kompresji
Niewymagające komercyjnego oprogramowania
Otwarte, z dostępną dokumentacją
Wykorzystujące standardowe kodowanie (ASCII, Unicode)

Na przykład dane w tabelach lepiej zapisywać w formacie .csv niż .xls; można też zdeponować tę samą tabelę w obydwu formatach.

Pliki przeznaczone do zdeponowania można pogrupować. Rozmiar pojedynczego pliku w zbiorze nie może przekroczyć 8 GB. Nazewnictwo plików powinno być przemyślane. Właściwie nazwany zbiór i pliki mogą znacząco ułatwić użytkownikowi korzystanie z danych.

Metadane

Metadane zbiorów badawczych opisują ich zawartość, pochodzenie, stosowane metody badawcze i inne. Odczytywalne maszynowo metadane są niezbędne do automatycznego wykrywania zbiorów danych. Aby było to możliwe, należy jak najdokładniej opisać sposób zbioru danych. Opisy metodologiczne można zawrzeć w plikach z danymi bądź też utworzyć osobny plik ReadMe.txt, w którym będzie szczegółowo opisana metodologia i kontekst badań. Jeżeli istnieje już publikacja naukowa, w której opisane jest, w jaki sposób dane zostały zebrane, należy też podać link do niej w przeznaczonym do tego celu polu Źródło podczas procesu deponowania.

Opisy danych (metadane) mogą być w języku polskim lub angielskim.

Przykładowe metadane ważne przy opisie zbiorów danych:

TITLE OF DATASET (tytuł zbioru )
SOURCE OF DATA (źródło danych)
NAME(S) OF DATASET CREATOR(S) (autor)
DESCRIPTION OF DATA (opis danych - np. metodologia, kontekst, obszar badań)
CREATION DATE (data powstania)
IDENTIFIER (identyfikacja publikacji powiązanej - np. ISSN, ISBN, DOI)
LICENSE (licencja i sposób udostępnienia)
RELATED PUBLICATIONS (powiązane publikacje)

W procesie deponowania część pól oznaczona jest jako nieobowiązkowa (bez gwiazdki), jednak wypełnienie ich jak największej części zwiększa szansę, że osoby zainteresowane danymi faktycznie na nie trafią.

Licencja i sposób udostępnienia

Dane badawcze możemy udostępniać na różnych zasadach. Zachęca się do korzystania z otwartych licencji (CC0, CC-BY), ale możliwe jest też udostępnienie danych bez nadawania licencji, na zasadach dozwolonego użytku. Należy pamiętać o tym, że aby udostępnić dane, musimy mieć do nich odpowiednie prawa (w tym także ustną zgodę wszystkich współautorów), oraz że to deponujący (autor) odpowiada za anonimizację danych osobowych i wrażliwych.

Deponowanie danych w ReKUL

Aby rozpocząć deponowanie należy się zarejestrować jako użytkownik ReKUL (zgodnie z procedurą rejestracji) albo zalogować, jeżeli już posiada się konto indywidualne. Następnie należy dodać pozycję do Repozytorium zgodnie z instrukcją deponowania. W ramach przyznanych uprawnień wybieramy kolekcję, w której ma zostać zdeponowany zbiór danych. Następnie wprowadzamy metadane (informacje opisujące nasz zbiór danych), dobrze jest wypełnić jak najwięcej metadanych, aby zwiększyć wyszukiwalność naszych danych. W polu ŹRÓDŁO można zamieścić opis publikacji powiązanej, zaś w polu IDENTYFIKATORY dane dotyczące identyfikacji publikacji powiązanej (np. ISSN, ISBN, DOI). Na kolejnym etapie opisu metadanymi należy wypełnić także pole OPIS, w którym zawieramy dane dotyczące kontekstu badań, metodologii, użytych narzędzi, oraz obszaru badań. Przy każdym zdeponowanym pliku istnieje możliwość dodatkowego opisu poszczególnych plików w polu OPIS PLIKU. Po pozytywnie zakończonym procesie deponowania zbiór danych otrzymuje numer identyfikacji cyfrowej Handle.

W przypadku decyzji autora o ograniczeniu dostępu do plików (w ReKUL widoczne są tylko metadane zbioru, zaś sam zbiór danych jest nieudostępniany w otwartym dostępie bądź tylko za zgodą autora) należy przed deponowaniem lub tuż po zgłosić taką potrzebę do redakcji i zostaną nadane stosowne zasady do określonego zbioru.

Zdeponowany zbiór danych podlega sprawdzeniu przez redaktora repozytorium, który weryfikuje poprawność procesu deponowania i czy nie ma błędów we wprowadzonych metadanych (ewidentne literówki może poprawić, w przypadku innych błędów bądź konieczności uzyskania dodatkowej informacji redaktor kontaktuje się z deponującym). Redaktor nie sprawdza zawartości zbioru danych i nie ocenia jego wartości merytorycznej ani jakości. Proces akceptacji może trwać do 2 dni roboczych.

Wzór cytowania zbioru danych

Autor (rok) Tytuł. ReKUL. Adres z numerem identyfikacji cyfrowej Handle.

Na przykład: Puchalska-Wasyl, M.; Jankowski, T. (2019) Are internal dialogues in young adults influenced by mother-father incongruence in parental attitudes assessed retrospectively? ReKUL. http://hdl.handle.net/20.500.12153/433

Zachęcamy do skorzystania z poradnika dotyczącego Planu zarządzania danymi badawczymi.