Dane badawcze
|
Dane badawcze (Research Data) - zarejestrowane materiały o charakterze faktograficznym (w postaci liczbowej, tekstowej, graficznej czy dźwiękowej), powszechnie uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych.
Dane badawcze dzielić można na:
Otwarte dane badawcze (Open Research Data) - dane, do których każdy ma dostęp. Można je ponownie wykorzystywać, modyfikować, redystrybuować i udostępniać z poszanowaniem prawa.
FAIR Data to dane badawcze, które zostały opisane, są przechowywane i publikowane zgodnie z międzynarodowym standardem. Zasady FAIR Data służą jako wytyczne dla umożliwienia ponownego wykorzystania danych naukowych w wyraźnie opisanych warunkach, zarówno przez ludzi, jak i przez maszyny.
Zasady FAIR Data:
https://www.go-fair.org/fair-principles/
Plan zarządzania danymi (Data Management Plan - DMP) - określa, w jaki sposób dane badawcze mają być zarządzane zarówno w czasie trwania projektu badawczego, jak i po jego zakończeniu. Instytucje i programy finansujące badania naukowe, czasopisma coraz częściej wymagają od naukowców przedstawienia DMP na etapie składania i oceny wniosków grantowych czy przed publikacją artykułu (np. Horyzont 2020).
Plan zarządzania danymi powinien zawierać informacje: - jakie dane zostaną wytworzone lub zebrane (format i typ plików, liczba danych), - jak zostaną uporządkowane i opisane (metodologia, standardy, metadane), - kwestie etyczne i prawne (własność intelektualna, prawa autorskie, dane niejawne), - w jaki sposób dane zostaną udostępnione (jak, kiedy, komu), - które dane będą przechowywane długoterminowo (kwestia sposobu przechowywania i ochrony danych).
Wyszukiwarka re3data.org (Registry of Research Data Repositories) to rejestr repozytoriów danych badawczych ze wszystkich dyscyplin akademickich. Jest to darmowe narzędzie, które oferuje naukowcom, organizacjom finansującym badania, bibliotekom i wydawcom przegląd repozytoriów danych badawczych. Umożliwia wyszukiwanie repozytoriów według dziedziny wiedzy, kraju oraz typu danych badawczych.
Linki
Surowe dane badawcze są to dane (materiał) powstałe w wyniku badań empirycznych w różnych przedsięwzięciach naukowych lub też zgromadzone na potrzeby konkretnych projektów. Dane uzyskuje się w wyniku zastosowania różnych technik badawczych, m.in. ankiety, eksperymentu, obserwacji testu. Przykłady danych: filmy rejestrujące przebieg eksperymentu, materiały audio, notatki z obserwacji, protokoły laboratoryjne. Dane badawcze opublikowane w repozytorium mogą być wyszukiwane wprost z poziomu platformy i przez wyszukiwarki Google.
Metadane - podstawowe informacje stanowiące opis całego zbioru danych (autor, tytuł, data powstania, nadana licencja, etc.); wszystkie dane badawcze muszą być udostępnione wraz z ich metadanymi.
Dokumentacja - informacje metodologiczne, kontekst powstania, dodatkowe pliki potrzebne do skorzystania z danych (skrypty), wykorzystane standardowe słowniki, etc.
Standardy metadanych (Metadata Standards) dostępne są na stronach Digital Curation Centre
Deponowanie danych
Zbiór danych to zbiór plików wraz z opisem w postaci metadanych.
Zbiór danych (ang. dataset) może odpowiadać wszystkim danym powiązanym z jedną publikacją albo z jednym projektem naukowym, pytaniem badawczym czy typem eksperymentu. Zakres danych umieszczonych w jednym zbiorze przeznaczonym do deponowania ustala autor. Dane dokumentujące badania mogą się składać z kilku zbiorów zapisanych w niezależnych plikach. Jednak pomiędzy tymi danymi mogą występować zależności, dlatego pliki te dobrze jest publikować jako jeden nierozłączny zbiór. Struktura zbioru danych może być dowolnie kształtowana (zarówno w odniesieniu do liczby plików, jak i ich formatów).
Przygotowanie plików
Dobór formatów plików do archiwizacji zależy od decyzji autora.
Preferowane są formaty:
Na przykład dane w tabelach lepiej zapisywać w formacie .csv niż .xls; można też zdeponować tę samą tabelę w obydwu formatach.
Pliki przeznaczone do zdeponowania można pogrupować. Rozmiar pojedynczego pliku w zbiorze nie może przekroczyć 8 GB. Nazewnictwo plików powinno być przemyślane. Właściwie nazwany zbiór i pliki mogą znacząco ułatwić użytkownikowi korzystanie z danych.
Metadane
Metadane zbiorów badawczych opisują ich zawartość, pochodzenie, stosowane metody badawcze i inne. Odczytywalne maszynowo metadane są niezbędne do automatycznego wykrywania zbiorów danych. Aby było to możliwe, należy jak najdokładniej opisać sposób zbioru danych. Opisy metodologiczne można zawrzeć w plikach z danymi bądź też utworzyć osobny plik ReadMe.txt, w którym będzie szczegółowo opisana metodologia i kontekst badań. Jeżeli istnieje już publikacja naukowa, w której opisane jest, w jaki sposób dane zostały zebrane, należy też podać link do niej w przeznaczonym do tego celu polu Źródło podczas procesu deponowania.
Opisy danych (metadane) mogą być w języku polskim lub angielskim.
Przykładowe metadane ważne przy opisie zbiorów danych:
W procesie deponowania część pól oznaczona jest jako nieobowiązkowa (bez gwiazdki), jednak wypełnienie ich jak największej części zwiększa szansę, że osoby zainteresowane danymi faktycznie na nie trafią.
Licencja i sposób udostępnienia
Dane badawcze możemy udostępniać na różnych zasadach. Zachęca się do korzystania z otwartych licencji (CC0, CC-BY), ale możliwe jest też udostępnienie danych bez nadawania licencji, na zasadach dozwolonego użytku. Należy pamiętać o tym, że aby udostępnić dane, musimy mieć do nich odpowiednie prawa (w tym także ustną zgodę wszystkich współautorów), oraz że to deponujący (autor) odpowiada za anonimizację danych osobowych i wrażliwych.
Deponowanie danych w ReKUL
Aby rozpocząć deponowanie należy się zarejestrować jako użytkownik ReKUL (zgodnie z procedurą rejestracji) albo zalogować, jeżeli już posiada się konto indywidualne. Następnie należy dodać pozycję do Repozytorium zgodnie z instrukcją deponowania. W ramach przyznanych uprawnień wybieramy kolekcję, w której ma zostać zdeponowany zbiór danych. Następnie wprowadzamy metadane (informacje opisujące nasz zbiór danych), dobrze jest wypełnić jak najwięcej metadanych, aby zwiększyć wyszukiwalność naszych danych. W polu ŹRÓDŁO można zamieścić opis publikacji powiązanej, zaś w polu IDENTYFIKATORY dane dotyczące identyfikacji publikacji powiązanej (np. ISSN, ISBN, DOI). Na kolejnym etapie opisu metadanymi należy wypełnić także pole OPIS, w którym zawieramy dane dotyczące kontekstu badań, metodologii, użytych narzędzi, oraz obszaru badań. Przy każdym zdeponowanym pliku istnieje możliwość dodatkowego opisu poszczególnych plików w polu OPIS PLIKU. Po pozytywnie zakończonym procesie deponowania zbiór danych otrzymuje numer identyfikacji cyfrowej Handle.
W przypadku decyzji autora o ograniczeniu dostępu do plików (w ReKUL widoczne są tylko metadane zbioru, zaś sam zbiór danych jest nieudostępniany w otwartym dostępie bądź tylko za zgodą autora) należy przed deponowaniem lub tuż po zgłosić taką potrzebę do redakcji i zostaną nadane stosowne zasady do określonego zbioru.
Zdeponowany zbiór danych podlega sprawdzeniu przez redaktora repozytorium, który weryfikuje poprawność procesu deponowania i czy nie ma błędów we wprowadzonych metadanych (ewidentne literówki może poprawić, w przypadku innych błędów bądź konieczności uzyskania dodatkowej informacji redaktor kontaktuje się z deponującym). Redaktor nie sprawdza zawartości zbioru danych i nie ocenia jego wartości merytorycznej ani jakości. Proces akceptacji może trwać do 2 dni roboczych.
Wzór cytowania zbioru danych
Autor (rok) Tytuł. ReKUL. Adres z numerem identyfikacji cyfrowej Handle. Na przykład: Puchalska-Wasyl, M.; Jankowski, T. (2019) Are internal dialogues in young adults influenced by mother-father incongruence in parental attitudes assessed retrospectively? ReKUL. http://hdl.handle.net/20.500.12153/433
Zachęcamy do skorzystania z poradnika dotyczącego Planu zarządzania danymi badawczymi. |
|
|