Ciclo de ida dos dados
B uno Almeida | NOVA FCSH
b unoalmeida@ csh.unl.p
No âmbi o do PNCADAI – P og ama Nacional de
Ciência Abe a e Dados Abe os de In es igação,
inse ido na Medida RE-C05-i08 – Ciência Mais Digi al,
do PRR – Plano de Recupe ação e Resiliência.
Ciclo de ida dos dados
•Os dados de in es igação êm um
con ex o que ai pa a além do momen o
da sua c iação.
•O ciclo de ida dos dados ep esen a
as di e en es ases da in es igação e
dos dados esul an es.
designed by eepik
2
Ciclo de ida dos dados no RDMKi
•Fases do ciclo de ida dos dados no
RDMKi da In aes u u a ELIXIR, em
ciências da ida:
•Planeamen o
•Recolha
•P ocessamen o
•Análise
•P ese ação
•Pa ilha
•Reu ilização
h ps:// dmki .elixi -eu ope.o g/da a_li e_cycle
3
Planeamen o
4
Planeamen o
•De inição da es a égia pa a os dados que i ão se c iados e/ou
eu ilizados na in es igação:
•Que ipo de dados se ão ge ados, com que ecu sos, in e enien es, e c.?
•Como se á ga an ida a in eg idade dos dados, e ge ido o acesso aos mesmos
em di e en es momen os da in es igação?
•Que documen ação dos dados é necessá ia pa a ga an i a pa ilha e
p ese ação a longo p azo?
•As espos as a es as ques ões é o malizada a a és de um plano de
ges ão de dados (PGD).
5
Plano de ges ão de dados
designed by eepik
•Documen o que desc e e como os
dados se ão p oduzidos, ge idos e
pa ilhados an es, du an e e após a
in es igação.
•É um documen o “ i o”, de endo se
a ualizado no deco e da in es igação.
6
Impo ância de c ia um PGD
•É um equisi o de p og amas de inanciamen o (ex. Ho izon
Eu ope).
•Facili a o planeamen o e a o çamen ação de ecu sos e
equipamen o.
•De ine papéis e esponsabilidades na equipa do p oje o.
•Ajuda a iden i ica iscos e p opo soluções na ges ão de dados.
•Facili a a pa ilha, p ese ação e eu ilização dos dados.
7
In o mação que de e cons a num PGD
•In o mação ge al sob e o p oje o.
•Desc ição dos conjun os de dados ge ados ou eu ilizados.
•Desc ição dos esquemas de me adados, das on ologias
u ilizadas e da documen ação que acompanha os dados.
•A mazenamen o, sal agua da e p ese ação.
•Pa ilha e publicação dos dados.
•Cus os e ecu sos necessá ios pa a a GDI.
•Ques ões é icas e legais (ex. dados sensí eis, p op iedade
in elec ual e licenciamen o dos dados).
8
Exemplos de PGD
9
PGD do p oje o RARAA [A queologia]
h ps://hdl.handle.ne /1822/92462
PGD do p oje o SAIL [Ciências da Te a]
h ps://doi.o g/10.5281/zenodo.4286209
O ganização de ichei os
•Desen ol e uma con enção pa a nomea os ichei os:
•Da p e e ência a nomes b e es e in o ma i os;
•Man e a consis ência na nomeação dos ichei os;
•O dena os elemen os do nome do ge al pa a o especí ico;
•Usa hí ens ou unde sco es pa a sepa a elemen os do nome, e i a
espaços em b anco ou ca ac e es especiais;
•Inclui da as no o ma o ISO 8601 (AAAAMMDD), se necessá io com as
ho as (HHMMSS);
•Indica a e são do ichei o no nome.
16
O ganização de ichei os: exemplos
•Fichei o de dados da expe iência 2 em Helsínquia do p oje o
Honeybee, c iado em 2 dez. 2020:
•Nome de ichei o: 20201202_HB_EXP2_HEL_DATA_V03.xls
•T ansc ição de en e is a com g upo de oco com consumido es,
em 12 e . 2010:
•Nome do ichei o: FG1_CONS_2010-02-12.
Da a Sigla do p oje o N.º da expe iência Local Tipo Ve são
N.º do g upo de oco Tipo de pa icipan es Da a
17
Escolha de o ma os de ichei o
•Semp e que possí el, da p e e ência a o ma os:
•Não p op ie á ios;
•Baseados em no mas abe as, de u ilização li e;
•Mais u ilizados na á ea de in es igação;
•Não comp imidos;
•Não enc ip ados.
•Na ase a i a da in es igação ( ecolha, p ocessamen o e análise) é
acei á el o uso de o ma os p op ie á ios, mas pa a a p ese ação,
pa ilha e eu ilização, de em se con e idos ou expo ados pa a
o ma os abe os.
18
Escolha de o ma os de ichei o
Tipo de dados
P e e enciais
Acei á eis
Não ecomendados
Documen os de ex o
en iquecido
ODT (.
od )
Ma kdown
(.md)
LaTeX
(. ex)
PDF/A (.
pd )
O ice Open XML
Documen
(.docx)
Mic oso Wo d (.
doc)
Rich
Tex Fo ma (. )
Ou os ipos de PDF
(.
pd )
Documen os de ex o
simples
Unicode
ex (. x )
Tex o não Unicode (.
x )
Dados abula es
CSV (.
cs , . s )
O ice Open XML
Wo kbook
(.xlsx)
Mic oso Excel (.
xls)
Áudio
Ma oska
(.mka)
FLAC (.
lac)
WAVE (.
wa )
MP3 (.mp3)
Vídeo
Ma oska
(.mk )
MPEG/MPG
anima ion
(.
mpg, .mp4, .mjpeg)
AVI (.
a i)
QuickTime (.
mo , .q )
Me adados legí eis po
máquina
JSON (.
json)
XML (.
xml)
19
P ocessamen o
20
P ocessamen o
designed by eepik
21
•Fase de p epa ação dos dados pa a a análise:
•Con e e os dados pa a um o ma o acessí el pa a
análise;
•Le a a cabo a cu ado ia dos dados.
•No caso de dados impo ados de ou as on es,
pode ambém se necessá io:
•Al e a os o ma os pa a in eg ação com ou os da ase s;
•Al e a os sis emas de codi icação, on ologias ou
ocabulá ios con olados u ilizados;
•Fil a os dados pa a inclui apenas dados ele an es pa a
a in es igação.
Impo ância do p ocessamen o dos dados
•Pe mi e assegu a a boa qualidade dos dados ecolhidos e
p epa á-los pa a análise.
•Fase essencial pa a a in eg ação de dois ou mais conjun os de
dados de o igens di e en es.
•A documen ação dos passos ealizados no p ocessamen o é
impo an e pa a a ep odu ibilidade da in es igação.
22
Ques ões a e em con a
•Os dados sensí eis de em se anonimizados ou
pseudonimizados.
•Regis o das e apas de codi icação e de anonimização, po
exemplo:
•Fo ma os de codi icação usados nos campos (ex. da as, nomes);
•Signi icado dos campos azios e de quaisque alo es especiais;
•Relações en e campos de dados.
23
Anonimização e pseudonimização
Dados em b u o
Dados pseudonimizados
Dados anonimizados
João Sil a, M, 1990
-01-01,
Lisboa
P001
, M, 1990, Lisboa
Homem
, 30-40 anos, Lisboa
So ia Ma ques, F, 1986
-01-01,
Diabe es ipo 1, G upo de
a amen o A
P001
, F, 1986
, Diabe es ipo 1,
G upo de a amen o A
Mulhe
, 30-40 anos, Diabe es
ipo 1, G upo de a amen o A
•Na pseudonimização, os dados que pe mi em iden i ica pessoas
são subs i uídos po pseudónimos, sendo possí el eiden i ica
as pessoas com dados adicionais (ex. abela de mapeamen o).
•Na anonimização, os dados sensí eis são e i ados e não é
possí el eiden i ica as pessoas:
•Dados anonimizados não são conside ados dados pessoais.
24
Análise
25
Ques ões a e em con a
•Nem odos os dados de em se p ese ados, apenas os que
cump am ce os equisi os:
•Dados que o inanciado , edi o a ou ins i uição equei a se em
p ese ados du an e um pe íodo.
•Dados pa a cump imen o de equisi os é icos ou legais (ex. dados de
ensaios clínicos).
•Dados únicos ou que não possam acilmen e se ec iados (ex. luxo de
abalho da análise dos dados).
•Dados com g ande po encial pa a se em eu ilizados, ou com alo
social, cien í ico, his ó ico ou cul u al.
32
Pa ilha
33
Pa ilha
designed by eepik
•Pa ilha os dados signi ica da a conhece os
dados a ou em.
•A pa ilha dos dados não implica
necessa iamen e o acesso abe o:
•Acesso con olado, egis ado ou po pedido.
•Acesso echado (com me adados abe os).
•A pa ilha pode se ealizada a qualque
momen o do ciclo de ida dos dados:
•O mais a da , os dados de em se pa ilhados pa a
acompanha publicações que eco am aos dados
pa a chega a conclusões.
34
Impo ância da pa ilha dos dados
•A pa ilha dos dados é uma boa p á ica pa a ga an i a sua
p ese ação e disponibilização à comunidade cien í ica.
•Condição necessá ia pa a que a in es igação seja ep odu í el.
•Di e sos inanciado es, edi o as e ins i uições eque em a
pa ilha dos dados semp e que possí el.
•No con ex o da UE, os dados de in es igação esul an es de
inanciamen o público de em se abe os po omissão, e
compa í eis com os p incípios FAIR.
35
Ques ões a e em con a
•No caso da pa ilha de dados no âmbi o de in es igação
colabo a i a:
•U iliza pla a o mas pa a a mazenamen o, pa ilha e acesso con olado
aos dados p elimina es.
•Deposi a os dados num eposi ó io logo que possí el (com emba go, se
necessá io).
•Ado a p á icas comuns de o ganização dos dados, dos o ma os, da
documen ação e dos me adados.
36
Ques ões a e em con a
•No caso da pa ilha de dados pa a publicação:
•Con i ma os di ei os pa a pa ilha dos dados.
•Conside a possí eis ques ões é icas, con a uais e legais sob e os
dados (ex. dados pessoais, pa en es).
•Ve i ica os equisi os dos inanciado es, edi o as e ins i uições sob e
a publicação e disponibilização de dados.
•To na os dados ci á eis, u ilizando iden i icado es pe sis en es (ex.
DOI).
•Seleciona uma licença pa a a u ilização dos dados.
37
Licenciamen o de dados
•Semp e que possí el, seleciona uma licença que pe mi a a
eu ilização ou modi icação dos dados.
•Como e e ência, seleciona uma licença compa í el com a Open
De ini ion (h ps://opende ini ion.o g/licenses/), po exemplo:
•C ea i e Commons CC0-1.0 (domínio público).
•C ea i e Commons A ibu ion CC-BY-4.0 (a ibuição ao c iado ).
•C ea i e Commons A ibu ion Sha e-Alike CC-BY-SA-4.0 (pa ilha igual).
38
Reposi ó ios de dados: al e na i as
•U iliza um eposi ó io disciplina , se possí el (ex. PORTULAN
CLARIN pa a as ciências da linguagem).
•U iliza o Zenodo, um eposi ó io gene alis a ge ido pelo CERN e
com inanciamen o da Comissão Eu opeia.
39
In o mação sob e eposi ó ios de dados
•Reco e a di e ó ios pa a localiza eposi ó ios con iá eis e ob e
mais in o mações:
•Regis y o Resea ch Da a Reposi o ies: h ps://www. e3da a.o g/
•FAIRsha ing: h ps:// ai sha ing.o g/
40
Reu ilização
41