En epˆo s de san ´e
De l’in ´eg a ion `a l’analyse ´ed´e ´ee
Nelly Ba e
Pos doc o an e
Dipa imen o di Ele onica, In o mazione e Bioingegne ia
Poli ecnico di Milano
27 mai 2025
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 1 / 24
B `e e in oduc ion
Mon pa cou s :
Licence @ Uni . Lyon
Mas e @ Uni . Lyon
Doc o a @ In ia Saclay e Ecole Poly echnique
Pos -doc @ Poli ecnico di Milano (I alie)
Ma h`ese : explo a ion u ilisa eu de donn´ees semi-s uc u ´ees.
Mon pos -doc : analyses ´ed´e ´ees de donn´ees de san ´e.
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 2 / 24
Mo i a ion : in ´eg a ion e explo a ion de donn´ees Con ex es di ´e en s, besoins di ´e en s
Con ex es di ´e en s, besoins di ´e en s
Mod`eles s uc u ´es :
Tables
Donn´ees ela ionnelles
Mod`eles semi-s uc u ´es :
Documen s XML
Documen s JSON
G aphes RDF
G aphes de p op i´e ´es
Mod`eles non-s uc u ´es :
Tex e
Images
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 3 / 24
Mo i a ion : in ´eg a ion e explo a ion de donn´ees Con ex es di ´e en s, besoins di ´e en s
Con ex es di ´e en s, besoins di ´e en s
Domaines d’applica ion a i´es :
San ´e
Jou nalisme
T anspo s, ...
Pa ois, donn´ees sensibles :
R`egles de con iden iali ´e
R`eglemen RGPD (Eu ope)
Sou en , di ´e en s ac eu s/u ilisa eu s :
Comp´e ences non in o ma iques
Temps e in es issemen limi ´es
In ´eg a ion de donn´ees : di icile ca la ges, complexes, i ´eguli`e es
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 4 / 24
Mo i a ion : in ´eg a ion e explo a ion de donn´ees Con ex es di ´e en s, besoins di ´e en s
Con ex es di ´e en s, besoins di ´e en s
Domaines d’applica ion a i´es :
San ´e
Jou nalisme
T anspo s, ...
Pa ois, donn´ees sensibles :
R`egles de con iden iali ´e
R`eglemen RGPD (Eu ope)
Sou en , di ´e en s ac eu s/u ilisa eu s :
Comp´e ences non in o ma iques
Temps e in es issemen limi ´es
In ´eg a ion de donn´ees : di icile ca la ges, complexes, i ´eguli`e es
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 4 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e
Que ´e `elen les donn´ees de san ´e mul i-sou ces ?
Peu de coop´e a ion/no malisa ion en e les cen es m´edicaux
Peu de donn´ees pa ien pou les maladies a es
App oche adi ionnelle : en epˆo s [DM88]
Besoin de ou ni des app oches d´ecen alis´ees e ´ed´e ´ees !
U ilisa ion de la connaissance des expe s + au oma isa ion
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 5 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e
Que ´e `elen les donn´ees de san ´e mul i-sou ces ?
Peu de coop´e a ion/no malisa ion en e les cen es m´edicaux
Peu de donn´ees pa ien pou les maladies a es
App oche adi ionnelle : en epˆo s [DM88]
Besoin de ou ni des app oches d´ecen alis´ees e ´ed´e ´ees !
U ilisa ion de la connaissance des expe s + au oma isa ion
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 5 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e
Que ´e `elen les donn´ees de san ´e mul i-sou ces ?
Peu de coop´e a ion/no malisa ion en e les cen es m´edicaux
Peu de donn´ees pa ien pou les maladies a es
App oche adi ionnelle : en epˆo s [DM88]
Besoin de ou ni des app oches d´ecen alis´ees e ´ed´e ´ees !
U ilisa ion de la connaissance des expe s + au oma isa ion
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 5 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e
Que ´e `elen les donn´ees de san ´e mul i-sou ces ?
Peu de coop´e a ion/no malisa ion en e les cen es m´edicaux
Peu de donn´ees pa ien pou les maladies a es
App oche adi ionnelle : en epˆo s [DM88]
Besoin de ou ni des app oches d´ecen alis´ees e ´ed´e ´ees !
U ilisa ion de la connaissance des expe s + au oma isa ion
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 5 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e L’app oche I-ETL
L’app oche I-ETL
1Analyse les donn´ees e ex ai e leu s m´e a-donn´ees
2C ´ee un en epˆo in e op´e able dans chaque cen e
3´
E alue l’in e op´e abili ´e pendan la pipeline
4Pe me e l’analyse ´ed´e ´ee des en epˆo s
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 8 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e In e op´e abili ´e
L’in e op´e abili ´e selon les p incipes FAIR
Recommanda ions pou la bonne ges ion des donn´ees [WDA+16] :
FFindable : essou ces index´ees e iden i iables
AAccessible : acc`es aux donn´ees pa p o ocoles s anda ds
IIn e op´e able : in ´eg e e ´e ´e ence les jeux de donn´ees selon les
p incipes FAIR
RReusable : ´e-u ilise les donn´ees dans d’au es con ex es g ˆace `a leu
p o enance, e c.
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 9 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e ´
E ape 1 : c ´ea ion des m´e a-donn´ees
Des jeux de donn´ees aux m´e a-donn´ees
M´e a-donn´ees : chaque jeu de donn´ees se d´ec i pa un ensemble de
ca ac ´e is iques ( ea u es)
Nom, d´e ini ion, ype, uni ´e, aleu s, ...
Sp´eci i´e pa les expe s
Donn´ees abulai es de donn´ees ph´eno ypiques e cliniques
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 10 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e ´
E ape 1 : c ´ea ion des m´e a-donn´ees
Des jeux de donn´ees aux m´e a-donn´ees
M´e a-donn´ees : chaque jeu de donn´ees se d´ec i pa un ensemble de
ca ac ´e is iques ( ea u es)
Nom, d´e ini ion, ype, uni ´e, aleu s, ...
Sp´eci i´e pa les expe s
Les m´e a-donn´ees ob enues
E si “sexe” de ien “gen e” dans un au e hˆopi al ?
E si on u ilise “Homme”/“Femme” ou “Male”/“Female” ?
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 11 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e ´
E ape 1 : c ´ea ion des m´e a-donn´ees
Des jeux de donn´ees aux m´e a-donn´ees
M´e a-donn´ees : chaque jeu de donn´ees se d´ec i pa un ensemble de
ca ac ´e is iques ( ea u es)
Nom, d´e ini ion, ype, uni ´e, aleu s, ...
Sp´eci i´e pa les expe s
Les m´e a-donn´ees ob enues
E si “sexe” de ien “gen e” dans un au e hˆopi al ?
E si on u ilise “Homme”/“Femme” ou “Male”/“Female” ?
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 11 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e ´
E ape 1 : c ´ea ion des m´e a-donn´ees
Mod`ele pou les m´e a-donn´ees
Nous isons un mod`ele concep uel exp essi e in e op´e able pou les
m´e adonn´ees
Nom : nom de la ca ac ´e is ique
Vocabulai e : nom d’on ologie
Code : code du e me associ´e `a la ca ac ´e is ique
Classe : ph´eno ypique, clinique, g´enomique, ...
Type :s ing,en ie ,nomb e,bool´een,ca ´ego ie, ...
Uni ´e : pou in e p ´e e les aleu s num´e iques
Ca ´ego ies : lis e de aleu s disc `e es pou les ca ´ego ies
Visibili ´e :public,anonymis´e,p i ´e
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 12 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e ´
E ape 2 : appa iemen e s des ocabulai es
Associe les m´e a-donn´ees `a des ocabulai es
Vocabulai es : dic ionnai es de concep s/ aleu s iden i iables uniquemen
SNOMED CT [SPSW01], LOINC [HRM+98], OMIM [HSA+05], ...
On associe chaque ca ac ´e is ique e ca ´ego ie e s un e me de
ocabulai e →in e ope abilisa ion++
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 13 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e ´
E ape 3 : mod`ele de donn´ees de san ´e
Mod`ele de donn´ees de san ´e
Nous oulons un mod`ele g´en´e al e ex ensible pou les donn´ees de
san ´e
Challenges :
De nomb eux ypes de donn´ees →g ande h´e ´e og´en´ei ´e
Rep ´esen a ion des m´e a-donn´ees des expe s
Nous isons un mod`ele concep uel :
Bas´e su les no ions de ca ac ´e is ique ( ea u e) e
d’en egis emen ( eco d)
Peupl´e au oma iquemen pa un ETL
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 14 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e ´
E ape 3 : mod`ele de donn´ees de san ´e
Mod`ele g´en´e al e ex ensible pou la san ´e
Commen c ´ee au oma iquemen un en epˆo a ec ce mod`ele ?
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 15 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e ´
E ape 3 : mod`ele de donn´ees de san ´e
Mod`ele g´en´e al e ex ensible pou la san ´e
Commen c ´ee au oma iquemen un en epˆo a ec ce mod`ele ?
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 15 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e I-ETL en p a ique
I-ETL en p a ique dans le p oje Be e
7 cen es hospi alie s en Eu ope
I-ETL es en d´eploiemen dans chaque cen e →7 en epˆo s
in e op´e ables
Main enan :
C ´ee un ca alogue pou :
Lis e les jeux de donn´ees e leu s m´e a-donn´ees
Explo e les jeux de donn´ees e leu s donn´ees ag ´eg´ees
Pa isualisa ions e equˆe es
C ´ee une pla e o me pou l’app en issage d´ecen alis´e
Pou algo i hmes IA ´ed´e ´es
S´ecu is´ee (donn´ees dans les cen es)
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 22 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e I-ETL en p a ique
I-ETL en p a ique dans le p oje Be e
7 cen es hospi alie s en Eu ope
I-ETL es en d´eploiemen dans chaque cen e →7 en epˆo s
in e op´e ables
Main enan :
C ´ee un ca alogue pou :
Lis e les jeux de donn´ees e leu s m´e a-donn´ees
Explo e les jeux de donn´ees e leu s donn´ees ag ´eg´ees
Pa isualisa ions e equˆe es
C ´ee une pla e o me pou l’app en issage d´ecen alis´e
Pou algo i hmes IA ´ed´e ´es
S´ecu is´ee (donn´ees dans les cen es)
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 22 / 24
Analyse ´ed´e ´ee de donn´ees de san ´e La pla e o me Be e
La pla e o me Be e : app en issage ´ed´e ´e e d´ecen alis´e
Bas´ee su le Pe sonal Heal h T ain : s a ions (cen es), ains ( equˆe es),
s a ion cen ale (ag ´ega ion des ´esul a s) →aucune donn´ee ne qui e les
cen es
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 23 / 24
Conclusion
Conclusions
Nous a ons in odui :
12 mod`eles concep uels g´en´e aux e ex ensibles pou donn´ees e
m´e a-donn´ees de san ´e
2I-ETL : un algo i hme pou cons ui e des en epˆo s in e op´e ables
3Une pla e o me : un ca alogue e algo i hmes d’app en issage ´ed´e ´e
P ochaines ´e apes :
T ou e au oma iquemen le ocabulai e + e me des m´e a-donn´ees
Pe me e un equˆe age simple e s´ecu is´e des en epˆo s
P opose des isualisa ions e in e ac ions g´en´e ales
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 24 / 24
Conclusion
Conclusions
Nous a ons in odui :
12 mod`eles concep uels g´en´e aux e ex ensibles pou donn´ees e
m´e a-donn´ees de san ´e
2I-ETL : un algo i hme pou cons ui e des en epˆo s in e op´e ables
3Une pla e o me : un ca alogue e algo i hmes d’app en issage ´ed´e ´e
P ochaines ´e apes :
T ou e au oma iquemen le ocabulai e + e me des m´e a-donn´ees
Pe me e un equˆe age simple e s´ecu is´e des en epˆo s
P opose des isualisa ions e in e ac ions g´en´e ales
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 24 / 24
Re e ences I
Nelly Ba e , Bo is Bikbo , Anna Be nasconi, and Pie o Pinoli.
I-ETL : an in e ope abili y-awa e heal h (me a)da a pipeline o enable ede a ed analyses.
Unde e iew in BMC Medical In o ma ics and Decision Making, 2025.
Nelly Ba e , Anna Be nasconi, Cinzia Cappiello, Giacomo Palu, and Pie o Pinoli.
Le e aging p o iling o b idge heal hca e silos o ede a ed analyses.
Caise Fo um, 2025.
Clai Blacke e , E ica A Voss, F ank DeFalco, Nigel Hughes, Ma ijn J Schuemie, Maxim Moina , and Pe e R Rijnbeek.
Using he da a quali y dashboa d o imp o e he EHDEN ne wo k.
Applied Sciences, 11(24) :11920, 2021.
Leona do Candela, Da io Mangione, and Gina Pa one.
The FAIR assessmen conund um : Re lec ions on ools and me ics.
Da a Science Jou nal, 23(1), 2024.
Ba y A. De lin and Paul T. Mu phy.
An a chi ec u e o a business and in o ma ion sys em.
IBM sys ems Jou nal, 27(1) :60–80, 1988.
The FHIR amewo k.
h ps://hl7.o g/ hi /summa y.h ml. Accessed 21 No embe 2024.
Geo ge H ipcsak, Jon D Duke, Nigam H Shah, Ch is ian G Reich, Voj ech Huse , Ma ijn J Schuemie, Ma c A Sucha d,
Rae Woong Pa k, Ian Chi Kei Wong, Pe e R Rijnbeek, e al.
Obse a ional heal h da a sciences and in o ma ics (OHDSI) : oppo uni ies o obse a ional esea che s.
In MEDINFO 2015 : eHeal h-enabled Heal h, pages 574–578. IOS P ess, 2015.
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 1 / 15
Re e ences II
S anley M Hu , Robe o A Rocha, Clemen J McDonald, Geo ges JE De Moo , Tom Fie s, W Dean Bidgood J ,
A den W Fo ey, William G F ancis, Wayne R T acy, Dennis Lea elle, e al.
De elopmen o he logical obse a ion iden i ie names and codes (LOINC) ocabula y.
Jou nal o he Ame ican Medical In o ma ics Associa ion, 5(3) :276–292, 1998.
Ada Hamosh, Alan F Sco , Joanna S Ambe ge , Ca ol A Bocchini, and Vic o A McKusick.
Online mendelian inhe i ance in man (omim), a knowledgebase o human genes and gene ic diso de s.
Nucleic acids esea ch, 33(suppl 1) :D514–D517, 2005.
Toan C Ong, Michael G Kahn, Be hany M Kwan, T aci Yamashi a, Elias B and , Pa ick Hosokawa, Ch is Uh ich, and
Lisa M Schilling.
Dynamic-ETL : a hyb id app oach o heal h da a ex ac ion, ans o ma ion and loading.
BMC medical in o ma ics and decision making, 17 :1–12, 2017.
Daniel Pu mann, Rowdy de G oo , Nicole e de Keize , Ronald Co ne , e al.
Assessing he FAIRness o da abases on he EHDEN po al : A case s udy on wo Du ch ICU da abases.
In e na ional Jou nal o Medical In o ma ics, 176 :105104, 2023.
Felipe Pezoa, Juan L Reu e , Fe nando Sua ez, Ma ´ın Uga e, and Domagoj V goˇc.
Founda ions o JSON schema.
In P oceedings o he 25 h in e na ional con e ence on Wo ld Wide Web, pages 263–273, 2016.
Ma cel Pa ciak, Ma kus Suh , Ch is ian Schmid , Ca oline B¨onisch, Benjamin L¨ohnha d , Do o hea Kesz y¨us, and Tibo
Kesz y¨us.
Fai ness h ough au oma ion : de elopmen o an au oma ed medical da a in eg a ion in as uc u e o ai heal h da a
in a maximum ca e uni e si y hospi al.
BMC Medical In o ma ics and Decision Making, 23(1) :94, 2023.
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 2 / 15
Re e ences III
Raghu Ramakh ishnan and Johannes Geh ke.
Da abase Managemen Sys ems (3 d edi ion).
McG aw-Hill, 2003.
Michael Q S ea ns, Colin P ice, Ken A Spackman, and Amy Y Wang.
SNOMED clinical e ms : o e iew o he de elopmen p ocess and p ojec s a us.
In P oceedings o he AMIA Symposium, page 662. Ame ican Medical In o ma ics Associa ion, 2001.
Paul E S ang, Pa ick B Ryan, Judi h A Racoosin, J Ma c O e hage, Ab aham G Ha zema, Ch is ian Reich, Emily
Welebob, Thomas Sca necchia, and Jane Woodcock.
Ad ancing he science o ac i e su eillance : a ionale and design o he obse a ional medical ou comes pa ne ship.
Annals o in e nal medicine, 153(9) :600–606, 2010.
Resou ce Desc ip ion F amewo k (RDF).
h ps ://www.w3.o g/RDF/.
The XML da a model.
h ps ://www.w3.o g/XML/Da amodel.h ml.
W3C XML Documen Type Speci ica ion.
h ps ://www.w3.o g/TR/REC-xml/#d -doc ype, 2008.
W3C XML Schema De ini ion Language (XSD).
h ps ://www.w3.o g/TR/xmlschema11-1/, 2012.
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 3 / 15
Re e ences IV
Ma k D Wilkinson, Michel Dumon ie , IJsb and Jan Aalbe sbe g, Gab ielle Apple on, Myles Ax on, A ie Baak, Niklas
Blombe g, Jan-Willem Boi en, Luiz Bonino da Sil a San os, Philip E Bou ne, e al.
The FAIR guiding p inciples o scien i ic da a managemen and s ewa dship.
Scien i ic da a, 3(1) :1–9, 2016.
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 4 / 15
The ela ional da a model
Acco ding o [RG03] :
A ela ional schema is a se o ela ions
Each ela ion has a name and se o named a ibu es wi h hei
domain
Ap ima y key is a subse o a ibu es o uniquely iden i y a uple
A o eign key is a e e ence o a p ima y key
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 5 / 15
UMG-MeDIC [PSS+23]
Medical da a in eg a ion cen e ; elies on Medical In o ma ics Ini ia i e
(MI-I) unds and HiGHmed conso ium
C ea e a echnical and legal amewo k o c oss-si e seconda y use o
ou ine heal hca e da a
Aim o high compliance wi h FAIR P inciples bu da a in eg a ion
wo k lows a e complex and ine icien when done manually
Ope a es on a con inuous low o da a (6= indi idual da ase s)
Pe iodic in eg a ion o new da a
A cen al ela ional da abase wi h anonymized da a
Combine indi idual p e-p ocessing asks in o wo k lows
Requi e ha each ask is documen ed wi h “me a-da a”
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 12 / 15
The OMOP da a model [SRR+10]
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 13 / 15
D-ETL [OKK+17]
“Dynamic-ETL” : semi-au oma ic ETL o map sou ce and a ge da a
models
C ea ion o an ETL speci ica ion documen ( ocabula ies, da a
schema, de ini ions, con en ions)
Da a ex ac ion om ini ial sou ces and alida ion
D-ETL ules w i ing (T1./ T2on T1.a=T2.b)
Con e sion o ules o SQL s a emen s
Tes ing ules on da a ; i e a e i no sa is ying
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 14 / 15
C ea ing new codes wi h pos -coo dina ion
Some heal hca e concep s do no ha e a speci ic code
SNOMED-CT in oduces pos -coo dina ion as a composi ional g amma
A pos -coo dina ed code = a sequence o exis ing codes wi h ope a o s
Nelly Ba e (DEIB@PoliMi) In ´eg a ion e analyse de donn´ees de san ´e 27 mai 2025 15 / 15