scieee Science in your language
[en] (orig)

5-Les bonnes pratiques de gestion des fichiers et des données. Comment gagner du temps et éviter les catastrophes !

Author: Jaouen, Gaëlle; Legras, Eva
Publisher: Zenodo
DOI: 10.5281/zenodo.17293254
Source: https://zenodo.org/records/17293254/files/05_BPGestionFichiersDonnees_V4.1.pdf
Cellule données de la eche che
donnees- eche che@ag opa is ech.
V4 – Aoû 2025
1
Les bonnes p a iques de ges ion
des ichie s e des données
Commen gagne du emps e é i e les ca as ophes !?
(copy igh phdcomics)
I. O ganise e documen e ses données, pou quoi ai e e
commen ?
Des données bien o ganisées, bien documen ées e acilemen açables pe me en d’a es e
de la iabili é des ésul a s e son éu ilisables pa soi-même e pa les au es, à ou momen .
L’o ganisa ion e la ges ion des données d’un p oje éponden à ois besoins ondamen aux :
• Sa oi où les ou e : gé e les ichie s, le s ockage, les sau ega des
• Sa oi les li e e les eli e : bien choisi les o ma s e les logiciels
• Sa oi les comp end e : documen a ion, mé adonnées, dic ionnai e de données
Dans ce e op ique, il au donc, au an que possible, an icipe quels ypes de données on ê e p odui s,
quel olume e dans quels o ma s ainsi que ce qu’il aud a s ocke puis conse e à e me e pou quelle
du ée (pa exemple, p io i é aux données chè es, non- ep oduc ibles, longues e di iciles ou délica es à
p odui e (expé imen a ion animale pa exemple), à o e aleu pa imoniale plu ô qu’aux données
issues de modélisa ion, simula ion sau si les p ocessus son longs).
Il es impo an aussi de dé ini les pa amè es d’u ilisa ion de ces données du an le p oje :
• Qui a les u ilise : Une pe sonne ? Plusieu s ? Dans un même lieu ? Dans des lieux di é en s?
• Commen : Données equises à quelle équence ? A quelle i esse ?
• Depuis quel lieu de s ockage : local (se eu s, e c.), sous- ai é (Da a Cen e s), en epô …
selon le olume, les in as uc u es e les moyens (logiciels, espaces de s ockage, compé ences)
don on dispose mais égalemen le besoin de sécu isa ion e de sau ega de des données
(con ôle d’accès, c yp age, baie de sau ega de, e c…).
Vo e s a égie numé ique es impo an e !
Vous ne oulez pas pe d e de emps a ec os données ? Toujou s sa oi où elles son ?
T a aille su la bonne e sion des ichie s ? E i e au maximum les e eu s, les con usions,
les edondances e les ca as ophes ???
Alo s adop ez quelques é lexes e bonnes p a iques e ou de ai se passe au mieux !
Pou ou ça, la édac ion d’un Plan de Ges ion des Données (PGD) ous aide a beaucoup
mais commen ai e en dé ails ? On ous di ou dans ce e iche !
Cellule données de la eche che
donnees- eche che@ag opa is ech.
V4 – Aoû 2025
2
Pou ou es ces considé a ions, il es ondamen al de considé e ces poin s dès le mon age puis le
lancemen des p oje s. Il au se me e d’acco d au sein de l’équipe : dé ini qui ai quoi, les é é en s
pou chaque âche, choisi une langue (FR/EN) e adop e une o ganisa ion e icace, clai e (bien
documen ée) mais pas op lou de à gé e e u ilise . Il au ai e au mieux mais es e éalis e !
La ou e p emiè e é ape consis e donc à empli son Plan de Ges ion de Données ! ☺
II. O ganise e gé e ses ichie s
1) Choisi des o ma s de ichie s s anda ds
Pou é i e de se e ou e bloqué pa des aspec s echniques e inancie s e assu e la pé enni é des
données, il au p i ilégie , au an que possible, des o ma s e logiciels ou e s, g a ui s, pé ennes, non
p op ié ai es, cou an s e s anda ds.
Pou alle plus loin : Cines -
FACILE (ou il de é i ica ion des
o ma s de ichie s), Do anum (quiz
su les o ma s) e une bonne
syn hèse des o ma s pou ou
ype de ichie s.
2) Choisi un ype de s ockage
• Disque local → a ail en solo
• Espace se eu pa agé → a ail collabo a i e apidi é des échanges dans un labo a oi e, une
équipe. Ce sys ème pe me un gain de place (en é i an la mul iplica ion des copies d’un même
ichie ) e d’e icaci é (non mul iplica ion des e sions d’un même ichie ). La ges ion des d oi s
d’accès aux ichie s pe me de pa amé e les ac ions possibles de chaque u ilisa eu selon son
s a u e son ôle dans le p oje .
• Hébe gemen en ligne → a ail collabo a i en e plusieu s labo a oi es ou équipes dispe sés.
Les a an ages son les mêmes mais il au absolumen é léchi à la sécu i é des données. Pa
exemple : pas de données pe sonnelles ou sensibles su le Cloud ou su un suppo ex e ne,
sau si c yp ées.
Dans ous les cas, il au dé ini les modali és de sau ega de !
Tableau i é de Do aNum
APNG
Cellule données de la eche che
donnees- eche che@ag opa is ech.
V4 – Aoû 2025
3
3) Choisi une o ganisa ion des ichie s
Deux g ands ypes d'o ganisa ion son en isageables :
• Pa Mo s-clés : l'o ganisa ion epose su l’indexa ion des con enus e les eche ches s’appuien
su le ocabulai e employé. Ce e o ganisa ion es idéale pou ce ains ypes de ichie s : pho os,
images, publica ions mais nécessi e l’u ilisa ion d’un hésau us de mo s-clés e une con en ion à
sui e pa TOUS les memb es du p oje . C’es une o ganisa ion peu s uc u ée e qui nécessi e
des logiciels pa iculie s de ges ion e de eche che.
• Hié a chique :
Ce e o ganisa ion implique de choisi les g andes ca égo ies (adminis a ion, données b u es, analyses,
ésul a s, édac ion…) en amon ca il es pé illeux de modi ie la s uc u e a pos e io i. Ce e s uc u e
doi épond e à di é en s c i è es :
o É i e ou e edondance : un ichie = un emplacemen = un chemin d’accès (u ilise des
accou cis si besoin de ai e appa ai e un ichie à plusieu s emplacemen s)
o T ou e un équilib e en e la geu e p o ondeu
Un ou il ès u ile, lib e e g a ui , A chi il e, pe me d’analyse ses a bo escences, de aque
les doublons e de les supp ime . Documen a ions e u o iels son disponibles en ligne.
D’ap ès Malinowski, 2017
D’ap ès Malinowski, 2017
T op la ge = op dé aillé
DONC subdi ise !
T op p o ond = pénible + incompa ible a ec
ce ains sys èmes d’exploi a ion
DONC assemble !
Cellule données de la eche che
donnees- eche che@ag opa is ech.
V4 – Aoû 2025
4
4) Dé ini des ègles de nommage
A in que chacun iden i ie acilemen les ichie s e leu con enu, il au que les noms de ichie s soien
cou s mais clai s e p écis. Ils doi en con eni un moyen de classemen apide, pa exemple une da e,
é en uellemen le nom du p oje (su ou s’il y a un isque de mélange) e l’obje du ichie .
Le o ma doi sui e ce aines ègles :
• Pas d’espaces : i e s-bas (unde sco e) (2019_p oje _obje ) ou CamelCase (2019P oje Obje )
• Pas de ca ac è es spéciaux, pas d’accen s
• Pas de poin s au es que pou l’ex ension
Ceci es applicable aux échan illons (quoi, qui, où, commen , quand…) e ce ains logiciels de mesu e
son pa amé ables pou a ibue au oma iquemen les noms de ichie s.
Il exis e des logiciels de enommage massi (Bulk Rename U ili y, Rename …) en cas de modi ica ions
majeu es en cou s de p oje ou de décisions op a di es su la con en ion de nommage.
5) Dé ini le e sionnemen
Dans le même esp i que pou les ègles géné ales de nommage, il au ê e clai : é i e
Final/Final1/Final2/FinalFinal… Il au donc choisi un mode de e sionnemen :
• Da es : mais ga de à l’esp i les cas où il peu y a oi plusieu s e sions pa jou , pa mois…
• Numé o a ion simple : 01, 02…15… An icipe le o ma (nomb e de ca ac è es) selon le nomb e
de e sions p é isibles
• Numé o a ion pa sec ion : V1_0, V2_3, V5_1_2. Dé ini ce que signi ien les e sions de p emie
o d e e de second o d e oi e plus
Le e sionnemen doi ê e documen é. Su les documen s édigés ( appo s, p o ocoles…), un his o ique
des e sions en ê e de ichie pe me de jou nalise les modi ica ions : ajou e une ligne pou chaque
e sion : Au eu , Da e, Dé ails/Modi ica ions.
La conse a ion de l’in ég ali é des e sions d’un ichie es à considé e selon leu u ili é dans le p oje
e un bilan ap ès la in du p oje peu pe me e de diminue la olumé ie des documen s p odui s en
choisissan soigneusemen ceux à conse e .
6) P é oi des sau ega des
Le e sionnemen acili e donc le choix de ce qu’il au sau ega de . Il au ensui e é abli
p écau ionneusemen le p ocessus de sau ega de e no ammen :
• Mé hode :
o Manuelle : dange eux → il au ê e igou eux e égulie
Cellule données de la eche che
donnees- eche che@ag opa is ech.
V4 – Aoû 2025
5
o Au oma ique : beaucoup plus sû e, à p i ilégie dès que les in as uc u es le pe me en
• Règles d’o :
o 3 copies (1 ac i e + 2 sau ega des)
o 2 suppo s di é en s
o 1 en‐deho s du si e
Dans une en i é (p oje , labo a oi e, équipe) il au absolumen documen e la sau ega de, c’es -à-di e
dé ini qui s’en occupe, quand, commen , où ? E désigne un é é en pou ce e âche.
III. O ganise ses données dans les ichie s, quelques exemples
a ec les ableaux de données
L’o ganisa ion des ichie s es un élémen ex êmemen impo an dans la bonne condui e d’un p oje
mais l’o ganisa ion des données dans les ichie s l’es ou au an . Quelques ègles simples pe me en
d’op imise le a ail en soli ai e ou collabo a i e d’é i e des blocages e e eu s dans les p ocessus
d’analyse e des pe es d’in o ma ion. Ces ègles doi en ê e sui ies e pa agées pa ous les memb es
d’un même p oje , d’une même équipe. Il es donc conseillé d’y é léchi ensemble.
1) S uc u e du ichie
L’o ganisa ion des données dans les ichie s doi sui e une logique de simplici é e de non- edondance.
Pou les ableu s : un seul ableau pa euille e pas de mul iplica ion de ableaux similai es ou d’ongle s
dans un même ichie :
Si l’o ganisa ion des données de ien op complexe, il au mieux u ilise un Sys ème de Ges ion de
Bases de Données (SGBD) e non un ableu .
2) P ésen a ion des données
Ga de en ê e ces ois ègles d’o :
• Une colonne = UNE a iable ; une ligne = UNE obse a ion ; une cellule = UNE aleu
• Pas de ides : ni lignes, ni colonnes, ni cellules (décide d’un code unique pou les aleu s
manquan es)
D’ap ès A nould, 2016
En syn hèse :
•Compile ou es les ègles dans un documen ou e à ous : ReadMe. x (ou PGD!)
•
Fai e un épe oi e des ichie s, su ou si l’o ganisa ion es complexe. Ceci combine les
a an ages des mo s-clés e de l’o ganisa ion hié a chique mais es e ch onophage.
•Désigne un é é en pou l’o ganisa ion, la sau ega de, l’a chi age.
Fai e au mieux mais es e éalis e en onc ion des moyens don on dispose !

Cellule données de la eche che
donnees- eche che@ag opa is ech.
V4 – Aoû 2025
6
• Pas de doublons
Les en- ê es de colonnes ou noms de champ son là pou in o me clai emen su le con enu, ils doi en
ê e su une seule ligne e ê e desc ip i s, clai s e homogènes d’un ichie à l’au e.
Il es donc conseillé, pou les en- ê es de colonnes/lignes au an que pou le con enu des cellules, de :
• Choisi une langue unique, un sys ème commun d’uni és
• Ne pas ai e igu e les uni és, ni u ilise de ca ac è es spéciaux, d’espaces, d’accen s… la
lec u e des ichie s en se ai pe u bée pou beaucoup de logiciels
• Adop e une con en ion d’éc i u e (ex: M ≠ male ≠ mâle, o ma des da es, choix du ma queu
décimal…)
La simplici é, la lisibili é e l’in elligibili é des données les enden ansmissibles e acilemen
analysables. Mieux au donc é i e les codes couleu , les cellules usionnées, les commen ai es lib es
(les colonnes « No es/Commen ai es/Rema ques » son à codi ie au maximum) sinon les données ne
se on pas lisibles pa des machines.
3) Quali é des données
Si les données son o ganisées e p ésen ées selon les ègles énoncées ci-dessus, elles se on
acilemen u ilisables mais leu s aleu s equiè en égalemen un maximum d’a en ion pou en ga an i
la quali é.
Quelques ègles simples :
• On con ôle les aleu s :
o Tou es les a iables quali a i es sui en une même con en ion d’éc i u e e il n’y a pas
d’espaces en op a an ou ap ès la aleu (sinon deux aleu s appa emmen égales
se on considé ées comme di é en es dans les analyses)
o Tou es les aleu s d’une même a iable quan i a i e son dans la même uni é
o Les gammes de aleu s son cohé en es, éalis es, pe inen es (min/max, é endue…)
o La complé ude es bonne : ou es enseigné sau si c’es jus i ié
• On ne modi ie pas les données b u es e on les conse e !
• On ien comp e e on s’acco de su la p écision e l’exac i ude des données :
o Mesu es physiques : calib age des appa eils, con ôle s a is ique des dis ibu ions
o Tempo elle : selon le con ex e e les ques ions scien i iques
o Spa iale : un géo é é encemen peu ê e ès p écis mais aux e à l’in e se, il peu ê e
exac mais a ec une ès aible p écision. L’idéal é an bien sû d’ê e exac e p écis !
o Séman ique : é é en iels/ hésau us/on ologies (géog aphiques, axonomiques,
s anda ds…)
Plusieu s mé hodes pe me en d’applique ces ègles aux données. Pa exemple, il es possible de ixe
des con ain es su ce aines a iables (min/max, obliga oi emen posi i , nulles possibles oui/non?) ;
d’e ec ue des con ôles logiques (ex: ype_ elie = mon agne/al i ude = 1m =>e eu ) ; de con on e les
aleu s à des ables de é é ences ; d’u ilise des indica eu s de quali é : é i ié=V ai/Faux, indice de
ni eau de con ôle...
Il exis e égalemen des logiciels pe me an la cu a ion des données comme OpenRe ine pa exemple
pou les données abulées (a ec des u o iels en ligne).
Cellule données de la eche che
donnees- eche che@ag opa is ech.
V4 – Aoû 2025
7
Sou ces
A nould, P.-Y. and M.-C. Jacquemo -Pe bal (2016). Guide de bonnes p a iques : Ges ion e alo isa ion des
données de eche che, CNRS.
Chapman, A hu D. (2005). Les p incipes de quali é des données, e sion 1.0. T ad. Chenin, N. Copenhague:
Global Biodi e si y In o ma ion Facili y, 76 pp.
DoRANum (2017). Mé adonnées, s anda ds e o ma s
Flame ie, F. (2018). O ganise e icacemen ses données - Documen de cou s, U is Bo deaux.
Malinowski, C. (2017). Da a Managemen : File O ganiza ion, MITLib a ies.
Plumejeaud-Pe eau, C. and N. Mand an (2018). Quali é des données. ANF « Sciences des données : un nou eau
challenge pou les mé ie s liés aux bases de données », 5-7 no emb e 2018, Sè e, CNRS.
Saby, M. (2019). O ganise , documen e e p o ége ses données au quo idien. Fo ma ion Doc o ale, Uni e si é
Nice-Sophia-An ipolis.
Quidoz, M.-C. (2018). Les p incipes FAIR appliqués aux sau ega des su le long e me. In : CNRS. In e opé abili é
e pé ennisa ion des données de la eche che - Commen « FAIR » en p a ique ? Pa is, 27 No emb e 2018.
Conclusions
Pou une ges ion se eine e e icace des données d’un p oje ou d’une équipe, il es nécessai e
d’an icipe un maximum de pa amè es e de se coo donne en iden i ian clai emen les
esponsabili és de chacun.
Il es impo an de documen e au an que possible chaque élémen : dic ionnai e de données (lis e
des champs, explica ion li é ale du con enu, uni é, ype de aleu s, con ain es é en uelles
(min/max…)), commen ai es dans les codes in o ma iques, ègles de ges ion des ichie s e des
données, modes de sau ega des.
La combinaison de ous ces élémen s pe me ainsi d’en isage plus se einemen la ges ion des
é en uels aléas echniques en cou s de p oje , de s’assu e que chaque pa enai e a minima
possède le même ni eau de comp éhension su l’ensemble des élémen s, d’é i e la éponse en
u gence aux demandes des inanceu s conce nan l’ou e u e des données, e de limi e les
conséquences âcheuses !
L’idéal es de compile le maximum d’in o ma ions e de décisions dans un Plan de Ges ion des
Données comple e éguliè emen é isé.