P édic ion de l’en i onnemen d’un qua ie
Rappo de s age
Nelly Ba e 1
Encad ée pa Fabien Ducha eau2e F anck Fa e a2
1Uni e si é Claude Be na d Lyon 1
[email p o ec ed]
2LIRIS UMR 5205
[email p o ec ed]
Résumé A i e dans une nou elle ille sui e à une mu a ion es ou-
jou s un dé i ! En e e , il es cou an d’a i e dans une ille que l’on ne
connaî pas e la eche che d’un nou eau lieu de ie de ien alo s com-
plexe. P oche des anspo s en commun pou ce ains, un cad e plus
u al pou d’au es, plu ô animé pou les p emie s, loin de l’agi a ion
u baine pou les au es : les c i è es pou choisi son u u qua ie ne
manquen pas. Dans ce appo , nous p ésen ons P edihood, un nou el
ou il qui acili e la eche che e le choix d’un qua ie .
Mo s-clés : App en issage au oma ique, App en issage supe isé pa
classi ica ion, Ne oyage de données, Visualisa ion d’in o ma ions, É ude
des qua ie s
Abs ac . Ge ing o a new ci y a e a job ans e is always a chal-
lenge! We o en a i e in a ci y ha we don’ know, hus inding he
pe ec li ing place becomes complex. Nea by public anspo on one
hand, a u al landscape on he o he hand, an anima ed neighbou hood
o some, a om u ban hus le and bus le o o he s: he e a e many
c i e ia o choosing you u u e neighbou hood. This epo p esen s
P edihood, a new ool which acili a es he sea ch and he choice o a
neighbou hood.
Keywo ds: Machine lea ning, Supe ised lea ning by classi ica ion, Da a
cleaning, In o ma ion isualiza ion, Neighbou hood s udy
2
Reme ciemen s
Je souhai e ici eme cie ou es les pe sonnes qui on con ibué de p ès ou de
loin à mon s age.
Dans un p emie emps, mes eme ciemen s on e s mes deux maî es de
s age, Messieu s Fabien Ducha eau e F anck Fa e a, enseignan s-che cheu s
au LIRIS3. Sans eux, mon s age n’au ai pas pu oi le jou e ils on su
m’accompagne ou du long malg é leu s emplois du emps e le con inemen
dû à la c ise sani ai e du Co id 19. C’es donc a ec g a i ude que je les eme cie.
Mes eme ciemen s se ou nen égalemen e s la s a -up Home in Lo e a ec
qui le LIRIS collabo e su un p oje éponyme. Pou a oi a aillé a ec eux, je
eme cie ous les memb es de ce p oje :
–Nelly Duong, co- onda ice de Home in Lo e,
–Loïc Bonne al, enseignan -che cheu en sciences sociales à Lyon 2,
–Behnaz Jullien, s agiai e en psychologie à Lyon 2,
–Wissame Laddada, pos -doc o an e en in o ma ique à Lyon 1,
–ainsi que Ludo ic Moncla, maî e de con é ences en in o ma ique à l’INSA.
Je pou suis a ec le LabEx IMU (Labo a oi e d’Excellence, In elligence des Mon-
des U bains) qui a inancé mon s age ainsi que Ma ion Nicolas, memb e du
LabEx, pou ses conseils en lien a ec le p oje e mon s age.
Bien en endu, mes eme ciemen s on au pe sonnel du LIRIS pou son accueil, à
l’Uni e si é Claude Be na d Lyon 1 pou mes cinq années passées ici, ainsi qu’à
Madame Salima Hassas sans qui ce Mas e 2 In elligence A i icielle ne se ai
pas le même.
3Labo a oi e d’In oRma ique en Image ie e Sys èmes d’in o ma ion.
3
1 In oduc ion
Dans un monde où la quan i é de données ne cesse d’augmen e , i.e. l’è e du Big
Da a, de nou eaux challenges appa aissen à di é en s ni eaux [16]. En e e , les
données ainsi que leu s sou ces son en pleine explosion : les données son es-
imées à plus de 40 ze aoc e s en 2020 [10] e les sou ces ne cessen d’augmen e .
De plus, les données p odui es son de plus en plus a iées : i iné ai es ou ie s,
données médicales, ecommanda ion de p odui s, e an d’au es. Plusieu s en-
jeux éme gen de ces cons a s : s ockage, ges ion, ai emen puis exploi a ion
(e.g. la ecommanda ion de con enu ou la géné a ion de nou elles connaissances).
En an que labo a oi e de eche che en in o ma ique, le LIRIS se posi ionne ou
na u ellemen su ces ques ions.
Le LIRIS es un labo a oi e d’in o ma ique (UMR 5205). Il dépend du CNRS,
de l’INSA Lyon, de l’Uni e si é Claude Be na d Lyon 1, de l’Uni e si é Lumiè e
Lyon 2 e de l’École Cen ale de Lyon. Son o ganig amme se compose de 14
équipes épa ies su 6 pôles. Je suis a achée à l’équipe Bases de Données (BD),
insc i e dans le pôle Sciences des Données. L’objec i de ce e équipe es dou-
ble : la concep ion de nou eaux modèles pou ai e ace à l’augmen a ion de la
masse de données e le dé eloppemen d’ou ils épondan à ces nou eaux be-
soins, e.g. l’accès, la di usion e l’usage de ces données. Les p oje s en ep is
pa l’équipe BD son inancés pa di é en es sou ces, don le LabEx IMU qui
sou ien p incipalemen des p oje s plu idisciplinai es. Ce LabEx s’in é esse aux
enjeux socié aux au ou de la ille, de l’u bain e de la mé opolisa ion. L’un des
p oje s sou enus, qui assemble des che cheu s en sociologie e en in o ma ique,
es le p oje Home in Lo e, dans lequel s’insc i mon s age.
É an en deuxième année de Mas e in o ma ique en In elligence A i icielle à
l’Uni e si é Claude Be na d Lyon 1, je dois e ec ue un s age de in de cycle.
Ce e imme sion du e 6 mois, de é ie à juille , e a pou objec i de nous
ai e a aille su des p oje s mêlan eche che e dé eloppemen pou nous
o me à nos u u s emplois. Comme je souhai e pou sui e en hèse l’année
p ochaine e ayan e ec ué mon s age de Licence su le p oje Home in Lo e
a ec Fabien Ducha eau e F anck Fa e a, ces de nie s m’on p oposé un suje
de s age su ce même p oje . Ce e p oposi ion eg oupai ou es mes a en es :
de la eche che, du dé eloppemen , un suje d’In elligence A i icielle e un p oje
plu idisciplinai e.
Le p oje Home in Lo e a pou objec i de acili e la eche che immobiliè e,
en pa iculie pou les pe sonnes en mobili é sala iale, e.g. lo s d’une mu a ion
p o essionnelle ou lo s d’une al e nance. Ce e aide à la eche che immobiliè e
se ca ac é ise pa la ecommanda ion de qua ie s e de logemen s pe inen s.
Cela nécessi e, en e au es, de déc i e simplemen un qua ie e de p end e en
comp e le p o il des u ilisa eu s, i.e. leu s en ies, leu s besoins e le s yle de ie
qu’ils eche chen . Dans ce cad e, mon s age a pou objec i de p édi e, pa ap-
p en issage supe isé, l’en i onnemen d’un qua ie pou aide les u ilisa eu s
qui son à la eche che d’un nou eau lieu de ie. Les qua ie s peu en ê e dé i-
4
nis selon des cen aines d’indica eu s, pa exemple l’INSEE en ou ni plus de
600 pou chacun. Seulemen , au an d’indica eu s ne pe me en pas de ecom-
mande e icacemen e de maniè e in e p é able ni d’a oi une ision globale de
l’en i onnemen d’un qua ie . Pa exemple connaî e le nomb e de es au an s e
le nomb e de supe ma chés n’es pas su isan pou ca ac é ise l’en i onnemen
d’un qua ie . En e anche sa oi si un qua ie es comme çan es impo an
lo s de la p ise de décision dans ce con ex e. Il es donc nécessai e de dé ini un
nomb e es ein d’indica eu s, que nous appelle ons a iables d’en i onnemen
(Annexe A). Elles on é é dé inies pa les sociologues, son au nomb e de six e
possèden un nomb e limi é de aleu s. Pa exemple, la a iable d’en i onnemen
paysage a pou aleu s u banisé,espaces e s,a bo é ou ag icole andis que celle
de la classe sociale s’é end de populai e àsupé ieu e. L’app oche P edihood p o-
posée pendan mon s age consis e donc à collec e e in ég e des données ou
indica eu s su les qua ie s, e à p édi e les six a iables d’en i onnemen pou
un qua ie donné. Ce e app oche se a implémen ée dans un ou il a ec une in-
e ace ca og aphique, qui pe me a aux u ilisa eu s de compa e les qua ie s
en e eux g âce aux six a iables d’en i onnemen . Qua e enjeux éme gen de
ces objec i s. Le p emie se a d’assu e une g ande cou e u e géog aphique, i.e.
de pou oi p édi e les a iables d’en i onnemen de n’impo e quel qua ie en
F ance. Le second conce ne la quali é de la p édic ion, i.e. l’app oche doi p édi e
co ec emen les aleu s des a iables d’en i onnemen qui se i on no ammen
de jus i ica ion lo s de l’é ape de ecommanda ion de qua ie s aux clien s Home
in Lo e. Le oisième enjeu es la pe o mance puisque l’app oche P edihood doi
calcule des ésul a s au moyen d’algo i hmes e icien s. En in, le de nie enjeu
conce ne la ep oduc ibili é e la éu ilisa ion, i.e. ê e capable de ep odui e
les ésul a s ob enus e de pe me e à la communau é d’ajou e acilemen de
nou eaux algo i hmes de p édic ion.
Ce appo abo de a en p emie l’é a de l’a en Sec ion 2puis un ape çu de
l’app oche P edihood en Sec ion 3. Ensui e nous dé aille ons le p ocessus de
p épa a ion des données en Sec ion 4puis la p édic ion de l’en i onnemen en
Sec ion 5. En in, nous p ésen e ons la alida ion expé imen ale en Sec ion 6,
une discussion en Sec ion 7a an de conclu e e de p opose des pe spec i es en
Sec ion 8.
2 É a de l’a
La ecommanda ion de con enu es un domaine ès é udié depuis les années
1990. De plus, les besoins socié aux on é olué e une endance se dessine :
géné e beaucoup de données pou en ex ai e de l’in o ma ion in é essan e à
ecommande aux u ilisa eu s en onc ion de leu p o il, no ammen g âce aux
sys èmes de ecommanda ion. Pa exemple, dans une média hèque un u ilisa eu
au a le choix pa mi une cen aine de disques alo s que su In e ne , le nomb e
de musiques p oposées es si impo an qu’il es nécessai e de ecommande à
l’u ilisa eu celles qu’il es suscep ible d’écou e (e.g. Deeze o ai plus de 53
5
millions de i es en 2018). Ainsi, les sys èmes de ecommanda ion pe me en
de il e l’in o ma ion pou ne p ésen e aux u ilisa eu s que des essou ces
pe inen es qui pou aien les in é esse [4]. L’enjeu qui nous in é esse dans le
cad e du p oje Home in Lo e es le besoin de ecommanda ion de con enu, e
plus p écisémen de qua ie s.
Pou p édi e l’en i onnemen d’un qua ie , il es nécessai e de dé ini la no ion
de qua ie puis de écol e des données pou ensui e p édi e les aleu s des six
a iables d’en i onnemen .
Dès les années 1970 [11], les no ions de oisinage e de qua ie on éme gé e son
de enues une p obléma ique commune à plusieu s domaines de eche che. Tou e-
ois, la li é a u e mon e qu’il exis e plusieu s eins à une dé ini ion complè e
e éalis e de la no ion de oisinage. Il es ou de même possible de s’appuye
su les dé ini ions p oposées pa les deux a aux sui an s. Le p emie [9] mon-
e qu’il exis e plusieu s ypes de qua ie s, i.e. ceux dé inis pa les ins i u ions,
ceux pa les ela ions sociales e ceux physiquemen . De plus, l’a icle no e que
la dimension d’un qua ie es ou e aussi impo an e que sa dé ini ion. Un sec-
ond a icle [5], plus écen , appuie ces p opos e elè e qua e enjeux pou le e
les eins à une dé ini ion sa is aisan e : la desc ip ion, la délimi a ion, la com-
pa aison e l’é alua ion des di é en es no ions de qua ie . Lo sque la no ion de
qua ie a é é dé inie, le dé i sui an elè e du cas d’applica ion, pa exemple
la compa aison ou la ecommanda ion de qua ie s, qui son les deux app oches
p incipales pou l’aide à la eche che immobiliè e.
Dans l’app oche compa a i e, les sys èmes ca og aphien les di é ences pou
que les u ilisa eu s puissen compa e eux-mêmes. Ce e app oche peu ê e
é ayée pa plusieu s a icles. Le p emie [12] s’appuie su les éseaux sociaux qui
son des sou ces iches d’in o ma ions à p opos des lieux de ie d’un qua ie , e.g.
des wee s dans les cen es comme ciaux e des checks-in dans les es au an s ou
les ca és. L’idée de ce a icle es de mesu e la simila i é des qua ie s en u ilisan
l’ac i i é économique de chacun. Pou ce ai e, Fou squa e me à disposi ion des
millions de poin s d’en egis emen , check-in en anglais, à a e s le monde. La
dis ance Ea h-mo e es ensui e u ilisée pou dé ec e les qua ie s similai es
en e eux, i.e. les qua ie s les plus similai es son ceux qui subissen le plus aible
e o de ans o ma ion en e eux e le qua ie d’o igine. Le second a icle [18]
p opose d’o ganise les espaces u bains en qua ie s en u ilisan des données de
géolocalisa ion ou nies pa les éseaux sociaux e les poin s d’en egis emen
Fou squa e. Les ac i i és des habi an s, e.g. alle au S a bucks, isi e une ga-
le ie d’a ou enco e ai e du spo , son associées aux ca égo ies Fou squa e (plus
de 300) pou en dédui e les aisons de eni dans un qua ie ainsi que les délim-
i a ions de celui-ci. De plus, la empo ali é es inclue de maniè e à dé ec e les
heu es pleines e c euses de chaque qua ie . En in, les ac i i és son ca égo isées
comme locales ou ou is iques à l’aide d’un a b e de décision. Toujou s dans
une app oche compa a i e, plusieu s in e aces on é é p oposées à di é en es
échelles. L’in e ace Be e Li e Index, mise à disposi ion pa l’OCDE, p o-
pose onze c i è es dans le bu de classe e de compa e une qua an aine de pays
pa sco e. Ce e pla e o me se base p incipalemen su les s a is iques de l’OCDE
6
e des Na ions Unies. Ensui e, GéoPo ail es une pla e o me gou e nemen ale
isan à acili e la di usion e la isualisa ion des données géog aphiques en
F ance, e pe me an en e au es la compa aison manuelle de illes g âce à
l’a ichage de données héma iques (e.g. les es au an s, les supe ma chés e les
écoles). GéoPo ail se base su plus de 80 sou ces don OpenS ee Map e des
sou ces minis é ielles. Da aF ance es une in e ace ag égean des cen aines
d’indices en cinq ca égo ies, don l’éduca ion, les comme ces e les loisi s, pou
mesu e la quali é de ie d’une commune en F ance. En in, KelQua ie es
un ou il d’aide à la décision pou les pa iculie s qui souhai en déménage . Six
ca égo ies, don l’éduca ion, le logemen e les habi an s, son p oposées dans
lesquelles il y a des indica eu s numé iques plus dé aillés, e.g. ille leu ie, nom-
b e de comme ces ous les 100 mè es e e enus moyens. KelQua ie p opose
aussi une compa aison a ec les communes adjacen es. Leu s sou ces p o iennen
de plusieu s cen aines d’adminis a ions publiques ançaises don l’INSEE, les
minis è es e la Di ec ion Géné ale des Impô s.
L’app oche de ecommanda ion pe me de p opose aux u ilisa eu s unique-
men des lieux qui pou aien les in é esse . Elle peu ê e é ayée pa plusieu s
a icles e in e aces. Un p emie a icle [14] u ilise les éseaux sociaux géolo-
calisés e les poin s d’en egis emen Fou squa e pou la ecommanda ion de
qua ie s. Ce e ecommanda ion, ia l’algo i hme Ins ance-Region Neighbo -
hood Ma ix Fac o iza ion, es p oposée à deux ni eaux : au ni eau du qua ie
(i.e. un u ilisa eu es suscep ible d’app écie les qua ie s oisins ca ils pa a-
gen des p op ié és similai es) e au ni eau de la égion e.g. a ai es, scola i é e
loisi s. Un second a icle [1] p opose de la ecommanda ion de qua ie s ia des
mesu es de simila i é e des algo i hmes de eg oupemen (clus e ing en anglais).
De plus, l’a icle men ionne un ou il, nommé VizLi is, qui appo e une in e ace
ca og aphique à la ecommanda ion de qua ie s en F ance. Ce p o o ype p o-
pose deux onc ionnali és : la dé ec ion des meilleu s qua ie s similai es à un
qua ie d’o igine ainsi que le eg oupemen d’une zone géog aphique pa ype
de qua ie s g âce à des mé hodes de clus e ing. Comme VizLi is ecommande
des qua ie s pe inen s à pa i d’un qua ie d’o igine, il es nécessai e que
ce qua ie soi en F ance (ce qui n’es pas oujou s le cas, pa exemple a ec
les habi an s é ange s) e que celui-ci plaise à la pe sonne, ce qui n’es pas
o cémen ai pou ous les c i è es. Une seconde app oche [17], p oposée pa
une équipe co éenne, mon e l’u ilisa ion du aisonnemen pa cas dans le cad e
de la ecommanda ion de logemen s. Les u ilisa eu s peu en éme e ois con-
ain es : la localisa ion, le p ix e l’uni é d’habi a ion (e.g. le nomb e de salles
de bains ou la su ace de la cuisine). En in, le p oje Li ehoods [7] découpe les
illes en onc ion de leu s dynamiques su la base des données géné ées ia les
médias sociaux pa les habi an s.
Le suje de mon s age appo e une app oche di é en e de ces a aux exis-
an s su deux poin s majeu s. Le p emie conce ne la desc ip ion d’un qua ie
en e mes de lieu de ie. C’es une âche complexe ca le lien en e les nomb eux
indica eu s disponibles (e.g. indica eu s INSEE, poin s d’in é ê , s a is iques) e
l’en i onnemen d’un qua ie (qui elè e du domaine du sensible) n’es pas ais-
7
able manuellemen . Ce e subjec i i é nécessi e des compé ences en sociologie,
e.g. pou dé ini l’ambiance ou le paysage, e un cad e plu idisciplinai e. Le sec-
ond poin es la quali ica ion de l’en i onnemen d’un qua ie (à a e s les a i-
ables d’en i onnemen ) andis que les a aux exis an s ca ac é isen la quali é
de ie (e.g. scola i é des en an s, sécu i é, p oche des es au an s). La p oposi ion
d’un nomb e es ein de a iables d’en i onnemen pe me aussi de simpli ie
la jus i ica ion de la ecommanda ion. De nomb eux p oje s, comme Li ehoods
e Hoodsqua e, u ilisen les éseaux sociaux géolocalisés pou dé e mine pa ex-
emple les dynamiques des qua ie s. Les données géné ées pa ces éseaux son
complexes à exploi e , no ammen ca les données ne son pas disponibles uni-
o mémen (en pa iculie dans les campagnes) e son soumises à un biais de pa
la popula ion qui u ilise ces éseaux sociaux. C’es pou quoi nous a ons choisi
une app oche plu idisciplinai e a ec des sociologues, ca c’es un gage de quali é.
En in, l’ou il P edihood se a onc ionnel au ni eau na ional ou en espec an
un pa i ionnemen in de la aille d’un qua ie , ce qui es impo an dans le
con ex e des mu a ions p o essionnelles.
3 P ésen a ion de l’app oche P edihood
L’app oche P edihood consis e en la simpli ica ion de la quali ica ion de l’en i on-
nemen d’un qua ie . Pou ce ai e, ce e app oche p opose la dé ini ion de six
a iables d’en i onnemen , la sélec ion des c i è es impo an s pou la p édic ion
de ces six a iables ainsi que le déploiemen de l’app oche dans un nou el ou il,
nommé P edihood. La concep ion, le dé eloppemen e le déploiemen du p o-
je P edihood sui en le modèle de dé eloppemen CRISP-DM,C oss-Indus y
S anda d P ocess o Da a Mining [15]. C’es un modèle s anda d open-sou ce
qui dé aille les p ocessus pou le dé eloppemen d’ou ils en da a mining. La Fig-
u e 1illus e le dé oulemen du dé eloppemen de P edihood (deuxième ligne)
en pa allèle de celui de ce modèle (p emiè e ligne).
Fig. 1: P ocessus pou le dé eloppemen de P edihood en compa aison du modèle
CRISP-DM.
A in de p édi e les a iables d’en i onnemen dans le bu d’aide à la eche che de
qua ie s a ec l’app oche P edihood, il es nécessai e de dé ini les concep s u il-
isés, de eche che des sou ces pe inen es e de les in ég e dans un ou il unique.
8
Ces ois é apes4co esponden au p emie p ocessus de la seconde ligne de la
Figu e 1. Une ois l’in ég a ion de données éalisée, il au p épa e les données
a in de pou oi les u ilise dans les é apes sui an es puis sélec ionne les indi-
ca eu s pe inen s pou la p édic ion. Ensui e, les algo i hmes d’app en issage
supe isés peu en p édi e les six a iables à pa i de la sélec ion des indica eu s
e des données ne oyées a an d’ê e é alués g âce à des mé iques de pe o -
mance. En in, le de nie p ocessus co espond au déploiemen de l’app oche dans
une in e ace web nommée P edihood.
La Figu e 2illus e en dé ail les é apes de l’app oche P edihood. Les ois p e-
miè es é apes, i.e. la dé ini ion des concep s, la eche che de sou ces, l’in ég a ion
e le p é ai emen de celles-ci son p ésen ées en Sec ion 4. La sélec ion des in-
dica eu s, éalisée à pa i de la combinaison de ois echniques dédiées, es
p ésen ée en Sec ion 5. Les ois é apes sui an es, i.e. la c éa ion des jeux de
données, l’app en issage e la p édic ion, co esponden au oisième p ocessus
du cycle CRISP-DM. Une ois le p ocessus d’app en issage e miné, les p édic-
ions son é aluées, comme p ésen é en Sec ion 6. L’in e ace P edihood p opose
une in e ace ca og aphique acili an la compa aison de qua ie s e une in e -
ace de pa amé age pe me an de con igu e e es e di é en s algo i hmes.
Fig. 2: Illus a ion des p ocessus de l’app oche P edihood.
4 P épa a ion des données
Dans les a aux de Da a Science, il es cou an d’es ime que 80% du a-
ail consis e à eche che , ne oye , p épa e e in ég e les données [8]. Pou
l’app oche P edihood, il es d’abo d nécessai e de dé ini les concep s de qua ie
e de a iable d’en i onnemen . Ensui e, il au eche che des sou ces qui se on
po en iellemen u iles à la p édic ion. Une ois les sou ces ou ées, il au les in-
ég e de maniè e à uni ie l’accès à ces di é en es sou ces, ce qui co espond au
p ocessus d’in ég a ion de données. En in, il es nécessai e de p épa e les don-
nées a an de les u ilise , no ammen ca celles-ci con iennen des incohé ences
e des incomplé udes. Ces qua e p ocessus, dé aillés ci-ap ès, co esponden au
p ocessus géné al de la p épa a ion de données.
4Elles on é é éalisées en amon de mon s age e j’ai con ibué à la eche che de sou ces
e à l’in ég a ion des données lo s de mon s age de Licence.
9
4.1 Dé ini ion des concep s
Il es nécessai e de choisi une dé ini ion adéqua e pou les no ions de qua ie
e de a iable d’en i onnemen . L’uni é choisie pou le qua ie es l’IRIS5
ca elle pe me un découpage in e iable puisque le ou nisseu es l’INSEE6.
Un IRIS co espond à une zone d’en i on 2.000 habi an s. En découpan ou e
la F ance ainsi, on ob ien un maillage d’app oxima i emen 50.000 IRIS (An-
nexe B). Dans les cen es- illes, les IRIS son de pe i e aille, e.g. Villeu banne
es découpé en plus de 40 IRIS, andis qu’une ille en pé iphé ie u baine elle
que les communes des Mon s du Lyonnais n’en compo e que quelques-uns. Les
lieux éloignés des cen es u bains ne compo en qu’un seul IRIS pou ou e la
commune. Chaque IRIS possède plus de 600 indica eu s b u s7, e.g. le nomb e de
es au an s, le nomb e de logemen s cons ui s a an 1950 ou enco e le nomb e
d’habi an s pa ca égo ie socio-p o essionnelle. A in de quali ie de maniè e sim-
ple l’en i onnemen d’un qua ie , six a iables d’en i onnemen on é é dé inies
à l’aide des sociologues (Annexe A). Le ype de bâ imen s ep ésen e le ype
majo i ai e de bâ imen s dans l’IRIS. L’usage ep ésen e l’ac i i é économique
majo i ai e. La a iable paysage dé ini le ca ac è e na u el, a bo é des espaces.
Les a iables posi ion mo phologique e posi ion géog aphique ep ésen en e-
spec i emen la p oximi é au cen e de l’agglomé a ion con enan l’IRIS e la
di ec ion de l’IRIS pa appo à ce cen e. En in, la classe sociale co espond à
la ichesse des habi an s de l’IRIS. Dans la sui e, nous u ilise ons les e mes de
qua ie e d’IRIS comme synonymes.
4.2 Reche che de sou ces
Ap ès a oi dé ini les concep s, il au cons i ue une base de données eg oupan
des données su les qua ie s e po en iellemen u iles à la p édic ion. Pou peu-
ple ce e base de données, il es donc nécessai e de eche che plusieu s sou ces
pe inen es. Pou l’ins an , les ois sou ces sui an es son considé ées :
1. IRIS. Les IRIS son nos obje s d’é ude e l’INSEE ou ni une g ande quan-
i é de données les conce nan . Elle me à disposi ion 647 indica eu s pou
chaque IRIS. Pa mi ces indica eu s, 17 son des indica eu s de desc ip ion
(e.g. iden i ian , code pos al, nom de l’IRIS, ...) e se on u iles pou la isu-
alisa ion ca og aphique. Les indica eu s es an s pe me en de quan i ie
l’en i onnemen de l’IRIS e son de di é en s ypes : quan i és (e.g. nomb e
de es au an s) e quan i és uni ai es (e.g. e enu moyen), coe icien s (e.g.
coe icien de Gini), pou cen ages (e.g. pou cen age de chômeu s) ou enco e
des chaînes de ca ac è es (e.g. le ype d’IRIS). Tous ces indica eu s son
li és dans beaucoup de ichie s Excel don les join u es ne son pas oujou s
é iden es, comme expliqué en Sec ion 4.3.
5Ilo s Reg oupés pou l’In o ma ion S a is ique.
6Ins i u Na ional de la S a is ique e des É udes Économiques.
7Les indica eu s b u s co esponden aux indica eu s ou nis pa l’INSEE.
16
Fig. 4: S a u s des clien s. Fig. 5: Types de bâ imen s.
La Figu e 6 ep ésen e l’é olu ion de la classe sociale e mon e que la majo i é
des clien s se si ue dans les classes moyenne e moyenne-supé ieu e. In ui i e-
men , les habi an s se si uan dans la classe populai e on plu ô des logemen s
de ype g and ensemble ou immeuble andis que les pe sonnes de classes moyenne
ou moyenne-supé ieu e habi en plu ô dans des maisons ou des lo issemen s. La
Figu e 7illus e l’usage des bâ imen s que les clien s de Home in Lo e occupen .
Sui e à leu mu a ion, les clien s qui habi aien un lieu ésiden iel on endance à
loge dans un lieu comme çan mais ceux qui habi aien dans une zone d’au es
ac i i és y es en . Cela se co èle a ec le ai que les pe sonnes en mu a ion
p o essionnelle on endance à de eni loca ai es de logemen s collec i s (Figu es
4e 5).
Fig. 6: Classe sociale. Fig. 7: Usage des bâ imen s.
La Figu e 8illus e l’é olu ion de la posi ion mo phologique où l’on ema que
que les qua ie s cen aux son en augmen a ion pa appo aux au es. Les
pe sonnes i an dans des égions u ales déménagen sou en e s des zones
plus cen ales (cen al,u bain,pé i-u bain) quand elles son mu ées. En in, la
Figu e 9illus e l’é olu ion des paysages des qua ie s habi és pa les clien s
Home in Lo e. On obse e une diminu ion des espaces na u els (i.e. espaces
e s,a bo é e ag icole) au p o i des zones u banisées. En e e , les mu a ions
s’e ec uen sou en des zones ex a-u baines (i.e. les campagnes) e s les zones
in a-u baines (i.e. les cen es- illes).
17
Fig. 8: Posi ion mo phologique. Fig. 9: Paysage.
Analyse de la ep ésen a i i é Puisque les IRIS expe isés ep ésen en
seulemen 0.6% des IRIS en F ance, nous de ons analyse la ep ésen a i i é de
ces IRIS. Bien que ce e analyse soi ai e manuellemen , elle pe me d’é udie
le biais que les a iables d’en i onnemen peu en a oi .
– Posi ion mo phologique. D’ap ès l’INSEE, 16.100 IRIS on é é cons ui s
a ec les communes de plus de 10.000 habi an s e la plupa des communes
de 5.000 à 10.000 habi an s. Pou cou i le es e du e i oi e, un IRIS a é é
c éé pou chacune des communes es an es. Si l’on considè e que ces IRIS
es an s son de ype u al, alo s 68% des IRIS en F ance se aien de ype
u al. No e jeu de données con ien 14 IRIS su 268 anno és a ec ce ype,
soi en i on 5%. Ce e di é ence peu s’explique pa le ai que, dans le
cad e des mu a ions p o essionnelles, les pe sonnes on endance à qui e
les illes u ales pou se app oche des cen es u bains, no ammen pou
i e plus p ès de leu a ail. Ce e analyse mon e qu’il y a un biais su la
a iable de la posi ion mo phologique. Elle mon e aussi que, puisque no e
jeu de données ne comp e que 5% d’IRIS u aux, il es quasi ep ésen a i
des IRIS non u aux.
– Paysage. Ce e a iable es en lien a ec la a iable de la posi ion mo -
phologique. En e e , les IRIS éloignés des cen es u bains au on endance à
ê e ca égo isés ag icoles oi e u aux. In e semen les IRIS des mé opoles
se on ca égo isés soi u banisés soi espaces e s. Dans no e jeu de don-
nées, 46 IRIS son anno és ag icoles ou u aux, soi 17%. Ce pou cen age
es aussi ès loin des 68% d’IRIS u aux. Donc la a iable du paysage es
biaisée, au dé imen du paysage u al.
– Classe sociale. C’es une a iable plu ô di icile à analyse puisque les
classes sociales ne son pas clai emen dé inies. En F ance, 59% des ménages
appa iennen à la classe moyenne, i.e. que leu s e enus son comp is en e
70% e 150% du e enu médian selon l’INSEE [3]. Les F ançais de classe
moyenne son épa is su 71% des IRIS. No e jeu de données con ien 82%
d’IRIS appa enan à la classe moyenne, donc la a iable de la classe sociale
n’es que légè emen biaisée.
– Posi ion géog aphique. Elle es équi ablemen épa ie en e les aleu s
puisqu’il y a en i on 25 IRIS pou chacune. Il es ou de même impo an
de no e que ce aines aleu s elles que cen e,no d e sud, comp en deux
18
ois plus d’IRIS. En e e , les popula ions se concen en en géné al dans les
zones u baines, d’où la aleu cen e plus impo an e. Les aleu s no d e sud
peu en s’explique pa le ai que ce aines agglomé a ions on pa ois leu
cen e de g a i é excen é. De plus amples eche ches doi en ê e menées,
no ammen a ec les sociologues, pou explique ces phénomènes.
– Type de bâ imen s. L’INSEE ecense, en 2018, 56% de logemen s indi-
iduels e 44% de logemen s collec i s12. Pou ai e le lien a ec no e a i-
able d’en i onnemen , les logemen s indi iduels son les maisons e les lo-
issemen s andis que les logemen s collec i s son les logemen s mix es, les
immeubles e les g ands ensembles. Dans no e jeu de données, 183 IRIS son
de ype collec i , soi 68%, donc ce e a iable compo e un biais.
– Usage des bâ imen s. Ce e a iable demande une analyse pa iculiè e,
no ammen a ec les sociologues, ca les données pe me an ce e analyse
son di icilemen exploi ables à p io i.
Pou conclu e, la plupa de nos a iables d’en i onnemen son biaisées (de
légè emen à o emen ). Cela s’explique no ammen pa le ai que les pe sonnes
en mobili é géog aphique on endance à qui e les zones u ales pou eni en
ille e que la loca ion es sou en p é é ée à l’acha p op ié ai e. Déc i ons
main enan l’ou il P edihood qui implémen e les p oposi ions déc i es dans les
sec ions p écéden es.
5.3 L’ou il P edihood
P edihood es ou d’abo d une app oche, mais c’es aussi un ou il acili an
la compa aison de qua ie s selon six a iables d’en i onnemen . Ce ou il se
p ésen e sous la o me d’une in e ace ca og aphique (Annexe B). Il a é é
dé eloppé en Py hon a ec Flask, un amewo k open-sou ce pou le dé eloppe-
men web en Py hon, e Sciki -Lea n, une biblio hèque populai e open-sou ce
pou les echniques de machine lea ning en Py hon. Son diag amme de classes
es en Annexe I. Dé aillons d’abo d les jeux de données u ilisés dans P edihood,
puis deux cas d’u ilisa ion pou no e ou il.
Jeux de données La p édic ion des a iables d’en i onnemen à pa i des
indica eu s INSEE es un p oblème mul iclasse (plusieu s aleu s pa a iable
d’en i onnemen ) e mul ilabel (six a iables d’en i onnemen ). Pou pallie ce
e ou, les jeux de données con iennen les six a iables d’en i onnemen mais
elles son ai ées sépa émen lo s de la p édic ion, ce qui pe me de édui e
ce double p oblème à un p oblème mul iclasse. Une en ée du jeu de données
co espond à un IRIS a ec les in o ma ions sui an es : le code IRIS, sa su ace,
12 Les logemen s indi iduels son des cons uc ions qui ne comp ennen qu’un seul loge-
men e les logemen s collec i s son des logemen s dans un immeuble collec i . Nomb e
de logemen s indi iduels e collec i s en F ance au 1e jan ie 2018.
19
sa densi é de popula ion, la o ali é des indica eu s INSEE e les 6 a iables
d’en i onnemen expe isées. L’API Py is pe me de e ou e le code IRIS à
pa i d’une ad esse (pou ans o me les ad esses des dossie s en IRIS) e le
module a ea pe me de calcule la su ace d’un IRIS g âce à sa géomé ie.
Cas d’u ilisa ion 1 Alice es comme ciale dans le sec eu in o ma ique, ce qui
l’oblige à se déplace éguliè emen dans ou e la F ance. Elle ien d’ob eni une
mission à Lyon pou quelques mois a an de epa i pou Pa is. Alice aime ai
ou e un qua ie u bain, p oche des comme ces e , si possible, p ès d’une salle
de spo . Elle sai , de pa ses amies, que le qua ie de la Pa -Dieu es cen al
mais elle oud ai ou de même en compa e plusieu s a an de se décide . A ec
P edihood, Alice che che “Lyon” dans la ba e de eche che p é ue à ce e e .
Ensui e elle compa e les di é en s qua ie s g âce aux a iables d’en i onnemen ,
e en epè e quelques-uns qui pou aien lui plai e. Ainsi elle ega de en dé ail
les in o ma ions de deux IRIS : Pa -Dieu e Dan on-Bi Akeim. Les indica eu s
eg oupés (Annexe J) lui indiquen que le p emie a beaucoup de comme ces e
de se ices (indica eu s se ice-di e s-p i e,se ice-di e s-public e anima ion-
comme ce-nonalimen ai e). Les indica eu s b u s (Annexe J) lui indiquen que
le second dispose d’une salle de spo (indica eu s salles mul ispo s e salles
de emise en o me). Alice p é è e ê e p oche des comme ces e se end a en
élo à sa salle de spo . Elle p i ilégie donc l’IRIS de la Pa -Dieu pou che che
un logemen . L’ou il p opose en plus un sco e de con iance, qui co espond au
nomb e de lis es Lk
qui on p édi la aleu p oposée. Pa exemple, ou es les
lis es on p édi que l’IRIS de la Pa Dieu é ai composé d’immeubles (sco e à
7/7).
Fig. 10: Alice a saisi la equê e “Lyon” e a cliqué su l’IRIS de la Pa -Dieu pou
ob eni son en i onnemen .
Cas d’u ilisa ion 2 Bob es enseignan -che cheu en in elligence a i icielle
à l’Uni e si é. Il a aille ac uellemen su la c éa ion d’un nou el algo i hme
20
d’app en issage supe isé ainsi que su l’amélio a ion d’algo i hmes supe isés
exis an s. Il ajou e ou d’abo d à l’in e ace de pa amé age son nou el algo-
i hme e es e di é en es con igu a ions. Il aime ai de plus es e la iabili é e
la obus esse de ses a ancées su de nou eaux jeux de données. Il les in èg e donc
dans l’in e ace de pa amé age de P edihood e es e di é en es con igu a ions
su le jeu de données des IRIS expe isés, pa exemple le nomb e de oisins pou
sa e sion amélio ée de KNN. En in, Bob enseigne un cou s su les echniques
d’app en issage au oma ique e souhai e ai que ses é udian s a aillen su un
TP de p ise en main des algo i hmes de Sciki -Lea n. G âce à P edihood, les
é udian s de Bob u ilisen l’in e ace pou es e di é en es con igu a ions e
comp end e l’in luence de chaque pa amè e. De plus, la possibili é de conse e
les ésul a s des di é en s algo i hmes exécu és, a ec l’expo au o ma Excel13,
leu pe me de end e un appo de TP a ec une pa ie “expé imen a ions” assez
dé aillée.
Fig. 11: Pa amé age de l’algo i hme KNN dans l’in e ace P edihood.
Ces deux scéna ios illus en les capaci és de P edihood à aide dans la eche che
immobiliè e ainsi que dans le pa amé age géné ique de classi ieu s. Plusieu s
pe spec i es son en isagées pou l’ou il, comme discu é en Sec ion 7.
13 Le ichie Excel géné é co espond au ableau des p écision pou chaque a iable
d’en i onnemen (lignes) e chaque ensemble d’indica eu s (colonnes).
21
6 Valida ion expé imen ale
Puisque ou app oche empi ique doi ê e scien i iquemen alidée, il es im-
po an de é i ie les ésul a s de no e app oche. Pou cela, il es nécessai e
de me e en place un p o ocole de alida ion expé imen ale no ammen pou
dé ini les algo i hmes u ilisés e leu s pa amè es. Deux expé imen a ions son
ensui e p ésen ées pou illus e les ésul a s de l’app oche P edihood à l’échelle
na ionale puis su le cas de la ille de Lyon.
6.1 P o ocole
La alida ion expé imen ale a pou objec i de é i ie si la p édic ion ou ni
des ésul a s sa is aisan s, e donc de mon e l’in é ê de la sélec ion
de a iables sous o me de lis es. Pou ce ai e, plusieu s algo i hmes on é é
es és e nous en a ons sélec ionné cinq pou ce p o ocole : Logis ic Reg ession,
Random Fo es ,K-Nea es Neighbou s,Suppo Vec o Classi ica ion e Ad-
aBoos . Chaque algo i hme con ien un g and nomb e de pa amè es, en plus des
hype pa amè es, qu’il es impo an d’ajus e . G âce à l’in e ace de pa amé-
age de P edihood, un bon nomb e de con igu a ions on é é es ées. Un hy-
pe pa amè e ès impo an es la épa i ion en e les données d’en aînemen
e celles de es . Le pou cen age e enu es la épa i ion 80% pou les données
d’en aînemen e 20% pou les données de es , comme le ecommande la li -
é a u e [6]. Comme les IRIS expe isés son déjà peu nomb eux, un sys ème de
alida ion c oisée a é é u ilisé pou pallie ce p oblème puisqu’elle é i e de c ée
les données de alida ion. Les ableaux de ésul a s de ce e sec ion co espon-
den aux pe o mances, i.e. à la p écision (accu acy en anglais), des algo i hmes
a ec leu meilleu e con igu a ion.
6.2 Expé imen a ion 1 : p édic ion su l’ensemble de la F ance
Ce e p emiè e expé imen a ion a pou objec i de mon e les ésul a s
ob enus à l’échelle na ionale. Les algo i hmes on pou objec i de p édi e
co ec emen les six a iables d’en i onnemen . Les Tableaux 1à6illus en
la p écision (en %) des algo i hmes pou chaque a iable d’en i onnemen . Ce
calcul de p écision co espond au nomb e de p édic ions co ec es pa appo
au nomb e de p édic ions o ales. L’ensemble I ep ésen e l’ensemble des in-
dica eu s b u s e les lis es Lk
son celles géné ées lo s de la sélec ion. Les
sco es soulignés me en en aleu le meilleu ésul a de chaque algo i hme. Les
sco es en g as mon en qu’ils son meilleu s que la lis e I. Les sco es en e
co esponden à la meilleu e p écision ob enue ou algo i hme con ondu, ce qui
pe me de me e en a an les meilleu s algo i hmes e la lis e qu’ils u ilisen .
Le Tableau 1illus e les ésul a s de la p édic ion pou le ype de bâ imen s.
Les lis es pe me en de gagne en moyenne quelques pou cen s de p écision a ec
22
un maximum à 7% (algo i hme AdaBoos pou la lis e L20) e Random Fo es
a ein le meilleu sco e, 60%, a ec la lis e L20. Le Tableau 2mon e les ésul a s
pou l’usage des bâ imen s. Ici aussi, Random Fo es ob ien le meilleu sco e,
a ec une p écision de 64.9%. La lis e L50 gagne 5% de p écision a ec AdaBoos ,
même si le sco e es e moins éle é que celui de Random Fo es a ec l’ensemble
des indica eu s.
LR RF KNN SVC AB
I46.6 57.0 55.2 45.5 36.5
L10 44.3 59.3 57.8 44.7 41.7
L20 49.2 60.0 56.3 43.6 43.6
L30 45.1 58.9 55.9 43.6 32.1
L40 46.2 59.3 54.8 43.2 27.6
L50 46.6 58.9 54.8 45.5 32.4
L75 44.3 58.2 55.2 45.9 32.0
L100 43.6 57.0 55.2 45.5 36.5
Table 1: Quali é de p édic ion pou
la a iable ype de bâ imen s.
LR RF KNN SVC AB
I52.9 64.5 59.3 51.1 55.6
L10 52.6 61.2 63.8 49.6 59.6
L20 55.9 64.1 63.0 49.6 56.6
L30 51.1 61.2 62.3 49.6 60.8
L40 57.8 63.0 60.8 49.2 56.3
L50 56.3 64.9 62.2 46.6 61.1
L75 50.7 63.4 60.8 51.1 58.2
L100 53.7 64.5 59.3 51.1 55.6
Table 2: Quali é de la p édic ion
pou la a iable usage.
Le Tableau 3déc i les ésul a s ob enus pou le paysage. De même, les lis es
pe me en de gagne plusieu s pou cen s de p écision, pa exemple l’algo i hme
Random Fo es gagne 2% de p écision a ec la lis e L20 pa appo à I. Le
Tableau 4illus e les ésul a s ob enus pou la classe sociale. Random Fo es es
enco e une ois le meilleu algo i hme a ec une p écision de 51.8%. Les ésul a s
son moins éle és pou ce e a iable d’en i onnemen , e cela peu s’explique
pa le ai que la limi e en e chaque aleu n’es pas é iden e (e.g. en e moyen
e moyen-sup) e que l’expe ise éalisée pa les sociologue es e subjec i e (e.g.
la classe sociale a é é es imée en isionnan le qua ie en mode s ee - iew).
LR RF KNN SVC AB
I53.7 60.8 59.6 47.7 50.3
L10 48.1 62.7 59.6 47.7 51.8
L20 51.5 63.0 60.4 47.7 52.6
L30 50.3 60.8 61.9 47.7 52.5
L40 49.2 62.7 61.5 47.7 49.2
L50 47.7 61.5 61.1 47.7 48.1
L75 52.6 62.3 59.3 47.7 48.5
L100 56.3 60.8 59.6 47.7 50.3
Table 3: Quali é de la p édic ion
pou la a iable paysage.
LR RF KNN SVC AB
I44.4 51.1 42.1 45.5 36.5
L10 43.6 46.6 43.9 44.7 41.7
L20 39.1 46.6 45.1 43.6 43.6
L30 41.4 49.6 45.1 43.6 32.1
L40 39.1 51.8 46.6 43.2 27.6
L50 42.1 48.1 44.3 45.5 32.4
L75 45.1 48.1 44.0 45.9 32.0
L100 40.7 51.1 42.1 45.5 36.5
Table 4: Quali é de p édic ion pou
la a iable classe sociale.
23
Le Tableau 5déc i les ésul a s de la posi ion mo phologique. L’algo i hme Ad-
aBoos gagne jusqu’à 5% de p écision, a ec la lis e L40. Comme pou les ésul a s
p écéden s, Random Fo es es le meilleu a ec une p écision de 61.2%. En in,
le Tableau 6illus e les ésul a s de la p édic ion de la posi ion géog aphique.
Ce e a iable semble plu ô compliquée à p édi e puisqu’il es di icile de cal-
cule l’emplacemen d’un qua ie pa appo à son agglomé a ion a ec le ype
d’indica eu s que nous ou ni l’INSEE. Tous les algo i hmes, sau Random Fo -
es , son meilleu s que Ia ec L20.
LR RF KNN SVC AB
I46.6 59.7 58.2 44.7 45.8
L10 48.5 60.0 60.8 44.0 49.9
L20 44.0 61.2 58.5 44.4 48.5
L30 39.2 61.2 58.2 44.4 48.8
L40 33.5 61.2 58.6 44.4 50.7
L50 36.1 59.3 57.4 44.4 46.2
L75 41.3 60.8 57.1 44.7 49.2
L100 43.2 59.7 58.2 44.7 45.8
Table 5: Quali é de p édic ion pou
la a iable posi ion mo phologique.
LR RF KNN SVC AB
I22.0 33.6 27.2 25.0 15.6
L10 25.3 29.9 27.6 24.6 21.9
L20 26.1 31.3 29.5 25.3 20.1
L30 26.1 31.7 28.3 27.2 17.5
L40 29.1 32.8 28.3 24.6 17.1
L50 25.0 32.1 27.2 23.8 19.0
L75 24.6 32.8 27.2 25.0 17.9
L100 24.6 33.6 27.2 25.0 15.6
Table 6: Quali é de p édic ion pou
la a iable posi ion géog aphique.
Pou conclu e ce e p emiè e expé imen a ion, les lis es géné ées pa la sélec ion
de a iables pe me en d’amélio e les ésul a s. L’algo i hme Random Fo es
es e le meilleu pa mi les cinq algo i hmes u ilisés puisqu’il ob ien le meilleu
sco e pou ou es les a iables d’en i onnemen .
6.3 Expé imen a ion 2 : p édic ion su la mé opole de Lyon
Ce e seconde expé imen a ion a pou objec i d’illus e les pe o mances de
P edihood su la ille de Lyon e ses en i ons, une zone géog aphique que
nous connaissons. La Figu e 10, qui explique le cas d’Alice, illus e la p édic ion
des a iables d’en i onnemen pou l’IRIS de la Pa -Dieu e selon l’algo i hme
Random Fo es . Pa appo à la éali é e ain, le qua ie de la Pa -Dieu
es su ou composé d’immeubles e de peu d’espaces e s malg é les ini ia-
i es écen es (e.g. le p oje de e on e du cen e comme cial de la Pa -Dieu).
Les a iables d’en i onnemen bâ imen e paysage le con i men . Ensui e, ce
qua ie es un qua ie cen al dans Lyon, comme le con i me la p édic ion des
a iables posi ion mo phologique e posi ion géog aphique. En in, le si e meilleu -
sagen s.com con i me la classe sociale puisque la aleu moyenne du mè e ca é
es de 4900 eu os à Lyon.
24
7 Discussion
Dans ce e sec ion, nous allons discu e des pis es d’amélio a ion, no ammen
celles p é ues d’ici la in de mon s age (31 juille ).
7.1 Sou ces de données
Dans le cad e de la p édic ion de a iables, il es sou en in é essan d’u ilise
di é en es sou ces de données, que ce soi pou compa e les données ou pou
amélio e la p édic ion. C’es pou quoi qua e sou ces pou on ê e ajou ées à
Mongi is :
– P ix immobilie s. In ég e des données de p ix pou ai aide à la p é-
dic ion des a iables d’en i onnemen elles que la classe sociale. Seulemen ,
les p ix immobilie s son a emen lib es d’accès, e s’ils le son c’es à une
échelle éle ée (e.g. au ni eau dépa emen al). Tou e ois, l’ini ia i e DVF,
qui me à disposi ion les en es immobiliè es écen es, semble in é essan e à
exploi e en collabo a ion a ec les sociologues. De plus, les données immo-
biliè es son sou en basées su un découpage en pa celles cadas ales plu ô
qu’en IRIS (c’es le cas pou DVF). Un appa iemen en e les plans cadas-
aux e les IRIS es donc nécessai e. Le découpage cadas al appo e plus
de p écision dans les zones u ales. En e e , les communes u ales ne son
sou en pas découpées pa l’INSEE, i.e. que la commune co espond à un
IRIS, andis que ce e même commune peu ê e découpée en une dizaine de
pa celles cadas ales.
– Poin s d’in é ê s. Les poin s d’in é ê s, Poin O In e es (POI ) en anglais,
son des obje s du monde éel, comme no e Dame de Fou iè e, un supe -
ma ché ou enco e le Mon Blanc. Les ou nisseu s géog aphiques ep ésen en
ces poin s d’in é ê pa des en i és, e.g. le ou nisseu Geonames ep ésen e
le POI “No e Dame de Fou iè e” pa l’en i é 8015555. Les IRIS ne compo -
an que des indica eu s numé iques (e.g. nomb e de supe ma chés), p end e
en comp e les poin s d’in é ê (e.g. nom e ype de supe ma chés) pe me-
ai d’ajou e de l’in o ma ion à l’en i onnemen d’un qua ie . L’ou il
GeoAlign [2] pe me de collec e les POI de plusieu s ou nisseu s de maniè e
uni iée e semi-au oma ique, ce qui pe me une plus g ande complé ude des
POI d’une zone donnée.
– O es d’emploi. De nos jou s, il y a plé ho e de si es p oposan des o es
d’emplois (e.g. les mo eu s de eche che amé icains Indeed e Mons e , la
pla e o me gou e nemen ale PôleEmploi, ...) e des API, elles que O es
d’emploi, son mises à disposi ion. Dans le cad e de la ecommanda ion im-
mobiliè e e de la mu a ion p o essionnelle, il peu ê e in é essan de ou e
un qua ie oi e un logemen qui plaî e de ou e un emploi dans une
zone géog aphique p oche.
– I iné ai es. Les données pe me an le calcul d’i iné ai es, e.g. les ans-
po s en commun els que les bus e les ains, e les se ices ou ie s els que
25
Google Maps ou Waze son une sou ce d’in o ma ions pe me an de qual-
i ie le paysage d’un IRIS. En e e , il es cou an de e ou e une g ande
o e de anspo s en commun dans les qua ie s u bains, in e semen une
o e plus édui e oi e inexis an e es obse able pou les qua ie s u aux.
De plus, les habi an s des illes on endance à a o ise les anspo s en
commun (moins coû eux e pa ois plus apides), d’où la éduc ion des a-
je s en oi u e pou les ci adins. En e anche, les habi an s en pé iphé ie
oi e en deho s des cen es u bains n’on pas d’au e choix que de p end e
leu oi u e. De plus, les se ices ou ie s pe me an le calcul d’i iné ai es
peu en complé e les données de l’INSEE quan aux données ou iè es qui
son enco e peu é é encées.
Les sou ces de données on é é dé inies au débu du p oje , e leu s données
é oluen . Pa exemple, l’INSEE me à jou ses jeux de données ous les ans
(lo s du ecensemen de la popula ion) ou en i on ous les 4 ans (e.g. pou
les équipemen s). Quand les données ne son pas accessibles pa une API (qui
ga an i la aîcheu des données), il au p é oi un mécanisme de mise à jou
des données (e.g. un sc ip d’in ég a ion).
7.2 T ai emen des aleu s inconnues
Les indica eu s qui n’on pas de aleu son complé és pa la médiane des aleu s
connues de celui-ci. Comme expliqué dans la Sec ion 4.4, ce ai emen compo e
un biais. La co ec ion de ce biais nécessi e un a ail supplémen ai e don l’idée
géné ale es de calcule la médiane uniquemen a ec les IRIS qui son similai es
en e mes de a iables d’en i onnemen . Pa exemple, si un IRIS u al n’a pas de
aleu pou l’indica eu anspo s en commun, la médiane se a calculée unique-
men a ec les aleu s des anspo s en communs des IRIS u aux.
7.3 Dis ibu ion des indica eu s
Une seconde app oche pou la sélec ion des indica eu s es d’u ilise la dis ibu-
ion des indica eu s dans les IRIS. Ces dis ibu ions co esponden aux aleu s
des indica eu s no malisés pa la densi é de popula ion, e son ep ésen ées
sous la o me de poin s eliés. Su l’axe des abscisses se ou en les indica-
eu s (numé o és) e su l’axe des o données se ou en les aleu s de chaque
indica eu .
32
A Va iables d’en i onnemen
Les six a iables d’en i onnemen ésul en d’un a ail commun e plu idisci-
plinai e en e les in o ma iciens e les sociologues. Ces six a iables pe me en
de dé ini simplemen l’en i onnemen d’un qua ie , ce qui acili e aussi la com-
pa aison e la ecommanda ion de ceux-ci.
Fig. 14: Lis e des six a iables d’en i onnemen .
B Visualisa ion des IRIS
L’ou il P edihood pe me de isualise les IRIS su une ca e (Figu e 15).
Fig. 15: Visualisa ion (pa ielle) d’IRIS pou la equê e “Lyon” (d’au es IRIS
con enan Lyon dans leu nom ou dans le nom de leu commune son égalemen
a ichés pa ce e equê e).
33
C Fichie s clien s Home in Lo e
Les Figu es 16a e 16b illus en des ex ai s des dossie s ou nis pa Home
in Lo e. Pou chaque dossie son enseignés l’ad esse de l’ancien lieu de ie
(colonne B) a ec l’expe ise des six a iables d’en i onnemen (colonnes C à H)
e l’ad esse du nou eau lieu de ie (colonne I) a ec de même l’expe ise des six
a iables d’en i onnemen (colonnes J à O).
(a) Exemple d’expe ise pou les anciennes ad esses des clien s Home in Lo e.
(b) Exemple d’expe ise pou les nou elles ad esses des clien s Home in Lo e.
Fig. 16: Exemple d’expe ise des dossie s ou nis pa Home in Lo e.
D Fichie s INSEE
La Figu e 17 illus e un ex ai de ichie sou ce ou ni pa l’INSEE. Celui-ci
co espond aux données ela i es à la démog aphie, e.g. l’IRIS de la Doua a ai
une popula ion de 2559 habi an s en 2014. Les indica eu s sui an s dé aillen la
épa i ion de ces habi an s pa ca égo ie d’âge. À no e que ce ichie compo e
bien plus de colonnes (83 en ou ) pou chaque i is.
Fig. 17: Exemple de ichie sou ce ou ni pa l’INSEE.
34
E Indica eu s eg oupés
La Figu e 18 mon e la hié a chie des indica eu s eg oupés.
Fig. 18: Hié a chie des indica eu s eg oupés.
35
F Dé ec ion des aleu s e onées
Puisque l’expe ise des dossie s clien s a é é manuelle, ce aines aleu s son
e onées. Pou pallie ce p oblème, un dic ionnai e es cons ui pou eg oupe
les aleu s pa simila i é. La mesu e de simila i é u ilisée es celle de Le ensh ein
a ec un seuil d’une opé a ion. Ainsi, deux aleu s son considé ées su isammen
similai es lo squ’une seule opé a ion (i.e. supp ession, ajou ou modi ica ion)
es nécessai e pou passe de l’une à l’au e. Dans le Tableau 7, on ema que
que, pou la a iable bâ imen , la aleu “Immeubles” con ien deux men ions
(“Immeuble” e “Immeubles”) alo s que la aleu “Maisons” es oujou s bien
o hog aphiée.
bâ imen [Immeubles, Immeuble ],[Maisons ],[G and ensemble ], ...
usage [Espaces e s, Espaces e , Espace e s ], ...
... ...
social [Pop, Popu ],[Sup ],[Oui ],[Moyen-sup ],[Moyenne-sup ], ...
Table 7: Valeu s des a iables d’en i onnemen saisies dans les dossie s clien s
eg oupées pa simila i é.
G Indica eu s spéci iques
Le il age des indica eu s a é é éalisé à pa i d’un ichie Excel dé ini p éalable-
men à la main. Chaque indica eu a un s a u : 0 si l’indica eu es conse é,
1 si l’indica eu es considé é comme op spéci ique e donc e i é des indica-
eu s po en iellemen u iles à la p édic ion. La Figu e 19 illus e un ex ai de
ce ichie Excel d’aide au il age.
Fig. 19: Exemples d’indica eu s op spéci iques.
36
H Hié a chie des indica eu s
La hié a chie des indica eu s a pe mis de c ée un a b e généalogique de la
o ali é des indica eu s INSEE a ec comme acines (ni eau 1) les indica eu s les
plus géné aux, e.g. la popula ion, le nomb e de ménages ou enco e le nomb e
de logemen s, e comme descendance les indica eu s o donnés pa spéci ici é
(Figu e 20). Au o al, la hié a chie con ien cinq ni eaux. Elle a é é cons ui e
manuellemen , ce qui a é é coû eux en emps mais elle p ésen e deux a an ages :
elle a é é dé inie en Excel donc elle es acilemen exploi able pa un p og amme
Py hon e elle pou ai a oi d’au es u ili és comme l’aide à la jus i ica ion.
Fig. 20: Exemple de la hié a chie des indica eu s.
I Diag amme de classes de P edihood
La modélisa ion de P edihood se eu géné ique pou acili e l’ajou de nou-
eaux algo i hmes e es basée su Sciki -Lea n, ce qui pe me d’in ég e ous
les algo i hmes qu’ils p oposen . Sciki -Lea n es une des é é ences en e mes de
lib ai ie pou l’app en issage au oma ique e les ésul a s de leu s algo i hmes
peu en se i de é é ence, no ammen pou é alue la quali é d’un nou el al-
go i hme. Le p oje P edihood se base p incipalemen su ois classes : Da a,
Da ase e Me hod. Les obje s ( onc ions e a ibu s) p écédés d’un signe -
son des élémen s in e nes à la classe qui n’on pas lieu d’ê e u ilisés lo s de
l’u ilisa ion des classes. À l’in e se, les obje s p écédés d’un signe + son ceux
qui son considé és comme publics e donc accessibles e u iles à pa en iè e.
37
Fig. 21: Diag amme de classes du p oje P edihood.
La modélisa ion de chaque classe es dé aillée ci-dessous :
– Classe Da a. Elle ep ésen e les données sous la o me d’une Da aF ame.
La classe Da a con ien aussi des a ibu s els que les indica eu s du jeu de
données (indica o s). La mé hode ini _all_in_one pe me de géné e une
ins ance con enan les données du ichie Excel ne oyé con enan les clien s
a ec la lis e des indica eu s dans le jeu de données.
– Classe Da ase . Elle con ien une ins ance de ype Da a a in d’a oi accès
aux données ainsi que les jeux d’app en issage e de es (X_ ain,Y_ ain,
X_ es e Y_ es ) puisque les algo i hmes u ilisés son de ype supe isés.
La mé hode ini _all_in_one pe me d’ini ialise les données e de c ée les
jeux de données.
– Classe Me hod. Elle es la classe mè e de qua e classes e ep ésen e un
p ocessus (e.g. le ne oyage des données e la sélec ion des indica eu s).
- La classe Me hodCleaning ne oie les données des IRIS expe isés, i.e. les
données Home in Lo e. La onc ion clean pe me de lance le p ocessus
38
de ne oyage e pe me à l’expe de choisi les aleu s souhai ées pou
les aleu s con enan des au es.
- La classe Me hodSelec ion co espond au p ocessus de sélec ion des in-
dica eu s. Chaque ins ance de ce e classe co espond à une mé hode
de sélec ion, i.e. la sélec ion a ec l’algo i hme Random Fo es es une
ins ance de ce e classe e la sélec ion a ec l’algo i hme Ex a T ee Clas-
si ie en es une seconde. L’a ibu bes _indica o s con ien les meilleu s
indica eu s pou l’ins ance considé ée.
- La classe Me hodP edic ion pe me la p édic ion des a iables d’en i on-
nemen d’un IRIS e la p édic ion des a iables d’en i onnemen pou
ou le jeu de données des IRIS expe isés. La onc ion p edic pe -
me no ammen de p édi e les aleu s des six a iables d’en i onnemen
de l’IRIS donné en pa amè e ou de p édi e les aleu s pou ous les
IRIS expe isés e ainsi é alue la quali é de la p édic ion a ec les jeux
d’en aînemen e de es .
- En in la classe Cha pe me de modélise les débu s de é lexion su
l’in ég a ion de la dis ibu ion des indica eu s comme sélec ion d’indica eu s
ou comme aide à la p édic ion.
J Indica eu s de l’IRIS de la Pa -Dieu
Les Figu es 22 e 23 déc i en quelques uns des indica eu s pou l’IRIS de la
Pa -Dieu, Lyon.
Fig. 22: Indica eu s eg oupés de l’IRIS de la Pa -Dieu.
39
Fig. 23: Indica eu s b u s de l’IRIS de la Pa -Dieu.