scieee Science in your language
[en] (orig)

Intégration de données géographiques pour la recommandation de quartiers

Author: Barret, Nelly
Publisher: Zenodo
DOI: 10.5281/zenodo.17679854
Source: https://zenodo.org/records/17679854/files/rapport-L3.pdf
Uni e si é Claude Be na d Lyon 1
Rappo de s age
In ég a ion de données géog aphiques pou la
ecommanda ion de qua ie s
Du 2 mai au 27 juille 2018
LIRIS, Labo a oi e d'In o ma ique en Image e Sys èmes d'in o ma ion
8 Boule a d Niels Boh
69622 Villeu banne
É udian e Nelly Ba e (Licence 3 In o ma ique, UCBL1)
Tu eu s en ep ise Fabien Ducha eau (Maî e de con é ences, LIRIS)
F anck Fa e a (Maî e de con é ences, LIRIS)
Tu eu uni e si ai e Fabien De Ma chi (Maî e de con é ences, LIRIS)
Rappo eu Ma hieu Hei z (Doc o an , LIRIS)
Reme ciemen s
Tou d'abo d, je souhai e eme cie Fabien Ducha eau e F anck Fa e a, mes maî es
de s age, sans qui ce s age n'au ai pas é é possible. Ce son eux qui m'on sui i, a ec
pa ience e pédagogie, ou au long de ces ois mois.
J'ad esse ensui e mes eme ciemen s à la s a -up HiL (Home in Lo e) a ec qui le
LIRIS collabo e su le p oje Home in Lo e. Je eme cie aussi les memb es du p oje ,
Ma y onne Miquel, Loïc Bonne al e Au élien Gen il, a ec qui j'ai pu échange pendan
les éunions.
Je souhai e aussi eme cie le LabEx IMU (Labo a oi e d'Excellence, In elligence des
Mondes U bains), qui a nancé ce s age à i e excep ionnel puisque c'es un s age de
Licence.
Je souhai e aussi eme cie ou le pe sonnel du LIRIS pou leu accueil.
Enn, je souhai e eme cie l'Uni e si é Claude Be na d Lyon 1 pou mes ois années
de Licence pendan lesquelles j'ai beaucoup app is e , en plus, décou e la eche che.
1
Table des ma iè es
1 In oduc ion 3
2 É a de l'a 5
3 Vue d'ensemble des éalisa ions 8
4 Module d'in ég a ion de données 10
5 Module de ecommanda ion 13
6 P o o ype e ésul a s p éliminai es 16
6.1 P o o ype ................................... 16
6.2 P o ocole ................................... 18
6.3 Résul a s.................................... 20
6.4 Discussion................................... 21
7 Conclusion e pe spec i es 23
8 Annexes 24
2
1 In oduc ion
É an en oisième année de Licence in o ma ique à l'Uni e si é Claude Be na d
Lyon 1, je dois eec ue un s age alidan mon p emie cycle d'é udes supé ieu es.
Ce s age peu se ai e en en ep ise ou en labo a oi e pou une du ée de 12 semaines
(de mai à juille ). Il a pou bu de nous ai e acqué i une expé ience p o essionnelle
en ichissan e e de nous ai e p end e conscience des con ain es du monde p o essionnel.
En isagean un mas e eche che à Lyon 1, ai e un s age au LIRIS es pou moi une
oppo uni é ê ée. Ma p incipale a en e is-à- is de ce s age es de décou i le monde de
la eche che an de consolide mon p oje p o essionnel p oche e u u . Je souhai e aussi
décou i les con ain es du monde p o essionnel à a e s ce s age, comme les p oje s
plu idisciplinai es e l'in ég a ion su un p oje en cou s. C'es ainsi que j'ai p is con ac
a ec mes p o esseu s pou leu ai e pa de mon souhai . Ce son Fabien Ducha eau e
F anck Fa e a, che cheu s au LIRIS, qui m'on alo s p oposé un s age o ien é eche che
dans leu équipe e plus pa iculiè emen su un de leu s p oje s.
Le LIRIS, Labo a oi e d'In oRma ique en Image ie e Sys èmes d'in o ma ion, es
une uni é mix e de eche che (UMR 5205). Il dépend du CNRS, de l'INSA Lyon, de
l'Uni e si é Claude Be na d Lyon 1, de l'Uni e si é Lumiè e Lyon 2 e de l'École Cen ale
de Lyon. Il s'in é esse à l'in o ma ique e plus géné alemen aux sciences e echnologies
de l'in o ma ion. Le LIRIS es composé de 14 équipes épa ies en 6 pôles de eche che.
Le pôle Science des données es composé de 3 équipes : BD (Bases de Données), D2ML
(Da a Mining e Machine Lea ning) e GOAL (G aphes, algO i hmes e AppLica ions).
Les p incipaux objec i s de l'équipe Bases de données son la concep ion de nou eaux
modèles ace à la géné a ion massi e de données hé é ogènes. Elle s'in é esse aussi à
dé eloppe des ou ils pou maî ise ces données (accès, diusion, usage...). Les p oje s de
eche che du LIRIS son nancés pa dié en es sou ces don le LabEx IMU (Labo a oi e
d'Excellence, In elligence des Mondes U bains) qui nance des p oje s plu idisciplinai es.
Le LabEx IMU édè e un ensemble de a aux e de p oje s de eche che qui ai en de
la ille e des phénomènes u bains dans leu s ela ions aux p ocessus de mondialisa ion.
Il nance le p oje plu idisciplinai e Home in Lo e dans lequel s'insc i mon s age.
Le LabEx IMU nance le p oje HiL qui a pou in i ulé :  Sys ème de ecomman-
da ion a ec isualisa ion spa iale e non spa iale pou la eche che immobiliè e . Ce
p oje me en collabo a ion des che cheu s en in o ma ique du LIRIS, des che cheu s en
sociologie du Cen e Max Webe e la s a -up Home in Lo e. Il a pou bu de p opose
une pla e o me qui aide à la eche che de logemen s en amélio an la ecommanda ion
ac uelle e en in ég an des c i è es sociologiques lo s de la ecommanda ion.
Mon s age, nancé pa IMU, po e p incipalemen su la ecommanda ion de qua -
ie s. Il se compose de deux pa ies : l'analyse des qua ie s e la ecommanda ion de
qua ie s. Pou ecommande des qua ie s pe inen s, il au a oi des in o ma ions su
ces qua ie s. Ces in o ma ions p o iennen de dié en es sou ces, c'es pou quoi une
é ape d'in ég a ion de données es nécessai e. Mon s age é an à conno a ion eche che,
il y a eu une é ape de eche che bibliog aphique. À pa i de la lec u e de plusieu s a -
icles su l'in ég a ion de données e la ecommanda ion, un é a de l'a a pu ê e é abli.
Plusieu s con ibu ions on é é iden iées : l'implémen a ion d'un module d'in ég a ion
e l'implémen a ion de dié en es s a égies de ecommanda ion. Ces s a égies on é é
3
es ées pou é alue leu pe inence su des données éelles ou nies pa la s a -up. Dans
ce appo , nous ésumons ce a ail de eche che e dé eloppemen .
4

2 É a de l'a
L'é a de l'a po e su deux domaines : l'in ég a ion de données e la ecommanda-
ion. L'in ég a ion de données es un p ocessus de eg oupemen de données p o enan de
dié en es sou ces en une sou ce d'in o ma ion commune e pe inen e. Cela pe me de
c ée une ue logique homogène même si les données physiques son hé é ogènes. Plusieu s
é apes se dis inguen dans l'in ég a ion de données : l'iden ica ion e la comp éhension
des sou ces, la dé ec ion des co espondances e des mappings e é en uellemen la u-
sion des données. C'es un domaine qui es o emen é udié depuis des décennies e de
nomb eux a aux on é é p oposés dans le bu d'au oma ise ce e âche [2]. L'au o-
ma isa ion n'es pas nécessai e dans le cad e du p oje puisque ce n'es pas une âche
écu en e. L'in ég a ion des données a donc é é manuelle. L'in ég a ion de dié en es
sou ces de données appo e
de ac o
des coni s d'iden i é e de noms d'a ibu s. Les
coni s d'iden i é appa aissen lo sque le même concep es iden ié pa des a ibu s
dié en s ou lo sque la même clé dans deux sou ces dié en es n'a pas la même signi-
ca ion. Deux ypes de coni s de noms d'a ibu s peu en su eni : l'homonymie (le
même nom es u ilisé pou désigne des concep s dié en s) e la synonymie (le même
concep es déc i pa plusieu s noms dié en s). Dans la li é a u e, des solu ions son
p oposées pou les ésoud e. Un exemple de solu ion pou les coni s d'iden i é es la
déni ion d'une onc ion de con e sion de clé e , pou les coni s de noms d'a ibu s, le
enommage.
La ecommanda ion es un domaine ès é udié depuis les années 1990. Les sys èmes
de ecommanda ion son des sys èmes capables de p opose des ecommanda ions pe -
sonnalisées ou de guide un u ilisa eu e s des essou ces in é essan es. Face au olume
de données oujou s plus g and, il es nécessai e de l e e de hié a chise les in o ma-
ions. Pa exemple, en magasin, un u ilisa eu au a le choix pa mi des cen aines de DVD
andis que su In e ne ce même u ilisa eu au a le choix pa mi des millie s de DVD. Les
ou ils de ecommanda ion n'on cessé de s'amélio e e d'en ichi l'expé ience u ilisa eu .
Plusieu s s a égies peu en ê e adop ées ace à un sys ème de ecommanda ion. Ils se
di isen p incipalemen en ois ca égo ies [3] :
 Basiques (u ilisan la simila i é ou la popula i é, e.g. dans le cad e de la ecom-
manda ion de lms, la saga Ha y Po e e la ilogie Le Seigneu Des Anneaux
son similai es).
 Basés su le con enu (
con en -based l e ing
) [4]. Ce ype de sys ème de ecom-
manda ion a p opose des ecommanda ions similai es aux goû s d'un u ilisa-
eu . La Figu e (1a) illus e un exemple simple de l age su le con enu. L'u ili-
sa ice aime la saga Ha y Po e e le sys ème sai que la saga Twiligh es une
saga similai e à Ha y Po e . Le sys ème a donc lui ecommande Twiligh .
 Basés su le collabo a i (
collabo a i e l e ing
) [5]. Ce ype de sys ème de e-
commanda ion a dé ec e des u ilisa eu s qui pa agen les mêmes goû s pou
leu p opose des ecommanda ions similai es. La Figu e (1b) illus e un exemple
simple de l age collabo a i . Une u ilisa ice aime la saga Ha y Po e ainsi
que les sé ies policiè es. Un u ilisa eu aime la saga Ha y Po e , les sé ies poli-
ciè es e la saga Twiligh . Ces deux u ilisa eu s ayan des p é é ences similai es,
le sys ème a ecommande la saga Twiligh à l'u ilisa ice.
5
(a) Illus a ion du l age su le con enu (b) Illus a ion du l age collabo a i
Figu e
1  Illus a ion du l age su le con enu e du l age collabo a i
Qua e algo i hmes de ecommanda ion on é é é udiés pa mi les plus populai es :
SVD, NMF, KNN e decision ee. Chacun de ces algo i hmes appa ien à un ype de
sys ème de ecommanda ion.
L'algo i hme SVD (
Singula -Value Decomposi ion
) [1], algo i hme de ype collabo-
a i e l e ing, a é é popula isé g âce à Ne ix, en ep ise amé icaine qui p opose un
se ice de loca ion de DVD en ligne. Chaque clien peu no e (en e 1 e 5) les lms
qu'il a u. G âce à ces e ou s u ilisa eu s, Ne ix p opose à ses clien s des lms qu'ils
se aien suscep ibles d'aime . Ces p oposi ions é aien géné ées pa leu sys ème de e-
commanda ion CinéMa ch. Ne ix juge alo s qu'un sys ème de ecommanda ion plus
é olué leu pe me ai de délise leu s clien s e d'augmen e leu s bénéces. Ne ix
décide de lance , en 2009, un concou s,  Le Ne ix P ize . Le bu de ce concou s é ai
de cons ui e un algo i hme de ecommanda ion qui pou ai su passe les es s de 10%,
i.e. de édui e de 10% la RMSE (Roo -Mean-Squa e E o ) de CinéMa ch. La RMSE es
une mesu e qui pe me de calcule la dié ence en e les aleu s p édi es pa un modèle e
les aleu s éellemen obse ées. L'équipe de eche che gagnan e a cons ui un sys ème
de ecommanda ion à pa i d'une cen aine de modèles, don la SVD. Son p incipe es
de décompose une ma ice en ois sous-ma ices an de ai e appa aî e des  p ols .
Dans le cas de Ne ix pa exemple, en décomposan leu ma ice de no es, des p ols
de lms e d'u ilisa eu s on appa aî e. Comme 99% des no es ne son pas connues,
la ma ice n'es pas dense e la dicul é se a de p édi e les no es manquan es. Ainsi le
sys ème pou a ecommande des lms suscep ibles d'in é esse les u ilisa eu s g âce aux
no es qu'il au a p édi es.
L'in ui ion de l'algo i hme NMF (
Non nega i e Ma ix Fac o iza ion
) [6], algo i hme
de ype collabo a i e l e ing, es de décompose une ma ice non-néga i e en deux sous-
ma ices non-néga i es, oujou s dans le bu de ai e appa aî e des p ols. Comme pou
la SVD, le sys ème pou a p édi e les no es manquan es e ainsi ecommande des lms
pe inen s à un u ilisa eu . La dié ence en e les algo i hmes SVD e NMF es que la
SVD p opose une décomposi ion unique andis que la NMF en p opose plusieu s. En ee ,
la SVD pe me d'ob eni des p ols de lms e d'u ilisa eu s ainsi qu'une ma ice  de
pondé a ion . C'es ce e ma ice qui end la SVD unique. La SVD es donc plus obus e
puisqu'elle p opose oujou s les mêmes ecommanda ions pou une ma ice donnée mais
la NMF a o ise la sé endipi é puisqu'elle p opose plusieu s décomposi ions.
6
L'algo i hme KNN (
K-Nea es Neighbo s
), algo i hme de ype con en -based e col-
labo a i e l e ing, pe me de classie un obje en onc ion de son oisinage. Les données
d'en ée son un ensemble d'obje s e un ensemble de classes. Chaque obje appa ien
à une classe e peu ê e ep ésen é en an que poin dans un g aphe. L'objec i es de
classie les nou eaux obje s, qui p end on comme iden i é la classe majo i ai e de leu s
k oisins les plus p oches. L'in ui ion des a b es de décision es de di ise les c i è es
en décisions an de ecommande un p odui qui s'app oche au plus p ès des c i è es
souhai és. Les a b es de décision peu en aussi se i à jus ie une ecommanda ion.
Dans no e con ex e, il n'exis e qu'un seul a icle ai an de la ecommanda ion im-
mobiliè e e celui-ci a é é éc i en Co ée du Sud. Ce a icle [7] es peu dé aillé au ni eau
de la pa ie echnique de la ecommanda ion basée su le CBR (Case-Based Reasoning)
e algo i hme ou lib ai ie n'on pas é é men ionnés. Il es plu ô ocalisé su l'é ude de
l'e gonomie de l'in e ace an de acili e la eche che de logemen . Il au donc adap e
un des algo i hmes exis an s à no e con ex e immobilie . Pou base no e app oche su
le collabo a i , dans le cad e de ecommanda ions au ni eau de la F ance, il aud ai a oi
plusieu s a is su les qua ie s e les communes pou un même g oupe d'u ilisa eu s. O
ce ype de données n'es pas disponible. Ainsi, la compa aison des qua e algo i hmes
dé aillés ci-dessus a pe mis de base no e app oche su le con enu e non su le collabo-
a i .
7
3 Vue d'ensemble des éalisa ions
Ce e sec ion p ésen e une ue d'ensemble de l'app oche u ilisée où nous che chons
à ecommande des qua ie s à pa i de leu s ca ac é is iques. Les p incipaux e ous
scien iques de ce p oje son la pe o mance e la quali é. D'une pa , il es nécessai e
de choisi un algo i hme de ecommanda ion ecien ou en limi an la eche che d'IRIS
candida s à un sous-ensemble idéalemen sélec ionné (e.g. selon une dis ance). D'au e
pa , la ecommanda ion doi o i une quali é accep able, ce qui nécessi e de dé ec e e
de eg oupe en amon les indica eu s les plus pe inen s. Les données su les qua ie s
son spa ialemen découpées en IRIS. Un IRIS, anag amme de Ilo s Reg oupés pou
l'In o ma ion S a is ique, es un découpage du e i oi e en mailles de aille homogène.
L'IRIS es l'uni é de é é ence pou la diusion de données in a-communales. Il exis e
ois ypes d'IRIS : habi a , ac i i é e di e s. Pa exemple, les IRIS d'habi a on une
popula ion en e 1 800 e 5 000 habi an s. La Figu e 2 illus e un schéma de sys ème de
ecommanda ion adap é pou la ecommanda ion d'IRIS.
Figu e
2  Schéma d'un sys ème de ecommanda ion adap é pou la ecommanda ion
d'IRIS
Les sou ces de données in ég ées dans le sys ème de ecommanda ion son l'INSEE
(Ins i u Na ional de la S a is ique e des É udes Économiques) e le si e des Meilleu s
Agen s. Le si e meilleu sagen s.com ou ni les p ix moyens au mè e ca é (pou les
maisons e les appa emen s) pa commune. L'INSEE ou ni des indica eu s b u s pou
chaque IRIS. Un indica eu b u es une aleu ep ésen an le nomb e de se ices, pa
exemple le nomb e de boulange ies ou le nomb e de e ains de oo . Comme les sou ces
son mul iples e hé é ogènes, un module d'in ég a ion de données es nécessai e, comme
le mon e le p emie ec angle de la Figu e 2. L'INSEE ou ni beaucoup d'indica eu s
b u s, en i on 800. A oi au an d'indica eu s ne pe me pas de ca ac é ise les IRIS à
un bon ni eau de dé ail. Pa exemple, connaî e le nomb e de es au an s ou le nomb e
de cinémas pou un IRIS n'es pas o cémen pe inen , en e anche sa oi si un IRIS es
animé semble beaucoup plus pe inen dans le cad e d'un sys ème de ecommanda ion.
An d'a oi des c i è es pe inen s, un eg oupemen des indica eu s b u s a é é eec ué
a ec l'aide des sociologues.
8
SVM son des modèles d'app en issage supe isé auxquels on associe des algo i hmes
d'app en issage qui analysen les données pou ai e de la classica ion ou de la ég ession.
Le choix en e la classica ion e la ég ession peu ê e dé e miné pa le ype de so ie
de l'algo i hme. La classica ion es u ilisée lo sque la so ie es une aleu disc è e (e.g.
une ca égo ie) andis que la ég ession es u ilisée dans le cas d'une so ie con inue (e.g.
une aleu ). Selon les données de dépa , chaque élémen appa iend a à une classe.
L'algo i hme d'app en issage a cons ui e un modèle e se a capable de p édi e la classe
d'un nou el élémen . Il a donc besoin de données d'app en issage (
aining da a
).
Dans no e cas, ce son les IRIS de dépa qui se en de données d'en aînemen . Pou
one-class-s m, une seule classe es nécessai e donc les IRIS de dépa ep ésen en la
classe (classe 1). Pou les au es algo i hmes de ype SVM, deux classes son nécessai es.
Dans ce cas, les IRIS de dépa son de classe 1, e les oisins di ec s de chaque IRIS
de dépa (qui ne on pas pa ie des IRIS de dépa ) son de classe 0. Les coecien s
app is lo s de l'en aînemen (
aining
) se en de ec eu ep ésen a i des IRIS de
dépa . Enn, pou ecommande , soi la simila i é cosine soi le clus e ing son appliqués
en u ilisan ce ec eu ep ésen a i . En ee , ce ec eu peu ê e u ilisé comme IRIS de
dépa a ec un au e algo i hme (e.g. mesu e cosine ou clus e ing). Lo sque les données
ne peu en pas ê e classiées, on ne peu pas u ilise l'app en issage supe isé. Il exis e
alo s une au e app oche, celle de l'app en issage non-supe isé. Ce e app oche en e de
ou e un eg oupemen en e les données. Dans le p o o ype, les données peu en ê e
classiées donc c'es l'app en issage supe isé qui a é é e enu.
15

6 P o o ype e ésul a s p éliminai es
Dans ce e sec ion, l'implémen a ion du p o o ype e l'é alua ion su données éelles
se on p ésen ées.
6.1 P o o ype
Le p o o ype pe me de ai e la ecommanda ion d'un IRIS ou d'applique les algo-
i hmes su les IRIS au ni eau de la F ance. Dans la sui e, nous mon e ons les p incipales
onc ionnali és du p o o ype en p enan comme é ude le dépa emen du Rhône. Plusieu s
cas de gu es son possibles e les données en en ée peu en a ie (soi un IRIS, soi une
lis e d'IRIS). Le p emie cas es la ecommanda ion simple pou un IRIS. Dans ce cas,
c'es la simila i é cosine qui es appliquée. Le second es le clus e ing simple qui pe me
de eg oupe e de isualise les IRIS similai es (i.e. qui appa iennen au même clus e ).
Dans ce cas, le clus e ing es appliqué su ous les IRIS. Le de nie es la ecommanda ion
ia le clus e ing. Dans ce cas, le clus e ing s'applique su les IRIS du Rhône an de les
eg oupe en clus e s e de dé e mine dans quel clus e me e l'IRIS à ecommande .
Les IRIS qui composen le clus e le plus pe inen se on les IRIS ecommandés. Les
cap u es d'éc an ci-dessous illus en ces cas de gu e. Pa dé au les IRIS son bleus,
l'IRIS sélec ionné es iole e les IRIS ecommandés son colo és. Le p o o ype es sous
la o me d'un si e web. La s uc u e a é é codée en HTML e la mise en page en CSS.
Le Ja aSc ip a é é u ilisé pou les in e ac ions a ec la ca e e les menus. Le lien en e
les choix ai s pa l'u ilisa eu e l'exécu ion des onc ions es éalisé a ec des equê es
AJAX. Comme men ionné p écédemmen , la ecommanda ion es ai e en Py hon.
Figu e
6  Recommanda ions ( e ) pou l'IRIS de la Pa -Dieu
La Figu e 6 mon e les ecommanda ions p oposées pou l'IRIS de la Pa -Dieu g âce
à l'algo i hme de la simila i é cosine. Les qua ie s ecommandés son des IRIS animés
puisque celui de la Pa -Dieu es animé du ai de son nomb e de es au an s (indica eu
majeu pou le c i è e d'anima ion).
16
Figu e
7  Recommanda ions (blanc) pou l'IRIS du pa c de la Tê e d'o
La Figu e 7 mon e les ecommanda ions pou le pa c de la Tê e d'o , oujou s a ec
l'algo i hme de la simila i é cosine. La simila i é cosine en oie plu ô des IRIS d'ac i i é
puisque le pa c de la Tê e d'o ecense peu de se ices.
Figu e
8  Clus e ing appliqué ia l'algo i hme Mean Shi
La Figu e 8 mon e l'applica ion du clus e ing su les IRIS du Rhône a ec l'algo-
i hme Mean Shi . Ce algo i hme pe me de ai e appa aî e les zones les plus denses,
e.g. les qua ie s animés de Lyon e les cen es illes des au es illes comme Ta a e,
Ville anche ou Gi o s.
17
Figu e
9  Clus e ing appliqué ia l'algo i hme Agglome a i e Clus e ing
La Figu e 9 mon e l'applica ion du clus e ing su les IRIS du Rhône a ec l'algo-
i hme Agglome a i e Clus e ing. Ce algo i hme pe me de déma que les cen es ( ès
colo és) des zones moins denses (majo i ai emen bleues).
Figu e
10  Recommanda ions ( iole ) pou l'IRIS de la Pa -Dieu ia le clus e ing
La Figu e 10 mon e la ecommanda ion ia le clus e ing. Les clus e s son d'abo d
calculés g âce à l'algo i hme Mean Shi . Ensui e, le module de ecommanda ion che che
dans quel clus e l'IRIS de la Pa -Dieu se ai placé. Le clus e dé e miné es alo s le
clus e le plus pe inen donc ses IRIS son ecommandés. Ce son les zones animées
des cen es du Rhône qui son ecommandées, ce qui es pe inen pa appo à leu s
indica eu s.
6.2 P o ocole
Lo squ'un sys ème de ecommanda ion es dé eloppé, il es nécessai e d'é alue sa
capaci é à épond e aux objec i s dénis. Cela nécessi e à la ois un jeu de données e
18
des mé iques d'é alua ion. Les mé iques, mesu es quan iables de la pe o mance, pe -
me en d'é alue les algo i hmes implémen és. Pa exemple, lo squ'un u ilisa eu lance
une equê e (e.g. une ecommanda ion de qua ie s), il s'a end à a oi un ce ain nomb e
de éponses qui co esponden à sa ques ion. Ses a en es peu en se ca ac é ise pa une
mesu e de p écision/ appel. Ce couple de mesu es pe me de mesu e les pe o mances
d'un algo i hme. La p écision ep ésen e la p obabili é qu'un élémen ecommandé soi
pe inen e se déni pa :
p ´ecision =nomb e d0IRIS pe inen s ou ´es
nomb e d0IRIS pe inen s s ock´es
Le appel ep ésen e la p obabili é qu'un élémen pe inen soi ecommandé e se déni
pa :
appel =nomb e d0IRIS pe inen s p opos´es `a l0u ilisa eu
nomb e d0IRIS o al p opos´es pou une ecommanda ion
Un sys ème pa ai au ai une p écision à 1 (aucune e eu dans les élémen s ecom-
mandés) e un appel à 1 ( ous les élémen s pe inen s son ecommandés). En plus des
mesu es de p écision e de appel, une oisième mesu e d'é alua ion peu ê e u ilisée,
c'es la moyenne ha monique. Elle combine la p écision e le appel e se déni pa :
measu e = 2 ×p ´ecision× appel
p ´ecision+ appel
Des mesu es elles que les ais e aux posi i s ainsi que les ais e aux néga i s
pe me en aussi d'é alue un algo i hme. Les ais posi i s son les IRIS pe inen s qui
son dé ec és comme pe inen s alo s que les aux posi i s son les IRIS non pe inen s
dé ec és pe inen s. Les ais néga i s son les IRIS non pe inen s dé ec és en an que
el alo s que les aux néga i s son les IRIS pe inen s dé ec és comme non pe inen s. Ces
mesu es pe me en de calcule la sensibili é e la spécici é d'un algo i hme. La sensibili é
mesu e la capaci é d'un algo i hme à donne un ésul a posi i quand l'hypo hèse es
é iée andis que la spécici é mesu e la capaci é à donne un ésul a néga i quand
l'hypo hèse n'es pas é iée. La sensibili é pe me de dé ec e ous les IRIS qui ne son
pas à ecommande ca ils ne son pas pe inen s, sachan que ce ensemble ne con ien
pas o cémen que des IRIS non pe inen s. À l'in e se la spécici é pe me de ne dé ec e
que les IRIS non pe inen s.
Ap ès a oi déni les mé iques d'é alua ion, il es impo an de déni le jeu de
données. Il n'exis e pas de benchma k su la F ance pou les IRIS. Nous a ons donc
u ilisé les données éelles que nous ou ni Home in Lo e. Su la cen aine de clien s
ou nis, seuls 67 p ols é aien alides (i.e. un IRIS de dépa , un IRIS d'a i ée e un
IRIS de a ail). Le Tableau 1 illus e les s a is iques des 67 p ols alides e des IRIS
candida s à la ecommanda ion. Pou en i on 50% des p ols (30/67), la dis ance en e
l'IRIS de a ail e l'IRIS du nou eau domicile es in é ieu e à 5 kilomè es (p emiè e
ligne de la Figu e 1). Cela ne es ein pas o cémen le nomb e d'IRIS candida s à la
ecommanda ion, ca il y a des p ols a ec une dis ance in é ieu e à 5 kilomè es qui
con iennen plusieu s cen aines d'IRIS candida s (e.g. dans les g andes illes). La somme
des deux de niè es lignes du Tableau 1 mon e qu'en i on les 3/4 des p ols on une zone
19
de eche che con enan plus de 50 IRIS candida s à la ecommanda ion. Ce nomb e peu
mon e jusqu'à plusieu s millie s d'IRIS candida s pou quelques cas.
Nomb e de p ols
Dis ance (en kilomè es)
0 < dis ance < 5 30
5 < dis ance < 10 16
10 < dis ance < 20 9
dis ance > 20 12
Nomb e d'IRIS candida s
candida s < 10 3
10 < candida s < 50 13
50 < candida s < 500 38
candida s > 500 13
Table
1  S a is iques su les p ols e les IRIS candida s
6.3 Résul a s
Les ésul a s p éliminai es de no e p o o ype pe me en de mon e la pe inence
de la ecommanda ion su un op 10. Les ésul a s ci-dessous son eec ués su 67 p ols
e les 50000 IRIS qui composen la F ance. Chaque p ol inclu l'IRIS de dépa , l'IRIS
d'a i ée e l'IRIS du u u lieu de a ail de l'u ilisa eu . L'IRIS de dépa es le lieu
de ie ac uel e l'IRIS d'a i ée es le nou eau domicile, dans le cad e d'une mu a ion
p o essionnelle pa exemple. À pa i de l'IRIS de dépa , nous souhai ons é ie que
les algo i hmes u ilisés ob iennen (pa mi les 10 ecommanda ions) l'IRIS d'a i ée (où
la pe sonne a nalemen emménagé). C'es le appel qui indique si l'IRIS eche ché ai
pa ie des IRIS ecommandés. Les IRIS candida s son dé ec és à pa i de l'IRIS de
a ail. En ee , la pe sonne che che a à habi e à p oximi é de son nou eau lieu de
a ail.
Les algo i hmes de ype SVM qui nécessi en au moins deux classes (e.g. linea SVM
e nu SVM) n'on pas é é inclus ca les expé imen a ions on é é éalisées a ec un seul
IRIS de dépa . C'es pou quoi seulemen l'algo i hme one-class SVM a é é u ilisé pou ces
expé imen a ions. Le Tableau 2 mon e les ésul a s ob enus lo s des expé imen a ions.
20

S a égie Faux
posi i s V ais
posi i s Faux
néga i s P écision Rappel F-
measu e
Cosine
simila i y
645
13 54
0.02
0.19
0.04
S anda d
de ia ion
645
13 54
0.02
0.19
0.04
Spec al
clus e ing 29751
60 7
0.0
0.9
0.0
Agglome-
a i e
clus e ing 29751
60 7
0.0
0.9
0.0
DBSCAN 29751
60 7
0.0
0.9
0.0
Mini
Ba ch
k-means 5573 18 49 0.0 0.27 0.01
K-means 5739 18 49 0.0 0.27 0.01
Meanshi 18586 36 31 0.0 0.54 0.0
Ani y
p opaga-
ion 3406 8 59 0.0 0.12 0.0
Bi ch 6168 20 47 0.0 0.3 0.01
One-class
SVM 6316 21 46 0.0 0.31 0.01
Table
2  Résul a s des é alua ions pou 67 p ols e 50000 IRIS
Les ésul a s ob enus a ec la simila i é cosine son encou agean s. En ee , le appel
es de 0.19, soi 20% donc en i on une ecommanda ion su 5 es ou ée. Mon app oche
a ec l'éca - ype (s anda d de ia ion) p opose des ésul a s cohé en s a ec la mesu e
cosine, qui es une mesu e ès u ilisée. Elle ob ien un appel de 0.19 comme la simila i é
cosine. C'es un ésul a p éliminai e encou agean .
Le clus e ing ob ien de bons ésul a s ca son appel es p oche de 1. Ce ains
algo i hmes de clus e ing nécessi en de spécie le nomb e de clus e s andis que d'au es
sélec ionnen ce nomb e au oma iquemen . Lo squ'il au ou ni ce nomb e, le nomb e de
clus e s es déni pa le nomb e d'IRIS candida s di isé pa 10, pou a oi en moyenne 10
IRIS pa clus e . Cependan , en p a ique, les algo i hmes peu en cons ui e des clus e s
eg oupan de nomb eux IRIS (e.g. le spec al clus e ing ou e en i on 30000 IRIS pou
les 67 p ols, soi des clus e s d'une aille de 445 IRIS en moyenne). Même si une majo i é
d'IRIS d'a i ée son ou és, ceux-ci son donc pe dus au milieu d'un g and nomb e de
ecommanda ions, ce qui end l'algo i hme peu p a ique à u ilise .
6.4 Discussion
Pou e mine , nous analysons plus nemen ces p emie s ésul a s an d'ex ai e
des pe spec i es pou la n de mon s age. L'hypo hèse de dépa choisie es ès o e.
21
En ee , elle considè e que les u ilisa eu s che chen un qua ie semblable à celui où
ils habi aien . O , ce e hypo hèse n'es pas oujou s aie. En ee , les sociologues on
analysé les pen es de ca iè e qui mon en que les u ilisa eu s che chen , dans la plupa
des cas, des qua ie s dié en s de leu qua ie ac uel ca leu si ua ion (no ammen
nanciè e) a é olué posi i emen lo s de la mu a ion. Pa exemple, les u ilisa eu s qui
son en ascension posi i e oien sou en leu salai e augmen é e donc peu en che che
un qua ie /logemen au plus p ès de leu s a en es. Les al e nan s aussen égalemen
ce e hypo hèse puisqu'ils pa en de chez leu s pa en s, donc ils che chen sou en un
qua ie dié en de celui de leu s pa en s (e.g. des qua ie s à ésidences é udian es).
Même cons a pou les u ilisa eu s qui on des liens o s a ec leu ancien domicile ou
leu amille ca ils son p ê s à ai e les alle s- e ou s le week-end.
Les dié en s algo i hmes u ilisés on chacun beaucoup de pa amè es. Il aud ai
pousse enco e plus loin les expé imen a ions pou essaye de pe sonnalise au mieux les
ecommanda ions. En ee , les pa amè es de ces algo i hmes inuencen les ésul a s
ob enus. Pa exemple, pou les algo i hmes K-Means e Spec al Clus e ing, le nomb e
de clus e s à o me peu ê e modié. Pou l'algo i hme DBSCAN, c'es la aille du
oisinage qui peu ê e changée. Ainsi, la pa amé age de ces algo i hmes peu ai e
a ie la p écision des ésul a s ob enus e donc ane les ecommanda ions. La n de
mon s age de ai pe me e d'app o ondi ce e analyse des pa amè es.
No e app oche se base pou l'ins an su les données de l'INSEE e des p ix immo-
bilie s mais des aspec s sociologiques se on aussi à p end e en comp e. Le pos -doc o an
es en ain de con e i les p ols donnés pa la s a -up HiL e d'en ex ai e des aspec s
sociologiques (e.g. la si ua ion amiliale, l'âge, la ca égo ie socio-p o essionnelle), dans le
espec de la CNIL (Commission Na ionale de l'In o ma ique e des Libe és). Ces as-
pec s se on à in ég e dans un second emps an d'amélio e les ecommanda ions. Il
n'exis e pas de c i è es sociologiques comme sou ce de données, c'es pou quoi le a ail
d'analyse des sociologues pe me a de p end e en comp e ces c i è es. Le eg oupemen
des indica eu s es une p emiè e ébauche que les sociologues on ane une ois qu'ils
au on mieux iden ié les c i è es impo an s. Ces pe spec i es se placen dans l'ajou de
 données u ilisa eu , comme l'indique le ond de la Figu e 2.
22
7 Conclusion e pe spec i es
Je suis a ie d'a oi pu ai e mon s age au LIRIS e ce mois e demi es une ès belle
expé ience pou moi. La p emiè e pa ie de mon s age s'es penchée su la décou e e de
la ecommanda ion. J'ai ainsi pu li e un a icle su la ecommanda ion immobiliè e [7] e
en ai e un ésumé. J'ai aussi ai un é a de l'a su les algo i hmes de ecommanda ion
( oi Sec ion 2). Il m'a pe mis de li e des a icles scien iques en anglais, de syn hé ise
les données lues e de les o ganise en une p ésen a ion clai e e concise. Enn, je me suis
enseignée su les mé hodes d'app en issage des algo i hmes. En pa allèle de mon a ail
au LIRIS, j'ai assis é aux éunions o ganisées pa Home in Lo e. Elles on pou objec i
de ai e le poin en e les a ancées in o ma iques, les analyses sociologiques e les souhai s
de la s a -up. Ce e collabo a ion en e dié en s domaines es pou moi une décou e e
d'une g ande ichesse. Ce s age m'a aussi é é ès p o able su le plan echnique puisque
la deuxième pa ie de celui-ci se concen e su le p o o ype. J'ai pu décou i le langage
Py hon ainsi que les equê es AJAX. J'ai aussi pu mieux comp end e commen imb ique
les langages en e eux pou sépa e la ue e le ai emen . G âce au module d'in ég a ion
de données, j'ai décou e la ges ion de données hé é ogènes.
La sui e de mon s age me pe me a de con inue à a aille su le p o o ype ainsi
que d'app o ondi les expé imen a ions ac uelles. Il me pe me a é en uellemen d'in-
ég e des c i è es sociologiques aux ecommanda ions. Le p ochain objec i es de sou-
me e un a icle. Il aud a d'abo d ésoud e les dié en s p oblèmes d'e gonomie e de
pe o mances du p o o ype ainsi que p épa e les in e aces pou dé oule les scéna ios
que nous p opose ons dans l'a icle. Ensui e, je pa icipe ai à la édac ion de l'a icle de
démons a ion qui se a soumis à EGC (con é ence Ex ac ion e de Ges ion des Connais-
sances). La soumission de ce a icle es p é ue pou oc ob e 2019.
Ce s age es une belle expé ience p o essionnelle en plus d'a oi pu ai e mes p emie s
pas en eche che. Su le plan humain, j'app écie beaucoup la pédagogie e l'implica ion
de mes maî es de s age. Ils p ennen le emps de m'explique clai emen mes missions e
de m'aide lo sque je n'a i e pas à ésoud e ce ains p oblèmes echniques. Ce s age m'a
pe mis d'app end e à mieux m'o ganise e à ê e plus au onome dans la eche che de
solu ions. J'ai éno mémen app écié ce mois e demi au sein du LIRIS e ce e expé ience
me con o e dans mon en ie de ai e un mas e eche che.
23
8 Annexes
Les annexes ci-dessous illus en l'ins ancia ion du ec eu des indica eu s eg oupés
ainsi qu'un ape çu du p o o ype.






























































anima ionComme ceNonalimen ai e
anima ionComme ceAlimen ai eG andesu ace
anima ionComme ceAlimen ai eP oximi e
anima ionCul u el
anima ionDi e issemen
csp
educa ionC eche
educa ionP imai eP i e
educa ionP imai ePublic
educa ionSecondai eCycle1P i e
educa ionSecondai eCycle1P ublic
educa ionSecondai eCycle2Gene alP i e
educa ionSecondai eCycle2Gene alPublic
educa ionSecondai eCycle2P o essionnelP i e
educa ionSecondai eCycle2P o essionnelP ublic
educa ionSupe ieu P i e
educa ionSupe ieu P ublic
espace e
logemen Annee
logemen Residence
logemen Residen
logemen T ype
loisi
secu i e
se iceAc ionsociale
se iceDi e sP i e
se iceDi e sPublic
se iceEmploi
se iceJus ice
se iceSan e
anspo Busme o am
anspo Longuedis ance
anspo V elo






























































=






























































209.0
4.0
7.0
0.0
102.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
2.0
0.0
0.0
0.0
0.0
0.0
1.0
0.0
0.0
39.0
126.0
5.0
1.0
1.0
0.0
1.0
0.0






























































Figu e
11  Exemple d'ins ance des indica eu s eg oupés pou l'IRIS de la Pa -Dieu
24