Alignemen d’en i és spa iales a ec GeoAlign
Nelly Ba e
30 mai 2019
Résumé
Ce p oje a pou bu de c ée un ou il pe me an la dé ec ion e la usion
d’en i és géog aphiques. Il ep end les bases de l’ou il GeoBench e appo e ois
p incipales amélio a ions, que son la pe sonnalisa ion de la o mule de simila i é,
l’es ima ion de la quali é des co espondances dé ec ées e la usion au oma ique
de ces co espondances.
Mo s-clés – appa iemen d’en i és spa iales, quali é de l’appa iemen , usion d’en-
i és, in ég a ion de données
1 In oduc ion
Dans le cad e du second semes e du Mas e 1 In o ma ique, j’ai a aillé su le suje
POM (P oje d’O ien a ion en Mas e ) in i ulé « GeoBench 2 » sous l’encad emen
de Messieu s Fabien Ducha eau e F anck Fa e a, maî es de con é ence e memb es
de l’équipe Bases de Données au LIRIS (Labo a oi e d’In oRma ique en Image e Sys-
ème d’in o ma ion). L’objec i de ce POM es de me e à jou e de ai e é olue
l’ou il GeoBench, p oposé en 2014, en un nou el ou il : GeoAlign. Dans ce appo ,
nous abo de ons dans un p emie emps le con ex e de ce p oje ainsi que ses p oblé-
ma iques. Dans un second emps, nous donne ons une ue d’ensemble du a ail éalisé
en abo dan la dé ec ion, l’es ima ion de la quali é e la usion des co espondances.
En in, nous conclu ons e e mine ons su les pe spec i es de ce p oje .
1
2 Con ex e scien i ique
De nos jou s, les ou nisseu s de données ca og aphiques son au cen e de nom-
b euses applica ions e si es web, e.g. pou la eche che d’i iné ai e ou les obje s connec-
és. Ces ou nisseu s p oposen des onc ionnali és a iées elles que la eche che e
l’a ichage de POI (« Poin O In e es », comme des es au an s, des musées, e c.).
Un POI es ep ésen é pa une ou plusieu s en i és spa iales. Il es composé de deux
ypes d’a ibu s : des a ibu s p imai es, i.e. le nom, les coo données, le ype de
POI e des a ibu s secondai es, i.e. l’ad esse, le numé o de éléphone e le si e web.
Les a ibu s p imai es son obliga oi es pou chaque POI andis que les secondai es,
op ionnels, pe me en d’a oi plus de dé ails. Cependan , ce e ep ésen a ion es di -
é en e d’un ou nisseu à un au e au ni eau de l’exac i ude, de la p écision ou de
l’exhaus i i é des données. Pa exemple, la igu e ci-dessous illus e ces di é ences
a ec l’hô el Téno . Le ou nisseu He e p opose une localisa ion ès dé aillée andis
que Google Maps en p opose une o ma ée. En e anche, Google Maps a des coo don-
nées géog aphiques (la i ude e longi ude) plus p écises que He e. En in, le nom di è e
en e les deux ou nisseu s, ce qui cons i ue un challenge pou l’appa iemen d’en i és.
Figu e 1 – POI de l’hô el Téno à Sain -E ienne, ep ésen é pa une en i é He e
(gauche) e une en i é Google Maps (d oi e). Les ca égo ies de di é ences en e les
deux en i és son égalemen spéci iées (e.g., posi ion, s uc u e)
A in de édui e ces di é ences, il es possible de dé ec e , g âce à l’appa iemen
d’en i és (« en i y-ma ching »), des co espondances en e les en i és qui é é encen le
même POI. Ces en i és peu en ensui e ê e compa ées e usionnées pou amélio e
la quali é des données ela i es aux POI. A in de dé ec e les en i és similai es, il es
d’abo d nécessai e de connaî e les a ibu s à compa e e donc d’appa ie (aligne )
les schémas des di é en s ou nisseu s. L’appa iemen de schémas consis e à dé ec e
les co espondances en e les a ibu s dé inis pa des schémas hé é ogènes, i.e. ou-
e les a ibu s équi alen s des schémas p oposés pa les ou nisseu s. Une ois les
schémas appa iés, il es possible de compa e les en i és (appa iemen d’en i és spa-
2
iales). En géné al, les co espondances son de ype 1:1 (une en i é d’un ou nisseu
ne co espond qu’à une seule en i é d’un au e ou nisseu ) mais l’on ou e pa ois
des co espondances complexes (1:N ou N:M). Pa exemple, une g ande su ace qui
p opose un se ice de s a ion essence peu ê e ep ésen ée pa une seule en i é (la
g ande su ace con ien la s a ion se ice) ou deux en i és (la g ande su ace e la
s a ion se ice). L’é a de l’a su l’appa iemen d’en i és déc i des app oches qui ex-
ploi en les données desc ip i es (e.g. nom, ad esse, ype) e spa iales (e.g. coo données
géog aphiques). Les mesu es de simila i é pe me en de calcule un sco e de simila-
i é en e deux a ibu s compa ables. Pou l’é ape d’appa iemen , plusieu s sco es de
simila i é son calculés, e il es ensui e nécessai e de les combine pou décide si la
pai e d’en i és es une co espondance ou non. L’une des echniques les plus u ilisées
consis e à calcule une moyenne pondé ée d’un ensemble de sco es de simila i é, puis
de décide selon une aleu seuil.
C’es le cas des ou ils GeoDDupe [3], Ol eanu [7] e GeoBench [6] qui u ilisen une
onc ion numé ique pou la combinaison. Dans Sehgal [8] e MacKenzie [5], un app en-
issage es mis en place pou le seuil de décision. Malg é la di e si é des di é en es
app oches d’appa iemen , la pe sonnalisa ion de la o mule de simila i é es e limi ée
(p incipalemen les poids associés à chaque mesu e de simila i é). Bien que le seuil de
décision soi en géné al pa amé able, le ai que les mesu es de simila i é ainsi que les
a ibu s su lesquels elles s’appliquen soien « ixés » es ein aussi la pe sonnalisa-
ion de ce seuil.
Lo squ’une app oche d’appa iemen d’en i és es u ilisée, il es impo an d’é alue
la quali é des co espondances ob enues. C’es l’objec i de GeoBench, qui acili e la
cons uc ion d’un benchma k : la eche che d’en i és es imposée chez un ou nisseu
spéci ique (Google Maps) puis des sugges ions d’en i és co espondan es chez les au es
ou nisseu s son p oposées [6]. La alida ion des co espondances e des en i és usion-
nées es éalisée manuellemen , bien que cela soi un a ail as idieux e qui semble
di icilemen possible dans le cas d’un passage à une échelle supé ieu e (e.g. na io-
nale). Le benchma k cons ui es u ile pou é alue la quali é d’un algo i hme, mais
es e limi é à quelques millie s d’en i és épa ies dans le monde. L’é alua ion es e
un p oblème ou e ca il n’es pas possible de connaî e la « éali é e ain » e donc
d’é alue la quali é des co espondances pou l’ensemble de la planè e.
En in, ce aines app oches pe me en la usion des en i és co espondan es. L’objec i
es d’ob eni une seule en i é usionnée a ec, si possible, des données complè es, à jou
e pe inen es. Di é en es s a égies de usion son dé aillées dans la li é a u e [2],
comme le o e majo i ai e, la moyenne ou la aîcheu des données. Dans GeoBench,
la usion es égalemen manuelle, bien qu’une assis ance sélec ionne pa dé au , pou
un a ibu , la aleu la moins di é en e des au es. Pa exemple, le ou nisseu Google
Maps p opose l’en i é nommée « Tou Ei el, Pa is, F ance », le ou nisseu He e nomme
l’en i é co espondan e « Ei el Towe , Pa is, F ance » e Geonames indique la aleu
« Tou Ei el, F ance ». L’assis ance a p ésélec ionne le nom issu de l’en i é Geo-
names, qui es la moins di é en e selon la dis ance de Le ensh ein.
Pou épond e à ces p oblèmes, nous p ésen ons no e app oche GeoAlign pou l’appa-
3
iemen d’en i és spa iales. Tou d’abo d, GeoAlign inclu la cons uc ion pe sonnalisée
d’une o mule de simila i é pou la dé ec ion des co espondances. Il es possible de
choisi les poids e le seuil, mais égalemen les mesu es de simila i é e les a ibu s
de la o mule (c sec ion 3.1.1). Dans no e app oche, l’appa iemen es au oma ique
(au lieu de l’appa iemen manuel comme dans GeoBench). L’au oma isa ion ainsi que
la isualisa ion su une ca e acili en les es s de di é en es o mules, mais cela ne
pe me pas de juge apidemen de la quali é ob enue pa une o mule. C’es pou quoi
GeoAlign inclu un module d’es ima ion de la quali é des co espondances, basée su
le nomb e e l’hé é ogénéi é des o mules qui on dé ec é une co espondance (c sec-
ion 3.1.2). Ce e es ima ion, bien que p éliminai e, o e une aide à l’u ilisa eu pou
modi ie sa o mule de simila i é pa exemple. En in, conce nan la usion des en i-
és co espondan es, plusieu s s a égies exis an es on é é implémen ées. Le choix de
ce e s a égie es impo an puisqu’il dé e mine a la quali é e la quan i é de données
pou les en i és usionnées. Ce p ocessus de usion es au oma isé (c sec ion 3.2).
3 T a ail éalisé
La igu e 2illus e le p ocessus géné al de l’app oche GeoAlign. Nos con ibu ions
p incipales appa aissen en o ange. L’é ape d’appa iemen se base su les en i és p é-
sen es dans l’emp ise de la ca e (pa ie isible de la ca e)1. Ce e emp ise é i e
l’u ilisa ion d’un algo i hme de blocking (qui es ein le nomb e d’en i és à compa-
e ). À pa i de ce ensemble d’en i és, l’é ape d’appa iemen u ilise une o mule de
simila i é (somme pondé ée de mesu es appliquées à des a ibu s) e un seuil de dé-
cision pou ai e co espond e (ou non) deux en i és. Une es ima ion de la quali é des
co espondances géné ées es calculée e p ésen ée à l’u ilisa eu , qui peu alo s décide
de elance l’appa iemen a ec de nou eaux pa amè es ou de con inue e s la usion
des en i és co espondan es.
Figu e 2 – schéma isa ion des é apes pou l’appa iemen e la usion des données.
1. À cause des limi a ions imposées pa les API des ou nisseu s, l’emp ise con ien géné alemen
quelques cen aines d’en i és. Dans les cas où elle en con ien da an age, l’u ilisa eu doi zoome .
4
3.1 Dé ec ion des co espondances
La p emiè e é ape es la dé ec ion des co espondances en e les en i és. Ce e
dé ec ion se base su la simila i é de celles-ci g âce à une o mule de simila i é puis
es ime la quali é des co espondances dé ec ées.
3.1.1 Calcul de simila i é en e en i és
Les qua e ou nisseu s (Geonames,Bing,He e e Open S ee Maps) ayan chacun
leu p op e hié a chie de ypes de POI (e.g., la ca égo ie « es au an » peu inclu e les
ba s, les es au an s e les ca és selon le ou nisseu ), il a é é nécessai e de cons ui e
no e p op e hié a chie. Celle-ci pe me donc de me e en ela ion les ypes de POI
p oposés pa les di é en s ou nisseu s. Le ype d’un ou nisseu donné n’es associé
qu’à un seul ype de no e hié a chie comme le mon e l’annexe 5.1. Ce e ela ion
exclusi e pe me no ammen de compa e les en i és qui on des ypes similai es (e.g.,
un ype « es au an » e un ype « ou isme »), comme illus é dans l’annexe 5.2.
Dans un p emie emps, il es nécessai e de dé ec e les en i és ep ésen an le
même POI. Pou cela, il au modélise une o mule capable de dé e mine le deg é de
co espondance en e deux en i és e ainsi dé e mine si celles-ci son assez similai es
pou co espond e au même POI. La o mule de simila i é s’exp ime pa la combinai-
son des sco es de simila i é ob enus pou di é en s a ibu s. Ces sco es son calculés
pa des mesu es appa enan à di é en es ca égo ies, e.g. e minologique (Le ensh ein,
Ja o-Winkle ) ou spa iale (dis ance euclidienne). Au o al, GeoAlign implémen e eize
mesu es épa ies en qua e ca égo ies, comme p ésen é dans l’annexe 5.3. À pa i de
ces di é en s sco es, une combinaison qui a ai ses p eu es [4] es la moyenne pondé ée
(elle pe me en plus de ep ésen e d’au es onc ions de combinaison). La moyenne
pondé ée p odui un sco e de simila i é global en e 2 en i és. En in, il au dé e mine
si le sco e ob enu pa la o mule de simila i é pe me de considé e une pai e d’en i és
comme une co espondance ou pas. Un seuil pe me ce e é ape de décision.
Calcul des simila i és : (e1, e2) = Pn
i=1 poidsi∗simi(a ibu i)
Décision : (e1, e2)> seuil
GeoAlign pe me de cons ui e ce e o mule de simila i é en choisissan les a i-
bu s, les mesu es de simila i é e les poids ia une in e ace g aphique. Il es aussi
possible de choisi le seuil de décision. Ce e o mule pe sonnalisée es ensui e appli-
quée su les en i és dans l’emp ise cou an e de la ca e. Pou chaque pai e d’en i és,
si (e1, e2)> seuil où es la o mule de simila i é e e1,e2son des en i és, alo s la
5
pai e es considé ée comme co espondan e e elle es a ichée su la ca e au moyen
d’un ai en e les deux en i és.
La possibili é de cons ui e sa p op e o mule nécessi e de é i ie que la o mule
soi co ec e (somme des poids égale à 1) mais su ou qu’elle soi pe inen e. En e e ,
le choix des poids e du seuil de décision a une in luence non négligeable su le nomb e
de co espondances ou ées ainsi que su la quali é de celles-ci. Une o mule op pe -
missi e c ée des co espondances qui n’exis en pas dans la éali é ( aux-posi i ) e une
o mule op s ic e ne dé ec e pas ou es les co espondances qui exis en éellemen
( aux-néga i ). Le choix des di é en s poids ainsi que celui du seuil global n’es donc
pas i ial. Il es possible d’applique des es ic ions a in de limi e ce aines o mules
(su ou celles qui son op pe missi es), e.g. en limi an le nomb e de co espon-
dances calculé. En e e , nous aisons l’hypo hèse que la plupa des co espondances
son de ype 1:1 (ce qui se é i ie dans la majo i é des cas, comme le mon e les
données du benchma k cons ui a ec GeoBench [6]). Cela signi ie qu’en moyenne, on
dé ec e pou une en i é donnée une seule en i é co espondan e pa ou nisseu . Ainsi,
il es possible de calcule le nomb e moyen de co espondances pa ou nisseu no é
λe un sco e de pénali é el que =1
λ. Pa exemple, si une onc ion de simila i é
dé ec e 1,2 co espondance en moyenne, son sco e de pénali é se a de 0,83. Ce sco e
en e en comp e dans l’es ima ion de la quali é des co espondances dé ec ées.
3.1.2 Es ima ion de la quali é
Ap ès a oi dé ec é des co espondances, e n’ayan pas de éali é- e ain, il semble
impo an d’es ime leu quali é pou ou ni une indica ion à l’u ilisa eu . L’in ui ion
su laquelle epose ce e es ima ion es qu’une co espondance a plus de chances d’ê e
co ec e si elle es dé ec ée pa plusieu s o mules e si ces o mules son ès di é en es
(c’es -à-di e qu’elles u ilisen des mesu es de simila i é di é en es appliquées à des a -
ibu s di é en s). Ce e es ima ion de la quali é se découpe en plusieu s g andes pa -
ies. La p emiè e es la dissimila i é en e les onc ions de simila i é. En e e , chaque
co espondance es dé ec ée pa minimum 1 o mule de simila i é e k o mules maxi-
mum. Chaque o mule de simila i é es une somme de okens : un oken es l’applica ion
d’un poids su une mesu e po an su un a ibu , e.g. (e1, e2) = oken1+ oken2où
oken1=0.4*le ensh ein(nom) e oken2=0.6*dis ance(coo données).
A in de compa e deux o mules, il es nécessai e, pou la seconde é ape, d’analy-
se quels son leu s okens similai es. Deux okens son similai es s’ils po en su le
même a ibu e si leu s mesu es appa iennen à la même ca égo ie (c. . annexe 5.3).
Pa exemple, 0.6*le ensh ein(nom) e 0.7*ja o(nom) son deux okens similai es se-
lon ce e dé ini ion. Pou chaque o mule ayan dé ec é une co espondance donnée,
les okens similai es son assemblés pou o me un g oupe de okens similai es. Puis
pou chaque g oupe de okens similai es, on calcule l’éca - ype de leu s poids puis
on no malise ce e aleu (pa la aleu d’éca - ype maximale qui dépend du nomb e
6
de o mules dans le g oupe). Ce calcul d’éca - ype pe me de p end e en comp e la
épa i ion des okens su l’ensemble des o mules dans leu s g oupes (e.g., si l’éca -
ype d’un g oupe es aible, cela signi ie que les okens on des poids plu ô similai es
dans ce g oupe, sinon c’es que leu s poids son plu ô di é en s).
La oisième é ape co espond au calcul de la dissimila i é d’un g oupe de okens en
modi ian l’éca - ype no malisé selon une cou be basée su une hype bole (qui dé-
pend du nomb e de o mules dans le g oupe (c. . annexe 5.4). Ce e hype bole a ie
apidemen pou un nomb e bas de o mules puis plus len emen au-delà (à pa i d’en-
i on 4 à 5 o mules). L’idée es de modi ie o emen la dissimila i é que ep ésen e
l’éca - ype no malisé quand le nomb e de o mules es aible, e de le modi ie plus
aiblemen quand ce nomb e c oî . Les g oupes de okens con enan un seul oken on
une dissimila i é ixée à 1 (ca ces okens « uniques » con ibuen g andemen à end e
un ensemble de o mules dissimilai es). La dissimila i é ∆jd’un g oupe de okens j es
ca ac é isée pa la o mule sui an e :
∆j=(j= 1 si aille(g oupe) = 1
(σj
σmaxj
−0.5).cj+ 0.5sinon, où cj= 1 −0.25
nj−1.5
En in, la dissimila i é globale pou l’ensemble des o mules associées à une co espon-
dance es la moyenne des dissimila i és de l’ensemble des g oupes de okens :
∆GT =PnGT
j=1 ∆j
nGT
où nGT es le nomb e de g oupes de okens pou la co espondance
Ce sco e de dissimila i é en oie un nomb e appa enan à l’in e alle [0, 1], sachan
que plus ce sco e es p oche de 1, plus les onc ions de simila i é de la co espondance
son di é en es (au pi e aucune d’en e elles ne pa age un oken a ec une au e). Une
ois la dissimila i é d’une co espondance calculée, il au es ime la pe inence de ce e
co espondance, i.e. s’il s’agi d’un ai posi i (TP) ou d’un aux posi i (FP). Un ai
posi i es une co espondance dé ec ée qui de ai l’ê e andis qu’un aux posi i es
une co espondance dé ec ée qui ne de ai pas l’ê e.
Une co espondance c es dé ec ée pa une ou plusieu s o mules de simila i é, i.e.
un ensemble de g oupes de okens. Le sco e de pe inence φde ce e co espondance,
es imé en e 0 e 1, es la moyenne pondé ée de ous ses sco es de simila i é pa le
sco e de dissimila i é de ses onc ions, comme le mon e la o mule :
φ(c) = Pk
i=1 i(c)
k∆GT
7
Lo sque ce sco e de pe inence a é é calculé pou ou es les co espondances, il es
possible d’es ime la quali é globale. En appliquan un seuil ou un op-K, ce aines
co espondances se on considé ées comme co ec es (TP), les au es se on classées
comme inco ec es (FP). À pa i de ces chi es, il es même possible d’es ime la
p écision en an que quali é globale a ec la o mule :
P écision = T P
T P +F P
Dans le p o o ype GeoAlign, nous a ons décidé de ne pas choisi a bi ai emen une
aleu seuil ou op-K. Un g aphique es a iché a ec le nomb e es imé de TP e de FP
pou des seuils a ian de 0.1 dans l’in e alle [0, 1]. Aussi, l’u ilisa eu peu isualise
l’es ima ion de la quali é e son é olu ion (c. . annexe 5.5).
L’un des incon énien s de ce e app oche ien du ai que les o mules, saisies pa
les di é en s u ilisa eu s, peu en ê e plus ou moins adap ées. En pa iculie , ce aines
o mules peu en ê e ès laxis es (e.g., a ec un seuil ès aible), e donc p odui e
une quan i é impo an e de co espondances (don de nomb eux aux posi i s). Pou
pallie ce p oblème, nous u ilisons le sco e de pénali é (p ésen é en in de sec ion
3.1.1) a in de pénalise les sco es de simila i é de ces o mules op pe missi es. Les
co espondances peu en ê e u ilisés pa la sui e pou la usion.
3.2 Fusion des co espondances
Ap ès a oi dé ec é les co espondances, il es possible de usionne les données
a in de p odui e une en i é uni iée ep ésen an le POI [1,2]. Lo sque plusieu s en i és
co esponden à un POI, il au choisi quelles son les données les plus pe inen es.
Le choix en e les di é en es aleu s peu se ai e selon plusieu s s a égies [2] :
— Aléa oi e : pou chaque a ibu , une aleu es sélec ionnée au hasa d.
— Basé su un ou nisseu : les données conse ées lo s de la usion son celles
men ionnées pa le ou nisseu choisi.
— Vo e majo i ai e : ce e mé hode consis e à choisi la décision p ise pa le maxi-
mum de sou ces (i.e. de aleu s) mais nécessi e dans no e con ex e d’au o ise
une aible imp écision (ca deux aleu s son a emen s ic emen iden iques).
Elle es pa iculiè emen adap ée pou la p ise de décisions.
Ap ès a oi p ésen é la dé ec ion e la usion des co espondances, deux scéna ios
son p ésen és pou illus e l’u ilisa ion de l’ou il GeoAlign.
8
3.3 Scéna ios
Dans ce e sec ion, un p emie scéna io s’a ache à démon e l’u ilisa ion de GeoA-
lign pou l’appa iemen e la usion au oma iques. Un second scéna io illus e l’in é ê
de la pe sonnalisa ion des o mules ainsi que l’es ima ion de la quali é des co espon-
dances p odui es. Des cap u es d’éc an du p o o ype igu en dans l’annexe 5.5.
3.3.1 Scéna io 1 : au oma isa ion de l’appa iemen e de la usion
Alice i à Lyon depuis quelques mois e elle souhai e ai e un es au an a ec ses
amis. Elle décide d’u ilise GeoAlign a in de ou e des é ablissemen s a ec leu s jou s
d’ou e u e e leu numé o de éléphone pou ése e . Elle saisi « es au an Lyon »
dans la ba e de eche che. GeoAlign place su la ca e, à l’aide de ma queu s, les di -
é en s é ablissemen s qui co esponden à sa equê e. En cliquan su ces ma queu s,
les in o ma ions secondai es son a ichées dans une in obulle. Alice ema que le es-
au an « A oma ic », mais celui-ci n’a pas de numé o de éléphone. Elle décide alo s
d’appa ie les es au an s puis de les usionne a in d’ob eni ou es les in o ma ions
nécessai es su ce es au an . G âce à l’appa iemen e la usion au oma ique, Alice
peu ainsi apidemen é i ie que l’é ablissemen es bien ou e puis éléphone pou
ése e une able.
3.3.2 Scéna io 2 : pe sonnalisa ion de la o mule de simila i é
Bob es sociologue e é udie l’anima ion des qua ie s en onc ion de ac eu s so-
ciaux. Il a aille su les données que ou ni l’INSEE (Ins i u Na ional de la S a is-
ique e des E udes Economiques). Seulemen , ces données da en de 2015. Dans le
qua ie C oix Rousse, l’INSEE indique un o al de 144 es au an s. Bob eu é i ie
que ce nomb e e lè e oujou s la éali é. Il décide alo s d’u ilise GeoAlign. Il pe son-
nalise la o mule de simila i é a in d’adap e au mieux les co espondances dé ec ées.
Ap ès a oi cons ui , es é e adap é des o mules de simila i é a iées (i.e., exploi an
di é en es ca ac é is iques), Bob peu es ime e isualise le nomb e de co espon-
dances co ec es, ce qui le con o e dans l’idée que de nou eaux es au an s on ou e
depuis 2015 dans ce qua ie .
9