Depa amen o de Ciencia de la Compu ación e In eligencia
A i icial
Uni e sidad del País Vasco (UPV/EHU)
Es a egias de isión po compu ado pa a la
es imación de pose en el con ex o de aplicaciones
obó icas indus iales: a ances en el uso de modelos
an o clásicos como de Deep Lea ning en imágenes 2D
y nubes de pun os
Ibon Me ino Be mejo
Di ección
Basilio Sie a
An hony Remazeilles
18 de julio de 2023
(cc)2023 IBON MERINO BERMEJO (cc by 4.0)
Ag adecimien os
Con es as palab as oy a da comienzo al inal de es a la ga e apa. Una e apa que ha
enido sus buenos y malos momen os, pe o que ambos me han pe mi ido desa olla me
en di e en es aspec os. Es e eco ido que ha du ado algo más de 4 años lo inicié siendo
aún más igno an e de lo que soy aho a. No enía ni idea de lo que me enía po delan e.
Desde un inicio he enido la sue e de encon a me en el camino a pe sonas ma-
a illosas que me han ayudado a c ece como pe sona y como p o esional. P ime o
quie o ag adece a Tecnalia po la opo unidad que me ha dado y a odos con los que
he coincidido. Sob e odo quie o ag adece a la gen e de mi g upo de obó ica lexible.
G acias po odo lo que me habéis enseñado, po oda la ayuda que me habéis o ecido
y sob e odo po aguan a mis chis es malos.
Quie o ag adece a las 3 pe sonas que han sido undamen ales en es e eco ido: a
mis di ec o es de esis, Basi y An hony, po su paciencia y po su ayuda; y a Jon, po su
dedicación y odo el apoyo que me ha dado du an e odo es e iempo. G acias a odos
po hace que es e camino haya sido más lle ade o.
Como las aíces son impo an es y más aún si no e despegas de ellas, quie o ag ade-
ce al colegio donde es udié, Salesianos Deus o, y a oda la ob a de los Salesianos que
me han o mado como pe sona. Han sido muchos años en ese colegio y pos e io men e
como moni o . G acias po odo lo que me habéis enseñado y po odo lo que me habéis
dado. Y g acias a odos los moni o es y cha ales que habéis compa ido camino conmigo
po que las expe iencias adqui idas en esos años son in aluables.
También quie o ag adece a odos mis amigos que me han apoyado siemp e. Po
un lado a mis amigos de la uni e sidad en especial a Judi y e I zia . Po o o lado a mi
que ida “Villa Lola” que me ha pe mi ido dis ae me, eí me y dis u a en los momen os
de más ensión. A mi “Zulo” que siemp e han es ado ahí p esen es. A mis que idas
“Txandale as” que ienen un luga especial en mi co azón. A mi pa eja Gonzalo que me
ha dado ánimos y ue zas en los momen os más du os. Y a odos los demás amigos que
han es ado ahí siemp e.
Como los pos es, lo más dulce es el inal. Quie o ag adece especialmen e a mi
ii
amilia: a mi ai a, que muy bien me ha enseñado que “más ale maña que ue za” y
me ha inspi ado a se esolu i o y pe spicaz; a mi ama, que siemp e ha es ado ahí con
su amo incondicional, an o en lo bueno como en lo malo y de la que he ap endido
que la ida son dos días y hay que saca le el jugo a cada momen o; a mi he mano, el
pequeño de la casa, al que conside o uno de mis mejo es amigos; a mi ai i e, que me
ha demos ado que siemp e hay que lucha y segui hacia adelan e; a mi amama, que
es como mi segunda mad e y odo lo he ap endido de ella; y al es o de mi amilia po
es a siemp e ahí.
T as odo es o, no me queda o a cosa que segui en es e camino de la e e na
igno ancia que espe o que me siga nu iendo de conocimien os, de expe iencias y de
pe sonas ma a illosas como lo ha hecho has a aho a.
Resumen
La isión po compu ado es una ecnología habili ado a que pe mi e a los obo s y
sis emas au ónomos pe cibi su en o no. Den o del con ex o de la indus ia 4.0 y 5.0,
la isión po compu ado es esencial pa a la au oma ización de p ocesos indus iales.
En e las écnicas de isión po compu ado , la de ección de obje os y la es imación de la
pose 6D son dos de las más impo an es pa a la au oma ización de p ocesos indus iales.
Pa a da espues a a es os e os, exis en dos en oques p incipales: los mé odos clásicos
y los mé odos de ap endizaje p o undo. Los mé odos clásicos son obus os y p ecisos,
pe o equie en de una g an can idad de conocimien o expe o pa a su desa ollo. Po
o o lado, los mé odos de ap endizaje p o undo son áciles de desa olla , pe o equie en
de una g an can idad de da os pa a su en enamien o.
En la p esen e memo ia de esis se p esen a una e isión de la li e a u a sob e
écnicas de isión po compu ado pa a la de ección de obje os y la es imación de la
pose 6D. Además se ha dado espues a a los siguien es e os: (1) es imación de pose
median e écnicas de isión clásicas, (2) ans e encia de ap endizaje de modelos 2D a
3D, (3) la u ilización de da os sin é icos pa a en ena modelos de ap endizaje p o undo
y (4) la combinación de écnicas clásicas y de ap endizaje p o undo. Pa a ello, se han
ealizado con ibuciones en e is as de al o impac o que dan espues a a los an e io es
e os.
iii
Labu pena
O denagailu bidezko ikusmena obo ei e a sis ema au onomoei be en ingu unea
hau ema eko auke a ema en dien eknologia gai zailea da. 4.0 e a 5.0 indus ia en
es uingu uan, o denagailuen bidezko ikusmena un sezkoa da p ozesu indus ialak
au oma iza zeko. O denagailuen bidezko ikusmen- ekniken a ean, objek uen de ekzioa
e a 6D posea en es imazioa di a p ozesu indus ialen au oma izazio ako ga an zi sue-
ne a ikoak. E onka ho iei e an zu eko, bi ikuspegi nagusi daude: me odo klasikoak
e a ikaske a sakoneko me odoak. Me odo klasikoak sendoak e a zeha zak di a, baina
ezagu za adi u uga i beha du e ga a zeko. Bes alde, ikaske a sakoneko me odoak e az
ga a zen di a, baina da u asko beha di a en ena zeko.
Tesi-memo ia hone an, objek uak de ek a zeko e a 6D posea es ima zeko o dena-
gailuen bidezko ikusmen- eknikei bu uzko li e a u a en be ikuspena au kez en da.
Gaine a, honako e onka hauei e an zuna eman zaie: (1) ikuspegi- eknika klasikoen
bidez posea es ima zea, (2) 2D e eduen ikaskun za 3D a ans e i zea, (3) da u sin e i-
koak e abil zea ikaske a sakoneko e eduak en ena zeko, e a (4) eknika klasikoak e a
ikaske a sakonekoak konbina zea. Ho e a ako, e agin handiko aldizka ie an eka penak
egin di a, au eko e onkei e an zu eko.
Índice de con enidos
Índice de con enidos ii
Índice de igu as x
Índice de ablas xii
I Ámbi o de in es igación 1
1 In oducción y mo i ación 3
1.1. In oducción ................................. 3
1.2. Mo i ación .................................. 5
1.3. Con ex o ................................... 6
1.3.1. TECNALIA ............................. 6
1.3.2. UPV/EHU .............................. 6
1.3.3. P oyec os .............................. 7
1.4. Hipó esis de la in es igación ........................ 17
1.5. Es uc u a de la memo ia .......................... 18
2 Técnicas de isión po compu ado pa a la de ección de obje os. 19
2.1. In oducción ................................. 19
2.2. Técnicas clásicas 2D ............................. 23
2.2.1. Desc ip o es globales ........................ 23
2.2.2. Desc ip o es locales ........................ 27
2.2.3. Búsqueda de co espondencias y clasi icación .......... 30
2.3. Técnicas 3D ................................. 34
2.3.1. Mé odos locales basados en pa ches ............... 35
2.3.2. Mé odos basados en ma cheo de nubes de pun os ........ 35
2.3.3. Mé odos basados en plan illas ................... 36
2.4. Ap endizaje p o undo ............................ 36
ii
CAPÍTULO 1
In oducción y mo i ación
1.1. In oducción
En los úl imos años la indus ia ha expe imen ado muchos cambios a un i mo
e iginoso. Ha pasado una década desde que se acuñó el é mino Indus ia 4.0 [
1
] y
ya se con empla la siguien e e olución indus ial, la Indus ia 5.0. Si la cua a e o-
lución indus ial se cen a en la au oma ización y el in e cambio de da os median e
IoT, sis emas cibe - ísicos o compu ación en la nube, la Indus ia 5.0 se cen a en la
sos enibilidad, esiliencia y en el bienes a humano mien as man iene los c i e ios que
ma ca la Indus ia 4.0. La Comisión Eu opea, quien bau izó es a nue a e a, expone en
su in o me [2]:
En luga de p egun a nos qué podemos hace con la nue a ecnología, nos p egun-
amos qué puede hace la ecnología po noso os.
En luga de pedi al abajado de la indus ia que adap e sus habilidades a las
necesidades de una ecnología que e oluciona ápidamen e, que emos u iliza la
ecnología pa a adap a el p oceso de p oducción a las necesidades del abajado .
La isión po compu ado es un campo impo an e den o de es e pa adigma. Es
impo an e que los obo s sepan iden i ica su en o no. Po ejemplo, de nada si e que
un obo sepa coge obje os si no sabe donde es á el obje o. De la misma o ma, un
obo no puede ejecu a mo imien os de o ma amigable pa a el ope a io si no sabe
donde es á pa a pode e i a lo o ac ua de o ma más su il cuando se ap oxime a él. Es o
es impo an e pa a el bienes a del ope a io y ayuda a adap a la obó ica al ope a io.
3
1. In oducción y mo i ación
En la Figu a 1.1 se mues a un b azo obó ico colabo a i o Doosan con una cáma a
3D de luz es uc u ada Zi id. Es e es un caso de uso ípico de isión po compu ado
en la indus ia. La isión po compu ado pe mi e ealiza a eas como localización de
obje os [
3
,
4
,
5
], de ección de obje os [
6
,
7
,
8
], acking de obje os [
9
,
10
,
11
], de ección
de humanos [
12
,
13
,
14
], econs ucción de obje os [
15
,
16
,
17
], segmen ación semán ica
[
18
,
19
], en e muchas o as, las cuales encajan pe ec amen e en es e pa adigma de
Indus ia 4.0 e Indus ia 5.0.
Figu a 1.1: B azo obó ico colabo a i o Doosan con una cáma a 3D de luz p oyec ada Zi id.
El abajo p esen ado iene como mo i ación la p epa ación pa a es a Indus ia 5.0
( e Sección 1.2), ya que se ha ealizado en el cen o de in es igación o ien ado a las
necesidades de la indus ia TECNALIA ( e Sección 1.3.1) en colabo ación con la UPV-
EHU ( e Sección 1.3.2) debido al abajo de colabo ación en e es os dos y con el au o .
El abajo ealizado ha sido aplicado en a ios p oyec os ( e Sección 1.3.3) los cuales
in en an desa olla ecnologías habili an es den o de la Indus ia 5.0. Finalmen e, se
han de inido unas hipó esis de in es igación ( e Sección 1.4) las cuales se han in en ado
esponde con las con ibuciones ealizadas ( e Capí ulo 3).
4
1.2. Mo i ación
1.2. Mo i ación
En las úl imas décadas el sec o indus ial ha expe imen ado un cambio adical en su
o ma de p oducción. La au oma ización de p ocesos ha sido una de las cla es pa a que
la indus ia pueda compe i en un me cado globalizado. Pa a ello, se han desa ollado
nue as ecnologías que pe mi en au oma iza p ocesos de o ma más e icien e y segu a.
O iginalmen e es a p og amación e a p ede inida, es deci , cada obo ealizaba un
mo imien o o acción conc e a epe idamen e. G acias a los a ances en in eligencia
a i icial y sensó ica, se ha do ado a los obo s de mayo au onomía. Es o es, pe mi imos
al obo ac ua en conco dancia con su en o no. Po ejemplo, si un obo iene que
ealiza una a ea en un espacio de abajo, es capaz de de ec a los obje os que hay
en ese espacio y plani ica su ayec o ia pa a ealiza la a ea. Pa a ealiza es o son
necesa ias a ias ecnologías como una capacidad de adap ación pa a ges iona las
ó denes dinámicas del obo o una isión a i icial pa a de ec a qué hay en nues o
espacio de abajo.
En el con ex o de es e p oyec o de esis, den o de la isión po o denado se ha
cen ado en la de ección de obje os y la es imación de su pose 6D ( anslación y o ación).
La Figu a 1.2 mues a un ejemplo de es e p oblema.
Figu a 1.2:
Es imación de la pose de los obje os del da ase Linemod p oyec ada sob e una imagen
de es .
5
1. In oducción y mo i ación
Den o de la de ección de obje os y es imación de pose 6D, se pueden di e encia dos
ipos de écnicas: las écnicas clásicas y las de ap endizaje p o undo. Llamamos écnicas
o mé odos clásicos a aquellas écnicas que p edominaban an es del auge de los mé odos
de ap endizaje p o undo. Es os mé odos no equie en de una g an can idad de da os
pa a en ena y han sido u ilizados du an e décadas de o ma sa is ac o ia. Aun así, en
es a úl ima década los mé odos de ap endizaje p o undo han demos ado ob ene unos
mejo es esul ados pa a muchos casos y su uso se ha ex endido. Es po ello que el uso
de ambos ipos de écnicas oda ía iene cabida y se pueden u iliza en conjun o pa a
ob ene mejo es esul ados. Po eso la p incipal mo i ación de es e p oyec o de esis ha
sido es udia las écnicas exis en es de ambos ipos y ex ae el máximo po encial de
ambas combinándolas.
1.3. Con ex o
1.3.1. TECNALIA
TECNALIA es un cen o p i ado de in es igación aplicada con a ias sedes en odo
el plane a. Es el cen o de in es igación aplicada y desa ollo ecnológico más g ande
de España, un e e en e en Eu opa y miemb o del Basque Resea ch and Technology
Alliance (BRTA). TECNALIA iene dos p emisas p incipales: ans o ma in es igación
ecnológica en p ospe idad y se agen es de ans o mación de las emp esas y de la
sociedad pa a su adap ación a los e os de un u u o en con inua e olución. TECNALIA
dispone de 5 unidades ope a i as: T ansición ene gé ica, climá ica y u bana;Indus ia y
mo ilidad;Salud;Digi al; y, Lab Se ices. Den o de cada unidad ope a i a hay á eas
de negocio. El au o pe enece al á ea de negocio Medios de P oducción y Robó ica
de la unidad ope a i a Indus ia y mo ilidad. Más conc e amen e, a la pla a o ma de
Robó ica pa a lexibilidad indus ial. Es a pla a o ma es á especializada en el desa ollo
de ecnologías obó icas in eligen es, au ónomas, adap a i as y áciles de p og ama .
G acias a la pla a o ma de Robó ica pa a lexibilidad indus ial el au o ha podido
colabo a en p oyec os eales (Sección 1.3.3) pa a añadi habilidades de isión a los obo s.
La Figu a 1.3 mues a el s and de TECNALIA en la Bienal de Máquina He amien a
(BIEMH) de 2022. En es e s and se mues an las ecnologías habili ado as de TECNALIA
pa a la Indus ia 5.0. El au o pa icipó en la c eación de las he amien as de isión po
compu ado pa a la de ección de las piezas de los demos ado es.
1.3.2. UPV/EHU
El au o ha es ado ligado a la Uni e sidad del País Vasco / Euskal He iko Unibe si-
a ea (UPV/EHU) desde que comenzó sus es udios de G ado. Du an e los úl imos años
ha colabo ado con el g upo de Robó ica y Sis emas Au ónomos (RSAIT) de la UPV/EHU
en a ios p oyec os de in es igación.
6
1.3. Con ex o
Figu a 1.3: S and de TECNALIA de la BIEMH 2022
1.3.3. P oyec os
Du an e el anscu so del doc o ado del au o , és e ha pa icipado ac i amen e en
p oyec os de TECNALIA, an o di ec amen e ligados con su p oyec o de esis como
o os que no lo es án. Es os p oyec os, que son e lejo de las necesidades ecnológicas
que se demandan en en o nos indus iales, han dado sen ido a es a p oyec o de esis
doc o al. Los p oyec os que han pe mi ido desa olla es e p oyec o de esis, en su
mayo ía de inanciación pública compe i i a, han sido inanciados po la Comisión
Eu opea (P og ama Ho izon 2020) y el Gobie no Vasco (P og ama Elka ek). La Figu a
1.4 mues a el o den c onológico de los p oyec os y el o igen de la sub ención.
Los p oyec os ligados a es e p oyec o de esis son los siguien es:
Elka bo
(Figu a 1.5): El p oyec o Elka bo con n
º
de p oyec o KK-2020/00092
pe enece al p og ama de ayudas a la in es igación colabo a i a Elka ek. El p in-
cipal obje i o de es e p oyec o es el de do a al País Vasco de he amien as pa a su
obo ización. Pa a ealiza es o se ienen en cuen a es p emisas a log a : mi iga
el iesgo pe cibido al desa ollo de ecnología de obó ica lexible p opia po los
in eg ado es; habili a el uso de la obó ica no solo en los sec o es de au omoción
y ae onáu ica; y coo dina mejo las impo an es capacidades ecnológicas de la
RVCTI (Red Vasca de Ciencia, Tecnología e Inno ación) en o no a la obó ica,
en es echa elación con el BDIH (Basque Digi al Inno a ion Hub) y den o del
7
1. In oducción y mo i ación
Figu a 1.4:
O den c onológico de los p oyec os y o igen de la sub ención. En neg i a es án
aquellos p oyec os ligados al p oyec o de esis.
con ex o de BRTA (Basque Resea ch and Technology Alliance). Es e p oyec o ha
enido una du ación de dos años empezando en 2020. La p incipal apo ación
del au o en es e p oyec o ha sido diseña algo i mos de clasi icación de piezas
indus iales usando a qui ec u as de ap endizaje p o undo 3D p een enadas con
modelos 2D. Es o ha pe mi ido iden i ica piezas de o ma e ec i a usando cáma as
3D. Como esul ado de es e p oyec o se ha publicado el siguien e a ículo:
Me ino, I., Azpiazu J., Remazeilles A., Sie a B., 2021.
3D Con olu ional Neu al
Ne wo ks Ini ialized om P e ained 2D Con olu ional Neu al Ne wo ks
o Classi ica ion o Indus ial Pa s
. Senso s 21, 1078. MDPI.
h ps://doi.
o g/10.3390/s21041078
She lock - Seamless and sa e human cen ed obo ic applica ions o no-
el collabo a i e wo kplaces
(Figu a 1.6): Es un p oyec o eu opeo bajo el p o-
g ama Ho izon 2020 cuyo indicado del acue do de sub ención (G an Ag eemen )
es 820689. She lock iene como obje i o in oduci las úl imas ecnologías en se-
gu idad obó ica en en o nos de p oducción, habili ándolas con meca ónica
in eligen e y cognición basada en IA, c eando, de es a o ma, es aciones HRC
(Human Robo Collabo a ion) e icien es que es án diseñadas pa a se segu as y
ga an iza la acep ación y bienes a de los ope a ios. Es e p oyec o iene una du-
8
1.3. Con ex o
Figu a 1.5:
Paque es de abajo del p oyec o Elka bo pa a esponde a los e os de la obó ica
indus ial del u u o.
ación de cua o años en e 2018 y 2022. En es e p oyec o el au o ha con ibuido
diseñando écnicas de econocimien o de piezas indus iales usando desc ip o-
es locales y globales. Inicialmen e es as écnicas han pe mi ido clasi ica piezas
indus iales y una ez iden i icadas ob ene la pose 6D de la pieza pa a pode
coge la. Du an e es e p oyec o se han publicado los siguien es a ículos:
Me ino, I., Azpiazu, J., Remazeilles, A., Sie a, B., 2019.
2d Image Fea u es De ec-
o and Desc ip o Selec ion Expe Sys em
. Compu e Science & In o ma-
ion Technology (CS & IT), AIRCC Publishing Co po a ion.
h ps://doi.o g/
10.5121/csi .2019.91206
Me ino, I., Azpiazu, J., Remazeilles, A., Sie a, B., 2019.
2D Fea u es-based de ec-
o and desc ip o selec ion sys em o hie a chical ecogni ion o indus-
ial pa s
. In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA),
AIRCC Publishing Co po a ion.
h ps://doi.o g/10.5121/ijaia.2019.10601
9
1. In oducción y mo i ación
Figu a 1.6: Paque es de abajo del p oyec o She lock con sus espec i as a eas.
Me ino, I., Azpiazu, J., Remazeilles, A., Sie a, B., 2020.
His og am-Based Des-
c ip o Subse Selec ion o Visual Recogni ion o Indus ial Pa s
. Ap-
plied science 10, 3701. MDPI. h ps://doi.o g/10.3390/app10113701
J.L. Ou ón, I. Me ino, I. Villa e de, A. Iba gu en, H. He e o, P. Daelman, B. Sie a,
2021. A Real Applica ion o an Au onomous Indus ial Mobile Manipula o wi -
hin Indus ial Con ex . Elec onics 10, 1276. MDPI.
h ps://doi.o g/10.3390/
elec onics10111276
PROFLOW
(Figu a 1.7): PROFLOW (P oducción Fluida pa a la Indus ia In e-
ligen e) es un p oyec o pe enecien e al p og ama Elka ek con n
º
de p oyec o
KK-2022/00024. En la p oducción luida, no-lineal o ma icial basada en células de
ab icación lexibles y con igu ables, las es aciones de abajo no es án ísicamen e
conec adas, como ocu e con las cin as anspo ado as en las líneas con encio-
nales de p oducción, sino que se a a de islas in e conec adas median e obo s
10
1.3. Con ex o
Figu a 1.7: Desc ipción g á ica del p oyec o PROFROW
mó iles. La adopción de un pa adigma de p oducción luida o ma icial como
la p opues a en PROFLOW a o ece que las emp esas manu ac u e as ascas
mejo en su capacidad de espues a y adecuación a un con ex o ma cado po un
ele ado y c ecien e ni el de complejidad en la demanda de p oduc os (i.e., muchas
a ian es de p oduc o a ab ica en se ies cada ez más co as) pe mi iéndoles
mejo a su compe i i idad en un me cado globalizado. Es e p oyec o iene una du-
ación de dos años comp endidos en e 2022-2023. En es e p oyec o se ha diseñado
un algo i mo de es imación de pose 6D usionando las p edicciones de modelos
de ap endizaje p o undo. Los esul ados de la in es igación se han publicado en:
Me ino, I., Azpiazu, J., Remazeilles, A., Sie a, B, 2023. Ensemble o 6 do pose
es ima ion om s a e-o - he-a deep me hods
. Neu ocompu ing, Volume
541. Else ie . h ps://doi.o g/10.1016/j.neucom.2023.126270
El au o ha pa icipado ambién en p oyec os de in es igación que han con ibuido
a la ca e a in es igado a del au o , pe o que no es án ligados di ec amen e con la esis.
Es os p oyec os son los siguien es:
11
1. In oducción y mo i ación
1.5. Es uc u a de la memo ia
Es a memo ia es á di idida en dos pa es. En la Pa e Ise expone la in es igación
ealizada. És a a su ez es á di idida en Capí ulos. En o al hay 4 Capí ulos: In oduc-
ción y mo i ación, Técnicas de isión pa a la de ección de obje os, Con ibuciones y
Conclusiones.
El Capí ulo 1es el capí ulo ac ual y en él se expone la mo i ación y las hipó esis de
la in es igación. En el Capí ulo 2se hace un es ado del a e sob e las di e en es écnicas
de isión po compu ado , p ime o se in oduce y se p esen an los ipos de a eas que
exis en en isión po compu ado (2.1), después se con inúa con écnicas clásicas 2D
(2.2), écnicas clásicas 3D (2.3), écnicas de ap endizaje p o undo (2.4), y po úl imo, sob e
da ase s y benchma ks (2.5). En el Capí ulo 3se exponen las con ibuciones que se han
ealizado pa a da espues a a las hipó esis p esen adas en la Sección 1.4. Finalmen e,
en el Capí ulo 4se exponen las conclusiones que se han ob enido du an e el p oyec o
de esis.
Po úl imo, en la Pa e II es án como anexos los a ículos que p esen an las con ibu-
ciones expues as en el Capí ulo 3.
18
CAPÍTULO 2
Técnicas de isión po
compu ado pa a la de ección
de obje os.
2.1. In oducción
Uno de los p oblemas cla e a ados en es e p oyec o de esis es la es imación de pose
6D de obje os obse ados po un senso de isión. Es a consis e en es ima la posición y
o ien ación de un obje o en el espacio. Es a pose es á compues a po 6 dimensiones, que
se pueden exp esa de dis in as mane as. Una de ellas y la más común es:
x
,
y
,
z
,
θ
,
φ
,
ψ
(los es p ime os pa a la posición y los 3 úl imos pa a la o ación). Es as dimensiones
se pueden ep esen a median e una ma iz de o ación y una ma iz de aslación o
median e una ma iz de ans o mación homogénea. Hay que ene en cuen a que es a
pose 6D es ela i a a un sis ema de coo denadas conc e o. Como no ma gene al, se suele
u iliza el sis ema de coo denadas de la cáma a, ya que es el sis ema de coo denadas
que se u iliza pa a ob ene las imágenes. Pa a en ende mejo la es imación de pose 6D,
es impo an e ene en cuen a los siguien es concep os.
Esa es imación de pose 6D se ealiza a pa i de la in o mación isual adqui ida
po la cáma a. Es os da os adqui idos po la cáma a se pueden ep esen a de di e-
en es mane as, o ma os o ipologías. Po un lado enemos los da os 2D, que pueden
se imágenes RGB, imágenes é micas, imágenes de p o undidad, e c; y po o o lado
enemos los da os 3D, que pueden se nubes de pun os, oxels, e c. En e los da os 2D las
19
2. Técnicas de isión po compu ado pa a la de ección de obje os.
imágenes RGB son las más comunes. Es as son imágenes 2D que con ienen in o mación
de colo . Cada pixel de una imagen RGB con iene in o mación de colo en los canales
Rojo (R: Red), Ve de (G: G een) y Azul (B: Blue). Cualquie imagen 2D puede es a
compues a de uno o a ios canales. En el caso de las RGB son 3 canales (R, G y B), pe o
ambién exis en imágenes 2D en escala de g ises que solo ienen un canal, como po
ejemplo las imágenes é micas o las de p o undidad. Las imágenes de p o undidad son
imágenes 2D que con ienen in o mación de la p o undidad. Cada pixel de una imagen
de p o undidad con iene in o mación de la dis ancia a la que se encuen a el obje o
que se es á obse ando. Po eso, aunque son imágenes 2D, con ienen in o mación 3D e
incluso se pueden ans o ma en nubes de pun os.
El uso de da os 3D es menos común que el uso de da os 2D, debido a que los da os
3D son más cos osos de ob ene y p ocesa . Aun así, exis en senso es que pueden
ob ene da os 3D de o ma ela i amen e sencilla, como po ejemplo los senso es de
p o undidad es ilo Kinec . Las nubes de pun os son es uc u as de da os 3D que con ienen
un conjun o de pun os en el espacio, cada uno con su coo denada
x
,
y
y
z
. Además, cada
pun o ambién puede dispone de in o mación de colo y de su no mal. El óxel es la
con apa e 3D del píxel. Es la unidad cúbica que compone una ma iz idimensional. Al
igual que los píxeles, no ienen in o mación de la posición en el espacio, sino que iene
dada po su posición en la es uc u a de da os. Muchas eces los óxeles se u ilizan pa a
ep esen a una nube de pun os, ya que es una o ma de educi la can idad de da os. A
mayo amaño de óxel mayo can idad de pun os aba ca á y se á más ácil p ocesa la,
pe o meno se á la esolución y, po consiguien e, la p ecisión que se ob end á. La Figu a
2.1 mues a un ejemplo de un obje o del da ase YCB-Video en o ma o malla, oxel y
nube de pun os.
(a) Malla (Mesh). (b) Voxel. (c) Nube de pun os.
Figu a 2.1: Pinza del da ase YCB-Video.
Además, ambién es impo an e de ini el es o de a eas ípicas de la isión po
compu ado . La clasi icación es una de las a eas más básicas, pe o a su ez más u ilizadas,
de la isión po compu ado . Consis e en da una clase a una imagen. La segmen ación
semán ica es una ex ensión de la clasi icación. Consis e en e ique a la imagen a ni el de
20
2.1. In oducción
píxel o pun o, de es a o ma se di ide la imagen en di e en es egiones, cada una de ellas
pe enecien e a una clase di e en e. La segmen ación de ins ancia consis e en localiza en
la imagen odas las ins ancias di e en es. La segmen ación panóp ica es una combinación
de las dos an e io es, la cual consis e en di idi la imagen en di e en es egiones, cada
una de ellas pe enecien e a una ins ancia di e en e, y además a cada ins ancia se le
asigna una clase. La de ección 2D consis e en encon a obje os en imágenes. Es as
de ecciones se dan en o ma de Bounding Box 2D (caja delimi ado a). La Figu a 2.2
[
20
] mues a un ejemplo de de ección 2D, segmen ación semán ica, segmen ación de
ins ancia y segmen ación panóp ica pa a e sus di e encias. O a a ea impo an e es el
acking o seguimien o de obje os. Consis e en segui un obje o du an e una secuencia
(en un ídeo po ejemplo).
Figu a 2.2:
Compa a i a de una de ección 2D, segmen ación semán ica, segmen ación de ins ancia
y segmen ación panóp ica a la misma imagen. (O igen de la imagen: lamaquinao aculo.com)
Muchas de las a eas de isión po compu ado que se han mencionado an e io -
men e se pueden ealiza con da os 2D o 3D. Además, la salida de una a ea puede se
21
2. Técnicas de isión po compu ado pa a la de ección de obje os.
de di e en es ipologías de da os. Cuando hacemos una de ección 2D ob enemos un
Bounding Box 2D y cuando hacemos una de ección 3D ob enemos un Bounding Box 3D.
Aun así, exis en mé odos que pe mi en hace una co espondencia en e da os 2D y 3D,
como po ejemplo PnP [
21
] (Pe spec i e-n-Poin ). Es e mé odo pe mi e ob ene la pose
6D de un obje o a pa i de una de ección 2D y un modelo 3D del obje o.
La Figu a 2.3 mues a el conjun o de las a eas que se pueden ealiza con isión po
compu ado .
Figu a 2.3: Ta eas más comunes de isión po compu ado con el ou pu que gene an.
En es e capí ulo, se an a p esen a écnicas clásicas 2D (Sección 2.2), que se pueden
22
2.2. Técnicas clásicas 2D
di idi en e desc ip o es globales (Subsección 2.2.1), desc ip o es locales (Subsección
2.2.2), y la busqueda de co espondencias y clasi icación (Subsección 2.2.3). Pos e io men-
e, se an a p esen a écnicas 3D (Sección 2.3) pa a la es imación de pose 6D: mé odos
locales basados en pa ches (Subsección 2.3.1), mé odos locales basados en nubes de
pun os (Subsección 2.3.2) y mé odos basados en plan illas (Subsección 2.3.3). Además,
se an a in oduci las bases del ap endizaje p o undo (Sección 2.4) y las a qui ec u as
y écnicas más u ilizadas como son las edes neu onales con olucionales (Subsección
2.4.1), las edes neu onales ecu en es (Subsección 2.4.2), los au oencode s (Subsección
2.4.3), los modelos gene a i os ad e sa iales (Subsección 2.4.4), T ans o me s (Subsec-
ción 2.4.5), modelos de di usión (Subsección 2.4.6) y ap endizaje ans e ido (Subsección
2.4.7). Po úl imo, se a a p esen a el es ado del a e de los da ase s más u ilizados pa a
la es imación de pose 6D (Sección 2.5), como el benchma k BOP (Subsección 2.5.1) y
he amien as pa a la gene ación de da ase s sin é icos (Subsección 2.5.2).
2.2. Técnicas clásicas 2D
Den o de la isión po o denado más adicional o isión clásica, el pipeline
de de ección de obje os ha seguido un pa ón de e minado, el cual ha consis ido en
busca ca ac e ís icas conc e as o impo an es en las imágenes, desc ibi o codi ica esas
ca ac e ís icas y busca co espondencias en e esas ca ac e ís icas codi icadas. La Figu a
2.4 mues a los pipelines o lujos que siguen la g an mayo ía de algo i mos de isión
clásica. El p ime lujo, la desc ipción global, es á ecogido en 2.4a. En es e con ex o de
desc ipción global, se busca ex ae ca ac e ís icas de la imagen en su o alidad o mando
un ec o de ca ac e ís icas de amaño conc e o que depende del ipo de desc ip o . Es e
ec o de ca ac e ís icas se usa pa a clasi ica la imagen. El segundo lujo, la desc ipción
local, se esume en 2.4b. En es e con ex o p ime o se de ec an ca ac e ís icas conc e as
las cuales se llaman keypoin s o pun os de in e és que pueden se esquinas, bo des,
blobs o pa ches de la imagen conc e os. Una ez de ec ados es os pun os de in e és, se
desc iben cada uno de ellos median e un desc ip o local. De es a o ma ob enemos un
ec o de ca ac e ís icas po cada pun o de in e és. Es os ec o es de ca ac e ís icas
se pueden u iliza pa a clasi ica la imagen en su o alidad, simila a lo que se hace
con los desc ip o es globales, o ma chea (empa eja ) esos ec o es con los de modelos
conocidos pa a log a ob ene la localización de esos obje os conocidos (es imación de
pose). La Figu a 2.5 mues a la elación en e los di e en es mé odos clásicos locales y
globales del es ado del a e. Las lechas indican que un mé odo se basa en o o, que es
una mejo a espec o al an e io o que es una combinación de a ios mé odos.
2.2.1. Desc ip o es globales
Los desc ip o es globales nos pe mi en desc ibi una imagen en su o alidad y o ma
un ec o de ca ac e ís icas único pa a oda la imagen.
23
2. Técnicas de isión po compu ado pa a la de ección de obje os.
(a) Desc ip o es globales
(b) Desc ip o es locales
Figu a 2.4: Flujos de isión po o denado 2D clásico
En e ellos podemos encon a nos HOG (His og ams o O ien ed G adien s) [
22
] que
es un his og ama de g adien es o ien ados no malizado localmen e, HSOG (His og ams
o he Second-O de G adien s) [
23
] que calcula los g adien es de segundo o den pa a
cap u a la cu a u a elacionada con p opiedades geomé icas, GIST [
24
] que u iliza
una ep esen ación de la es uc u a espacial dominan e de una escena que in eg a un
conjun o de dimensiones pe cep uales que llaman Spa ial En elope, y MPEG-7 [25,26]
que es á basado en el es ánda con el mismo nomb e e incluye di e en es desc ip o es
basados en his og amas como CLD (Colo Layou Desc ip o ), EHD (Edge His og am
Desc ip o ) y SCD (Scalable Colo Desc ip o ).
Exis e un g an núme o de desc ip o es locales que se pueden u iliza como des-
c ip o es globales calculando su his og ama. A es e g upo de algo i mos se les llama
his og amas de pa ones equi alen es [27]. En e ellos podemos encon a :
LBP (Local Bina y Pa e n) [
28
] es el más conocido de ellos el cual es obus o
en e a a iaciones de luz.
LBP da pie a una g an a iedad de di e en es desc ip o es locales que desc iben
ex u as y ienen un ni el de ca ac e ización bajo pa a calcula su his og ama.
STU (Simpli ied Tex u e Uni ) [
29
] consigue educi el ango de posibles alo es
sin una pé dida signi ica i a en el pode de ca ac e ización.
24
2.2. Técnicas clásicas 2D
Figu a 2.5: Relación en e los di e en es mé odos clásicos locales y globales del es ado del a e
25
2. Técnicas de isión po compu ado pa a la de ección de obje os.
MTS (Modi ied Tex u e Spec um) [
30
] es una e sión simpli icada del LBP u ili-
zando un subse de los píxeles.
CLBP (Comple ed Local Bina y Pa e n) [
31
] combina es di e en es e siones del
LBP modi icado pa a mejo a la in a ianza a la o ación.
LTP (Local Te na y Pa e n) [
32
] es una gene alización del LBP más disc imina i a
y menos sensible al uido en egiones uni o mes pe o deja de se es ic amen e
in a ian e a ans o maciones a ni el de g ises.
ELTP (Enhanced Local Te na y Pa e n) [
33
] a aca el p oblema que iene LTP
u ilizando una es a egia adap a i a pa a selecciona el umb al o h eshold.
CELTP (Comple ed Enhanced Local Te na y Pa e n) [
33
] u iliza la misma es a egia
que el CLBP usando ELTP.
LT P (Local Te a Pa e n) [
34
] ex ae mayo in o mación u ilizando de i adas de
mayo o den.
BGC (Bina y G adien Con ou s) [
35
] p esen a 3 o mas di e en es de calcula el
con o no del g adien e bina io de o ma pa ecida a LBP.
Añadiendo il os Gabo a LBP ob enemos el desc ip o LGBPHS (Local Gabo
Bina y Pa e n His og am Sequence) [36].
LQP (Local Quan ized Pa e n) [
37
] es una gene alización del LBP que u iliza un
ec o de cuan i icación y una abla de búsqueda pa a u iliza más pixeles pa a la
ca ac e ización del pa ón local y un ni el de ca ac e ización mayo sin sac i ica
simplicidad y e iciencia compu acional,
GLCM (G ay Le el Coocu ences Ma ices) [
38
] es á basado en desc ibi las depen-
dencias espaciales en onos g ises. Es un desc ip o de ex u as muy simple pe o
muy u ilizado en muchas aplicaciones.
WLD (Webe Local Desc ip o ) [
39
] es un desc ip o local muy simple pe o la ez
muy po en e y obus o basado en la ley de Webe [40].
Como es á de inido en el pipeline de los desc ip o es globales (Figu a 2.4a), una ez
ob enido el ec o de ca ac e ís icas global (como desc ip o global o his og ama de
pa ones equi alen es), se puede u iliza pa a clasi ica la imagen en su o alidad. Pa a
ello, se u ilizan algo i mos de ap endizaje au omá ico o de ma cheo ( e Sección 2.2.3.1).
26
2.2. Técnicas clásicas 2D
2.2.2. Desc ip o es locales
Pa a hace una co espondencia (ma ching) de ca ac e ís icas, es necesa io p ime o
encon a pun os o egiones en la imagen que engan cie a signi icancia, es deci , que
sean ca ac e ís icas del obje o. Pa a ello, se u ilizan de ec o es de pun os de in e és
(keypoin de ec o s); es os pueden se de ec o es de bo des, de esquinas, de egiones
(blobs) o de o o ipo.
2.2.2.1. De ec o es
Un de ec o de pun os de in e és localiza pun os que engan cie as ca ac e ís icas
pa a que sean econocibles, como po ejemplo, bo des o esquinas. La Figu a 2.6 mues a
un ejemplo de de ección de pun os de in e és en una imagen de una pieza indus ial.
Figu a 2.6: De ección de pun os de in e és en una pieza indus ial.
En e los de ec o es de bo des más conocidos es án los S ee able il e s [
41
], Sobel
[
42
] y Canny [
43
,
44
,
45
]. Los il os o ien ables o S ee able il e s pe mi en sin e iza
il os de o ien aciones a bi a ias a pa i de il os básicos. El de ec o de bo des Sobel
se basa en un ope ado iso ópico pa a ob ene el g adien e en un ecinda io de 3x3.
El de ec o Canny, en cambio, de ec a bo des buscando máximos en el g adien e de
imágenes con un sua izado gaussiano.
27
2. Técnicas de isión po compu ado pa a la de ección de obje os.
Figu a 2.9: Un á bol de decisión pa a clasi icación de es clases.
Como el clasi icado SVM es bina io, se u ilizan es a egias como uno con a odos
(one- s-all) [
84
] o uno con a uno (one- s-one) [
85
] pa a ans o ma un p oblema
mul iclase en múl iples p oblemas bina ios. SVM es un clasi icado muy u ilizado pa a
clasi ica desc ip o es HOG (an e io men e mencionados), como po ejemplo pa a el
econocimien o de ca as o de ección de obje os.
Los á boles de decisión buscan ab ica un sis ema de p edicción basado en una
se ie de condiciones de o ma ecu si a pa a la esolución de un p oblema. Es e ipo
de es uc u as se pa ecen a las que se gene an con los sis emas basados en agen es o
en eglas. La Figu a 2.9 mues a un á bol de decisión que iene en cuen a 3 de las N
a iables (
X0
,
X1
y
X3
) y 3 clases (
C1
,
C2
y
C3
). Se puede ap ecia en el ejemplo que no
es necesa io que el á bol u ilice odas las a iables disponibles, po que no son necesa ias
o po que se ha ealizado una poda.
También exis en mé odos que u ilizan múl iples algo i mos de ap endizaje en con-
jun o pa a e ina el esul ado que da cada algo i mo po sepa ado. Es os mé odos se
les conoce como ensemble y algunas de esas écnicas son: bagging [
86
], boos ing [
87
],
s acking [88] y o ing [89].
2.3. Técnicas 3D
Den o de la isión po compu ado , exis en muchos senso es que cap u an nubes
de pun os o imágenes de p o undidad en ez de imágenes 2D de colo . Es os senso es
pueden se cáma as po iangulación láse , de luz es uc u ada, es é eo o basadas en
iempo de uelo. La adquisición de esos senso es p oduce una nube de pun os o un
mapa de p o undidad. Con los pa áme os in ínsecos de los senso es se pueden ob ene
las nubes de pun os con los mapas de p o undidad.
T abaja con nubes de pun os en ez de con imágenes 2D iene mayo complejidad.
34
2.3. Técnicas 3D
Es o se debe a di e sas azones. La p ime a es que la adquisición de la nube de pun os
gene a da os dispe sos, es deci , no es capaz de adqui i in o mación de oda la escena
3D, la esolución del senso limi a los da os ob enidos. Segundo, las écnicas pa a abaja
con imágenes son más e icien es que las que abajan con nubes de pun os. Añadi una
dimensión a los da os inc emen a su complejidad pa a a a los. Debido a la complejidad
de los da os, se han abo dado la es imación de pose 6D desde di e en es pe spec i as.
2.3.1. Mé odos locales basados en pa ches
Es os mé odos u ilizan sis emas de o os basados en á boles (como andom o es )
sob e pa ches locales pa a la de ección, localización y es imación de pose. En e es os
mé odos nos podemos encon a el mé odo diseñado po B achmann e al. que es ima
di ec amen e las coo denadas de los obje os [
90
], Tejani e al. que u ilizan un pa che
in a ian e a la escala pa a p edeci la localización y la pose [
91
] o Bonde e al. que
u ilizan una en ana deslizan e olumé ica [92].
2.3.2. Mé odos basados en ma cheo de nubes de pun os
Es os mé odos son los más u ilizados pa a la de ección, localización y egis o en
nubes de pun os. Tienen bas an es simili udes con los desc ip o es 2D, pe o en ez de
desc ibi el colo desc iben la geome ía de los obje os.
Spin Images [
93
]: es un desc ip o de la o ma a ni el de da o pa a ma chea
supe icies jun o con un esquema de comp esión pa a econoce simul aneamen e
a ios obje os.
Poin Fea u e His og am (PFH) [
94
]: es un desc ip o que cap u a in o mación
sob e la geome ía al ededo de un pun o analizando las di ecciones de las
no males de su ecinda io.
Fas Poin Fea u e His og am (FPFH) [
95
]: una e sión más ápida de PFH man e-
niendo p ác icamen e odo su pode disc imina i o.
Radius-based Su ace Desc ip o (RSD) [
96
]: busca desc ibi la o ma de la supe -
icie al ededo de un pun o. Po cada de pun o de in e és con su ecino se calcula
la di e encia en e sus no males y la dis ancia en e ellos. Se ajus a una es e a de
o ma que encaje con las no males y la dis ancia en e los pun os. De es a mane a
si la supe icie es plana el adio de la es e a se á in ini o, y en caso con a io, el
adio de la es e a se á pa ecido a la de la supe icie cu a.
3D Shape Con ex (3DSC) [
97
]: es un desc ip o que se basa en el Shape Con ex
[73] pe o en 3D.
35
2. Técnicas de isión po compu ado pa a la de ección de obje os.
Unique Shape Con ex (USC) [
98
]: ex iende el desc ip o 3DSC de iniendo un
ame de e e encia pa a ene o ien aciones únicas educiendo la comp-lejidad
del desc ip o y mejo ando su p ecisión.
Signa u e o His og ams o O ien a ions (SHOT) [
99
]: encapsula la in o mación
opologica de la supe icie de cada pun o de in e és con una es uc u a de sopo e
pa ecida a la usada en 3DSC. Las di isiones de la es e a son ijas (32) y se calcula
un his og ama po cada olumen. Es un mé odo in a ian e a la o ación y obus o
an e el uido y al deso den.
Poin Pai Fea u es (PPF) [
100
]: es un desc ip o o mado po in o mación a pa es
de pun os que incluye la dis ancia en e los pun os, el ángulo que o man cada
no mal con el ec o que esul a de la di e encia en e las no males y el ángulo
que o man las dos no males. Es e desc ip o es in a ian e a ans o maciones
ígidas.
I e a i e Closes Poin (ICP) [
101
]: es un mé odo i e a i o que se u iliza pa a
alinea dos nubes de pun os. ICP necesi a una es imación inicial po lo que se
suele u iliza pa a e ina las poses ob enidas po o os mé odos.
La mayo ía de es os mé odos se pueden encon a en la lib e ía PCL [
102
], la cual es
una lib e ía de código abie o C++ pa a el p ocesamien o de nubes de pun os.
2.3.3. Mé odos basados en plan illas
Es os mé odos p ime o c ean unas plan illas de los obje os a econoce que cap u an
las di e en es o mas de los obje os desde di e en es pe spec i as. Los obje os son
de ec ados cuando una plan illa encaja en la imagen y su pose es la que da esa plan illa.
Uno de los p ime os mé odos se llama Snakes [
103
] que consis e en una Spline que se
ajus a a la o ma del obje o. A aíz de es e mé odo han su gido muchos o os que siguen
la misma idea [
104
,
105
]. Uno de los au o es que más ha abajado en es e campo es S e an
Hin e s oisse . En 2010 [106], p opuso un mé odo basado en plan illas que buscaba las
o ien aciones de g adien e dominan es en un pequeño subconjun o de píxeles. O os
mé odos pa ecidos p opues os po el mismo au o [
107
] han dado pie a uno de los
mé odos basado en plan illas más conocidos LINEMOD [
108
], el cual pos e io men e
ambién ha sido e inado [
109
]. O os mé odos que u ilizan plan illas son [
110
] y [
111
].
2.4. Ap endizaje p o undo
Las bases de las edes neu onales se han a ianzado en el siglo pasado [
112
,
113
], pe o
no ha sido has a es a úl ima década cuando se han podido u iliza de mane a e icien e.
El ap endizaje p o undo ha ido ganando cada ez más popula idad debido a los mé i os
36
2.4. Ap endizaje p o undo
conseguidos con ellas. En 2012, el modelo de ap endizaje p o undo AlexNe [
114
] ganó
el challenge ImageNe [
115
] con una en aja del
10,8 %
del op-5 e o espec o al
siguien e mé odo. Es o ue posible g acias a la p o undidad de la ed y a que se u iliza on
unidades de p ocesamien o g á ico (GPUs) du an e el en enamien o. Es e momen o ha
sido un pun o de in lexión pa a las edes neu onales p o undas. A pa i de ese momen o
y g acias la acilidad de ob ene una GPU, han su gido una in inidad de a qui ec u as y
modelos que se han u ilizado en di e sos sec o es [116,117,118].
El challenge ImageNe ha sido bas an e impo an e en la gene ación de nue as
a qui ec u as de ap endizaje p o undo. Los mé odos que conseguian lide a el podium
han conseguido ele ancia y popula idad. En e ellos se encuen an: VGG [
119
], Incep-
ion [
120
,
121
], ResNe [
122
], Incep ion-ResNe [
123
], ResNeX [
124
], NASNET [
125
],
E icien Ne [
126
] y ViT [
127
]. ImageNe es un da ase pa a clasi icación, po lo que la
mayo ía de mé odos que se han p esen ado son pa a clasi icación. Aun así, la pa e de
ex acción de ca ac e ís icas de esos modelos se puede u iliza pa a o as a eas.
En cuan o a es imación de pose 6D, el BOP challenge [
128
] ha de inido una e e encia
común pa a compa a écnicas. La mayo ía de las écnicas 2D de ap endizaje p o undo
p ime o hacen la de ección 2D y ob ienen la pose 6D de esa de ección [
129
,
130
,
131
] o
di ec amen e buscan co espondencias 2D a 3D pa a ob ene la pose 6D [
132
,
133
,
134
,
135
,
136
]. P o undizando más en es os mé odos, los mé odos como [
135
]o[
136
] siguen
un plan eamien o muy pa ecido a los mé odos adicionales.
Exis en ambién muchos mé odos semi-supe isados que u ilizan da os no e ique a-
dos pa a mejo a el endimien o de las edes neu onales. Po ejemplo, Pseudo Labels
[
137
], Noisy S uden [
138
] o Me a Pseudo Labels [
139
]. O incluso mé odos que pe mi en
maneja en adas y salidas a bi a ias de da os [140,141].
Pa a en ende el uncionamien o de las edes neu onales, se an a explica las pa es
más comunes que las componen y las a qui ec u as más u ilizadas. Las pa es más
comunes son las siguien es:
Capa densa (Fully-connec ed): es la capa más básica. Consis e en un conjun o de
unciones no lineales que encapsulan una neu ona (pe cep on). Es as neu onas
aplican una ans o mación lineal a una en ada. A es a salida es a la que se le
aplica una ans o mación no lineal a a es de la an e io men e mencionada
unción de no linealidad. Po ello, la salida de es a capa
y
es el esul ado de aplica
la unción de ac i ación
(no linea ) al p oduc o escala en e la ma iz de pesos
Wy el ec o de en ada x, más el ec o de bias b(Ecuación 2.5).
y= (Wx +b)(2.5)
Las unciones de ac i ación posibles se explican más adelan e.
37
2. Técnicas de isión po compu ado pa a la de ección de obje os.
Capa con olucional: las capas con olucionales son capas que aplican una con o-
lución a la en ada. La con olución es una ope ación ma emá ica que consis e en
un p oduc o escala , donde el núcleo (ke nel) se desplaza a lo la go de la ma iz
de en ada, y omamos el p oduc o escala en e ambos como si ue an ec o es
(Figu a 2.10).
Figu a 2.10:
Ilus ación del compo amien o de una capa con olucional. Imagen: Diego Unzue a.
Como en las capas densas, a la salida de la con olución se le aplica una unción
de ac i ación no lineal.
Capa de pooling: Las capas de pooling si en pa a educi la dimensionalidad
de un mapa de ca ac e ís icas (ma iz de salida de una capa con olucional). Pa a
un ke nel de amaño
k
y un s ide
s
, el amaño de mapa de ca ac e ís icas de
nh×nw×nc
se educe a un amaño de
(nh− + 1)/s ×(nw− + 1)/s ×nc
,
donde
nh
es la al u a,
nw
es el ancho y
nc
es el núme o de canales del mapa
de ca ac e ís icas. Exis en di e en es ipos de pooling, como po ejemplo el max
pooling (selecciona el alo máximo pa a cada desplazamien o del ke nel), el
a e age pooling (compu a la media de los alo es que aba ca el ke nel) o el global
pooling (hace un max o a e age pooling que educe el mapa de ca ac e ís icas a
1×1×nc).
Capa de no malización: Son capas que pe mi en educi el desplazamien o in e no
de co a iables [
142
] que es un e o que se da en la ac ualización de los pesos
de los modelos cuando se asume que los pesos an e io es a la ac ualización son
ijos. Pa a ello se exis en mé odos como el Ba ch no maliza ion [
142
] o el Laye
no maliza ion [
143
] que ayudan a coo dina la ac ualización de pesos en mul iples
capas.
Función de ac i ación: Las unciones de ac i ación son unciones no lineales que
se aplican a la salida de una capa pa a in oduci no linealidad en la ed. Algunas
de las unciones de ac i ación más u ilizadas son: ReLU [
144
], Leaky ReLU [
145
],
ELU [146], SELU [147], anh [148], sigmoid [148] y so max [149].
38
2.4. Ap endizaje p o undo
D opou : Pa a e i a que las edes neu onales se sob eajus en (o e i ing) a
los da os de en enamien o, se u ilizan écnicas de egula ización. Una de las
écnicas más u ilizadas es el d opou [
150
]. Es a écnica consis e en desac i a
alea o iamen e un po cen aje de neu onas de la ed du an e el en enamien o. De
es a mane a, la ed no puede depende de una neu ona en conc e o pa a ealiza
la p edicción.
Loss: Las edes neu onales se a an como un p oblema de op imización en la
que los pesos de las capas son los pa áme os a op imiza . Pa a ello se u iliza
una unción de cos e que se minimiza median e un algo i mo de op imización
(po ejemplo, S ochas ic G adien Descen ). Es a unción de cos e se conoce como
unción de pé dida (loss unc ion). Exis en di e en es ipos de unciones de pé dida
en unción del p oblema que se quie a esol e . Po ejemplo, pa a p oblemas de
clasi icación se suele u iliza la en opía c uzada (c oss en opy) y pa a p oblemas
de eg esión se suele u iliza el e o cuad á ico medio (mean squa ed e o ).
Los g upos de a qui ec u as más ele an es (aunque exis en muchos más) son: Con-
olu ional Neu al Ne wo ks (CNN), Recu en Neu al Ne wo ks (RNN), Au oencode s
(AE), Gene a i e Ad e sa ial Ne wo ks (GAN), T ans o me s y Modelos de Di usión
(Di ussion models). En las siguien es secciones se explican b e emen e cada uno de
ellos.
2.4.1. Con olu ional Neu al Ne wo ks (CNN)
Las CNN son las edes neu onales más u ilizadas has a la echa en el ap endizaje
p o undo pa a isión po compu ado . Es as consis en en una se ie de capas con olu-
cionales y capas de pooling que ex aen ca ac e ís icas de la imagen. La Figu a 2.11
mues a un ejemplo de una a qui ec u a con olucional.
Algunas de las CNN más conocidas y u ilizadas son: VGG [
119
], Incep ion [
120
,
121
],
ResNe [
122
], Incep ion-ResNe [
123
], ResNeX [
124
], NASNET [
125
] y E icien Ne
[
126
]. Muchas de es as a qui ec u as han de inido unos bloques básicos que se pueden
epe i pa a c ea a qui ec u as más complejas. Po ejemplo, en ResNe se de inen el
bloque esidual, el cual añade una conexión de sal o en e bloques y Incep ion module
el bloque de Incep ion, que combina a ias capas de mul iples amaños de ke nel que
luego pasa a la siguien e capa conca enados.
2.4.2. Recu en Neu al Ne wo ks (RNN)
Las edes neu onales ecu en es son edes neu onales que ienen una memo ia
in e na que les pe mi e eco da in o mación de pasos an e io es. Po ello, son muy ú iles
pa a p ocesa da os secuenciales como ex o o audio, aunque ambién se pueden u iliza
39
2. Técnicas de isión po compu ado pa a la de ección de obje os.
Figu a 2.11:
Ejemplo de una a qui ec u a con olucional que oma como en ada una imagen
2D, y es á compues a po 3 capas con olucionales y 2 capas de pooling in e calados. Su salida se
aplana pa a o ma el ec o de ca ac e ís icas, que se pasa a la capa densa pa a su clasi icación.
Figu a 2.12: Ejemplo simpli icado de una a qui ec u a ecu en e.
combinadas con a qui ec u as con olucionales pa a p ocesa ídeos. La Figu a 2.12
mues a un ejemplo de una a qui ec u a ecu en e. Algunas de las RNN más conocidas
y u ilizadas son: LSTM [151] y GRU [152].
2.4.3. Au oencode s (AE)
Los Au oencode s [
153
] son un ipo de a qui ec u a que se u iliza pa a ap ende
ep esen aciones e icien es de da os. Es as a qui ec u as se componen de dos pa es:
una codi icado a y una decodi icado a. La codi icado a es una ed neu onal que educe
la dimensionalidad de los da os de en ada y la decodi icado a es una ed neu onal que
econs uye los da os de en ada a pa i de la codi icación. La Figu a 2.13 mues a un
ejemplo de una a qui ec u a Au oencode . Es as a qui ec u as son muy u ilizadas pa a
a eas de clasi icación (Spa se, Denoising y Con ac i e au oencode s) que incluyen
40
2.4. Ap endizaje p o undo
Figu a 2.13:
Ejemplo simpli icado de una qui ec u a Au oencode que se compone de una
p ime a pa e de encoding y su pos e io decoding.
econocimien o de ca as, de ección de ca ac e ís icas o de ección de anomalias, o como
modelos gene a i os (Va ia ional Au oencode s) pa a gene a da os alea o ios simila es
a los da os de en ada.
Los Spa se au oencode s como [
154
,
155
] añaden es icciones de dispe sión en
las unidades ocul as. Los Denoising Au oencode s [
156
,
157
], en cambio, co ompen
la en ada de da os a p opósi o con uido pa a e i a que la ed ap enda la unción
iden idad y consiga educi la dimensionalidad o ap ende ep esen aciones ú iles. Los
Con ac i e Au oencode s [
158
,
159
] añaden una penalización de en la unción de
cos e de econs ucción. Los Va ia ional Au oencode s [
160
] son una a ian e de los
au oencode s que pe mi en gene a mues as alea o ias de los da os de en ada, el cual
se suele u iliza como modelo gene a i o.
2.4.4. Gene a i e Ad e sa ial Ne wo ks (GAN)
Los modelos gene a i os ad e sa iales o Gene a i e Ad e sa ial Ne wo k [
161
,
162
,
163
] son un ipo de a qui ec u a gene a i a que en enan simul aneamen e dos
modelos uno que gene a nue os ejemplos y o o que disc imina en e ejemplos eales
y gene ados. La Figu a 2.14 mues a un ejemplo de una a qui ec u a GAN. Algunos
ejemplos de modelos GAN pa a gene a imagenes 2D son [
164
], [
165
] y [
166
]; ambién
se han u ilizado pa a gene a da os 3D como [167]y[168].
2.4.5. T ans o me s
Los T ans o me s [
169
,
170
] son un ipo de a qui ec u a de ed neu onal que se basa
en la a ención. La a ención es un mecanismo que pe mi e a una ed neu onal p es a
a ención a di e en es pa es de la en ada pa a ealiza una a ea. La Figu a 2.15 mues a
41
2. Técnicas de isión po compu ado pa a la de ección de obje os.
Figu a 2.14: Rep esen ación de un sis ema gene a i o GAN.
un ejemplo de una a qui ec u a T ans o me y la Figu a 2.16 mues a la a qui ec u a
de la capa de a ención. En la a qui ec u a T ans o me de [
170
] se u ilizan capas de
a ención mul i-cabeza, las cuales consis en en conca ena a ias capas de a ención en
pa alelo con pesos di e en es. Es as a qui ec u as son muy u ilizadas en a eas de NLP
(Na u al Language P ocessing) como aducción, esumen de ex o o gene ación de ex o
[
171
]. Algunas de es as a qui ec u as son gené icas y se pueden u iliza pa a esol e
muchas de las a eas de NLP, como po ejemplo, BERT [
172
], GPT [
173
,
174
,
175
] y
XLNe [
176
]. Aun así es os úl imos años ambién se es an u ilizando en a eas de isión
po compu ado [177,178,127].
2.4.6. Modelos de di usión
Los modelos de Di usión son unos modelos gene a i os que han ganado mucho
in e és en los úl imos años [
179
,
180
,
181
]. Los modelos di usos se basan en la di usión
de una dis ibución inicial pa a gene a una dis ibución inal. Es deci , en añadi uido
i e a i amen e a una imagen pa a gene a da os de en enamien o y en ena un modelo
(el modelo de di usión) el cual sea capaz de deshace cada paso de uido añadido a
las imagenes de en enamien o. La Figu a 2.17 mues a un esquema del p oceso de
en enamien o de una a qui ec u a de di usión. Es os modelos se pueden u iliza pa a
42
2.4. Ap endizaje p o undo
Figu a 2.15:
Ejemplo de una a qui ec u a T ans o me compues o de capas de a ención mul i-
cabeza.
43
3. Con ibuciones
[218] Me ino, I., Azpiazu, J., Remazeilles, A., Sie a, B., 2020. His og am-Based
Desc ip o Subse Selec ion o Visual Recogni ion o Indus ial Pa s
. Ap-
plied science 10, 3701. MDPI. h ps://doi.o g/10.3390/app10113701
[
219
] J.L. Ou ón, I. Me ino, I. Villa e de, A. Iba gu en, H. He e o, P. Daelman, B.
Sie a, 2021. A Real Applica ion o an Au onomous Indus ial Mobile Manipula o
wi hin Indus ial Con ex . Elec onics 10, 1276. MDPI.
h ps://doi.o g/10.
3390/elec onics10111276
[
220
] Me ino, I., Azpiazu, J., Remazeilles, A., Sie a, B., 2021.
3D Con olu io-
nal Neu al Ne wo ks Ini ialized om P e ained 2D Con olu ional Neu-
al Ne wo ks o Classi ica ion o Indus ial Pa s
. Senso s 21, 1078. MDPI.
h ps://doi.o g/10.3390/s21041078
[
221
] Me ino, I., Azpiazu, J., Remazeilles, A., Sie a, B, 2023.
Ensemble o 6
do pose es ima ion om s a e-o - he-a deep me hods
. Neu ocompu ing,
Volume 541. Else ie . h ps://doi.o g/10.1016/j.neucom.2023.126270
3.2. Con ibuciones a la isión po compu ado clásica
La isión po compu ado clásica 2D no ha enido a ances signi ica i os en la úl ima
década. Es o se debe al g an éxi o que han enido los algo i mos de ap endizaje p o undo.
Aun así, como se e leja en la hipó esis
H1
, c eemos que es e ipo de algo i mos aún no
es á obsole o y pa a cie os casos es mejo u iliza modelos de de ección o clasi icación
clásicos en ez de algo i mos de ap endizaje p o undo. Muchos de los algo i mos de
de ección como SIFT o SURF han sido líde es en e es e ipo de mé odos du an e muchos
años pa a busca co espondencias en e ex u as; po o o lado HOG es muy u ilizado
pa a de ec a y clasi ica ca as. Es po eso que muchos de es os algo i mos ienen un uso
conc e o, es deci , que uncionan muy bien pa a cie os casos de uso mien as que pa a
o os no an bien. Po eso has a el auge de los algo i mos de ap endizaje p o undo e a
necesa io un expe o o expe a en isión pa a pode de e mina cuál e a el algo i mo
que se enía que usa pa a el caso de uso conc e o que se que ía esol e . Los algo i mos
de ap endizaje p o undo han esuel o es a p oblemá ica ap endiendo cómo codi ica
o il a la imagen pa a luego clasi ica la. Po lo an o, exis en algunos casos de uso
conc e os en los que el modelo de ap endizaje p o undo equie e meno p esencia del
expe o o expe a en isión. Aun así, pa a pode con igu a bien el modelo de ap endizaje
p o undo sigue siendo necesa io que alguien con conocimien os en el ema lo ealice.
Pa iendo de es a p emisa nos p egun amos si exis ía alguna o ma de eplica es e
compo amien o de los algo i mos de ap endizaje p o undo: busca un mé odo que
ap endiese cuál es el algo i mo de isión clásica o qué combinación de ellos es la mejo
pa a el caso conc e o al que nos en en ámos.
50
3.2. Con ibuciones a la isión po compu ado clásica
Pa a ello desa ollamos el mé odo p esen ado en [
216
,
217
]. El caso de uso de esos
a ículos es clasi ica imágenes de cie as piezas indus iales. Pa a ello se de ine un
clasi icado je á quico que se en ena en dos ases.
En la p ime a ase se busca sepa a las piezas en
K
subg upos di e en es en unción
de cómo se compo an con cada desc ip o . Pa a ello, se calculan los alo es
F1
, po
obje o pa a cada pipeline (de ec o + desc ip o + ma ching). El
F1
es la media a mónica
en e la p ecisión o p ecision y la exhaus i idad o ecall (Ecuación 3.1). El pipeline que
ob enga mayo
F1
es el que se u iliza á como clasi icado de ipologías. Una ez ob enidos
los
F1
po obje o y pipeline, clus e izamos es os obje os en
K
(
K < núme o de obje os
)
ipologías u ilizando K-means. Una ez de inidas las llamadas ipologías, pa a cada una
de ellas se u iliza el desc ip o que mejo unciona.
F1=2
ecall−1+p ecision−1(3.1)
Con la p ime a ase e minada, hemos de inido 3 elemen os:
El pipeline que se u iliza pa a sepa a las ipologías. Es e es el pipeline que ob iene
mayo media de alo es F1.
Las di e en es ipologías. Es as ipologias pueden es a compues as po uno o
a ios obje os.
Los pipelines que mejo uncionan pa a cada ipología. Esos pipelines son los que
mayo media engan pa a cada ipología y se i án pa a di e encia cada obje o
den o de la ipología.
En la segunda ase se en ena el pipeline que clasi ica las ipologías y los pipelines
de cada una de las ipologías.
Pa a e alua el clasi icado je á quico se ha u ilizado el alo
F1
ob enido con un
núme o de imágenes y núme o de obje os a iable. Se han u ilizado se s de 10, 20, 30, 40
y 50 imágenes po obje o y 3, 4, 5, 6 y 7 obje os, dando un o al de 25 casos di e en es.
Debido al bajo núme o de imágenes que hay en el da ase y que pa a algunas de las
combinaciones solo se ienen 10 imágenes po obje o, se u iliza un Nes ed Lea e-One-
Ou C oss-Valida ion (Nes ed LOOCV [
222
,
223
]). P ime o se calculan los ec o es de
ca ac e ís icas pa a odas las imágenes con cada pipeline (u ilizando solo el de ec o
y desc ip o sin hace el ma ching). El LOOCV in e io si e pa a de ini los se s de
en enamien o y alidación de la p ime a ase. El LOOCV ex e io , en cambio, si e pa a
en ena los clasi icado es en la segunda ase y es ea los.
Los esul ados ob enidos con el clasi icado je á quico pa a nues o da ase son
mejo es que con los pipelines de inidos. Se puede ap ecia que a mayo can idad de
imágenes y núme o de obje os, la mejo a del clasi icado je á quico es más signi ica i a.
51
3. Con ibuciones
O o mé odo que sigue la p emisa que se ha p esen ado al inicio y da espues a a
la hipó esis
H1
es el que se p esen a en [
218
]. En es e a ículo se p esen a una écnica
de selección de ca ac e ís icas de desc ip o es globales pa a clasi icación de piezas
indus iales. Es e mé odo de ine la o ma de busca qué conjun o de desc ip o es globales
unciona mejo pa a un caso de uso conc e o. Pa a ello, se u ilizan écnicas de selección
de ca ac e ís icas (Fea u e Selec ion), más conc e amen e una selección de ca ac e ís icas
secuencial hacia delan e y hacia a ás (Sequen ial Fo wa d Subse Selec ion ySequen ial
Backwa d Subse Selec ion, espec i amen e). La SFSS, de sus siglas en ingles, pa e del
conjun o acío y a incluyendo en cada i e ación el desc ip o que maximice la mé ica
a e alua has a que no se ob enga mejo a. La SBSS, en cambio, pa e del conjun o de
odos los desc ip o es y a e i ando desc ip o es siemp e que mejo e la mé ica. En el
caso del a ículo la mé ica es el F1.
En el a ículo se ealizan expe imen os con di e en es desc ip o es y o mas de aplica
los desc ip o es an o con SFSS y SBSS. Los expe imen os mues an que al u iliza SFSS
aplicando el desc ip o a oda la imagen, en ez de a ozos uni o mes y conca ena los,
se ob ienen los mejo es esul ados. De hecho es a e sión es ambién la más ápida en
compu a y la más sencilla de implemen a . Debido al bajo núme o de imágenes que se
iene en el da ase (mismo da ase que en [
216
,
217
]) es e mé odo supe a a los esul ados
ob enidos con edes neu onales como Xcep ion [224] o Siamese [225].
Con odo es o, se ha dado una espues a a la hipó esis
H1
. Se puede con i ma
que exis en o mas de mejo a los mé odos clásicos ac uales y que oda ía ienen un
g an ma gen de mejo a. Aplica e inamien os o usión de ca ac e ís icas a los mé odos
clásicos pe mi e inc emen a la p ecisión de es os. En nues os casos, conseguimos unas
mejo as en o no al 10 % espec o de los mé odos base.
3.3. Con ibuciones a la ans e encia de ap endizaje 2D-3D
Como se ha explicado en la Sección 2.2 los mé odos de ap endizaje p o undo han
e olucionado la isión po compu ado . Las edes con olucionales, los da ase s con
una g an can idad de imagenes y los a ances en ha dwa e han pe mi ido desa olla
écnicas de isión muy p ecisas y, aunque len as en enando, ápidas en la in e encia.
Es e g an a ance es especialmen e no o io pa a imágenes 2D pe o los mé odos que
inco po an da os 3D como nubes de pun os o óxeles 3D no ob ienen esul ados an
buenos como los ob enidos con los mé odos de ap endizaje p o undo 2D. Es o se puede
debe a la mayo di icul ad de adquisición de es e ipo de da os (senso es más ca os si se
quie e una mayo p ecisión) y la di icul ad de e ique a los (po ejemplo de ini las poses
6D de los obje os). En la Sección 3.4 se p o undiza á más sob e es o úl imo.
El a ículo [
220
] p esen a un mé odo pa a da espues a a es e p oblema (
H2
). Es e
mé odo consis e en ans o ma los pesos de edes con olucionales 2D p een ena-
das pa a inicializa los pesos de edes con olucionales 3D. Pa a ello se p esen an dos
52
3.3. Con ibuciones a la ans e encia de ap endizaje 2D-3D
ans o maciones: la ex usión de pesos y la o ación de pesos. La ex usión consis e
en eplica los pesos 2D a lo la go de un eje (X, Y o Z). En la o ación se o an los
pesos espec o de un eje como al gene a un cue po de e olución. Las Figu as 3.1 y3.2,
ex aidas de [220], mues an un ejemplo de ex usión y o ación, espec i amen e.
Figu a 3.1:
Ex usión de pesos 2D pa a ob ene los pesos 3D: se eplica una la ma iz de pesos
2D a lo la go de nue a dimensión añadida pa a inicializa a qui ec u as 3D.
Figu a 3.2:
Ro ación de pesos 2D pa a ob ene los pesos 3D: pa a cada alo de la ma iz de
dimensionalidad ag andada se le asigna un alo de la ma iz de pesos 2D siguiendo el mapeo de
la Ecuación 3.2 pa a inicializa a qui ec u as 3D.
53
3. Con ibuciones
T(x, y, z) = M(x, min(bpy2+z2c, H)),(3.2)
donde
T
es la ma iz de pesos 3D,
M
es la ma iz de pesos 2D,
H
es la al u a de la ma iz
de pesos 2D y x,yyzson las indices de la posición de las ma ices de pesos.
Se compa a el compo amien o de las e siones 3D de 4 a qui ec u as de edes
con olucionales (VGG16 [
119
], ResNe [
122
], Incep ion-ResNe 2 [
123
] y E icien Ne
[
126
]) inicializadas con los pesos de sus e siones 2D p een enados con ImageNe
[
114
] ans o mados con las écnicas an es mencionadas. Las e siones 3D de es as
a qui ec u as sus i uyen odas las capas 2D po sus espec i as e siones 3D, y se ajus a
el padding () y las dimensiones de en ada:
VGG16: 224 x 224 x 3 (inpu e sión 2D) a 96 x 96 x 96 x 3 (inpu e sión 3D).
ResNe : 224 x 224 x 3 (inpu e sión 2D) a 96 x 96 x 96 x 3 (inpu e sión 3D).
Incep ion-ResNe 2: 299 x 299 x 3 (inpu e sión 2D) a 139 x 139 x 139 x 3 (inpu
e sión 3D).
E icien Ne : sigue la siguien e ecuación:
3D=b3
p 2
2Dc
, donde
2D
es la esolu-
ción en 2D y
3D
es la esolución en 3D. Po ejemplo, pa a E icien Ne -B0 pasa
de224x224x3a36x36x36x3.
Es as a qui ec u as inicializadas con los pesos 2D ans o mados consiguen ob ene
un
F1
mejo que sus e siones sin p een enamien o. En la Tabla 3.1 se puede e que
ambos p een enamien os uncionan mejo pa a odos los casos que la e sión sin p een-
ena . Pa a algunos casos unciona mejo la ex usión y pa a o os la o ación po lo que
no es posible deci con los expe imen os ac uales que uno de los dos p een enamien os
sea mejo que el o o. Además, se han compa ado con una a qui ec u a (Poin Ne [
226
]),
que oma como en ada nubes de pun os, pe enecien e al es ado del a e y el mé odo
p opues o ob iene mejo es esul ados.
A qui ec u a Sin p een enamien o Ex usión Ro ación
ResNe 0,8272 0,8612 0,8512
Incep ion ResNe 0,7558 0,8887 0,8939
E icien Ne B0 0,8605 0,9217 0,9052
E icien Ne B1 0,8372 0,8420 0,8422
Poin Ne 0,9048 - -
Tabla 3.1:
Compa a i a de los
F1
ob enidos en los expe imen os con cada a qui ec u a y p een-
enamien o
54
3.4. Con ibuciones a la gene ación de da ase s sin é icos
Como se ha podido ap ecia sigue exis iendo un ma gen de mejo a pa a edes con o-
lucionales 3D. En compa ación con sus e siones 2D los da ase s que se disponen pa a
en ena son mucho más g andes, debido a la complejidad de adquisición y e ique ado
de los da os 3D. Aun así, con la ans e encia de conocimien o 2D a 3D se ha conseguido
has a un 6 % de mejo a pa a algunas a qui ec u as, alidando la hipó esis H2.
3.4. Con ibuciones a la gene ación de da ase s sin é icos
Como hemos comen ado en la an e io sección, uno de los mayo es p oblemas pa a
abaja con da os 3D es la di icul ad de de ini las posiciones eales de los obje os. En
imágenes 2D, no malmen e, se suelen da como posición de los obje os el bounding
box 2D de es os. De ini es e bounding box es bas an e sencillo y exis en muchas
he amien as que acili an su e ique ado [
227
,
228
,
229
]. En el caso 3D es e p oceso es
bas an e más complicado ya que añadimos una dimensión ex a. Equi oca se a la ho a
de de ini la posición de los obje os es más común y puede complica el en enamien o.
Pa a in en a soluciona es a p oblemá ica, en los úl imos años se han empezado a
u iliza da os sin é icos ul a- ealis as basados en ísicas. Las he amien as de modelado
3D, diseño de ideojuegos y en o nos i uales han a anzado mucho an o que muchas
eces cues a di e encia una imagen eal de una gene ada po o denado . Es po ello
que es e ipo de he amien as se han u ilizado en la gene ación de da ase s sin é icos
pa a en ena di e en es mé odos.
El mé odo p opues o en [
220
] ha sido en enado con un da ase sin é ico pa a da
espues a a
H3
. Es e da ase se ha gene ado usando Un eal Engine 4 (UE4) [
207
] y el
plugin NVIDIA Deep Lea ning Da ase Syn hesize (NDDS) [
208
]. Es e da ase es á
compues o po 7 piezas indus iales que pe enecen a a ios p oyec os en los que el
au o ha pa icipado. Se ha hecho una econs ucción de esas piezas u ilizando una
cáma a 3D de luz p oyec ada y CloudCompa e [230].
Una ez gene ados los modelos, és os se impo an a UE4. G acias al plugin NDDS, se
de inen unos dis ac o es, obje os geomé icos alea o ios, cuya posición se a adap ando
en cada i e ación; se de ine una iluminación con cambios en la in ensidad y di ección;
se de inen cambios en el ondo y se alea o izan las posiciones de los modelos. Po cada
i e ación se ealizan cambios en odos aspec os an es comen ados y se ob iene una
cap u a RGBD jun o con su segmen ación semán ica, la segmen ación de ins ancia y
po cada obje o la pose 6D, la isibilidad, el bounding box 2D, el bounding box 3D y
la p oyección 2D del bounding box 3D. Las Figu as 3.3a,3.3b,3.3c y3.3d mues an
un ejemplo de una cap u a de una i e ación de UE4 con el plugin NDDS. La Figu a
3.3a es la cap u a RGB, la Figu a 3.3b es la imagen de p o undidad, la Figu a 3.3c es la
segmen ación semán ica (G ound u h) y la Figu a 3.3d es la segmen ación de ins ancia
(G ound u h).
55
3. Con ibuciones
(a)
Cap u a RGB ob enida median e UE4 y el plu-
gin NDDS
(b)
Imagen de p o undidad ob enida median e
UE4 y el plugin NDDS
(c)
Segmen ación semán ica ob enida median e
UE4 y el plugin NDDS
(d)
Segmen ación de ins ancia ob enida median e
UE4 y el plugin NDDS
En [
221
] ambién se p opone el uso de imágenes sin é icas pa a mejo a los esul ados
ob enidos con edes neu onales. En es e caso la he amien a u ilizada es Blende P oc
[
214
]. Blende P oc es un pipeline p ocedu al de Blende [
213
], un en o no abie o y
g a ui o pa a la c eación de con enido 3D, pa a gene a ende izados o o ealis as. El
pipeline u ilizado pa a gene a las imágenes sin é icas pa a es e caso es el que de ine el
BOP challenge [231].
Las imágenes ob enidas con Blende P oc (Figu a 3.4) son mucho más ealis as que
las ob enidas con UE4 y además la o ma de de ini el pipeline es mucho más sencilla.
De hecho g acias a Blende P oc muchas de las écnicas de ap endizaje p o undo que han
pa icipado en el BOP challenge que p e iamen e no log aban supe a a los mé odos
PPF (Poin Pai Fea u es), han conseguido lide a la abla de clasi icación. En el caso de
nues o a ículo ocu e lo mismo, en ena los mé odos u ilizados en él (PVN3D, FFB6D
y Cosypose) con solo da os eales ob iene peo es esul ados que en enando con da os
sin é icos.
56
3.5. Con ibuciones de ensamblaje de mé odos (ensemble)
(a)
Imagen sin é ica del da ase
Linemod
(b)
Imagen sin é ica del da ase
YCBV
(c)
Imagen sin é ica del da ase
TLESS
Figu a 3.4:
Imagenes sin é icas gene adas con Blende P oc pa a los da ase s Linemod, YCBV y
TLESS
U ilizando es e ipo de he amien as de gene ación de da ase s sin é icos, se consigue
disminui la can idad de da os eales necesa ios pa a en ena modelos de ap endizaje
p o undo que gene alicen bien y pe mi an clasi ica , localiza o de ec a obje os de o ma
e icien e. Es o es especialmen e necesa io pa a da os 3D debido a su complejidad de
adquisición y e ique ado. Po eso, la
H3
es co ec a y no solo ayuda a disminui los da os
eales necesa ios, sino que ambién mejo a los esul ados que se ob ienen u ilizando
solo imágenes eales.
3.5. Con ibuciones de ensamblaje de mé odos (ensemble)
Al igual que se han explicado las con ibuciones ealizadas en isión clásica median e
usión o mejo a de es os algo i mos en la Sección 3.2, en es a Sección amos a hace
lo mismo pa a algo i mos de ap endizaje p o undo. Una de las g andes di e encias
en e los algo i mos clásicos y los de ap endizaje p o undo es que los p ime os po lo
gene al es aban in eg ados po di e en es he amien as den o del pipeline (de ec o es,
desc ip o es y ma ching), las cuales se de inen en unción del caso del uso y del obje i o
que se quie e log a . Mien as que en los algo i mos de ap endizaje p o undo se in en a
e i a es o y po lo gene al se buscan o diseñan mé odos end- o-end, es deci , que una
única a qui ec u a pe mi a ealiza odo lo que an es hacia cada pa e y en ena lo en
su o alidad. Po un lado, es o pe mi e que el en enamien o de las di e en es ases se
e oalimen e, es o es, que las ca ac e ís icas o ea u es que se ex aen es én pensadas
pa a que el clasi icado o es imado de pose que iene después sea capaz de u iliza las
de o ma e icien e pa a maximiza su p opósi o, o lo que es lo mismo minimiza el
la unción de pe dida o Loss unc ion. Es a unción si e pa a e alua la des iación
en e las p edicciones de la ed neu onal y los alo es eales. Po o o lado, los mé odos
clásicos pe mi en de ini exac amen e qué es lo que que emos ex ae (bo des, esquinas,
pun os de in e és...). Aun así de ini es os ex ac o es de ca ac e ís icas y desc ip o es
es mucho más labo ioso y se necesi a un expe o o expe a en isión pa a pode de ini
57
3. Con ibuciones
que ex ac o y desc ip o conc e o unciona bien pa a el ipo de da os que enemos
( o mas de los obje os, ipo de cáma a, iluminación...). Como se puede ap ecia cada uno
iene sus en ajas y des en ajas po eso que emos ex ae el po encial de ambos ipos
de mé odos usionando mé odos de ap endizaje p o undo con écnicas más clásicas.
En [
221
] hemos p esen ado a ios mé odos de ensemble pa a usiona a ias éc-
nicas de ap endizaje p o undo pa a es ima poses 6D y de es a o ma da espues a
a la hipo esis
H4
. Pa a ello, omamos como base 3 modelos de ap endizaje p o undo:
PVN3D[
135
], FFB6D[
136
] y Cosypose[
131
]. Los dos p ime os mé odos se basan en
encon a cie os pun os de in e és de los obje os (pa e de ap endizaje p o undo) y
luego se aplica un ajus e de mínimos cuad ados (Leas Squa e Fi ing) con los pun os
de in e és del modelo. Los dos mé odos di ie en en la pa e de ap endizaje p o undo.
El p ime o, PVN3D, saca in o mación geomé ica de la nube de pun os e in o mación
de colo de la imágen RGB y luego usiona es a in o mación. Luego es os ea u es se
pasan a 3 módulos que si en pa a ob ene los cen oides, la segmen ación semán ica y
los pun os de in e és. G acias a los cen oides y la segmen ación semán ica se pueden
ob ene los pun os de in e és pa a cada ins ancia p esen e en la escena. La p incipal
di e encia con el segundo modelo, FFB6D, es la pa e de ex acción de ea u es. En ez de
ob ene las ca ac e ís icas geomé icas y de colo po sepa ado, en cada capa de la ed
se usionan ambos ipos de ca ac e ís icas pa a ap o echa la in o mación geomé ica a
la ho a de ex ae ea u es de colo y ice e sa. Cosypose, en cambio, es un mé odo que
solo u iliza imágenes RGB pa a ob ene la pose 6D. P ime o hace una de ección g uesa
de las poses 6D con una ed con olucional g uesa (CNN coa se) y después e ina esas
poses 6D con o a ed con olucional (CNN e ine ). Cosypose incluye un e inamien o
mul i is a que no hemos u ilizado.
Una ez de inidos los 3 modelos, amos a de ini cómo se han usionado. Se han
p opues o 2 es a egias: la es a egia de unión (me ge) y la es a egia de apilado (s acking).
Po un lado, la es a egia de unión pe mi e jun a los esul ados de los modelos base
de o ma geomé ica. Es a es a egia consis e en hace una media de las poses de los
modelos bases. La o ma más sencilla es hace la media sin con empla nada más. Es o
es lo que llamamos simple me ge. O a p opues a es añadi la con ianza que dan los
mé odos sob e sus p edicciones. De o ma que se hace una media ponde ada de las poses
(weigh ed me ge). Es o sigue eniendo sus incon enien es cuando las poses 6D que da
alguno de los modelos sea de alguna o a ins ancia. Pa a soluciona es o, se p opone
la unión po ag upación (clus e ing me ge). Es e mé odo p e ende p ime o ag upa las
poses 6D ob enidas de los modelos base en g upos de poses ce canas y luego aplica
un simple me ge oweigh ed me ge al g upo más g ande. En el caso de que engan la
misma can idad de elemen os se elige el g upo con mayo con ianza media. De es a
o ma enemos 4 mé odos den o de la es a egia de unión: simple me ge,weigh ed me ge,
clus e ing simple me ge yclus e ing weigh ed me ge.
58
3.5. Con ibuciones de ensamblaje de mé odos (ensemble)
Po o o lado, la es a egia de apilado u iliza un modelo de machine lea ning pa a
usiona las poses 6D que es iman los modelos base. Es os modelos ienen como obje i o
oma como en ada los alo es de las poses 6D y hace una eg esión de la nue a pose
e inada. Se han p obado 6 di e en es modelos: SVR, A boles de decisión, Reg esión
lineal de Ridge, Reg esión lineal de mínimos cuad ados o dina ios, Reg eso KNN y
MLP.
Los esul ados ob enidos demues an que la es a egia de unión unciona mejo pa a
eg esión que las es a egias de apilado. Además, se log a mejo a pa a algunos da ase s
las poses 6D ob enidas con los modelos base. Es o alida la hipó esis H4.
59
Bibliog a ía
[1]
Heine Lasi, Pe e Fe ke, Hans-Geo g Kempe , Thomas Feld, and Michael Ho mann.
Indus y 4.0. Business & in o ma ion sys ems enginee ing, 6(4):239–242, 2014. Ve página 3.
[2]
Eu opean Commission, Di ec o a e-Gene al o Resea ch, Inno a ion, Maija B eque, La s
De Nul, and A hanasios Pe idis. Indus y 5.0 : owa ds a sus ainable, human-cen ic and
esilien Eu opean indus y. Publica ions O ice, 2021. Ve página 3.
[3]
Sami Yi zhak Gad e, Mi chell Wo sman, Gab iel Ilha co, Ludwig Schmid , and Shu an
Song. Clip on wheels: Ze o-sho objec na iga ion as objec localiza ion and explo a ion.
a Xi p ep in a Xi :2203.10421, 2022. Ve página 4.
[4]
Zhengxue Zhou, Leihui Li, Alexande Fü s e ling, Hjal e Joshua Du oche , Jespe Mou-
idsen, and Xuping Zhang. Lea ning-based objec de ec ion and localiza ion o a mobile
obo manipula o in sme p oduc ion. Robo ics and Compu e -In eg a ed Manu ac u ing,
73:102229, 2022. Ve página 4.
[5]
Guoguang Du, Kai Wang, Shiguo Lian, and Kaiyong Zhao. Vision-based obo ic g asping
om objec localiza ion, objec pose es ima ion o g asp es ima ion o pa allel g ippe s: a
e iew. A i icial In elligence Re iew, 54(3):1677–1734, 2021. Ve página 4.
[6]
E Sh eyas, Mana Hi en She h, and Mohana. 3d objec de ec ion and acking me hods
using deep lea ning o compu e ision applica ions. In 2021 In e na ional Con e ence on
Recen T ends on Elec onics, In o ma ion, Communica ion & Technology (RTEICT), pages
735–738. IEEE, 2021. Ve página 4.
[7]
Zhuoqi Cheng and Thiusius Rajee h Sa a imu hu. A no el obo -assis ed elec ical impe-
dance scanning sys em o subsu ace objec de ec ion. Measu emen Science and Techno-
logy, 32(8):085902, 2021. Ve página 4.
[8]
Má on Szemenyei and Vladimi Es i ill-Cas o. Fully neu al objec de ec ion solu ions o
obo socce . Neu al Compu ing and Applica ions, 34(24):21419–21432, 2022. Ve página 4.
[9]
Im an Ahmed, Sadia Din, Gwanggil Jeon, F ancesco Piccialli, and Gianca lo Fo ino. To-
wa ds collabo a i e obo ics in op iew su eillance: A amewo k o mul iple objec ac-
king by de ec ion using deep lea ning. IEEE/CAA Jou nal o Au oma ica Sinica, 8(7):1253–
1270, 2021. Ve página 4.
67
Bibliog a ía
[10]
Jiayao Shan, Si an Zhou, Zheng Fang, and Yubo Cui. P : Poin - ack- ans o me module
o 3d single objec acking in poin clouds. In 2021 IEEE/RSJ In e na ional Con e ence on
In elligen Robo s and Sys ems (IROS), pages 1310–1316. IEEE, 2021. Ve página 4.
[11]
Yizhe Wu, Oiwi Pa ke Jones, Ma in Engelcke, and Ingma Posne . Apex: Unsupe ised,
objec -cen ic scene segmen a ion and acking o obo manipula ion. In 2021 IEEE/RSJ
In e na ional Con e ence on In elligen Robo s and Sys ems (IROS), pages 3375–3382. IEEE,
2021. Ve página 4.
[12]
And ea Bonci, Pangcheng Da id Cen Cheng, Ma ina Ind i, Giacomo Nabissi, and Fio ella
Sibona. Human- obo pe cep ion in indus ial en i onmen s: A su ey. Senso s, 21(5):1571,
2021. Ve página 4.
[13]
Janis A en s, Val e s Abolins, Janis Jud ai is, Oska s Vismanis, Aly O aby, and Kaspa s
Ozols. Human– obo collabo a ion ends and sa e y aspec s: A sys ema ic e iew. Jou nal
o Senso and Ac ua o Ne wo ks, 10(3):48, 2021. Ve página 4.
[14]
Ósca G He nández, Vicen e Mo ell, José L Ramon, and Ca los A Ja a. Human pose
de ec ion o obo ic-assis ed and ehabili a ion en i onmen s. Applied Sciences, 11(9):4183,
2021. Ve página 4.
[15]
Ma heus Zo awski Sil a, Thadeu B i o, José L Lima, and Manuel F Sil a. Indus ial
obo ic a m in machining p ocess aimed o 3d objec s econs uc ion. In 2021 22nd IEEE
In e na ional Con e ence on Indus ial Technology (ICIT), olume 1, pages 1100–1105. IEEE,
2021. Ve página 4.
[16]
Mohamed Tahoun, Oma Tah i, Juan An onio Co ales Ramón, and Youce Mezoua . Visual-
ac ile usion o 3d objec s econs uc ion om a single dep h iew and a single g ippe
ouch o obo ics asks. In 2021 IEEE/RSJ In e na ional Con e ence on In elligen Robo s
and Sys ems (IROS), pages 6786–6793. IEEE, 2021. Ve página 4.
[17]
William Agnew, Ch is ophe Xie, Aa on Walsman, Oc a ian Mu ad, Yubo Wang, Ped o
Domingos, and Siddha ha S ini asa. Amodal 3d econs uc ion o obo ic manipula ion
ia s abili y and connec i i y. In Con e ence on Robo Lea ning, pages 1498–1508. PMLR,
2021. Ve página 4.
[18]
Aleksanda Jokić, Milica Pe o ić, and Zo an Miljko ić. Seman ic segmen a ion based
s e eo isual se oing o nonholonomic mobile obo in in elligen manu ac u ing en i-
onmen . Expe Sys ems wi h Applica ions, 190:116203, 2022. Ve página 4.
[19]
Jiehao Li, Yingpeng Dai, Junzheng Wang, Xiaohang Su, and Ruijun Ma. Towa ds b oad
lea ning ne wo ks on unmanned mobile obo o seman ic segmen a ion. In 2022 In e na-
ional Con e ence on Robo ics and Au oma ion (ICRA), pages 9228–9234. IEEE, 2022. Ve
página 4.
[20]
Rubén Rod íguez Ab il. Segmen ación panóp ica.
h ps://lamaquinao aculo.com/
compu acion/segmen acion-panop ica/. Accessed: 2023-02-13. Ve página 21.
[21]
Vincen Lepe i , F ancesc Mo eno-Nogue , and Pascal Fua. Ep n p: An accu a e o (n)
solu ion o he p n p p oblem. In e na ional jou nal o compu e ision, 81:155–166, 2009.
Ve página 22.
68
Bibliog a ía
[22]
Na nee Dalal and Bill T iggs. His og ams o o ien ed g adien s o human de ec ion.
In IEEE compu e socie y con e ence on compu e ision and pa e n ecogni ion (CVPR’05),
olume 1, pages 886–893. Ieee, 2005. Ve página 24.
[23]
Di Huang, Chao Zhu, Yunhong Wang, and Liming Chen. Hsog: a no el local image
desc ip o based on his og ams o he second-o de g adien s. IEEE T ansac ions on Image
P ocessing, 23(11):4680–4695, 2014. Ve página 24.
[24]
Aude Oli a and An onio To alba. Modeling he shape o he scene: A holis ic ep esen a-
ion o he spa ial en elope. In e na ional jou nal o compu e ision, 42(3):145–175, 2001.
Ve página 24.
[25]
Bangalo e S Manjuna h, J-R Ohm, Vinod V Vasude an, and Akio Yamada. Colo and ex u e
desc ip o s. IEEE T ansac ions on ci cui s and sys ems o ideo echnology, 11(6):703–715,
2001. Ve página 24.
[26]
Thomas Siko a. The mpeg-7 isual s anda d o con en desc ip ion-an o e iew. IEEE
T ansac ions on ci cui s and sys ems o ideo echnology, 11(6):696–702, 2001. Ve página
24.
[27]
An onio Fe nández, Ma cos X Ál a ez, and F ancesco Bianconi. Tex u e desc ip ion
h ough his og ams o equi alen pa e ns. Jou nal o ma hema ical imaging and ision,
45(1):76–102, 2013. Ve página 24.
[28]
Timo Ojala, Ma i Pie ikainen, and Topi Maenpaa. Mul i esolu ion g ay-scale and o a ion
in a ian ex u e classi ica ion wi h local bina y pa e ns. IEEE T ansac ions on pa e n
analysis and machine in elligence, 24(7):971–987, 2002. Ve página 24.
[29]
F ancisco J Mad id-Cue as, R Medina Ca nice , M P ie o Villegas, NL Ga cía, and A Ca -
mona Poya o. Simpli ied ex u e uni : A˜ new desc ip o o he local ex u e in g ay-le el
images. In Ibe ian Con e ence on Pa e n Recogni ion and Image Analysis, pages 470–477.
Sp inge , 2003. Ve página 24.
[30]
Bing Xu, Peng Gong, Edmund Se o, and Robe Spea . Compa ison o g ay-le el educ ion
and di e en ex u e spec um encoding me hods o land-use classi ica ion using a pan-
ch oma ic ikonos image. Pho og amme ic Enginee ing & Remo e Sensing, 69(5):529–536,
2003. Ve página 26.
[31]
Zhenhua Guo, Lei Zhang, and Da id Zhang. A comple ed modeling o local bina y pa e n
ope a o o ex u e classi ica ion. IEEE ansac ions on image p ocessing, 19(6):1657–1663,
2010. Ve página 26.
[32]
Xiaoyang Tan and Bill T iggs. Enhanced local ex u e ea u e se s o ace ecogni ion
unde di icul ligh ing condi ions. IEEE ansac ions on image p ocessing, 19(6):1635–1650,
2010. Ve página 26.
[33]
Jing-Hua Yuan, Hao-Dong Zhu, Yong Gan, and Li Shang. Enhanced local e na y pa e n o
ex u e classi ica ion. In In e na ional con e ence on in elligen compu ing, pages 443–448.
Sp inge , 2014. Ve página 26.
69
Bibliog a ía
[34]
Sub ahmanyam Mu ala, RP Maheshwa i, and R Balasub amanian. Local e a pa e ns:
a new ea u e desc ip o o con en -based image e ie al. IEEE ansac ions on image
p ocessing, 21(5):2874–2886, 2012. Ve página 26.
[35]
An onio Fe nández, Ma cos X Ál a ez, and F ancesco Bianconi. Image classi ica ion wi h
bina y g adien con ou s. Op ics and Lase s in Enginee ing, 49(9-10):1177–1184, 2011. Ve
página 26.
[36]
Wenchao Zhang, Shiguang Shan, Wen Gao, Xilin Chen, and Hongming Zhang. Local
gabo bina y pa e n his og am sequence (lgbphs): A no el non-s a is ical model o ace
ep esen a ion and ecogni ion. In Ten h IEEE In e na ional Con e ence on Compu e Vision
(ICCV’05) Volume 1, olume 1, pages 786–791. IEEE, 2005. Ve página 26.
[37]
Sib Ul Hussain, Thibaul Napoléon, and F éde ic Ju ie. Face ecogni ion using local
quan ized pa e ns. In B i ish machi e ision con e ence, pages 11–pages, 2012. Ve página
26.
[38]
Robe M Ha alick, Ka hikeyan Shanmugam, and I s’ Hak Dins ein. Tex u al ea u es o
image classi ica ion. IEEE T ansac ions on sys ems, man, and cybe ne ics, (6):610–621, 1973.
Ve página 26.
[39]
Jie Chen, Shiguang Shan, Chu He, Guoying Zhao, Ma i Pie ikäinen, Xilin Chen, and Wen
Gao. Wld: A obus local image desc ip o . IEEE ansac ions on pa e n analysis and
machine in elligence, 32(9):1705–1720, 2009. Ve página 26.
[40]
Gus a Theodo Fechne . Elemen e de psychophysik, olume 2. B ei kop u. Hä el, 1860.
Ve página 26.
[41]
William T. F eeman and Edwa d H. Adelson. The design and use o s ee able il e s. IEEE
T ansac ions on Pa e n analysis and machine in elligence, 13(9):891–906, 1991. Ve página
27.
[42]
I win Sobel and Ga y Feldman. A 3x3 iso opic g adien ope a o o image p ocessing. a
alk a he S an o d A i icial P ojec in, pages 271–272, 1968. Ve página 27.
[43]
John Canny. A compu a ional app oach o edge de ec ion. IEEE T ansac ions on pa e n
analysis and machine in elligence, (6):679–698, 1986. Ve página 27.
[44]
Ramesh Jain, Rangacha Kas u i, and B ian G. Schunck. Machine ision, olume 5. McG aw-
hill New Yo k, 1995. Ve página 27.
[45]
Emanuele T ucco and Alessand o Ve i. In oduc o y echniques o 3-D compu e ision,
olume 201. P en ice Hall Englewood Cli s, 1998. Ve página 27.
[46]
Hans Pe e Mo a ec. Obs acle a oidance and na iga ion in he eal wo ld by a seeing obo
o e . S an o d Uni e si y, 1980. Ve página 28.
[47]
Ch is Ha is and Mike S ephens. A combined co ne and edge de ec o . In Al ey ision
con e ence, olume 15, pages 10–5244, 1988. Ve página 28.
[48]
Jianbo Shi and Tomasi. Good ea u es o ack. In IEEE Con e ence on Compu e Vision and
Pa e n Recogni ion, pages 593–600, 1994. Ve página 28.
70
Bibliog a ía
[49]
S ephen M Smi h and J Michael B ady. Susan—a new app oach o low le el image p oces-
sing. In e na ional jou nal o compu e ision, 23(1):45–78, 1997. Ve página 28.
[50]
Edwa d Ros en and Tom D ummond. Fusing poin s and lines o high pe o mance
acking. In Ten h IEEE In e na ional Con e ence on Compu e Vision (ICCV’05) Volume 1,
olume 2, pages 1508–1515. Ieee, 2005. Ve página 28.
[51]
Elma Mai , G ego y D Hage , Da ius Bu schka, Michael Suppa, and Ge ha d Hi zinge .
Adap i e and gene ic co ne de ec ion based on he accele a ed segmen es . In Eu opean
con e ence on Compu e ision, pages 183–196. Sp inge , 2010. Ve página 28.
[52]
S e an Leu enegge , Ma ga i a Chli, and Roland Y Siegwa . B isk: Bina y obus in a ian
scalable keypoin s. In 2011 In e na ional con e ence on compu e ision, pages 2548–2555.
Ieee, 2011. Ve páginas 28,29.
[53]
E han Rublee, Vincen Rabaud, Ku Konolige, and Ga y B adski. O b: An e icien al e na-
i e o si o su . In 2011 In e na ional con e ence on compu e ision, pages 2564–2571.
Ieee, 2011. Ve páginas 28,29.
[54]
James L C owley and Alice C Pa ke . A ep esen a ion o shape based on peaks and idges
in he di e ence o low-pass ans o m. IEEE ansac ions on pa e n analysis and machine
in elligence, (2):156–170, 1984. Ve página 28.
[55]
Tony Lindebe g. De ec ing salien blob-like image s uc u es and hei scales wi h a scale-
space p imal ske ch: A me hod o ocus-o -a en ion. In e na ional Jou nal o Compu e
Vision, 11(3):283–318, 1993. Ve página 28.
[56]
D.G. Lowe. Objec ecogni ion om local scale-in a ian ea u es. In Se en h IEEE In e na-
ional Con e ence on Compu e Vision, olume 2, pages 1150–1157 ol.2, 1999. Ve páginas
28,29.
[57]
Tony Lindebe g. Scale-space heo y: A basic ool o analyzing s uc u es a di e en
scales. Jou nal o applied s a is ics, 21(1-2):225–270, 1994. Ve página 28.
[58]
He be Bay, Tinne Tuy elaa s, and Luc Van Gool. Su : Speeded up obus ea u es. In
Eu opean con e ence on compu e ision, pages 404–417. Sp inge , 2006. Ve páginas 28,29.
[59]
Mo ilal Ag awal, Ku Konolige, and Mo en Ru us Blas. Censu e: Cen e su ound
ex emas o eal ime ea u e de ec ion and ma ching. In Eu opean con e ence on compu e
ision, pages 102–115. Sp inge , 2008. Ve página 29.
[60]
K ys ian Mikolajczyk and Co delia Schmid. An a ine in a ian in e es poin de ec o . In
Eu opean con e ence on compu e ision, pages 128–142. Sp inge , 2002. Ve página 29.
[61]
K ys ian Mikolajczyk and Co delia Schmid. Scale & a ine in a ian in e es poin de ec o s.
In e na ional jou nal o compu e ision, 60(1):63–86, 2004. Ve página 29.
[62]
Ji i Ma as, Ond ej Chum, Ma in U ban, and Tomás Pajdla. Robus wide-baseline s e eo
om maximally s able ex emal egions. Image and ision compu ing, 22(10):761–767, 2004.
Ve página 29.
[63]
Tai Sing Lee. Image ep esen a ion using 2d gabo wa ele s. IEEE T ansac ions on pa e n
analysis and machine in elligence, 18(10):959–971, 1996. Ve página 29.
71
Bibliog a ía
[64]
John Illingwo h and Jose Ki le . A su ey o he hough ans o m. Compu e ision,
g aphics, and image p ocessing, 44(1):87–116, 1988. Ve página 29.
[65]
Michael Calonde , Vincen Lepe i , Ch is oph S echa, and Pascal Fua. B ie : Bina y obus
independen elemen a y ea u es. In Eu opean con e ence on compu e ision, pages 778–792.
Sp inge , 2010. Ve página 29.
[66]
Yan Ke and Rahul Suk hanka . Pca-si : A mo e dis inc i e ep esen a ion o local image
desc ip o s. In 2004 IEEE Compu e Socie y Con e ence on Compu e Vision and Pa e n
Recogni ion, 2004. CVPR 2004., olume 2, pages II–II. IEEE, 2004. Ve página 29.
[67]
S e lana Lazebnik, Co delia Schmid, and Jean Ponce. A spa se ex u e ep esen a ion
using local a ine egions. IEEE ansac ions on pa e n analysis and machine in elligence,
27(8):1265–1278, 2005. Ve página 30.
[68]
Bin Fan, Fuchao Wu, and Zhanyi Hu. Ro a ionally in a ian desc ip o s using in ensi y
o de pooling. IEEE ansac ions on pa e n analysis and machine in elligence, 34(10):2031–
2045, 2011. Ve página 30.
[69]
K ys ian Mikolajczyk and Co delia Schmid. A pe o mance e alua ion o local desc ip o s.
IEEE ansac ions on pa e n analysis and machine in elligence, 27(10):1615–1630, 2005. Ve
página 30.
[70] Engin Tola, Vincen Lepe i , and Pascal Fua. Daisy: An e icien dense desc ip o applied
o wide-baseline s e eo. IEEE ansac ions on pa e n analysis and machine in elligence,
32(5):815–830, 2009. Ve página 30.
[71]
Zhenhua Wang, Bin Fan, and Fuchao Wu. Local in ensi y o de pa e n o ea u e
desc ip ion. In 2011 In e na ional Con e ence on Compu e Vision, pages 603–610. IEEE,
2011. Ve página 30.
[72]
Ma hew B own, Richa d Szeliski, and Simon Winde . Mul i-image ma ching using mul i-
scale o ien ed pa ches. In IEEE Compu e Socie y Con e ence on Compu e Vision and Pa e n
Recogni ion (CVPR’05), olume 1, pages 510–517. IEEE, 2005. Ve página 30.
[73]
Se ge Belongie, Ji end a Malik, and Jan Puzicha. Shape ma ching and objec ecogni ion
using shape con ex s. IEEE ansac ions on pa e n analysis and machine in elligence,
24(4):509–522, 2002. Ve páginas 30,35.
[74]
Eli Shech man and Michal I ani. Ma ching local sel -simila i ies ac oss images and ideos.
In 2007 IEEE Con e ence on Compu e Vision and Pa e n Recogni ion, pages 1–8. IEEE, 2007.
Ve página 30.
[75]
Jingneng Liu, Guihua Zeng, and Jianping Fan. Fas local sel -simila i y o desc ibing
in e es egions. Pa e n Recogni ion Le e s, 33(9):1224–1235, 2012. Ve página 30.
[76]
Alexand e Alahi, Raphael O iz, and Pie e Vande gheyns . F eak: Fas e ina keypoin . In
IEEE con e ence on compu e ision and pa e n ecogni ion, pages 510–517. Ieee, 2012. Ve
página 30.
[77]
Li Fei-Fei and Pie o Pe ona. A bayesian hie a chical model o lea ning na u al scene
ca ego ies. In 2005 IEEE Compu e Socie y Con e ence on Compu e Vision and Pa e n
Recogni ion (CVPR’05), olume 2, pages 524–531. IEEE, 2005. Ve página 31.
72
Bibliog a ía
[78]
Ajmal S Mian, Mohammed Bennamoun, and Robyn Owens. Th ee-dimensional model-
based objec ecogni ion and segmen a ion in clu e ed scenes. IEEE ansac ions on pa e n
analysis and machine in elligence, 28(10):1584–1601, 2006. Ve página 31.
[79]
Ka l Pea son. Liii. on lines and planes o closes i o sys ems o poin s in space. The
London, Edinbu gh, and Dublin philosophical magazine and jou nal o science, 2(11):559–572,
1901. Ve página 31.
[80]
Ha old Ho elling. Analysis o a complex o s a is ical a iables in o p incipal componen s.
Jou nal o educa ional psychology, 24(6):417, 1933. Ve página 31.
[81]
Sam T Roweis and Law ence K Saul. Nonlinea dimensionali y educ ion by locally linea
embedding. science, 290(5500):2323–2326, 2000. Ve página 31.
[82]
Aapo Hy ä inen and E kki Oja. Independen componen analysis: algo i hms and applica-
ions. Neu al ne wo ks, 13(4-5):411–430, 2000. Ve página 31.
[83]
Co inna Co es and Vladimi Vapnik. Suppo - ec o ne wo ks. Machine lea ning,
20(3):273–297, 1995. Ve página 32.
[84]
Ryan Ri kin and Aldeba o Klau au. In de ense o one- s-all classi ica ion. The Jou nal o
Machine Lea ning Resea ch, 5:101–141, 2004. Ve página 34.
[85]
S e an Kne , Léon Pe sonnaz, and Gé a d D ey us. Single-laye lea ning e isi ed: a
s epwise p ocedu e o building and aining a neu al ne wo k. In Neu ocompu ing:
algo i hms, a chi ec u es and applica ions, pages 41–50. Sp inge , 1990. Ve página 34.
[86] Leo B eiman. Bagging p edic o s. Machine lea ning, 24:123–140, 1996. Ve página 34.
[87]
Robe E Schapi e. A b ie in oduc ion o boos ing. In Ijcai, olume 99, pages 1401–1406,
1999. Ve página 34.
[88]
Da id H Wolpe . S acked gene aliza ion. Neu al ne wo ks, 5(2):241–259, 1992. Ve página
34.
[89]
A i ayap on Roja a h, Wa a a Songpan, and Chak i Pong-inwong. Imp o ed ensemble
lea ning o classi ica ion echniques based on majo i y o ing. In 2016 7 h IEEE in e na-
ional con e ence on so wa e enginee ing and se ice science (ICSESS), pages 107–110. IEEE,
2016. Ve página 34.
[90]
E ic B achmann, Alexande K ull, F ank Michel, S e an Gumhold, Jamie Sho on, and
Ca s en Ro he . Lea ning 6d objec pose es ima ion using 3d objec coo dina es. In
Compu e Vision – ECCV 2014, pages 536–551. Sp inge , 2014. Ve página 35.
[91]
Alykhan Tejani, Danhang Tang, Rigas Kouskou idas, and Tae-Kyun Kim. La en -class
hough o es s o 3d objec de ec ion and pose es ima ion. In Compu e Vision–ECCV 2014:
13 h Eu opean Con e ence, Zu ich, Swi ze land, pages 462–477. Sp inge , 2014. Ve páginas
35,46.
[92]
Ujwal Bonde, Vijay Bad ina ayanan, and Robe o Cipolla. Robus ins ance ecogni ion
in p esence o occlusion and clu e . In Compu e Vision – ECCV 2014, pages 520–535.
Sp inge , 2014. Ve página 35.
73
Bibliog a ía
[93]
And ew E Johnson and Ma ial Hebe . Using spin images o e icien objec ecogni ion
in clu e ed 3d scenes. IEEE T ansac ions on pa e n analysis and machine in elligence,
21(5):433–449, 1999. Ve página 35.
[94]
Radu Bogdan Rusu, Zol an Csaba Ma on, Nico Blodow, and Michael Bee z. Pe sis en
poin ea u e his og ams o 3d poin clouds. In 10 h In e na ional Con e ence on In elligen
Au onomous Sys ems (IAS-10), Baden-Baden, Ge many, pages 119–128, 2008. Ve página 35.
[95]
Radu Bogdan Rusu, Nico Blodow, and Michael Bee z. Fas poin ea u e his og ams ( p h)
o 3d egis a ion. In IEEE in e na ional con e ence on obo ics and au oma ion, pages
3212–3217. IEEE, 2009. Ve página 35.
[96]
Zol an-Csaba Ma on, Dejan Pange cic, Nico Blodow, Jona han Kleinehelle o , and Michael
Bee z. Gene al 3d modelling o no el objec s om a single iew. In 2010 IEEE/RSJ
In e na ional Con e ence on In elligen Robo s and Sys ems, pages 3700–3705. IEEE, 2010.
Ve página 35.
[97]
And ea F ome, Daniel Hube , Ra i Kollu i, Thomas Bülow, and Ji end a Malik. Recognizing
objec s in ange da a using egional poin desc ip o s. In Compu e Vision-ECCV 2004: 8 h
Eu opean Con e ence on Compu e Vision, P ague, Czech Republic, pages 224–237. Sp inge ,
2004. Ve página 35.
[98]
Fede ico Tomba i, Samuele Sal i, and Luigi Di S e ano. Unique shape con ex o 3d da a
desc ip ion. In ACM wo kshop on 3D objec e ie al, pages 57–62, 2010. Ve página 36.
[99]
Samuele Sal i, Fede ico Tomba i, and Luigi Di S e ano. Sho : Unique signa u es o his-
og ams o su ace and ex u e desc ip ion. Compu e Vision and Image Unde s anding,
125:251–264, 2014. Ve página 36.
[100]
Be am D os , Ma kus Ul ich, Nassi Na ab, and Slobodan Ilic. Model globally, ma ch
locally: E icien and obus 3d objec ecogni ion. In 2010 IEEE compu e socie y con e ence
on compu e ision and pa e n ecogni ion, pages 998–1005. Ieee, 2010. Ve página 36.
[101]
Paul J. Besl and Neil D. McKay. Me hod o egis a ion o 3-D shapes. In Paul S. Schenke ,
edi o , Senso Fusion IV: Con ol Pa adigms and Da a S uc u es, olume 1611, pages 586 –
606. In e na ional Socie y o Op ics and Pho onics, SPIE, 1992. Ve página 36.
[102]
Radu Bogdan Rusu and S e e Cousins. 3D is he e: Poin Cloud Lib a y (PCL). In IEEE
In e na ional Con e ence on Robo ics and Au oma ion (ICRA), Shanghai, China, May 9-13
2011. IEEE. Ve página 36.
[103]
Michael Kass, And ew Wi kin, and Deme i Te zopoulos. Snakes: Ac i e con ou models.
In e na ional jou nal o compu e ision, 1(4):321–331, 1988. Ve página 36.
[104]
Daniel P Hu enloche , G ego y A. Klande man, and William J Rucklidge. Compa ing
images using he hausdo dis ance. IEEE T ansac ions on pa e n analysis and machine
in elligence, 15(9):850–863, 1993. Ve página 36.
[105]
Ca s en S ege . Simila i y measu es o occlusion, clu e , and illumina ion in a ian
objec ecogni ion. In Pa e n Recogni ion: 23 d DAGM Symposium Munich, Ge many, pages
148–154. Sp inge , 2001. Ve página 36.
74
Bibliog a ía
[106]
S e an Hin e s oisse , Vincen Lepe i , Slobodan Ilic, Pascal Fua, and Nassi Na ab. Domi-
nan o ien a ion empla es o eal- ime de ec ion o ex u e-less objec s. In IEEE Compu e
Socie y Con e ence on Compu e Vision and Pa e n Recogni ion, pages 2257–2264. IEEE,
2010. Ve página 36.
[107]
S e an Hin e s oisse , Ced ic Cagnia , Slobodan Ilic, Pe e S u m, Nassi Na ab, Pascal
Fua, and Vincen Lepe i . G adien esponse maps o eal- ime de ec ion o ex u eless
objec s. IEEE ansac ions on pa e n analysis and machine in elligence, 34(5):876–888, 2011.
Ve página 36.
[108]
S e an Hin e s oisse , S e an Holze , Ced ic Cagnia , Slobodan Ilic, Ku Konolige, Nassi
Na ab, and Vincen Lepe i . Mul imodal empla es o eal- ime de ec ion o ex u e-less
objec s in hea ily clu e ed scenes. In In e na ional con e ence on compu e ision, pages
858–865. IEEE, 2011. Ve página 36.
[109]
S e an Hin e s oisse , Vincen Lepe i , Slobodan Ilic, S e an Holze , Ga y B adski, Ku
Konolige, and Nassi Na ab. Model based aining, de ec ion and pose es ima ion o
ex u e-less 3d objec s in hea ily clu e ed scenes. In Asian con e ence on compu e ision,
pages 548–562. Sp inge , 2013. Ve página 36.
[110]
Reyes Rios-Cab e a and Tinne Tuy elaa s. Disc imina i ely ained empla es o 3d objec
de ec ion: A eal ime scalable app oach. In IEEE in e na ional con e ence on compu e
ision, pages 2048–2055, 2013. Ve página 36.
[111]
Paul Wohlha and Vincen Lepe i . Lea ning desc ip o s o objec ecogni ion and 3d
pose es ima ion. In IEEE con e ence on compu e ision and pa e n ecogni ion, pages
3109–3118, 2015. Ve página 36.
[112]
Wa en S McCulloch and Wal e Pi s. A logical calculus o he ideas immanen in ne ous
ac i i y. The bulle in o ma hema ical biophysics, 5:115–133, 1943. Ve página 36.
[113]
F ank Rosenbla . The pe cep on: a p obabilis ic model o in o ma ion s o age and
o ganiza ion in he b ain. Psychological e iew, 65(6):386, 1958. Ve página 36.
[114]
Jia Deng, Wei Dong, Richa d Soche , Li-Jia Li, Kai Li, and Li Fei-Fei. Imagene : A la ge-scale
hie a chical image da abase. In IEEE con e ence on compu e ision and pa e n ecogni ion,
pages 248–255. Ieee, 2009. Ve páginas 37,54.
[115]
Olga Russako sky, Jia Deng, Hao Su, Jona han K ause, Sanjee Sa heesh, Sean Ma, Zhiheng
Huang, And ej Ka pa hy, Adi ya Khosla, Michael Be ns ein, e al. Imagene la ge scale
isual ecogni ion challenge. In e na ional jou nal o compu e ision, 115(3):211–252, 2015.
Ve página 37.
[116]
And eas Kamila is and F ancesc X P ena e a-Boldú. Deep lea ning in ag icul u e: A su ey.
Compu e s and elec onics in ag icul u e, 147:70–90, 2018. Ve página 37.
[117]
Juan Izquie do Tomás. Reliabili y enginee ing ad ancemen s o enhance lee asse mana-
gemen in se ice-o ien ed business models. 2020. Ve página 37.
[118]
F ancesco Piccialli, Vi o io Di Somma, Fabio Giampaolo, Sal a o e Cuomo, and Gianca lo
Fo ino. A su ey on deep lea ning in medicine: Why, how and when? In o ma ion Fusion,
66:111–137, 2021. Ve página 37.
75
Bibliog a ía
[197]
Tomáš Hodaň, Pa el Haluza, Š ěpán Obd žálek, Jiří Ma as, Manolis Lou akis, and Xenophon
Zabulis. T-LESS: An RGB-D da ase o 6D pose es ima ion o ex u e-less objec s. IEEE
Win e Con e ence on Applica ions o Compu e Vision (WACV), 2017. Ve página 46.
[198]
Be am D os , Ma kus Ul ich, Paul Be gmann, Philipp Ha inge , and Ca s en S ege .
In oducing m ec i odd-a da ase o 3d objec ecogni ion in indus y. In IEEE in e na ional
con e ence on compu e ision wo kshops, pages 2200–2208, 2017. Ve página 46.
[199]
Roman Kaskman, Se gey Zakha o , I an Shugu o , and Slobodan Ilic. Homeb eweddb:
Rgb-d da ase o 6d pose es ima ion o 3d objec s. In IEEE/CVF In e na ional Con e ence
on Compu e Vision Wo kshops, pages 0–0, 2019. Ve página 46.
[200]
Be k Calli, A jun Singh, Aa on Walsman, Siddha ha S ini asa, Pie e Abbeel, and Aa on M
Dolla . The ycb objec and model se : Towa ds common benchma ks o manipula ion
esea ch. In 2015 in e na ional con e ence on ad anced obo ics (ICAR), pages 510–517. IEEE,
2015. Ve página 46.
[201]
Colin Rennie, Rahul Shome, Kos as E Bek is, and Albe o F De Souza. A da ase o
imp o ed gbd-based objec de ec ion and pose es ima ion o wa ehouse pick-and-place.
IEEE Robo ics and Au oma ion Le e s, 1(2):1179–1185, 2016. Ve página 46.
[202]
And eas Doumanoglou, Rigas Kouskou idas, So i is Malassio is, and Tae-Kyun Kim. Reco-
e ing 6d objec pose and p edic ing nex -bes - iew in he c owd. In IEEE con e ence on
compu e ision and pa e n ecogni ion, pages 3583–3592, 2016. Ve página 46.
[203]
Tomáš Hodaň, Jiří Ma as, and Š ěpán Obd žálek. On e alua ion o 6d objec pose es ima ion.
In Compu e Vision–ECCV 2016, pages 606–619. Sp inge , 2016. Ve página 46.
[204]
E ic B achmann, F ank Michel, Alexande K ull, Michael Ying Yang, S e an Gumhold, and
Ca s en Ro he . Unce ain y-d i en 6d pose es ima ion o objec s and scenes om a single
gb image. In IEEE con e ence on compu e ision and pa e n ecogni ion, pages 3364–3372,
2016. Ve página 46.
[205]
Celso M de Melo, An onio To alba, Leonidas Guibas, James DiCa lo, Rama Chellappa,
and Jessica Hodgins. Nex -gene a ion deep lea ning based on simula o s and syn he ic
da a. T ends in cogni i e sciences, 2021. Ve página 46.
[206] John K Haas. A his o y o he uni y game engine. 2014. Ve página 46.
[207] Epic Games. Un eal engine. Ve páginas 46,55.
[208]
Thang To, Jona han T emblay, Duncan McKay, Yukie Yamaguchi, Ki by Leung, Ad ian
Balanon, Jia Cheng, William Hodge, and S an Bi ch ield. NDDS: NVIDIA deep lea ning
da ase syn hesize , 2018.
h ps://gi hub.com/NVIDIA/Da ase _Syn hesize
. Ve
páginas 46,55.
[209] Un eal g . h ps://un ealg .gi hub.io/. Accessed: 2022-12-20. Ve página 46.
[210]
James Fo An hony Na a o. Supe cha ge you compu e ision models wi h syn -
he ic da ase s buil by uni y.
h ps://blog.uni y.com/ echnology/supe cha ge-
you -compu e - ision-models-wi h-syn he ic-da ase s-buil -by-uni y
, 2021.
Accessed: 2023-01-24. Ve página 46.
82
Bibliog a ía
[211]
N idia. N idia omni e se.
h ps://www.n idia.com/es-es/omni e se/
, 2021. Acces-
sed: 2023-01-26. Ve página 47.
[212]
N idia. N idia isaac sim.
h ps://de elope .n idia.com/isaac-sim
, 2021. Accessed:
2023-01-26. Ve página 47.
[213]
Blende Online Communi y. Blende - a 3D modelling and ende ing package. Blende
Founda ion, S ich ing Blende Founda ion, Ams e dam, 2018. Ve páginas 47,56.
[214]
Maximilian Denninge , Ma in Sunde meye , Dominik Winkelbaue , Yousse Zidan, Dmi y
Ole i , Mohamad Elbad awy, Ahsan Lodhi, and Ha inandan Ka am. Blende p oc. a Xi
p ep in a Xi :1911.01911, 2019. Ve páginas 47,56.
[215]
Angel X. Chang, Thomas Funkhouse , Leonidas Guibas, Pa Han ahan, Qixing Huang, Zimo
Li, Sil io Sa a ese, Manolis Sa a, Shu an Song, Hao Su, Jianxiong Xiao, Li Yi, and Fishe Yu.
ShapeNe : An In o ma ion-Rich 3D Model Reposi o y. Technical Repo a Xi :1512.03012
[cs.GR], S an o d Uni e si y — P ince on Uni e si y — Toyo a Technological Ins i u e a
Chicago, 2015. Ve página 47.
[216]
Ibon Me ino, Jon Azpiazu, An hony Remazeilles, and Basilio Sie a. 2d ea u es-based
de ec o and desc ip o selec ion sys em o hie a chical ecogni ion o indus ial pa s.
in e na ional Jou nal o A i icial In elligence and Applica ions (IJAIA), 10:1–13, 2019. Ve
páginas 49,51, and 52.
[217]
Ibon Me ino, Jon Azpiazu, An hony Remazeilles, and Basilio Sie a. 2d image ea u es
de ec o and desc ip o selec ion expe sys em. a Xi p ep in a Xi :2006.02933, 2020. Ve
páginas 49,51, and 52.
[218]
Ibon Me ino, Jon Azpiazu, An hony Remazeilles, and Basilio Sie a. His og am-based
desc ip o subse selec ion o isual ecogni ion o indus ial pa s. Applied Sciences,
10(11):3701, 2020. Ve páginas 50,52.
[219]
Jose Luis Ou ón, Ibon Me ino, I án Villa e de, Ai o Iba gu en, Héc o He e o, Paul
Daelman, and Basilio Sie a. A eal applica ion o an au onomous indus ial mobile
manipula o wi hin indus ial con ex . Elec onics, 10(11):1276, 2021. Ve página 50.
[220]
Ibon Me ino, Jon Azpiazu, An hony Remazeilles, and Basilio Sie a. 3d con olu ional neu al
ne wo ks ini ialized om p e ained 2d con olu ional neu al ne wo ks o classi ica ion
o indus ial pa s. Senso s, 21(4):1078, 2021. Ve páginas 50,52,53, and 55.
[221]
Ibon Me ino, Jon Azpiazu, An hony Remazeilles, and Basilio Sie a. Ensemble o 6 do
pose es ima ion om s a e-o - he-a deep me hods. Neu ocompu ing, page 126270, 2023.
Ve páginas 50,56, and 58.
[222]
Me yn S one. C oss- alida o y choice and assessmen o s a is ical p edic ions. Jou nal
o he oyal s a is ical socie y: Se ies B (Me hodological), 36(2):111–133, 1974. Ve página 51.
[223]
Sudhi Va ma and Richa d Simon. Bias in e o es ima ion when using c oss- alida ion
o model selec ion. BMC bioin o ma ics, 7(1):1–8, 2006. Ve página 51.
[224]
F ançois Cholle . Xcep ion: Deep lea ning wi h dep hwise sepa able con olu ions. In IEEE
con e ence on compu e ision and pa e n ecogni ion, pages 1251–1258, 2017. Ve página
52.
83
Bibliog a ía
[225]
Ia osla Melekho , Juho Kannala, and Esa Rah u. Siamese ne wo k ea u es o image
ma ching. In 2016 23 d in e na ional con e ence on pa e n ecogni ion (ICPR), pages 378–383.
IEEE, 2016. Ve página 52.
[226]
Cha les R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. Poin ne : Deep lea ning on
poin se s o 3d classi ica ion and segmen a ion. In IEEE con e ence on compu e ision
and pa e n ecogni ion, pages 652–660, 2017. Ve página 54.
[227]
Ken a o Wada. labelme: Image polygonal anno a ion wi h py hon.
h ps://gi hub.com/
wken a o/labelme, 2018. Ve página 55.
[228]
Bo is Sekache , Niki a Mano ich, Maxim Zhil so , And ey Zha o onko , Dmi y Kalinin,
Ben Ho , TOsmano , Dmi y K uchinin, A yom Zanke ich, Dmi iySidne , Maksim Ma -
kelo , Johannes222, Ma his Chenue , a and e, elenachos, Aleksand Melniko , Jijoong Kim,
Li on Ilouz, Niki a Glazo , P iya4607, Rush Teh ani, Seungwon Jeong, Vladimi Skub ie ,
Sebas ian Yoneku a, ugia uong, zliang7, lizhming, and T i in T uong. openc /c a :
1.1.0, Augus 2020. Ve página 55.
[229]
Maxim Tkachenko, Mikhail Malyuk, And ey Holmanyuk, and Nikolai Liubimo . La-
bel S udio: Da a labeling so wa e, 2020-2022. Open sou ce so wa e a ailable om
h ps://gi hub.com/hea exlabs/label-s udio. Ve página 55.
[230] Cloudcompa e. h ps://www.danielgm.ne /cc/. Accedido: 21-12-2022. Ve página 55.
[231]
Tomáš Hodaň, Ma in Sunde meye , Be am D os , Yann Labbé, E ic B achmann, F ank
Michel, Ca s en Ro he , and Jiří Ma as. BOP challenge 2020 on 6D objec localiza ion.
Eu opean Con e ence on Compu e Vision Wo kshops (ECCVW), 2020. Ve página 56.
[232]
Ben Poole, Ajay Jain, Jona han T. Ba on, and Ben Mildenhall. D eam usion: Tex - o-3d
using 2d di usion. a Xi , 2022. Ve página 64.
[233]
Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang,
Ka s en K eis, Sanja Fidle , Ming-Yu Liu, and Tsung-Yi Lin. Magic3d: High- esolu ion
ex - o-3d con en c ea ion. In IEEE Con e ence on Compu e Vision and Pa e n Recogni ion
(CVPR), 2023. Ve página 64.
[234]
Ruoshi Liu, Rundi Wu, Basile Van Hoo ick, Pa el Tokmako , Se gey Zakha o , and Ca l
Vond ick. Ze o-1- o-3: Ze o-sho one image o 3d objec , 2023. Ve página 64.
[235]
Ben Mildenhall, P a ul P. S ini asan, Ma hew Tancik, Jona han T. Ba on, Ra i Rama-
moo hi, and Ren Ng. Ne : Rep esen ing scenes as neu al adiance ields o iew syn hesis.
Communica ions o he ACM, 65(1):99–106, dec 2021. Ve página 65.
84
Pa e II
Publicaciones ob enidas
85
CAPÍTULO 5
2d Image Fea u es De ec o
and Desc ip o Selec ion
Expe Sys em
Tí ulo: 2d Image Fea u es De ec o and Desc ip o Selec ion Expe Sys em
Au o es: I. Me ino, J. Azpiazu, A. Remazeilles, B. Sie a
Con e encia: Compu e Science & In o ma ion Technology (CS & IT)
Edi o : AIRCC Publishing Co po a ion
DOI: 10.5121/csi .2019.91206
Año: 2019
Cua il (Scima-
go/WoS):
-/-
87
2D IMAGE FEATURES DETECTOR AND
DESCRIPTOR SELECTION EXPERT SYSTEM
Ibon Me ino1, Jon Azpiazu1, An hony Remazeilles1, and Basilio Sie a2
1Indus y and T anspo , Tecnalia Resea ch and Inno a ion, Donos ia-San
Sebas ian, Spain
{ibon.me ino, jon.azpiazu, an hony. emazeilles}@ ecnalia.com
2Compu e Science and A i icial In elligence, Uni e si y o he Basque Coun y
UPV/EHU, Donos ia-San Sebas ian, Spain
b[email p o ec ed]
ABSTRACT
De ec ion and desc ip ion o keypoin s om an image is a well-s udied p oblem in Compu e Vision. Some
me hods like SIFT, SURF o ORB a e compu a ionally eally e icien . This pape p oposes a solu ion o
a pa icula case s udy on objec ecogni ion o indus ial pa s based on hie a chical classi ica ion. Re-
ducing he numbe o ins ances leads o be e pe o mance, indeed, ha is wha he use o he hie a chical
classi ica ion is looking o . We demons a e ha his me hod pe o ms be e han using jus one me hod
like ORB, SIFT o FREAK, despi e being ai ly slowe .
KEYWORDS
Compu e ision, Desc ip o s, Fea u e-based objec ecogni ion, Expe sys em
1. INTRODUCTION
Objec ecogni ion is an impo an b anch o compu e ision. I s main idea is o ex ac impo an
da a o ea u es om images in o de o ecognize which objec is p esen on i . Many di e en
echniques a e used in o de o achie e his. In ecen compu e ision li e a u e, i has been a
widely sp ead endency o use deep lea ning due o hei bene i s h owing ou many echniques
o p e ious li e a u e ha , ac ually, ha e a good pe o mance in many cases. Ou aim is o eco e
hose echniques in o de o boos hem and inc ease hei pe o mance o use hei bene i s ha
neu al ne wo ks may no ha e.
The classical me hods in compu e ision a e based in pu e ma hema ical ope a ions we e images
a e used as ma ices. These me hods look o g adien changes, pa e ns... and y o ind simi-
la i ies in di e en images o build a machine lea ning model o y o p edic he objec s ha a e
p esen in he image.
Ou use case is he indus ial a ea we e many simila pa s a e o be ecognized. Those pa s a y
a lo om one o ano he ( ex u es, size, colo , e lec ions,...) so an expe is needed o choosing
which me hod is be e o ecognizing he objec s. We p opose a me hod ha simula es he expe
ole. This is achie ed lea ning a model ha classi ies he objec s in g oups ha beha e simila ly
o di e en ecogni ion me hods. This leads o a hie a chical classi ica ion ha i s classi ies he
objec o be ecognized in one o he p e iously ob ained g oups and inside he g oup he me hod
ha wo ks be e in ha g oup is used o ecognize he objec .
The pape is o ganized as ollows. In Sec ion 2 we p esen a s a e o a o he mos used 2D
ea u e-based me hods, including de ec o s, desc ip o s and ma che s. The pu pose o Sec ion 3
is o p esen he me hod ha we p opose and how we e alua e i . The expe imen s done and hei
Na a ajan Meghana han e al. (Eds) : NLP, ARIA, JSE, DMS, ITCS - 2019
pp. 51-61, 2019. © CS & IT-CSCP 2019 DOI: 10.5121/csi .2019.91206
5. 2d Image Fea u es De ec o and Desc ip o Selec ion Expe Sys em
88
esul s a e shown in sec ion 4. Sec ion 5 summa izes he conclusions ha can be d awn om ou
wo k.
2. BACKGROUND
The e a e se e al me hods o objec ecogni ion. In ou case, we ha e ocused on ea u e-based
me hods. These me hods look o poin s o in e es o he images (de ec o s), y o desc ibe hem
(desc ip o s) and ma ch hem (ma che s). The combina ion o di e en de ec o s, desc ip o s and
ma che s a y he pe omance o he whole sys em. This is a as g owing a ea in image p ocessing
ield. The ollowing sho and ch onologically o de ed e iew p esen s he g adual imp o emen s
in ea u e de ec ion (Subsec ion 2.1), desc ip ion (Subsec ion 2.2) and ma ching (Subsec ion 2.3).
2.1. 2D ea u es de ec o s
One o he mos used me hods was p oposed in 1999 by Lowe [13]. This me hod is called SIFT,
which s ands o Scale In a ian Fea u e T ans o m. The main idea is o use he Di e ence-o -
Gaussian unc ion (a close app oxima ion o he Laplacian-o -Gaussian p oposed by Lowe) o
sea ch o ex ema in he scale space. E en i SIFT was ela i ely as , a new me hod, SURF
(Speeded Up Robus Fea u es) [3], ou pe o ms i in e ms o epea abili y, dis inc i eness and
obus ness, al hough i can be compu ed and compa ed much as e .
In addi ion, FAST (Fea u es om Accele a ed Segmen Tes ) [24] p oposed by Ros en and D um-
mond in oduce a as de ec o . FAST ou pe o ms p e ious algo i hms (like SURF and SIFT) in
bo h compu a ional pe o mance and epea abili y. AGAST [16] is based on he FAST, bu i is
mo e e icien as well as gene ic. BRISK [11] is a no el me hod o keypoin de ec ion, desc ip-
ion and ma ching which has a low compu a ional cos (as s a ed in he co esponding a icle, an
o de o magni ude as e han SURF in some cases). Following he same line o FAST based
mehods, we ind ORB Rublee e al. [25], an e icien al e na i e o SIFT o SURF. This me hod’s
de ec o is based on FAST bu i adds o ien a ion in o de o ob ain be e esul s. In ac , his
me hod pe o ms a wo o de s o magni ude as e han SIFT, in many si ua ions.
2.2. 2D ea u es desc ip o s
Lowe also p oposed a desc ip o called SIFT. As men ioned abo e, is one o he mos popula
ea u e de ec o and desc ip o . The desc ip o is a posi ion-dependen his og am o local image
g adien di ec ions a ound he in e es poin and is also scale in a ian . I has nume ous ex ensions
such as PCA-SIFT [9], ha mixes PCA wi h SIFT; CSIFT [1], Colo in a ian SIFT; GLOH [17];
DAISY [26], a dense desc ip o inspi ed in SIFT and GLOH; and so on. SURF desc ip o [3]
elies on in eg al images o image con olu ions in o de o ob ain i s speed.
BRIEF [4] is a highly disc imina i e ea u e desc ip o ha is as bo h o build and o ma ch.
BRISK [11] desc ip o is composed as a bina y s ing by conca ena ing he esul s o simple
b igh ness compa ison es s. ORB desc ip o is BRIEF-based and adds o a ion in a iance and
esis ance o noise.
LBP (Local Bina y Pa e ns) [21] is a wo-le el e sion o he ex u e spec um me hod [27]. This
me hods has been eally popula and many de i a i es has been p oposed. Based on his, he CS-
LBP (Cen e -Symme ic Local Bina y Pa e n) [7] combines he s eng hs o SIFT and LBP. La e
in 2010, he LTP (Local Te na y Pa e n) [12] appea ed, a gene aliza ion o he LBP ha is mo e
disc iminan and less sensi i e o noise in uni o m egions. Same yea , ELTP (Ex ended local
e na y pa e n) [20] imp o ed his by a emp ing o s ike a balance by using a clus e ing me hod
o g oup he pa e ns in a meaning ul way. In 2012, LT P (Local Te a Pa e ns) [19] encoded
he ela ionship be ween he e e enced pixel and i s neighbo s, based on he di ec ions ha a e
Compu e Science & In o ma ion Technology (CS & IT)
52
89
calcula ed using he i s -o de de i a i es in e ical and ho izon al di ec ions. In [22] he e a e
ga he ed o he me hods ha a e based on he LBP.
O he desc ip o called FREAK [2] is a keypoin desc ip o inspi ed by he human isual sys em
and mo e p ecisely he e ina. I is as e , usess less memo y and mo e obus han SIFT, SURF and
BRISK. They a e hus compe i i e al e na i es o exis ing desc ip o s in pa icula o embedded
applica ions.
2.3. Ma che s
The mos widely used me hod o ma ching is Nea es Neighbo (NN). Many algo i hms ollow
his me hod. One o he mos used is he kd- ee [23] which wo ks well wi h low dimensionali y.
Fo dealing wi h highe dimensionali ies many esea che s ha e p oposed di e se me hods such
as he App oxima e Nea es Neighbo (ANN) by Indyk and Mo wani [8] o he Fas App oxima e
Nea es Neighbo s o Muja and Lowe [18] which is implemen ed in he well known open sou ce
lib a y FLANN (Fas Lib a y o App oxima e Nea es Neighbo s).
3. PROPOSED APPROACH
As we ha e s a ed be o e, he issue we a e dealing wi h is he ecogni ion o indus ial pa s
o pick-and-placing. The main p oblem is ha he accu a e ecogni ion o some kind o pa s
a e highly dependan on he ecogni ion pipeline used. This is because pa s’ cha ac e is ics
like ex u e (p esence o absence), o ms, colo s, b igh ness; make some de ec o s o desc ip o s
wo k di e en ly. We a e hus p oposing a sys ema ic app oach o selec ing he bes ecogni ion
pipeline o a gi en objec (Subsec ion 3.2). We also p opose in Subsec ion 3.3 an expe sys em
ha iden i ies g oups o pa s ha a e ecognized simila ly o imp o e he o e all accu acy. The
ecogni ion pipeline is explained in Subsec ion 3.1.
We s a de ining some no a ions. An indus ial pa , o objec , is named ins ance. The images
cap u ed o each pa a e named iews. Gi en he se o iews X, he se o ins ance labels Y
and he se o ecogni ion pipelines Ψ, he unc ion ωΨ
X,Y (y) e u ns o each y∈Y he bes
pipeline ψ∗ ∈ Ψacco ding o a me ic F1 ha is la e discussed. We call ψ∗∗ o he pipeline ha
on a e age pe o ms be e acco ding o he e alua ion me ic, his is, ha maximizes he a e age
o he sco es pe ins ance (2).
ωΨ
X,Y (y) = a gmax
ψ∈Ψ
F1ψ
y(X, Y ) = ψ∗(1)
ψ∗∗ = a gmax
ψ∈Ψ
X
y∈Y
F1ψ
y(X, Y )
|Y|(2)
3.1. Recogni ion Pipeline
A ecogni ion pipeline Ψis composed o 3 s eps: de ec ion, desc ip ion and ma ching. De ec-
o s, Γ, localize in e es ing keypoin s in he iew (g adien changes, changes in illumina ion,...).
Desc ip o s, Φ, a e used o ep esen hose keypoin s in o de o loca e hem in o he iews.
Ma che s, Ω, ind he closes ea u es be ween iews. So, a pipeline ψis composed by a keypoin
de ec o γ, a ea u e desc ip o φand a ma che ω. Figu e 1 shows he s uc u e o he ecogni ion
pipeline.
The keypoin s de ec ion and desc ip ion a e desc ibed p e iously in he backg ound sec ion. In
he ma ching, a e wo g oups o ea u es: he ones ha o m he model ( ain) and he ones ha
Compu e Science & In o ma ion Technology (CS & IT) 53
5. 2d Image Fea u es De ec o and Desc ip o Selec ion Expe Sys em
90
FLANN
B u e o ce L2
B u e o ce Hamming
e c
Ha is
SIFT
ORB
e c
Images ( iews) Keypoin s de ec o Keypoin s Fea u es desc ip o Fea u es
Ha is
SIFT
ORB
e c
Ha is
SIFT
ORB
e c
Ha is
SIFT
ORB
e c
SIFT
ORB
FREAK
e c
SIFT
ORB
FREAK
e c
SIFT
ORB
FREAK
e c
SIFT
ORB
FREAK
e c
Tes
T ain
Pa
0
Pa
1
Pa
2
Pa
¿?
Ma ching Resul
Pa y
Figu e 1: Recogni ion pipeline
need o be ecognized ( es ). Di e en kind o me hods could be used o ma ch ea u es, bu ,
mainly, dis ance based echniques a e used. This echniques make use o di e en dis ances (L2,
hamming,...) o ind he closes ea u e o he one ha needs o be labeled. Those wo ea u es
( he es ea u e and he closes o his one) a e conside ed a ma ch. In o de o disca d ambiguous
ea u es, we use he Lowe’s a io es [14] o de ine whe he wo ea u es a e a ”good ma ch”.
Assuming is he ea u e o be ecognized, and l1and l2i s wo closes ea u es om he
model, hen ( , l1) is a good ma ch i :
d( , l1)
d( , l2)< (3)
whe e d( A, B)is he dis ance (L2, Hamming,...) be ween ea u es A and B, and is a h eshold
ha is used o alida e i wo ea u es a e simila ly close o he es ea u e and disca d i . This
h eshold is se a 0.8. Now a simple o ing sys em is used o labeling he iew. Fo each iew
om he model ( ain) he numbe o good ma ches a e coun ed. The good ma ches o each
ins ances a e summed and he es iew is labeled as he ins ance wi h mo e good ma ches.
3.2. Recogni ion E alua ion
As we ha e said, we ha e he inpu iews X, he ins ance labels Yand he pipelines Ψ. To
e alua e he pipelines we ha e o sepa a e he iews in ain and es . The e alua ion me hod
used o i is Lea e-One-Ou C oss-Valida ion (LOOCV) [10]. I consis s o |X|i e a ions, ha
o each i e a ion i, he ain da ase is (X−xi)and he es sample is xi. Wi h his sepa a ion
ain- es we can gene a e he con usion ma ix. Table 1 is an example o a con usion ma ix o 3
ins ances.
As men ioned in he in oduc ion o Sec ion 3, we use he me ic F1 alue [6] o sco ing he
pe o mance o he sys em. The sco e is calcula ed o he es s iews om he LOOCV. F1
sco e, o alue, is calcula ed pe each ins ance (4). This me ic is an ha monic mean be ween he
Compu e Science & In o ma ion Technology (CS & IT)
54
91
a ian ex u e desc ip o o classi ying pain s a es. Expe Sys ems wi h Applica ions, 37
(12):7888–7894, 2010.
[21] T. Ojala, M. Pie ikinen, and D. Ha wood. A compa a i e s udy o ex u e measu es wi h
classi ica ion based on ea u ed dis ibu ions. Pa e n Recogni ion, 29(1):51–59, Janua y
1996.
[22] M. Pie ikinen, A. Hadid, G. Zhao, and T. Ahonen. Local Bina y Pa e ns o S ill Images.
In Compu e Vision Using Local Bina y Pa e ns, Compu a ional Imaging and Vision, pages
13–47. Sp inge London, 2011.
[23] John T. Robinson. The k-d-b- ee: A sea ch s uc u e o la ge mul idimensional dynamic in-
dexes. In P oceedings o he 1981 ACM SIGMOD In e na ional Con e ence on Managemen
o Da a, SIGMOD ’81, pages 10–18, 1981.
[24] E. Ros en and T. D ummond. Fusing poin s and lines o high pe o mance acking. In Ten h
IEEE In e na ional Con e ence on Compu e Vision (ICCV’05) Volume 1, pages 1508–1515
Vol. 2. IEEE, 2005.
[25] E. Rublee, V. Rabaud, K. Konolige, and G. B adski. ORB: An e icien al e na i e o SIFT o
SURF. In 2011 In e na ional Con e ence on Compu e Vision, pages 2564–2571, No embe
2011.
[26] E. Tola, V. Lepe i , and P. Fua. DAISY: An E icien Dense Desc ip o Applied o Wide-
Baseline S e eo. IEEE T ansac ions on Pa e n Analysis and Machine In elligence, 32(5):
815–830, May 2010.
[27] L. Wang and D.C. He. Tex u e classi ica ion using ex u e spec um. Pa e n Recogni ion,
23(8):905–910, 1990.
Compu e Science & In o ma ion Technology (CS & IT) 61
5. 2d Image Fea u es De ec o and Desc ip o Selec ion Expe Sys em
98
CAPÍTULO 6
2D Fea u es-based de ec o and
desc ip o selec ion sys em o
hie a chical ecogni ion o
indus ial pa s
Tí ulo:
2D Fea u es-based de ec o and desc ip o selec ion sys em o hie a -
chical ecogni ion o indus ial pa s
Au o es: I. Me ino, J. Azpiazu, A. Remazeilles, B. Sie a
Re is a: In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA)
Volumen: 10
Núme o: 6
Edi o : AIRCC Publishing Co po a ion
DOI: 10.5121/ijaia.2019.10601
Año: 2019
Cua il (Scima-
go/WoS):
-/-
99
2D FEATURES-BASED DETECTOR AND
DESCRIPTOR SELECTION SYSTEM FOR
HIERARCHICAL RECOGNITION OF INDUSTRIAL
PARTS
Ibon Me ino1, Jon Azpiazu1, An hony Remazeilles1, and Basilio Sie a2
1Indus y and T anspo , Tecnalia Resea ch and Inno a ion, Donos ia-San
Sebas ian, Spain
{ibon.me ino, jon.azpiazu, an hony. emazeilles}@ ecnalia.com
2Compu e Science and A i icial In elligence, Uni e si y o he Basque Coun y
UPV/EHU, Donos ia-San Sebas ian, Spain
b[email p o ec ed]
ABSTRACT
De ec ion and desc ip ion o keypoin s om an image is a well-s udied p oblem in Compu e Vision. Some
me hods like SIFT, SURF o ORB a e compu a ionally eally e icien . This pape p oposes a solu ion o
a pa icula case s udy on objec ecogni ion o indus ial pa s based on hie a chical classi ica ion. Re-
ducing he numbe o ins ances leads o be e pe o mance, indeed, ha is wha he use o he hie a chical
classi ica ion is looking o . We demons a e ha his me hod pe o ms be e han using jus one me hod
like ORB, SIFT o FREAK, despi e being ai ly slowe .
KEYWORDS
Compu e ision, Desc ip o s, Fea u e-based objec ecogni ion, Expe sys em
1. INTRODUCTION
Objec ecogni ion is an impo an b anch o compu e ision. I s main idea is o ex ac impo an
da a o ea u es om images in o de o ecognize which objec is p esen on i . Many di e en
echniques a e used in o de o achie e his. In ecen compu e ision li e a u e, i has been a
widely sp ead endency o use deep lea ning due o hei bene i s h owing ou many echniques
o p e ious li e a u e ha , ac ually, ha e a good pe o mance in many cases. Ou aim is o eco e
hose echniques in o de o boos hem and inc ease hei pe o mance o use hei bene i s ha
neu al ne wo ks may no ha e.
The classical me hods in compu e ision a e based in pu e ma hema ical ope a ions we e images
a e used as ma ices. These me hods look o g adien changes, pa e ns... and y o ind simi-
la i ies in di e en images o build a machine lea ning model o y o p edic he objec s ha a e
p esen in he image.
Ou use case is he indus ial a ea we e many simila pa s a e o be ecognized. Those pa s a y
a lo om one o ano he ( ex u es, size, colo , e lec ions,...) so an expe is needed o choosing
which me hod is be e o ecognizing he objec s. We p opose a me hod ha simula es he expe
ole. This is achie ed lea ning a model ha classi ies he objec s in g oups ha beha e simila ly
o di e en ecogni ion me hods. This leads o a hie a chical classi ica ion ha i s classi ies he
objec o be ecognized in one o he p e iously ob ained g oups and inside he g oup he me hod
ha wo ks be e in ha g oup is used o ecognize he objec .
In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA) Vol.10, No.6, No embe 2019
DOI: 10.5121/ijaia.2019.10601 1
6. 2D Fea u es-based de ec o and desc ip o selec ion sys em o
hie a chical ecogni ion o indus ial pa s
100
The pape is o ganized as ollows. In Sec ion 2 we p esen a s a e o a o he mos used 2D
ea u e-based me hods, including de ec o s, desc ip o s and ma che s. The pu pose o Sec ion 3
is o p esen he me hod ha we p opose and how we e alua e i . The expe imen s done and hei
esul s a e shown in sec ion 4. Sec ion 5 summa izes he conclusions ha can be d awn om ou
wo k.
2. BACKGROUND
The e a e se e al me hods o objec ecogni ion. In ou case, we ha e ocused on ea u e-based
me hods. These me hods look o poin s o in e es o he images (de ec o s), y o desc ibe hem
(desc ip o s) and ma ch hem (ma che s). The combina ion o di e en de ec o s, desc ip o s and
ma che s a y he pe omance o he whole sys em. This is a as g owing a ea in image p ocessing
ield. The ollowing sho and ch onologically o de ed e iew p esen s he g adual imp o emen s
in ea u e de ec ion (Subsec ion 2.1), desc ip ion (Subsec ion 2.2) and ma ching (Subsec ion 2.3).
2.1. 2D ea u es de ec o s
One o he mos used me hods was p oposed in 1999 by Lowe [14]. This me hod is called SIFT,
which s ands o Scale In a ian Fea u e T ans o m. The main idea is o use he Di e ence-o -
Gaussian unc ion (a close app oxima ion o he Laplacian-o -Gaussian p oposed by Lowe) o
sea ch o ex ema in he scale space. E en i SIFT was ela i ely as , a new me hod, SURF
(Speeded Up Robus Fea u es) [3], ou pe o ms i in e ms o epea abili y, dis inc i eness and
obus ness, al hough i can be compu ed and compa ed much as e .
In addi ion, FAST (Fea u es om Accele a ed Segmen Tes ) [25] p oposed by Ros en and D um-
mond in oduce a as de ec o . FAST ou pe o ms p e ious algo i hms (like SURF and SIFT) in
bo h compu a ional pe o mance and epea abili y. AGAST [17] is based on he FAST, bu i is
mo e e icien as well as gene ic. BRISK [12] is a no el me hod o keypoin de ec ion, desc ip-
ion and ma ching which has a low compu a ional cos (as s a ed in he co esponding a icle, an
o de o magni ude as e han SURF in some cases). Following he same line o FAST based
mehods, we ind ORB Rublee e al. [26], an e icien al e na i e o SIFT o SURF. This me hod’s
de ec o is based on FAST bu i adds o ien a ion in o de o ob ain be e esul s. In ac , his
me hod pe o ms a wo o de s o magni ude as e han SIFT, in many si ua ions.
Figu e 1 shows some de ec o s and he ela ion be ween hem ch onologically o de ed.
2.2. 2D ea u es desc ip o s
Lowe also p oposed a desc ip o called SIFT. As men ioned abo e, is one o he mos popula
ea u e de ec o and desc ip o . The desc ip o is a posi ion-dependen his og am o local image
g adien di ec ions a ound he in e es poin and is also scale in a ian . I has nume ous ex ensions
such as PCA-SIFT [10], ha mixes PCA wi h SIFT; CSIFT [1], Colo in a ian SIFT; GLOH
[18]; DAISY [27], a dense desc ip o inspi ed in SIFT and GLOH; and so on. SURF desc ip o
[3] elies on in eg al images o image con olu ions in o de o ob ain i s speed.
BRIEF [4] is a highly disc imina i e ea u e desc ip o ha is as bo h o build and o ma ch.
BRISK [12] desc ip o is composed as a bina y s ing by conca ena ing he esul s o simple
b igh ness compa ison es s. ORB desc ip o is BRIEF-based and adds o a ion in a iance and
esis ance o noise.
LBP (Local Bina y Pa e ns) [22] is a wo-le el e sion o he ex u e spec um me hod [28]. This
me hods has been eally popula and many de i a i es has been p oposed. Based on his, he CS-
LBP (Cen e -Symme ic Local Bina y Pa e n) [8] combines he s eng hs o SIFT and LBP. La e
In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA) Vol.10, No.6, No embe 2019
2
101
Mo a ec
(1976)
Ha is
(1988)
Shi-Tomasi
(1994)
SIFT
(1999)
SURF
(2006)
Hessian
(1998)
Hessian-a fine
(2009)
ORB
(2011)
FAST
(2005)
MSER
(2004)
SUSAN
(1997)
BRISK
(2011)
Gabo -wa ele
(1996)
S ee able fil e s
(1991)
Canny
(1986)
(2001)
Ha is-laplaceHessian-laplace
Ha is-a fine
(2002)
AGAST
(2010)
CenSu E
(2008)
Figu e 1: Recogni ion pipeline
in 2010, he LTP (Local Te na y Pa e n) [13] appea ed, a gene aliza ion o he LBP ha is mo e
disc iminan and less sensi i e o noise in uni o m egions. Same yea , ELTP (Ex ended local
e na y pa e n) [21] imp o ed his by a emp ing o s ike a balance by using a clus e ing me hod
o g oup he pa e ns in a meaning ul way. In 2012, LT P (Local Te a Pa e ns) [20] encoded
he ela ionship be ween he e e enced pixel and i s neighbo s, based on he di ec ions ha a e
calcula ed using he i s -o de de i a i es in e ical and ho izon al di ec ions. In [23] he e a e
ga he ed o he me hods ha a e based on he LBP.
MTS (Modi ied ex u e spec um) p oposed by Xu e al. [29] can be conside ed as a simpli ied
e sion o LBP, whe e only a subse o he pe iphe al pixels (up-le , up, up- igh and igh ) is
conside ed.
The Bina y G adien Con ou s (BGC) [6] is a bina y 8- uple p oposed by Fe nndez e al. The
simple loop o m (BGC1) makes a closed pa h a ound he cen al pixel compu ing a se o eigh
bina y g adien s be ween pai s o pixels.
O he desc ip o called FREAK [2] is a keypoin desc ip o inspi ed by he human isual sys em
and mo e p ecisely he e ina. I is as e , usess less memo y and mo e obus han SIFT, SURF and
BRISK. They a e hus compe i i e al e na i es o exis ing desc ip o s in pa icula o embedded
applica ions.
Figu e 2 shows some de ec o s and he ela ion be ween hem ch onologically o de ed.
2.3. Ma che s
The mos widely used me hod o ma ching is Nea es Neighbo (NN). Many algo i hms ollow
his me hod. One o he mos used is he kd- ee [24] which wo ks well wi h low dimensionali y.
Fo dealing wi h highe dimensionali ies many esea che s ha e p oposed di e se me hods such
as he App oxima e Nea es Neighbo (ANN) by Indyk and Mo wani [9] o he Fas App oxima e
Nea es Neighbo s o Muja and Lowe [19] which is implemen ed in he well known open sou ce
lib a y FLANN (Fas Lib a y o App oxima e Nea es Neighbo s).
In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA) Vol.10, No.6, No embe 2019
3
6. 2D Fea u es-based de ec o and desc ip o selec ion sys em o
hie a chical ecogni ion o indus ial pa s
102
(2011)
LBP
(1995)
SIFT
(1999)
Shape con ex
(2002)
RIFT
(2005)
MOPS
(2005)
HOG
(2005)
SURF
(2006)
LSS
(2007)
CS-LBP
(2009)
DAISY
(2009)
ELTP
(2010)
BRIEF
(2010)
WLD
(2010)
ORB
(2011)
BRISK
(2011)
LIOP
(2011)
De i a ed om LBP
(2011)
MROGHMRRID
LSS, C
(2012)
FLSS, C
(2012)
LT P
(2012)
FREAK
(2012)
HSOG
(2014)
GLOH
(2005)
PCA-SIFT
(2004)
LTP
(2007)
Figu e 2: Recogni ion pipeline
3. PROPOSED APPROACH
As we ha e s a ed be o e, he issue we a e dealing wi h is he ecogni ion o indus ial pa s
o pick-and-placing. The main p oblem is ha he accu a e ecogni ion o some kind o pa s
a e highly dependan on he ecogni ion pipeline used. This is because pa s’ cha ac e is ics
like ex u e (p esence o absence), o ms, colo s, b igh ness; make some de ec o s o desc ip o s
wo k di e en ly. We a e hus p oposing a sys ema ic app oach o selec ing he bes ecogni ion
pipeline o a gi en objec (Subsec ion 3.2). We also p opose in Subsec ion 3.3 an expe sys em
ha iden i ies g oups o pa s ha a e ecognized simila ly o imp o e he o e all accu acy. The
ecogni ion pipeline is explained in Subsec ion 3.1.
We s a de ining some no a ions. An indus ial pa , o objec , is named ins ance. The images
cap u ed o each pa a e named iews. Gi en he se o iews X, he se o ins ance labels Y
and he se o ecogni ion pipelines Ψ, he unc ion ωΨ
X,Y (y) e u ns o each y∈Y he bes
pipeline ψ∗ ∈ Ψacco ding o a me ic F1 ha is la e discussed. We call ψ∗∗ o he pipeline ha
on a e age pe o ms be e acco ding o he e alua ion me ic, his is, ha maximizes he a e age
o he sco es pe ins ance (2).
ωΨ
X,Y (y) = a gmax
ψ∈Ψ
F1ψ
y(X, Y ) = ψ∗(1)
ψ∗∗ = a gmax
ψ∈Ψ
X
y∈Y
F1ψ
y(X, Y )
|Y|(2)
3.1. Recogni ion Pipeline
A ecogni ion pipeline Ψis composed o 3 s eps: de ec ion, desc ip ion and ma ching. De ec-
o s, Γ, localize in e es ing keypoin s in he iew (g adien changes, changes in illumina ion,...).
Desc ip o s, Φ, a e used o ep esen hose keypoin s in o de o loca e hem in o he iews.
Ma che s, Ω, ind he closes ea u es be ween iews. So, a pipeline ψis composed by a keypoin
de ec o γ, a ea u e desc ip o φand a ma che ω. Figu e 3 shows he s uc u e o he ecogni ion
pipeline.
The keypoin s de ec ion and desc ip ion a e desc ibed p e iously in he backg ound sec ion. In
he ma ching, a e wo g oups o ea u es: he ones ha o m he model ( ain) and he ones ha
In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA) Vol.10, No.6, No embe 2019
4
103
FLANN
B u e o ce L2
B u e o ce Hamming
e c
Ha is
SIFT
ORB
e c
Images ( iews) Keypoin s de ec o Keypoin s Fea u es desc ip o Fea u es
Ha is
SIFT
ORB
e c
Ha is
SIFT
ORB
e c
Ha is
SIFT
ORB
e c
SIFT
ORB
FREAK
e c
SIFT
ORB
FREAK
e c
SIFT
ORB
FREAK
e c
SIFT
ORB
FREAK
e c
Tes
T ain
Pa
0
Pa
1
Pa
2
Pa
¿?
Ma ching Resul
Pa y
Figu e 3: Recogni ion pipeline
need o be ecognized ( es ). Di e en kind o me hods could be used o ma ch ea u es, bu ,
mainly, dis ance based echniques a e used. This echniques make use o di e en dis ances (L2,
hamming,...) o ind he closes ea u e o he one ha needs o be labeled. Those wo ea u es
( he es ea u e and he closes o his one) a e conside ed a ma ch. In o de o disca d ambiguous
ea u es, we use he Lowe’s a io es [15] o de ine whe he wo ea u es a e a ”good ma ch”.
Assuming is he ea u e o be ecognized, and l1and l2i s wo closes ea u es om he
model, hen ( , l1) is a good ma ch i :
d( , l1)
d( , l2)< (3)
whe e d( A, B)is he dis ance (Euclidean o L2 dis ance: Equa ion 4, Hamming dis ance: Equa-
ion 5, whe e δis he k onecke del a (Equa ion 6),...) be ween ea u es A and B, and is a
h eshold ha is used o alida e i wo ea u es a e simila ly close o he es ea u e and disca d
i . This h eshold is se a 0.8. Now a simple o ing sys em is used o labeling he iew. Fo each
iew om he model ( ain) he numbe o good ma ches a e coun ed. The good ma ches o each
ins ances a e summed and he es iew is labeled as he ins ance wi h mo e good ma ches.
dE(P, Q) =
u
u
n
X
i=1
(pi−qi)2(4)
dH(P, Q) =
n
X
i=1
δ(pi, qi)(5)
δ(pi, qi) =
0i xi=yi
1i xi6=yi
(6)
In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA) Vol.10, No.6, No embe 2019
5
6. 2D Fea u es-based de ec o and desc ip o selec ion sys em o
hie a chical ecogni ion o indus ial pa s
104
Table 1: Example o a con usion ma ix o 3 ins ances.
Ac ual ins ance
objec 1 objec 2 objec 3
P edic ed
ins ance
objec 1 40 10 0 50
objec 2 0 30 25 55
objec 3 10 10 25 45
50 50 50 150
3.2. Recogni ion E alua ion
As we ha e said, we ha e he inpu iews X, he ins ance labels Yand he pipelines Ψ. To
e alua e he pipelines we ha e o sepa a e he iews in ain and es . The e alua ion me hod
used o i is Lea e-One-Ou C oss-Valida ion (LOOCV) [11]. I consis s o |X|i e a ions, ha
o each i e a ion i, he ain da ase is (X−xi)and he es sample is xi. Wi h his sepa a ion
ain- es we can gene a e he con usion ma ix. Table 1 is an example o a con usion ma ix o 3
ins ances.
As men ioned in he in oduc ion o Sec ion 3, we use he me ic F1 alue [7] o sco ing he
pe o mance o he sys em. The sco e is calcula ed o he es s iews om he LOOCV. F1
sco e, o alue, is calcula ed pe each ins ance (7). This me ic is an ha monic mean be ween he
p ecision and he ecall. The mean o all he F1’s, ¯
F1(8) is used o calcula ing ψ∗∗.
F1(y) = 2 ·p ecisiony∗ ecally
p ecisiony+ ecally
(7)
¯
F1=Py∈YF1(y)
|Y|(8)
The p ecision (Equa ion 9) is he a io be ween he co ec ly p edic ed iews wi h label y( py)
and all p edic ed iews o ha gi en ins ance (|ψ(X) = y|). The ecall (Equa ion 10), ins ead,
is he ela ion be ween co ec ly p edic ed iews wi h label y( py) and all iews ha should ha e
ha label (|label(X) = y|).
p ecisiony= py
|ψ(X) = y|(9)
ecally= py
|label(X) = y|(10)
3.3. Expe sys em
The unc ion ωgi es a lo o in o ma ion abou objec s bu i needs he ins ance o e u n he
bes pipeline o ha ins ance which is no a ailable a p io i. Indeed, his is wha we wan o
iden i y. We use he in o ma ion ha would p o ide ω o build a hie a chical classi ica ion based
in a clus e ing o simila objec s.
Since some pa s wo k be e wi h some pa icula pipelines because o hei shape, colo o ex-
u e, we y o ake ad an age o his and make clus e s o objec s ha a e classi ied simila ly well
by each pipeline. Fo example, wo pa s ha ha e ex u es may be be e ecognized by pipelines
ha use desc ip o s like SIFT o SURF a he han non ex u ed pa s. We call hese clus e s
ypologies. This clus e ing is made using he algo i hm K-means [16], ha aims o pa i ion he
In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA) Vol.10, No.6, No embe 2019
6
105
es iew ψ**+ k-NN Typology 2
( =2) ψ* =2
Ins ance 6
(y=6)
Ins ance 4
(y=4)
Ins ance 5
(y=5)
Typology 3
( =3) ψ* =3
Ins ance 8
(y=8)
Ins ance 7
(y=7)
Typology 1
( =1) ψ* =1
Ins ance 1
(y=1)
Ins ance 2
(y=2)
Ins ance 3
(y=3)
inpu
Figu e 4: Hie a chical classi ica ion
objec s in o K clus e s (whe e K < |Y|) in which each objec belongs o he clus e wi h he nea -
es cen oids. The inpu is a ma ix wi h he ins ances as ows and o each ow he F1 alue o
each pipeline. The inpu s o his algo i hm a e o each ins ance an a ay o he F1 alue ob ained
wi h e e y pipeline. The elec ion o a good K may highly a y he esul since i almos all he
clus e s a e composed by 1 ins ance he esul would be close o jus using ψ∗∗. A e ob aining
he K ypologies, he ψ∗
T’s (11) a e calcula ed, i.e., he bes pipeline o each ypology.
ψ∗
T= a gmax
ψ∈Ψ
X
y∈T
F1ψ
y(X, Y )
|T|(11)
The i s s ep o he hie a chical ecogni ion is o ecognize he ypology wi h he ψ∗∗. Gi en he
ypology as he ypology p edic ed, he ψ∗
is used o ecognize he ins ance yo he objec . We
call he hie a chical ecogni ion Υ. The Figu e 4 shows an scheme o he hie a chical ecogni ion
o cla i ica ion.
4. EXPERIMENTS AND RESULTS
Ou ini ial hypo hesis is ha Υhas a be e pe o mance han ψ∗∗. In o de o demons a e his
hypo hesis we conduc ed some expe imen s. Mo eo e , we wan o know in which way does he
numbe o pa s and he numbe o iews pe pa a ec he esul .
The pipelines used (de ec o , desc ip o and ma che ) a e de ined in Subsec ion 4.1. In Subsec ion
4.2, we explain he da ase we ha e c ea ed o e alua e he p oposed me hod unde he use case
ha is he indus ial a ea and he esul s ob ained. In o de o compa e hese esul s wi h a well-
known da ase in Subsec ion 4.3 we p esen he Cal ech da ase [5] and he esul s ob ained.
In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA) Vol.10, No.6, No embe 2019
7
6. 2D Fea u es-based de ec o and desc ip o selec ion sys em o
hie a chical ecogni ion o indus ial pa s
106
Table 2: Pipelines composi ion.
Pipeline De ec o Desc ip o Ma che
ψ0SIFT SIFT FLANN
ψ1SURF SURF FLANN
ψ2ORB ORB B u e o ce
Hamming
ψ3—- LBP FLANN
ψ4SURF BRIEF B u e o ce
Hamming
ψ5BRISK BRISK B u e o ce
Hamming
ψ6AGAST DAISY FLANN
ψ7AGAST FREAK B u e o ce
Hamming
Table 3: F1’s o he ψ∗∗’s and Υ o each subse o ou da ase . ps ands o numbe o pa s and
o numbe o pic u es pe pa .
@@
@ 10 20 30 40 50
p@@
@ψ∗∗ Υψ∗∗ Υψ∗∗ Υψ∗∗ Υψ∗∗ Υ
30.935 0.862 0.967 0.983 0.989 10.992 10.993 1
40.899 0.854 0.924 0.962 0.932 0.966 0.944 0.801 0.91 0.865
50.859 0.843 0.868 0.863 0.883 0.818 0.876 0.901 0.87 0.912
6 0.865 0.967 0.873 0.992 0.891 0.87 0.88 0.88 0.856 0.901
7 0.872 0.9 0.886 0.986 0.894 0.891 0.88 0.876 0.845 0.94
4.1. Pipelines
The pipelines we ha e selec ed a e shown in Table 2. Many combina ion could be done bu i
is no consis en o ma ch bina y desc ip o s wi h a L2 dis ance. The combina ions chosen a e
compa ible and may no be he bes combina ion. Global desc ip o s, such as LBP, does no need
a de ec o .
4.2. Ou da ase
We selec 7 andom indus ial pa s and on a whi e backg ound we make 50 pic u es pe pa om
di e en angles andomly. Tha way, we ha e a da ase wi h 350 pic u es. In Figu e 5 a e shown
zoomed in examples o he pic u es aken o he pa s.
We use subse s o he da ase o e alua e i changing he numbe o iews pe ins ance and he
numbe o ins ance a y he pe o mance. This subse s ha e om 3 o 7 pa s and om 10 o 50
iews (10 iews s ep). In Table 3 a e ga he ed he esul s o all he subse s using ψ∗∗ and Υ. The
highes sco e o each subse is in bold. On a e age he hie a chical ecogni ion pe o ms be e .
The mo e pa s o iews pe pa , he be e ha pe o ms he hie a chical ecogni ion compa ing
wi h he bes pipeline.
Now we ocus on he whole da ase . In Figu e 6 a e shown he F1’s o each ins ance using each
pipeline o his pa icula case. The ho izon al lines ma k he ¯
F1 o ha pipeline. The sco e
we ob ain wi h ou me hod (las column) is highe (0.94) han he bes pipeline which is ψ2 ha
co esponds o he pipeline ha uses ORB (0.845).
In e na ional Jou nal o A i icial In elligence & Applica ions (IJAIA) Vol.10, No.6, No embe 2019
8
107
applied
sciences
A icle
His og am-Based Desc ip o Subse Selec ion o
Visual Recogni ion o Indus ial Pa s
Ibon Me ino 1,2,* , Jon Azpiazu 1, An hony Remazeilles 1and Basilio Sie a 2
1TECNALIA, Basque Resea ch and Technology Alliance (BRTA), Paseo Mikele egi 7,
20009 Donos ia-San Sebas ian, Spain; [email p o ec ed] (J.A.);
an hony[email p o ec ed] (A.R.)
2Depa men o Compu e Science and A i icial In elligence, Uni e si y o he Basque Coun y UPV/EHU,
20018 Donos ia-San Sebas ian, Spain; [email p o ec ed]
*Co espondence: [email p o ec ed]
Recei ed: 1 Ap il 2020; Accep ed: 25 May 2020; Published: 27 May 2020
Abs ac :
This a icle deals wi h he 2D image-based ecogni ion o indus ial pa s. Me hods based
on his og ams a e well known and widely used, bu i is ha d o ind he bes combina ion o
his og ams, mos dis inc i e o ins ance, o each si ua ion and wi hou a high use expe ise.
We p oposed a desc ip o subse selec ion echnique ha au oma ically selec s he mos app op ia e
desc ip o combina ion, and ha ou pe o ms app oach in ol ing single desc ip o s. We ha e
conside ed bo h backwa d and o wa d mechanisms. Fu he mo e, o ecognize he indus ial pa s a
supe ised classi ica ion is used wi h he global desc ip o s as p edic o s. Se e al class app oaches
a e compa ed. Gi en ou applica ion, he bes esul s a e ob ained wi h he Suppo Vec o Machine
wi h a combina ion o desc ip o s inc easing he F1 by 0.031 wi h espec o he bes desc ip o alone.
Keywo ds:
compu e ision; ea u e desc ip o ; his og am; ea u e subse selec ion; indus ial objec s
1. In oduc ion
Compu e ision, in he las yea s, has gained much in e es in many ields, such as au onomous
d i ing [
1
], medical [
2
], ace ecogni ion [
3
], objec de ec ion [
4
], and objec segmen a ion [
5
].
Pe cep ion is also ega ded as one o he key enabling echnologies o ex ending he obo capabili ies,
p e e en ially a ge ing lexibili y, adap a ion, and obus ness, as equi ed o ul illing he indus y
4.0 pa adigm [
6
]. Al hough in mos ields la ge and complex da ase s can be ob ained, de ec ion o
indus ial pa s has a lack o da ase s. One o he easons is ha mos o he ime in indus ial con ex ,
he aim is o de ec an objec om which usually he CAD is a ailable. Howe e , some imes he e is a
need o de ec ing di e se, complex, and iny objec s [
7
] and lack o ime o gene a e a obus da ase
( aking pic u es and labeling). One o he solu ions is o gene a e simula ed da a o ain he models
bu usually he e is a signi ican gap ans e ing ha lea ned knowledge o eali y.
To make ma e wo se, indus ial pa s a e usually ex u e-less. This means ha many o he mos
used ecogni ion me hods canno deal wi h hem. One o he me hods o deal wi h ex u e-less objec s
a e Con olu ional Neu al Ne wo ks. Nowadays, compu e ision esea ches a e mainly ocused
on using Con olu ional Neu al Ne wo ks (CNN) [
8
–
10
]. One o he disad an ages o he CNNs
is he need o a la ge da ase o ain hem. E en i i is possible o use he CNN ained on o he
ields in indus y [
11
], he e is s ill a need o a la ge enough aining da ase o ob ain good esul s.
Fea u e desc ip o s based on classical me hods ha e been e y use ul and ho oughly sp ead in he
li e a u e p e ious o CNN. One o he bene i s o using his app oach is ha he e is no need o a la ge
aining se o ob ain good esul s. Ac ually, he e a e many image desc ip o s and each o hem has i s
ad an ages and disad an ages.
Appl. Sci. 2020,10, 3701; doi:10.3390/app10113701 www.mdpi.com/jou nal/applsci
115
Appl. Sci. 2020,10, 3701 2 o 17
Ou app oach is based in he idea ha he combina ion o di e en desc ip o s leads o a be e
pe o mance, aking ad an age o he bene i s o each desc ip o o deal wi h he wo p oblems
men ioned be o e (lack o a la ge da ase and ex u e-less objec s). The c ux o he ma e is o selec
he desc ip o s ha con ibu e o achie e a be e esul and disca d hose ha do no p o ide any
imp o emen . Ou me hod achie es a classi ica ion quali y simila o s a e-o - he-a me hods on he
expe imen s done.
In Sec ion 2, we p esen a backg ound o he desc ip ion me hods, classi ie s, and ea u es subse
selec ion echniques. In Sec ion 3, we explain he combina ion o he desc ip o s and he image
classi ica ion. The expe imen s done and hei esul s a e ga he ed in Sec ion 4. Finally, in Sec ion 5,
he conclusions a e summa ized.
2. Backg ound
The analysis o images usually elies on he ex ac ion o isual ea u es. Such an app oach can be
obse ed in classi ica ion [
12
], objec de ec ion [
4
], and segmen a ion [
5
]. In his sec ion, we p o ide an
o e iew o he main ea u e desc ip o s, oge he wi h some o he ela ed classi ica ion echniques.
2.1. Fea u es Desc ip o s
Local ea u es ex ac o s a e cha ac e is ic local p imi i es as poin s ocusing on a close
neighbo hood. Some examples o hose ea u es a e SIFT [
13
], SURF [
14
], and LBP [
15
].
Global desc ip o s, ins ead, ex ac in o ma ion di ec ly om he whole image by compu ing
his og ams o example. Local ea u es a e good o image ecogni ion as each poin is
independen om he es and he ea u es a e mo e disc iminan . Global ea u es ins ead a e
mo e used o classi ica ion and objec de ec ion as hey achie e a mo e global ep esen a ion.
Ne e heless, small changes ha e a la ge impac on global ea u es and a be e p ep ocessing
is needed when using hem. Ex ac ing global ea u es and hei classi ica ion is usually as e .
As a ma e o a ac , combining bo h local and global ea u es usually pe o ms be e [
16
].
Many esea che s use his og ams o local ea u es o ob ain bene i s o bo h ypes. Doing so, we ob ain
a global ep esen a ion o he local ea u es. [
16
] p esen a axonomy called His og am o Equi alen
Pa e ns (HEP) ha ga he s hose his og ams o local ea u es. In o de o a ea u e o be pa o his
amewo k, i needs o ha e a delimi ed quan i ica ion, ha is, he numbe o possible alues o he
ex ac ed ea u e mus be small enough o ob ain a ele an his og am. Fo example, LBP [
15
] is pa
o his amewo k as he possible alues a e 256 so he esul ing his og am is o leng h 256, while
HOG o SIFT a e no pa o he HEP amewo k as he numbe o possible alues is high and he
esul ing his og am is no ele an . In [
17
], a combina ion o desc ip o s was also used, bu limi ed o
local desc ip o s.
One o he i s HEP me hods was in oduced in 1973. This me hod, called G ay Le el
Co-occu ences Ma ices (GLCM) [
18
] measu es he join p obabili y o he g ay le els o wo pixels
s anding in some p ede ined ela i e posi ions. Since 1973, i has been widely used in many ex u e
analysis applica ions as a ea u e ex ac o in his con ex .
In 1990, [
19
] p oposed he ex u e spec um (TS), which inspi ed many HEP me hods. This ex u e
desc ip o is based in decomposing he image in o a se o essen ial small uni s, called Tex u e Uni s
(TUs). The occu ence dis ibu ion o TU is he TS. One o he i s and mos used TU-based desc ip o s
is he Local Bina y Pa e n (LBP) [
15
]. This las one is a wo-le el TU, g ay-scale in a ian and easily
combined wi h a simple con as measu e. One o he main cha ac e is ics is i s obus in a ian o
ligh changes.
Ano he me hod based in he TU is he Simpli ied Tex u e Uni (STU) [
20
]. This me hod use a
mo e educed ange o alues wi hou a signi ican loss o he cha ac e iza ion powe . This way, he e
a e wo op ions o STU: using he c osswide neighbo s (up, igh , down, and le ) and using diagonal
neighbo s (up-le , up- igh , down- igh , and down-le ); i s educed leng h is commonly used in
eal- ime applica ions ob aining simila pe o mance o LBP.
7. His og am-Based Desc ip o Subse Selec ion o Visual Recogni ion o
Indus ial Pa s
116
Appl. Sci. 2020,10, 3701 3 o 17
The modi ied ex u e spec um (MTS) [
21
] can be conside ed as a simpli ied e sion o LBP, whe e
only a subse o he pe iphe al pixels (up-le , up, up- igh , and igh ) a e conside ed. I s TS is 16
elemen s in leng h, signi ican ly imp o ing he compu a ion e iciency on classi ica ion. Simila ly o
STU, he educ ion on he TS leng h leads o a as e classi ica ion while achie ing simila pe o mance.
The Gabo LBP [
22
] conside s he ad an ages o he Gabo il e s in compu e ision and exploi s
hem. I i s applies a Gabo ans o ma ion and encodes he magni ude alues wi h he LBP ope a o .
Fusing bo h ools enables handling o illumina ion changes, iewpoin angle changes, and non- igid
bodies. Usually his combina ion is used o ace ecogni ion o pe son iden i ica ion.
The Local Te na y Pa e n (LTP) [
23
] is a gene aliza ion o he LBP and i is mo e disc iminan and
less sensi i e o noise in uni o m egions. I is a local ex u e desc ip o ha uses a 3- alue coding ha
h esholds a ound ze o. Compa ing o he LBP, LTP is mo e esis an o noise bu no longe in a ian
o g ay-le el ans o ma ions.
The Bina y G adien Con ou s (BGC) [
24
] is a bina y 8- uple. I elies on compu ing a se o eigh
bina y g adien s be ween pai s o pixels all along a closed pa h a ound he cen al pixel o a 3
×
3
g ayscale image pa ch. They de ined he closed pa h in h ee di e en ways: single-loop (BGC1),
double-loop (BGC2), and iple-loop (BGC3).
Ano he HEP desc ip o , is he Local Quan ized Pa e ns (LQP) [
25
]. This is a gene aliza ion o
local pa e n ea u es ha makes use o ec o quan iza ion. I uses la ge local neighbou hoods and/o
deepe quan iza ion wi h domain-adap a i e ec o quan iza ion.
The Webe ’s Law Desc ip o (WLD) [
26
] was p oposed in 2010 as a simple, ye e y powe ul and
obus desc ip o . I is based on he ac ha human pa e n pe cep ion also depends on he o iginal
in ensi y o he s imulus and no only on he change o a s imulus (such as sound and ligh ing). I is
composed o wo componen s: di e en ial exci a ion and o ien a ion.
The His og am o o ien ed g adien s (HOG) [
27
] is a ea u e desc ip o ha coun s he occu ences
o g adien o ien a ion in localized po ions o an image. Ope a ing on local cells p o ides in a ia ion
o geome ic and pho ome ic ans o ma ions. The HOG desc ip o is pa icula ly sui ed o human
de ec ion in images. E en i HOG is no pa o HEP, he way i gene a es he desc ip o (calcula ing a
his og am o g adien s) wo ks simila o HEP me hods so i can be used simila ly.
2.2. Classi ie s
Desc ip o s a e used o ob ain ea u es om images. Those ea u es a e hen used by he classi ie s
o p edic which objec is on each image. Many machine lea ning algo i hms a e used o classi ying
images, bu some o he mos popula ones a e K-Nea es Neighbo s, Nai e Bayes, Random Fo es ,
Suppo Vec o machine, Random Commi ee, Bagging, and Mul iclass Classi ie .
The Nea es Neighbo Rule is a well-known algo i hm and he simples nonpa ame ic decision
p ocedu e ha assigns o he unca ego ized objec he label o he closes sample o he aining
se . In 1967, a modi ica ion o his algo i hm led o one o he mos used classi ica ion algo i hms,
he K-Nea es Neighbo s (KNN) [
28
]. I is based on looking o closes poin s and classi ying hem as
he majo i y class. Fo a gi en se o
n
pai s
(x1
,
θ1)
,...,
(xn
,
θn)
, whe e
xi
is in a me ic space
X
and
θi
is he ca ego y ha
xi
belongs o om a subse
{
1,2,...,
M}
, a new a i ing ins ance
x
is analyzed
o es ima e i s co esponding class
θ
. This es ima ion is done by looking o he nea es neighbo
X0
n∈(x1,x2,..., xn):
min d(xi,x) = d(x0
n,x)i=1, 2,..., n
whe e
d
is a dis ance me ic acco ding o he space
X
. The new ins ance
x
will be assigned o he
ca ego y
θ0
n
. This is he basic 1-NN. In gene al, KNN ule decides
x
belongs o he ca ego y o majo i y
o e o he nea es kneighbo s.
The Nai e Bayes [
29
], he simples Bayesian classi ie , is ano he classi ica ion algo i hm ha is
o en used o i s simplici y. I is based on he Bayesian Rule and assumes ha a iables a e independen
117
Appl. Sci. 2020,10, 3701 4 o 17
gi en he class. Despi e his un ealis ic assump ion, i is success ul in p ac ice. The Bayesian ule s a es
ha he p obabili y ha a ins ance xbelongs o class Ckis
P(Ck|x) = P(Ck)P(x|Ck)
P(x)(1)
whe e
Ck
is he class be ween he
K
possible classes and
x
he ins ance o be classi ied. Taking in o
accoun he independence assump ion, he condi ional dis ibu ion o e he class a iable C is
p(Ck|x1,..., xn) = 1
Zp(Ck)
n
∏
i=1
p(xi|Ck)(2)
The ins ance is classi ied as he class wi h mo e p(Ck|x1,..., xn).
The Random Fo es (RF) [
30
] is a combina ion o decision ees ha use andom subse s o he
ea u es o be buil . Figu e 1shows an example o RF.
ee 1 ee 2 ee 3
Majo i y o ing
X
1
121
Figu e 1.
Random Fo es example whe e each ee classi ies he new ins ance and he esul ing class is
decided by majo i y o ing.
Suppo Vec o Machines (SVM) [
31
] a e supe ised lea ning models ha look o op imal
hype planes ha sepa a es classes. An op imal hype plane is de ined as he linea decision unc ion
wi h maximal ma gin be ween he ec o s o he wo classes (Figu e 2).
Figu e 2. Suppo ec o machine: maximum sepa a ion be ween wo classes.
7. His og am-Based Desc ip o Subse Selec ion o Visual Recogni ion o
Indus ial Pa s
118
Appl. Sci. 2020,10, 3701 5 o 17
Random Commi ee (RC) [
32
] is a commi ee o andom classi ie s. The base andomizable
classi ie s ( ha o m he commi ee membe s) a e buil using di e en andom numbe seeds based in
he same da a. The inal p edic ion is a s aigh a e age o he p edic ions gene a ed by he indi idual
base classi ie s.
The Bagging [
33
] echnique is called a e Boo s ap agg ega ing. This machine lea ning ensemble
ha can be used o imp o e he s abili y o a model by imp o ing he accu acy and educing a iance
in o de o educe o e i ing.
2.3. Fea u e Selec ion
As s a ed be o e, he c ux o he ma e in his pape elies on how o selec he di e en isual
ea u es o imp o e he indi idual sco e o each desc ip o . Some au ho s ha e used di e en
echniques o do his [
34
,
35
]. Fea u e Selec ion is a machine lea ning echnique ha is used in many
ields and usually imp o es he accu acy o he model. In [
34
], he au ho s uses di e en ea u e
selec ion echniques o imp o e he sco e in he Quan i a i e S uc u e–Ac i i y Rela ionship (QSAR).
In [
35
], ins ead, hey use a simila app oach o hand pose ecogni ion. In [
36
], a iew o e he di e en
ea u e selec ion echniques and i s a ia ions is desc ibed. Ou app oach is based in hose me hods
and is used in a comple ely di e en con ex .
3. P oposed App oach
In o de o achie e a be e pe o mance han jus using a single global desc ip o , we p opose
using a Desc ip o Subse Selec o . Tha is, we y o ind he combina ion o global desc ip o s ha
sco es a be e esul . Among all a ailable op ions o subse selec ion, we ha e used 2 o hei g eedy
app oach which achie e a signi ican pe o mance: o wa d selec ion and backwa d selec ion. Fi s ,
we p esen he classi ica ion o a single image, gi en a desc ip o and a classi ie . A e ha , we explain
he ea u e selec ion echniques o choose he combina ion o desc ip o o use. Nex , we p esen
he e alua ion me hods, in o de o decide which is he bes solu ion. Finally, we p esen he whole
pipeline o he p oposed app oach.
3.1. Classi ica ion
The i s s ep in he pipeline is o classi y a pic u e in o he
C
di e en classes. Gi en a desc ip o
and a classi ie , he classi ie is ained wi h ea u es ob ained om he desc ip ion o he se o images
o aining. Gi en a new image o be classi ied, he desc ip o ex ac s he ea u e om he image and
ha ea u e is classi ied by he classi ie (Figu e 3).
Image Classifie Desc ip o Ci
Fea u e
Figu e 3. Classi ica ion o a new image gi en a desc ip o and a classi ie .
3.2. Fea u e Selec ion Techniques
The ea u e selec ion echniques a e used o chose he desc ip o s o he classi ica ion.
An exhaus i e sea ch o bes combina ion o desc ip o s is compu a ionally ine icien , while i
gua an ees ha he op imal solu ion is achie ed. Ne e heless, a subop imal solu ion can be achie ed
using a sequen ial sea ch. This is an i e a i e sea ch ha once a s age o he sea ch is eached,
is impossible o go back. The complexi y o he exhaus i e sea ch is exponen ial (
O(
2
n)
), while he
sequen ial sea ch emains polynomial (
O(nk+1)
), whe e
k
is he numbe o e alua ed subse s in each
s age. This las one does no gua an ee an op imal solu ion.
119
Appl. Sci. 2020,10, 3701 6 o 17
Ano he impo an conside a ion in he ea u e selec ion echniques is he gene a ion o he
successo s, i.e., how o selec he nex candida es o he ollowing s age. The simples and mos
used me hods a e Fo wa d and Backwa d gene a ion [
36
]. In o wa d gene a ion, on each s age
he elemen which makes
J
( he e alua ion measu e) g ea e is selec ed and added o he selec ed
subse . Fo example, he i s desc ip o added o he subse would be he one wi h he bes indi idual
sco e. The nex s age would add o he subse he one ha conca ena ed wi h he p e ious one makes
he sco e g ea e . We e e o his me hod as Sequen ial Fo wa d Subse Selec ion (SFSS) [
36
], and
i s pseudocode is desc ibed in Algo i hm 1. The backwa ds is he opposi e beha io . The subse is
ini ialized wi h all he elemen s and on each s age he elemen ha ha makes
J
g ea e when emo ed
is done so. The s opping c i e ia in bo h cases can be ha
J
is no inc eased in
j
s eps o he subse
achie es a desi ed leng h. We e e o his me hod as Sequen ial Backwa d Subse Selec ion (SBSS) [
36
],
and i s pseudocode is desc ibed in Algo i hm 2.
Algo i hm 1: Sequen ial Fo wa d Subse Selec ion
Inpu :
X—Se o elemen s
J—e alua ion me ic
Ou pu :
X0—solu ion ound
X0=∅
epea
x0:=a gmax{J(X0∪x)|x∈(X X0)}
X0:=X0∪ {x0}
un il no imp o emen in J OR X0=X;
whe e
∪
s ands o union be ween wo se s o an elemen and a se and
ope a o s ands
o di e ence.
Algo i hm 2: Sequen ial Backwa d Subse Selec ion
Inpu :
X—Se o elemen s
J—e alua ion me ic
Ou pu :
X0—solu ion ound
X0=X
epea
x0:=a gmax{J(X0 x)|x∈X0}
X0:=X0 {x0}
un il no imp o emen in J OR X0=∅;
3.3. E alua ion Measu e
A classi ica ion quali y can be quan i ied using measu es such he one o Equa ion (3).
This measu e, named F- alue [
37
] o F-sco e, is an e alua ion measu e ha akes in o accoun
he p ecision and he ecall. Mo e p ecisely, he me ic used is a pa icula case o he F- alue whe e
he p ecision and he ecall a e balanced. This is called
F1
, an ha monic mean be ween he p ecision
and he ecall.
F1(y) = 2·p ecisiony∗ ecally
p ecisiony+ ecally(3)
7. His og am-Based Desc ip o Subse Selec ion o Visual Recogni ion o
Indus ial Pa s
120
Appl. Sci. 2020,10, 3701 7 o 17
whe e
y
e e s o a class (also e e ed in his pape as
Ci
).
F1
is class-dependen , so o each class,
y
, he
p ecision and he ecall a e compu ed o ha class. The p ecision (Equa ion (4)) is he a io be ween
he co ec ly p edic ed iews wi h label
y
(
py
o ue posi i e) and all p edic ed iews o ha gi en
ins ance (
|ψ(X) = y|
). The ecall (Equa ion (5)), ins ead, is he ela ion be ween co ec ly p edic ed
iews wi h label y( pyo ue posi i e) and all iews ha should ha e ha label (|label(X) = y|).
p ecisiony= py
|ψ(X) = y|(4)
ecally= py
|label(X) = y|(5)
To e alua e each s age o he ea u e selec ion we use he a e aged
F1
. This is he mean o he
F1
’s
o all he classes (Equa ion (6)).
F1=1
|Y|∑
y∈Y
F1(y)(6)
3.4. Full Pipeline
The da ase is di ided in wo se s: aining and es . Du ing he sea ch o he bes combina ion o
desc ip o s, aining se is used o aining he classi ie s and alida e he ea u e selec ion echnique.
This sepa a ion is made by a Lea e-One-Ou C oss-Valida ion (LOOCV) [
38
]. Each image o he se is
used as alida ion while he es o he se is used o ain he model. Figu e 4shows he whole p ocess.
Gi en a desc ip o and a classi ie , bo h a e es ed using he LOOCV o se he aining and alida ion
se s. Once he bes combina ion o desc ip o s is ound, o es he quali y o his combina ion, we use
he es se o ob ain a gene al e alua ion me ic.
Figu e 4. Full pipeline o he p oposed me hod, including aining, alida ion, and e alua ion.
4. Expe imen s and Resul s
As s a ed be o e, he aim o his pape is o p esen a me hod o imp o e he accu acy on educed
da ase s o ex u e-less objec s. In o de o p o e ha ou me hod imp o es he sco e o he desc ip o s
by hei own, we ha e c ea ed a small da ase composed by se en di e en andom indus ial pa s
(Figu e 5). We ook 50 pic u es o each indus ial pa aken om di e en iewpoin s and di e en
illumina ion condi ions. Objec s a e o a ed and ansla ed bu all images a e ee om occlusion,
and wi h an emp y and whi e backg ound.
121
Appl. Sci. 2020,10, 3701 8 o 17
Figu e 5. Pic u es o he pa s used in he expe imen .
Ou pool o desc ip o s
D
o disco e ing he bes combina ion is made up o BGC1 BGC2,
BGC3, LBP, Gabo LBP, GLCM, HOG, LQP, LTP, MTS, STU+ (o STU1), STU
×
(o STU2), and WLD.
All desc ip o s bu HOG a e compu ed on g ids o di e en sizes: 1
×
1, 4
×
4, and 8
×
8. The leng h
o g idded his og ams is he leng h o he desc ip o mul iplied by he numbe o g ids. The HOG is
applied o he whole image di ec ly. Figu e 6shows a sample image om ou da abase ha has been
desc ibed by each o he desc ip o s.
(a) Sample image (b) BGC1 (c) BGC2
(d) BGC3 (e) Gabo LBP ( ) GLCM
(g) HOG (h) LBP (i) LQP
Figu e 6. Con .
7. His og am-Based Desc ip o Subse Selec ion o Visual Recogni ion o
Indus ial Pa s
122
Appl. Sci. 2020,10, 3701 9 o 17
(j) LTP (k) MTS (l) STU1
(m) STU2 (n) WLD
Figu e 6.
His og am o all he used desc ip o s applied o a sample image. The e ical axis ep esen s
he numbe o occu ences o each ex u e uni no malized and he ho izon al axis ep esen s each o
he ex u e uni s o he his og ams. The desc ip o s a e he ones ha a e pa o
D
desc ibed a he
beginning o Sec ion 4.
The classi ie s used a e KNN, NB, SVM 1- s-1 ained wi h SMO (Sequen ial Minimal
Op imiza ion [
39
]), SVM 1-again -all ained wi h SGD (S ochas ic G adien Descen [
40
]), RC, RF, and
Bagging. To dis inguish be ween he wo SVM implemen a ions, we call SVM o he one ained wi h
SMO and SVM-SGD o he o he one. In e ms o pe o mance, some o he classi ie s a e d as ically
a ec ed by he pa ame e s, bu uning he pa ame e s makes a complex casuis y which is no he aim
o his pape . Used pa ame e s a e s anda ds and hose a e gi en in he Appendix A. The esul s a e
ob ained o a In el Xeon CPU o 3GHz and 16GB o RAM, and no GPU accele a ion has been used.
The ollowing subsec ions explain he esul s ob ained in he expe imen s.
4.1. Fo wa d Subse Selec ion
Fo wa ds Subse Selec ion o desc ip o s applied o he whole image ( om now on, FSS1
×
1)
expe imen s esul s a e shown in Table 1. In Table 1, he classi ie ha is be ween b acke s is he one
ha achie es he highes mean sco e. I we would use he bes desc ip o alone, he
F1
would be 0.94
wi h WLD. By combining i wi h BGC2 and MTS, and using SVM as classi ie , we a e able o augmen
quali y o 3% o each 0.971. On i s i e a ion WLD ou pe o ms he o he desc ip o s wi h a di e ence
o 0.1 compa ing o he nex bes desc ip o . The second i e a ion inc eases he o e all accu acy and in
almos all he cases imp o es he accu acy o he p e ious i e a ion bes case.
Table 2shows he esul s o he Fo wa ds Subse Selec ion o desc ip o s applied o a 4
×
4 g id
(FSS4
×
4). On a e age, he i s i e a ion pe o ms be e han he non-g idded e sion FSS4
×
4, bu
he las i e a ion does no imp o e he esul s ob ained wi h FSS4
×
4. The i s i e a ion achie es an
F1
o 0.934 and he inal i e a ion 0.969. The e o e, an imp o emen o 3.5% is ob ained. The inal
combina ion o desc ip o s, he one which achie es he highes sco e, is composed by STU1 and WLD.
Table 3shows he esul s o he 8
×
8 g idded e sion (FSS8
×
8). The esul s a e simila o he
ones ob ained in FSS4
×
4. The i s i e a ion achie es an
F1
o 0.94, while he las one achie es a sco e
o 0.96. In his case, he imp o emen is 2%.
The pe o mance o he 3 op ions o he pa ame e s a e simila bu he speed o he classi ica ion is
much as e wi h he FSS1
×
1 e sion because he leng h o he inal desc ip o is sho e . The e o e, he
123
Appl. Sci. 2020,10, 3701 16 o 17
16.
Fe nández, A.; Ál a ez, M.X.; Bianconi, F. Tex u e Desc ip ion Th ough His og ams o Equi alen Pa e ns.
J. Ma h. Imaging Vis. 2013,45, 76–102. [C ossRe ]
17.
Me ino, I.; Azpiazu, J.; Remazeilles, A.; Sie a, B. 2D Fea u es-based De ec o and Desc ip o Selec ion
Sys em o Hie a chical Recogni ion o Indus ial Pa s. IJAIA 2019,10, 1–13. [C ossRe ]
18.
Ha alick, R.M.; Shanmugam, K.; Dins ein, I. Tex u al Fea u es o Image Classi ica ion. IEEE T ans. Sys .
Man Cybe n. 1973,SMC-3, 610–621. [C ossRe ]
19. Wang, L.; He, D.C. Tex u e classi ica ion using ex u e spec um. Pa e n Recogni . 1990,23, 905–910.
20.
Mad id-Cue as, F.J.; Medina, R.; P ie o, M.; Fe nández, N.L.; Ca mona, A. Simpli ied Tex u e Uni :
A New Desc ip o o he Local Tex u e in G ay-Le el Images. In Pa e n Recogni ion and Image Analysis;
Sp inge Be lin Heidelbe g: Be lin/Heidelbe g, Ge many, 2003; Volume 2652, pp. 470–477.
21.
Xu, B.; Gong, P.; Se o, E.; Spea , R. Compa ison o G ay-Le el Reduc ion and Di e en Tex u e Spec um
Encoding Me hods o Land-Use Classi ica ion Using a Panch oma ic Ikonos Image. Pho og amm. Eng.
Remo e Sens. 2003,69, 529–536.
22.
Zhang, W.; Shan, S.; Gao, W.; Chen, X.; Zhang, H. Local Gabo bina y pa e n his og am sequence (LGBPHS):
A no el non-s a is ical model o ace ep esen a ion and ecogni ion. In P oceedings o he Ten h IEEE
In e na ional Con e ence on Compu e Vision (ICCV’05) Volume 1, Beijing, China, 17–21 Oc obe 2005;
Volume 1, pp. 786–791.
23.
Tan, X.; T iggs, W. Enhanced local ex u e ea u e se s o ace ecogni ion unde di icul ligh ing condi ions.
IEEE T ans. Image P ocess. 2010,19, 1635–1650.
24.
Fe nández, A.; Ál a ez, M.X.; Bianconi, F. Image classi ica ion wi h bina y g adien con ou s.
Op . Lase s Eng.
2011,49, 1177–1184.
25.
Hussain, S.U.; Napoléon, T.; Ju ie, F. Face Recogni ion using Local Quan ized Pa e ns. In P ocedings
o he B i ish Machine Vision Con e ence 2012; B i ish Machine Vision Associa ion: Guild o d, UK, 2012;
pp. 99.1–99.11.
26.
Chen, J.; Shan, S.; He, C.; Zhao, G.; Pie ikainen, M.; Chen, X.; Gao, W. WLD: A Robus Local Image Desc ip o .
IEEE T ans. Pa e n Anal. Mach. In ell. 2010,32, 1705–1720. [C ossRe ]
27.
Dalal, N.; T iggs, B. His og ams o o ien ed g adien s o human de ec ion. In P oceedings o he 2005 IEEE
compu e socie y con e ence on compu e ision and pa e n ecogni ion (CVPR’05), San Diego, CA, USA,
20–25 June 2005; IEEE: Pisca away, NJ, USA, 2005; Volume 1, pp. 886–893.
28. Co e , T.; Ha , P. Nea es neighbo pa e n classi ica ion. IEEE T ans. In . Theo y 1967,13, 21–27.
29.
Rish, I. An empi ical s udy o he nai e Bayes classi ie . In IJCAI 2001 Wo kshop on Empi ical Me hods in
A i icial In elligence; IBM: New Yo k, NY, USA, 2001; Volume 3, pp. 41–46.
30. B eiman, L. Random o es s. Mach. Lea n. 2001,45, 5–32. [C ossRe ]
31. Co es, C.; Vapnik, V. Suppo - ec o ne wo ks. Mach. Lea n. 1995,20, 273–297. [C ossRe ]
32.
Li a, M.M.S.; de Aquino, R.R.B.; Fe ei a, A.A.; Ca alho, M.A.; Ne o, O.N.; San os, G.S.M.
Combining Mul iple A i icial Neu al Ne wo ks Using Random Commi ee o Decide upon Elec ical
Dis u bance Classi ica ion. In P oceedings o he 2007 In e na ional Join Con e ence on Neu al Ne wo ks,
O lando, FL, USA, 12–17 Augus 2007; pp. 2863–2868.
33. B eiman, L. Bagging p edic o s. Mach. Lea n. 1996,24, 123–140. [C ossRe ]
34.
Shahlaei, M. Desc ip o Selec ion Me hods in Quan i a i e S uc u e–Ac i i y Rela ionship S udies: A Re iew
S udy. Chem. Re . 2013,113, 8093–8103. [C ossRe ] [PubMed]
35.
Rasines, I.; Remazeilles, A.; Bengoa, P.M.I. Fea u e selec ion o hand pose ecogni ion in human- obo objec
exchange scena io. In P oceedings o he 2014 IEEE Eme ging Technology and Fac o y Au oma ion (ETFA),
Ba celona, Spain, 16–19 Sep embe 2014; pp. 1–8.
36.
Molina, L.; Belanche, L.; Nebo , A. Fea u e selec ion algo i hms: A su ey and expe imen al e alua ion.
In P oceedings o he 2002 IEEE In e na ional Con e ence on Da a Mining, Maebashi Ci y, Japan,
9–12 Decembe 2002; pp. 306–313. [C ossRe ]
37.
Chincho , N. MUC-4 E alua ion Me ics. In P oceedings o he 4 h Con e ence on Message Unde s anding;
Associa ion o Compu a ional Linguis ics: S oudsbu g, PA, USA, 1992; pp. 22–29. [C ossRe ]
38.
Fo man, G.; Scholz, M. Apples- o-Apples in C oss-Valida ion S udies: Pi alls in Classi ie Pe o mance
Measu emen . SIGKDD Explo . Newsl. 2010,12, 49–57. [C ossRe ]
39.
Pla , J.C. Sequen ial Minimal Op imiza ion: A Fas Algo i hm o T aining Suppo Vec o Machines; MIT P ess:
Camb idge, MA, USA, 1998.
7. His og am-Based Desc ip o Subse Selec ion o Visual Recogni ion o
Indus ial Pa s
130
Appl. Sci. 2020,10, 3701 17 o 17
40.
Robbins, H.; Mon o, S. A S ochas ic App oxima ion Me hod. Ann. Ma h. S a is .
1951
,22, 400–407.
[C ossRe ]
41.
Cholle , F. Xcep ion: Deep Lea ning Wi h Dep hwise Sepa able Con olu ions. In P oceedings o he
2009 IEEE Con e ence on Compu e Vision and Pa e n Recogni ion, Miami, FL, USA, 20–25 June 2009; pp.
248–255.
42.
Melekho , I.; Kannala, J.; Rah u, E. Siamese ne wo k ea u es o image ma ching. In P oceedings o he
2016 23 d In e na ional Con e ence on Pa e n Recogni ion (ICPR), Cancun, Mexico, 4–8 Decembe 2016;
IEEE: Pisca away, NJ, USA, 2016; pp. 378–383.
43.
Szegedy, C.; Vanhoucke, V.; Io e, S.; Shlens, J.; Wojna, Z. Re hinking he Incep ion A chi ec u e o Compu e
Vision. In P oceedings o he IEEE Con e ence on Compu e Vision and Pa e n Recogni ion, Las Vegas, NV,
USA, 26 June–1 July 2016; pp. 2818–2826.
c
2020 by he au ho s. Licensee MDPI, Basel, Swi ze land. This a icle is an open access
a icle dis ibu ed unde he e ms and condi ions o he C ea i e Commons A ibu ion
(CC BY) license (h p://c ea i ecommons.o g/licenses/by/4.0/).
131
CAPÍTULO 8
3D Con olu ional Neu al
Ne wo ks Ini ialized om
P e ained 2D Con olu ional
Neu al Ne wo ks o
Classi ica ion o Indus ial
Pa s
Tí ulo:
3D Con olu ional Neu al Ne wo ks Ini ialized om P e ained 2D
Con olu ional Neu al Ne wo ks o Classi ica ion o Indus ial Pa s
Au o es: I. Me ino, J. Azpiazu, A. Remazeilles, B. Sie a
Re is a: Senso s
Volumen: 21
Núme o: 1078
Edi o : MDPI
DOI: 10.3390/s21041078
Año: 2021
Cua il (Scima-
go/WoS):
Q2 (Elec ical and elec onic enginee ing) / Q2 (Enginee ing, elec ical
& elec onic)
133
senso s
A icle
3D Con olu ional Neu al Ne wo ks Ini ialized om P e ained
2D Con olu ional Neu al Ne wo ks o Classi ica ion o
Indus ial Pa s
Ibon Me ino 1,2,* , Jon Azpiazu 1, An hony Remazeilles 1and Basilio Sie a 2
Ci a ion: Me ino, I.; Azpiazu, J.;
Remazeilles, A.; Sie a, B. 3D
Con olu ional Neu al Ne wo ks
Ini ialized om P e ained 2D
Con olu ional Neu al Ne wo ks o
Classi ica ion o Indus ial Pa s.
Senso s 2021,21, 1078. h ps://
doi.o g/10.3390/s21041078
Academic Edi o : She yl Be lin
B ahnam
Recei ed: 28 Decembe 2020
Accep ed: 2 Feb ua y 2021
Published: 4 Feb ua y 2021
Publishe ’s No e: MDPI s ays neu-
al wi h ega d o ju isdic ional clai-
ms in published maps and ins i u io-
nal a ilia ions.
Copy igh : © 2021 by he au ho s. Li-
censee MDPI, Basel, Swi ze land.
This a icle is an open access a icle
dis ibu ed unde he e ms and con-
di ions o he C ea i e Commons A -
ibu ion (CC BY) license (h ps://
c ea i ecommons.o g/licenses/by/
4.0/).
1TECNALIA, Basque Resea ch and Technology Alliance (BRTA), Mikele egi Pasealekua 7,
20009 Donos ia-San Sebas ián, Spain; [email p o ec ed] (J.A.);
an hony[email p o ec ed] (A.R.)
2Robo ics and Au onomous Sys ems G oup, Uni e sidad del País Vasco/Euskal He iko Unibe si a ea,
48940 Basque, Spain; [email p o ec ed]
*Co espondence: [email p o ec ed]
Abs ac :
Deep lea ning me hods ha e been success ully applied o image p ocessing, mainly using
2D ision senso s. Recen ly, he ise o dep h came as and o he simila 3D senso s has opened
he ield o new pe cep ion echniques. Ne e heless, 3D con olu ional neu al ne wo ks pe o m
sligh ly wo se han o he 3D deep lea ning me hods, and e en wo se han hei 2D e sion. In
his pape , we p opose o imp o e 3D deep lea ning esul s by ans e ing he p e ained weigh s
lea ned in 2D ne wo ks o hei co esponding 3D e sion. Using an indus ial objec ecogni ion
con ex , we ha e analyzed di e en combina ions o 3D con olu ional ne wo ks (VGG16, ResNe ,
Incep ion ResNe , and E icien Ne ), compa ing he ecogni ion accu acy. The highes accu acy is
ob ained wi h E icien Ne B0 using ex usion wi h an accu acy o 0.9217, which gi es compa able
esul s o s a e-o - he a me hods. We also obse ed ha he ans e app oach enabled o imp o e
he accu acy o he Incep ion ResNe 3D e sion up o 18% wi h espec o he sco e o he 3D
app oach alone.
Keywo ds: compu e ision; deep lea ning; ans e lea ning; objec ecogni ion
1. In oduc ion
Indus ial p ocesses a e con inuously changing and now digi aliza ion and sma
au oma ion a e he main ocuses o imp o e pe o mance and p oduc i i y o he indus ial
plan s. Robo ics, combined wi h compu e science echniques, such as machine lea ning,
ha e boos ed exponen ially he p oduc ion and secu i y. This indus ial e olu ion has
been named Indus y 4.0. Many ields ha e been in eg a ed o his pa adigm. One o hem
is compu e ision.
Compu e ision is a sub- ield o machine lea ning consis ing in acqui ing, p ocessing,
analyzing and unde s anding images o he eal wo ld in o de o gene a e in o ma ion ha
a compu e can deal wi h. As in all a i icial in elligence ields, deep lea ning echniques
a e ex ensi ely used nowadays in compu e ision. Deep lea ning app oaches usually
need a big da ase o ob ain signi ican esul s. In o de o mee his equi emen , some
echniques use deep lea ning ne s ha ha e been ained wi h huge da ase s and ans e
ha lea ned knowledge o smalle o di e en da ase s. Those echniques a e called ans e
lea ning [1,2].
In indus ial applica ion, and pa icula ly in SMEs, o when small p oduc ion ba ches
a e a ge ed, making huge da ase s can be oo expensi e and a duous. In addi ion, objec s
o be ecognized can be small and uncommon. Reducing he numbe o images needed
o aining is c i ical in his con ex . Using ans e lea ning me hods can help o educe
compu ing ime and he minimum da ase size ha is needed o ob ain signi ican esul s.
Senso s 2021,21, 1078. h ps://doi.o g/10.3390/s21041078 h ps://www.mdpi.com/jou nal/senso s
135
Senso s 2021,21, 1078 2 o 18
In pa allel, in ecen yea s, 3D came as a e gaining mo e and mo e popula i y, specially
in obo ic applica ions. Wo king wi h 3D da a is a ela i ely new pa adigm ha 2D
con olu ional ne wo ks canno handle so easily. The e o e, new deep lea ning me hods
ha e been designed o deal wi h his pa adigm [3,4], like he 3D con olu ional ne wo ks.
Ou p oposal is a ans e lea ning echnique ha elies on using 2D ea u es lea ned
by 2D con olu ional ne s o ain a 3D con olu ional ne .
The es o his pape is o ganized as ollows: Sec ion 2ou lines he ela ed wo ks,
Sec ion 3de ails he p oposed app oach, Sec ion 4desc ibes he aining phase o he
ne wo k, Sec ion 5shows he expe imen al esul s ob ained, and Sec ion 6summa izes he
conclusions.
2. Rela ed Wo ks
Recen imp o emen s in compu ing powe and he apid de elopmen o mo e a -
o dable 3D senso s, ha e opened a new pa adigm whe e 3D da a, such as poin clouds,
a e p o iding be e unde s anding o he en i onmen . E en i some ad ances ha e been
done in deep lea ning on poin clouds, his is s ill an unde de eloped ield compa ed o
2D deep lea ning [3].
Dealing wi h 3D da a in deep lea ning opens many new on s. Fo example, 3D da a
is di icul o label, so ha a signi ican ime is equi ed o label aining da a. The e o e,
usually, he size o he aining se o 3D app oaches is no ably smalle han he one used
wi h 2D echniques.
Many di e en Con olu ional Neu al Ne wo ks (CNN) ha e been possible and gained
a g ea success due o he la ge amoun o public image eposi o ies, such ImageNe [
5
,
6
]
and high-pe o mance compu ing sys ems, like GPUs.
Two-dimensional CNN ha e been widely s udied, and he e a e many success ul
me hods, bu 3D CNN s ill need mo e esea ch, as we will show in he nex sec ions.
2.1. 2D CNN
The mos impo an deep lea ning a chi ec u es a e iden i ied h ough he ImageNe
La ge Scale Visual Recogni ion Compe i ion (ILSVRC) [
6
]. One o he i s ones winning
his compe i ion is Alexne [
5
]. ZFNe [
7
] and O e Fea [
8
] ollowed Alexne , imp o ing
he esul s hey ob ain o he ImageNe da ase .
Unde s anding o con olu ional laye s is imp o ed by Re e ence [
7
], hanks o hei
isualiza ion. The ollowing a chi ec u es ocused on ex ac ing ea u es on low spa ial
esolu ions. One o hem is VGG [
9
], which is s ill being used as a base o many o he
a chi ec u es because o i s simple and homogeneous opology. VGG sco ed he second
place in he ILSVRC 2014. The i s place was achie ed by GoogLeNe [
10
], also known
as Incep ion Ne wo k. This ne wo k was an imp o emen o he AlexNe , educing he
numbe o pa ame e s while being much deepe . They in oduced he Incep ion module,
which enabled o ecognize pa e ns o di e en sizes wi hin he same laye , concu en ly
pe o ming se e al con olu ions o di e en ecep i e ields and combining he esul s.
Ano he in luen ial a chi ec u e was in oduced by Re e ence [
11
] named he Residual
blocks. The a chi ec u e called ResNe in oduced hose Residual blocks which include a
skip connec ion on a con olu ion block ha is me ged by summa ion wi h he ou pu o
ha block. This ne wo k won he ILSVRC 2015 localiza ion and classi ica ion con es s and
also he COCO de ec ion and segmen a ion challenges [12].
A modi ica ion o he GoogLeNe called Incep ion- 4 [
13
] included an imp o emen on
he incep ion module and h ee di e en kinds o incep ion modules. In addi ion, his pape
also p esen s a combina ion o he incep ion module wi h he esidual connec ion, named
Incep ion-ResNe , esul ing in a mo e e icien ne wo k. Ano he ne wo k simila o he
p e ious one, he ResNeX s [
14
], achie ed he second place in he 2016 ILSVRC classi ica ion
challenge. The i s place in classi ica ion, localiza ion, and de ec ion challenges was
achie ed by ResNe 101, Incep ion- 4, and Incep ion-ResNe - 1, espec i ely.
8. 3D Con olu ional Neu al Ne wo ks Ini ialized om P e ained 2D
Con olu ional Neu al Ne wo ks o Classi ica ion o Indus ial Pa s
136
Senso s 2021,21, 1078 3 o 18
Due o he success o he Incep ion and Residual modules, many subsequen ne wo ks
ha e been de i ed om hem. Fo example, DenseNe s [
15
] combine he ou pu o he
esidual connec ion and he ou pu o he esidual block by dep h wise il e conca ena ion.
The 2017 ILSVRC localiza ion challenge’s i s place and he op 3 in classi ica ion and
de ec ion ca ego ies we e won by Dual Pa h Ne wo k (DPN) [
16
], a ne wo k ha combines
he a chi ec u es o DenseNe s and ResNe .
Since p e ious ne wo ks ocus on achie ing he highes possible accu acy, hey a e
no p epa ed o eal- ime applica ions wi h es ic ed ha dwa e, like mobile pla o ms.
MobileNe s [
17
] ackles his p oblem by eplacing s anda d con olu ions wi h Dep hwise
Sepa able Con olu ions.
Recen ly, Re e ence [
18
] p oposed a no el scaling me hod ha uni o mly scales ne -
wo k’s dep h, wid h, and esolu ion, ob aining a new amily o models called E icien Ne .
This amily achie es much be e accu acy wi h a 6.1
×
gain ac o in compu a ion ime and
a 8.4× ac o in size educ ion compa ed o p e ious Con Ne s.
2.2. 3D CNN
Some esea che s ha e aken ad an age o he ac ha 2D deep lea ning is mo e
ma u e han 3D deep lea ning, ying o ob ain a solu ion o 3D based on 2D deep lea ning.
Recen ly, he a i al o RGB-D senso s, such as he Mic oso ’s Kinec o he In el’s
Realsense, has enabled o acqui e a a low cos 3D in o ma ion. These senso s p o ide a
2D colo image (RGB), along wi h a dep h map (D), which p o ides he 3-dimensional
in o ma ion. Since bo h RGB and D a e 2D images, 2D deep lea ning me hods can be
adap ed o ecei e as inpu wo images ins ead o one. E en i his ep esen a ion is qui e
simple, hey a e e ec i e o di e en asks, such as human pose eg ession [
19
], 6D pose
es ima ion [20], o objec de ec ion [21].
Despi e ep esen ing 3D da a, RGB-D images a e composed by 2D da a and no ans-
o ma ion is needed. One possible ans o ma ion as p oposed in Re e ence [
22
,
23
], consis s
o p ojec ing he 3D da a in o ano he 2D space while keeping some o he o iginal 3D
shape key p ope ies.
To keep 3D da a wi hou ans o ming i o 2D, some wo ks, like Re e ence [
24
,
25
],
p opose a Voxel-based me hod. Voxels a e used o desc ibe how he 3D objec is dis ibu ed
in he h ee dimensions o he space. This ep esen a ion is no always he bes op ion since
i s o es bo h he occupied and non-occupied pa s o he scene. Voxel-based me hods a e
no ecommended o high- esolu ion da a since hey s o e a huge unnecessa y amoun o
da a. To deal wi h his p oblem, oc ee-based me hods wi h a ying sized oxels [
26
,
27
]
a e p oposed.
In o de o educe he numbe o pa ame e s, which is oo high in oxel-based me hods,
some me hods p opose poin -based me hods ha include poin cloud as an uno de ed se
o poin s as inpu [28,29].
Ou p oposal changes his pe spec i e. We adap he 2D deep lea ning a chi ec u e o
3D and ans o m he weigh s om 2D o 3D as ini ial weigh s o he newly gene a ed 3D
Con olu ional model. This app oach makes i possible o le e age on exis ing ne s ained
on 2D da a and apply hem on 3D da a while main aining he o iginal da a s uc u e.
3. P oposed App oach
Due o he g ea success o 2D CNN in compu e ision, ou p oposal uses hose
ne s as he base o ain a 3D CNN o classi ica ion. Figu e 1shows he o e iew o he
p oposed a chi ec u e. Fi s , he weigh s o a p e- ained 2D CNN a e ans o med o 3D o
be, he e o e, used as he weigh s o he 3D CNN. The inpu poin cloud is disc e ized by
compu ing a oxel g id. Tha g id is he inpu enso o he 3D CNN, which is an adap ed
o m o he 2D CNN using 3D laye s ins ead o 2D laye s. Tha 3D CNN compu es he 3D
ea u es ha a e hen passed on o he classi ie .
137
Senso s 2021,21, 1078 4 o 18
Figu e 1. O e all a chi ec u e o he p oposed me hod.
The ollowing subsec ions explains he di e en modules o he a chi ec u e.
3.1. 2D o 3D T ans o ma ions
CNN weigh s can be ep esen ed as 2D ma ices. Thus, we need o ans o m a 2D ma-
ix in o a 3D enso , i.e., map he unc ion
M(x
,
y) = (
,
g
,
b)
o
T(x
,
y
,
z) = (
,
g
,
b)
, whe e
x
,
y∈N
, and
,
g
,
b∈R
. Fo each alue o
x
and
y
o he 2D ma ix and each o he new
possible
z
alues he ans o ma ion unc ion is:
h(x
,
y
,
z
,
M(x
,
y)) = T(x0
,
y0
,
z0)=(
,
g
,
b)
.
We ha e p oposed 2 di e en ans o ma ion unc ions, he ex usion and he o a ion.
3.1.1. Ex usion
Ex usion o he plane consis s o illing he enso copying he RGB alues along one
axis. Gi en a ma ix
M
o size
(W×H)
and he esul ing enso
T
o size
(W×H×D)
and he ac ha we use inpu s ha ha e all he dimensions o he same leng h, his is,
W=H=D, he Ex usion mapping is de ined as:
∀x,y,z≤W:T(x,y,z) = M(x,y).
The ex usion can be done along he h ee main axes:
• Z axis: T(x,y,z) = M(x,y),
• Y Axis: T(x,z,y) = M(x,y),
• X Axis: T(z,x,y) = M(x,y).
Figu e 2shows how he ex usion along he Z axis is done o a ma ix.
Figu e 2. Ex usion along Z axis o a 2D ma ix o gene a e a 3D enso .
8. 3D Con olu ional Neu al Ne wo ks Ini ialized om P e ained 2D
Con olu ional Neu al Ne wo ks o Classi ica ion o Indus ial Pa s
138
Senso s 2021,21, 1078 5 o 18
3.1.2. Ro a ion
To add cu a u e o he 2D weigh s, a o a ion om 0 o 90 deg ees wi h espec o he
Z axis is applied o he 2D weigh s. The mapping om 2D o 3D is de ined as:
T(x,y,z) = M(x,min(qy2+z2,W)).
Figu e 3shows an example o he 2D o 3D o a ion ans o ma ion.
Figu e 3. Ro a ion on Z axis o a 2D ma ix o gene a e a 3D enso .
3.2. Disc e iza ion o he Poin Cloud
The inpu o he a chi ec u e is a poin cloud. In o de o use a CNN, we ha e o
disc e ize/sample he poin cloud o a g idded s uc u e ( enso ). The ep esen a ion used
is he oxel g id, in which a oxel is he h ee-dimensional equi alen o a pixel. This
me hod gene a es a h ee-dimensional g id o shape (
nx
,
ny
,
nz
), whe e each poin o he
poin cloud is assigned o a oxel. I mo e han one poin is assigned o he same cell, an
in e pola ion is used o calcula e he RGB alue o ha oxel. As an illus a ion,
Figu e 4a
shows a poin cloud and Figu e 4b p esen s i s oxeliza ion. The numbe o oxels on
each dimension (
nx
,
ny
,
nz
) depends on he a chi ec u e used, and i is explained in he
subsec ion o each a chi ec u e.
(a) Poin cloud example (b) Voxeliza ion o he poin cloud
Figu e 4. T ans o ma ion om a poin cloud o a oxel g id.
139