Un de ec o de la unidad cen al de un ex o basado en ´ecnicas
de ap endizaje au om´a ico en ex os cien ´ı icos pa a el euske a∗
A Machine Lea ning based Cen al Uni De ec o o Basque Scien i ic
Tex s
Kepa Bengoe xea, Ai zibe A u xa y Mikel I uskie a
IXA G oup. Uni e si y o he Basque Coun y
{kepa.bengoe xea,ai zibe .a ucha,mikel.i uskie a}@ehu.eus
Resumen: En es e a ´ıculo p esen amos el p ime de ec o de la Unidad Cen-
al (UC) de es´umenes cien ´ı icos en euske a basado en ´ecnicas de ap endizaje
au om´a ico. Despu´es de segmen a el ex o en unidades de discu so elemen ales, la
de ecci´on de la unidad cen al es c ucial pa a ano a de o ma m´as iable la es-
uc u a elacional de ex os bajo la Teo ´ıa de la Es uc u a Re ´o ica o Rhe o ical
S uc u e Theo y (RST). Adem´as, la unidad cen al puede se explo ada en di e -
sas a eas como esumen au om´a ico, a eas de p egun a y espues a o an´alisis del
sen imien o. Los esul ados ob enidos demues an que las ´ecnicas de ap endizaje
au om´a ico supe an a las ´ecnicas basadas en eglas a pesa del peque˜no ama˜no del
co pus y de la he e ogeneidad de los dominios que ´es e mues a, dejando oda ´ıa
luga pa a mejo as y desa ollo.
Palab as cla e: Unidad cen al, ´opico p incipal, RST, ap endizaje au om´a ico
Abs ac : This pape p esen s an au oma ic de ec o o he discou se cen al uni
(CU) in scien i ic abs ac s based on machine lea ning echniques. A e segmen ing
a ex in i s elemen a y discou se uni s, he de ec ion o he cen al uni is a c ucial
s ep on he way o obus ly build discou se ees unde he Rhe o ical S uc u e
Theo y (RST). Besides, CU de ec ion may also be use ul in au oma ic summa iza-
ion, ques ion answe ing and sen imen analysis asks. Resul s show ha he CU
de ec ion using machine lea ning echniques o Basque scien i ic abs ac s ou pe -
o m ule based echniques, e en on a small size co pus on di e en domains. This
leads us o hink ha he e is s ill oom o imp o emen .
Keywo ds: Cen al uni , main opic, RST, machine lea ning
1 In oducci´on
Sabe cu´al es el ema p incipal o la idea
global del ex o es una a ea ela i amen e
´acil siemp e que se domine la lengua; aunque
ambi´en es cie o que dicha a ea puede com-
plica se en algunos ex os que no exponen la
idea p incipal expl´ıci amen e, pa a consegui
un e ec o comunica i o o simplemen e po que
los ex os no es ´an bien edac ados.
El ema p incipal puede se ep esen ado
de di e en es o mas: i) po elemen os o pa-
lab as cla e (desde una ´unica palab a a una
∗Ag adecemos an o a Kike Fe nandez como a Es -
he Mi anda odo el abajo ´ecnico pa a pode ana-
liza y isibiliza los esul ados de es e abajo. Es e
abajo a sido inanciado en pa e po el siguien e p o-
yec o: TIN2015-65308-C5-1-R (MINECO/FEDER).
lis a de palab as), ii) po p oposiciones u o a-
ciones comple as.
Seg´un I uskie a, Diaz de Ila aza, y Le -
sundi (2014) la de ecci´on del ema p inci-
pal o unidad cen al (UC)1es de g an ayu-
da en la ano aci´on de la es uc u a e ´o i-
ca, ya que conoce de an emano c´ual es la
UC pe mi e mejo a el a io de acue do en e
ano ado es en la Rhe o ical S uc u e Theo y
(RST) de Mann y Thompson (1988). Tenien-
do en cuen a esos esul ados, pensamos que
un analizado discu si o au om´a ico pod ´ıa
1La Unidad Cen al (UC) es un concep o asociado
con los ´a boles de la RST y es la unidad discu si a
elemen al (UDE) m´as impo an e del ´a bol que iene
la unci´on de se el p incipal n´ucleo del ´a bol, aun-
que puede cons a de m´ul iples UDEs en el caso de
pa a axis.
ecibido 11-11-2016 e isado 12-01-2017 acep ado 07-02-2017
ISSN 1135-5948
© 2017 Sociedad Española pa a el P ocesamien o del Lenguaje Na u al
P ocesamien o del Lenguaje Na u al, Re is a nº 58, ma zo de 2017, pp. 37-44
o ece esul ados m´as iables si de ec a a la
unidad cen al as la segmen aci´on discu si-
a au om´a ica (I uskie a y Zapi ain, 2015).
Adem´as, pod ´ıa se u ilizado en a eas del
P ocesamien o del Lenguaje Na u al (PLN),
aquellas como, esumen au om´a ico, an´alisis
del sen imien o o b´usqueda de espues as.
El obje i o de es e a ´ıculo es cons ui un
de ec o au om´a ico de unidades cen ales en
ex os cien ´ı icos pa a el euske a cons uyen-
do un clasi icado del ipo Mul i a ia e Be -
noulli Nai e Bayes.2
Pa a en ena y e alua el de ec o au-
om´a ico de la unidad cen al hemos u ilizado
el co pus3Basque RST T eebank (I uskie a
e al., 2013), p e iamen e ano ado pa a o os
p op´osi os y a eas (y el ´unico accesible pa a
el euske a).4
En el Ejemplo (1) p esen amos un ex o
de ese co pus ano ado manualmen e: con los
segmen os enume ados y la UC en neg i a.
(1) [Es oma i is A osa Recu en e (I):
Epidemiologia, e iopa ogenia e a as-
pek u klinikopa ologikoak.]1
[“Es oma i is a osa ecu en e” de-
i zon pa ologia, ahoan age zen den
uga iene ako ba da,]2[ amainu, ko-
kapena e a i aunko asuna aldako a
izanik.]3[Honen e iologia ez abaida-
ga ia da.]4[Ul ze a minga i ba zu
bezala age zen da,]5[hauek pe io-
diki be age zen di a.]6[Lan ho-
ne an pa ologia a un hone an
ezauga i epidemiologiko, e io-
pa ogeniko e a klinikopa ologi-
ko ga an si suenak analiza zen
di ugu.]7GMB030135
2Los ex os u ilizados son ela i amen e comple-
jos eniendo en cuen a la disposici´on discu si a de la
unidad cen al, ya que la unidad cen al puede es a
en di e en es posiciones en el ex o: al p incipio, en la
mi ad o al inal del ex o.
3Es e co pus puede se consul ado en h p://
ixa2.si.ehu.eus/disku soa/.
4Aunque en es e abajo nos hemos basado en la
RST, pensamos que la de ecci´on de la unidad cen al
pod ´ıa se aplicable ambi´en en o as eo ´ıas.
5Tex o li e almen e aducido: [La Es oma i is A -
osa Recu en e (I): Epidemiolog´ıa, e iopa ogenia y
aspec os cl´ınicopa ol´ogicos.]1[La es oma i is a o-
sa ecu en e es una de las pa olog´ıas o ales m´as
ecuen es,]2[de ama˜no, localizaci´on y du aci´on
a iable.]3[Su e iolog´ıa es oda ´ıa con o e ida.]4[Se
ca ac e iza po la apa ici´on de ´ulce as dolo osas,]5
[es as ecidi an pe iodicamen e.]6[En es e aba-
jo analizamos las p incipales ca ac e ´ıs icas epide-
miol´ogicas, e iopa og´enicas y clinicopa ol´ogicas de es-
El ex o del Ejemplo (1) se ha segmen-
ado en 7 Unidades de Discu so Elemen ales
(UDE)6y la unidad cen al es la ´ul ima de
ellas, la UDE7.
Seg´un Paice (1980) exis en algunos indica-
do es que acili an de ec a au om´a icamen e
las ideas p incipales. Bas´andonos en esos in-
dicado es y o os que hemos desa ollado en
es e es udio, la UDE7mues a los siguien es:
i)Lan hone an ‘en es e abajo’, el nomb e
lan ‘ abajo’ jun o al demos a i o hau
‘es e’ jun o con el su ijo -n(inesi o) de
luga , se e ie e al abajo que el au o
p esen a en el esumen.
ii)Ga an zi suena ‘el m´as impo an e’, el
adje i o ga an zi su ‘impo an e’ y el
supe la i o −en−‘el m´as’ indican que el
elemen o modi icado po el adje i o es ´a
esal ado de alguna o ma en la o aci´on.
iii)Analiza u dugu ‘hemos analizado’, el e -
bo analiza u ‘analiza ’ es com´un pa a ex-
p esa la acci´on p incipal que se ealiza
en abajos de in es igaci´on (I uskie a,
Diaz de Ila aza, y Le sundi, 2014) y el
p onomb e adjun o al e bo auxilia −gu
‘noso os’, indica que el la acci´on la han
desa ollado los au o es del a ´ıculo.
Aunque los indicado es7po si solos pue-
den se ambiguos, ya que pueden u iliza se
en o as UDEs que no son unidades cen a-
les, nues a hip´o esis es que podemos de ec-
a la unidad cen al de es´umenes cien ´ı icos
de una o ma acep able, u ilizando adecua-
damen e odos es os indicado es con ´ecnicas
de ap endizaje au om´a ico.
En lo que sigue del a ´ıculo, explicamos
en la Secci´on 2los abajos elacionados en
los que nos hemos basado. En la Secci´on 3la
me odolog´ıa que hemos empleado pa a cons-
ui el de ec o de la unidad cen al. En la
Secci´on 4p esen amos el sis ema y en la Sec-
ci´on 5los esul ados ob enidos. Finalmen e,
exponemos en la Secci´on 6las conclusiones y
a com´un pa olog´ıa o al.]7
6Las UDEs son los bloques o segmen os m´as pe-
que˜nos de los que cons a una es uc u a en ´a bol dis-
cu si o (Ca lson, Ma cu, y Oku owski, 2001). En ge-
ne al, las UDEs son enunciados independien es o ad-
e biales.
7O os indicado es en es e ex o aunque m´as com-
plejos son: i) las palab as o lemas epe idos del ´ı u-
lo: epidemiologia ‘epidemiolog´ıa’, e iopa ogenia ykli-
nikopa ologia ‘clinicopa olog´ıa’, ii) los sin´onimos co-
mo aspek u ‘aspec o’ y ezauga i ‘ca ac e ´ıs ica’, y
iii) la elaci´on de ana o a en e Es oma i is A osa
Recu en e ypa ologia a un hone an ‘es a pa olog´ıa
com´un’.
Kepa Bengoe xea, Ai zibe A u xa, Mikel I uskie a
38
el abajo u u o.
2 T abajos elacionados
La ex aci´on de la unidad m´as ele an e
de un ex o se ha es udiado con di e en-
es p op´osi os y aplicando dis in as ´ecni-
cas. Luhn (1958) hace uso de in o maci´on es-
ad´ıs ica sob e una lis a de palab as signi ica-
i as o cla e pa a la ex acci´on de las sen en-
cias m´as ele an es en es´umenes li e a ios en
ingl´es. Mien as que Ne o e al. (2000) aplica
la ´ecnica TF-ISF (Te m F equency-In e se
Sen ence F equency) pa a gene a de o ma
au om´a ica es´umenes de ex os. En Pa do,
Rino, y Nunes (2003) emplean ambas ´ecni-
cas pa a ex ae la o aci´on m´as impo an e
de ex os cien ´ı icos an o en ingl´es como en
po ugu´es de B asil y ob ienen mejo es e-
sul ados haciendo un anking de sen encias
basado en palab as cla e y la posici´on de la
o aci´on.
La unidad cen al ambi´en se puede ex-
ae au om´a icamen e de aquellos analizado-
es que ob ienen la es uc u a elacional del
discu so en o ma de ´a boles je ´a quicos. Po
ejemplo, se puede ex ae del analizado CO-
DRA8pa a el ingl´es (Jo y, Ca enini, y Ng,
2015), ya que ´es a se ´ıa la UDE si uada en la
aiz del ´a bol.
Nues o abajo es simila al abajo ea-
lizado po Bu s ein e al. (2001), que emplea
un clasi icado Bayesiano pa a iden i ica la
o aci´on em´a ica del ex o. El clasi icado se
si e como ca ac e ´ıs icas de la posici´on, de
una lis a de palab as cla e y cie as ca ac-
e ´ıs icas discu si as basadas en el analizado
RST de Ma cu (2000). Pa a ex ae la lis a
de palab as cla e, hemos omado como pun-
o de pa ida el abajo de I uskie a e al.
(2015) basado en eglas, pa a de ec a la UC
en es´umenes cien ´ı icos de euske a.
En la secci´on 5, los esul ados del p esen-
e expe imen o en el que se aplican ´ecnicas
de ap endizaje au om´a ico se compa an con
aquellos ob enidos en I uskie a e al. (2015)
a pa i de aplicaci´on de eglas.
3 Me odolog´ıa
3.1 E apas
Las e apas pa a desa olla nues o de ec o
de UCs basado en ´ecnicas de ap endizaje au-
om´a ico han sido las siguien es:
8CODRA se puede p oba muy acilmen e aqu´ı:
h p://al .qc i.o g/demos/Discou se_Pa se _
Demo/.
i. Co pus. Se ha eu ilizado el mismo co -
pus de I uskie a e al. (2015) que cons a
de 100 es´umenes cien ´ı icos en euske a
segmen ados y con las UCs ano adas ma-
nualmen e.
ii. Indicado es. Se han u ilizado los indica-
do es de I uskie a e al. (2015).
iii. Op imizaci´on. Se ha elegido y op imiza-
do el algo i mo de ap endizaje au om´a i-
co.
i . E aluaci´on. Se ha e aluado el de ec o
au om´a ico de UCs.
3.2 El co pus
El co pus sob e el que hemos ealizado es e
es udio es ´a con o mado po 100 ex os de 5
dominios di e en es (medicina (GMB), e mi-
nologia (TERM), ciencia (ZTF), ciencias de
la salud (OSA) y de la ida (BIZ)), ca aloga-
dos po UZEI9y la Udako Euskal Unibe si a-
ea (UEU).10 El co pus de 100 ex os con ie-
ne 15.168 palab as, cada ex o con su unidad
cen al. P esen amos el co pus con mayo de-
alle en la Tabla 1.
Dominio Tex os Palab as UDEs UCs
GMB 20 2.753 247 29
TERM 20 5.398 523 37
ZTF 20 6.646 548 27
OSA 20 4.964 454 21
BIZ 20 5.407 572 23
To al 100 15.168 2.344 137
Tabla 1: Desc ipci´on del Co pus
Hemos empleado los dominios GMB,
TERM y ZTF pa a en ena nues o sis ema
y gene a el modelo de ap endizaje (incluyen-
do la selecci´on ca ac e ´ıs icas y la op imiza-
ci´on hipe pa am´e ica), y los dominios OSA
y BIZ pa a alida los esul ados. El co pus
de en enamien o se ha di idido en 10 pa -
es pa a ealiza una alidaci´on c uzada. En
la Tabla 2hemos calculado si ambos co pus
mues an la misma di icul ad en la de ecci´on
de la unidad cen al de es e modo:
Di icul ad =U Cs
UDEs cuan o m´as ce ca de
1 es m´as ´acil de de e mina la UC.
Co pus UDEs UCs Di icul ad
T ain 1.318 93 0,07050
Tes 1.026 44 0,04288
Tabla 2: Di icul ad pa a elegi la UC
9h p://www.uzei.eus/.
10h p://www.ueu.eus/.
Un de ec o de la unidad cen al basado en écnicas de ap endizaje au omá ico en ex os cien í icos pa a el euske a
39
Seg´un la in o maci´on de la Tabla 2de ec-
a la UC en el co pus de alidaci´on ( es ) es
m´as di ´ıcil. Los esul ados ob enidos en (I us-
kie a e al., 2015) ambi´en se˜nalan que el e-
sul ado u´e peo en esa pa e del co pus.
El ama˜no de es e co pus (a ni el de
n´ume o de ex os) es simila al que se ha u i-
lizado en abajos ya mencionados an e io -
men e, como el de Paice (1980) con un co pus
de 32 ex os y el de Bu s ein e al. (2001) con
100 ex os.
3.3 El m´e odo de ano aci´on
El co pus u´e ano ado con la he amien a
RSTTool11 po dos linguis as expe os de
RST, en es ases:
i) Los ano ado es segmen a on el ex o en
UDEs.
ii) Ambos ano ado es de e mina on cual o
cuales de las UDEs o maban la UC.
iii) La ano aci´on de la UC ue e aluada y
ha monizada pa a ob ene un gold s an-
da d.
3.4 Acue do en e ano ado es
Dos ano ado es ano a on manualmen e las
UDEs y las UCs.12
El acue do en e el ano ado -1 (A1) y el
ano ado -2 (A2) con el coe icien e Kappa (κ)
(Siegel y Cas ellan, 1988) ue del 0,796 (de un
o al de 2.344 UDEs). Es e g ado de acue do
que es ´a en e los alo es del 0,8 κ(acue do
muy al o) y del 0,6 κ(buen acue do) es acep-
able, seg´un K ippendo (2004). Tambi´en es
compa able al acue do ob enido en abajos
simila es como el de Bu s ein e al. (2001) con
un acue do en e dos ano ado es de 0,733 κ
(de un o al de 2.391 o aciones) en un co pus
compues o po 100 ex os.13
3.5 Ex acci´on de ca ac e ´ıs icas
El co pus ha sido en iquecido con in o ma-
ci´on mo osin ´ac ica u ilizando un analizado
mo ol´ogico (Adu iz, 2000) y el desambiagua-
do mo ol´ogico (Ezeiza e al., 1998). Se ha
c eado una lis a de palab as cla e o signi ica-
i as pa a la ex acci´on de la unidad cen al,
una ez que se han analizado las ca ac e ´ıs i-
cas que mejo indican las UCs en el co pus
11h p://www.isi.edu/licensed-sw/RSTTool/.
12El gold s anda d de es os iche os pueden se con-
sul ados en h p://ixa2.si.ehu.es/disku soa/
en/segmen uak.php.
13Los desacue dos m´as comunes y el p oceso de a -
monizaci´on pa a ob ene un gold s anda d se desc i-
ben en I uskie a e al. (2015).
de en enamien o. Tomando como e e encia
el abajo de Paice (1980), hemos analizado
qu´e e bos, nomb es, p onomb es y palab as
cla es (bonus wo ds) pe mi en iden i ica la
UC en nues o co pus, incluyendo las ca ac-
e ´ıs icas que ue an necesa ias. Un esumen
de las ca ac e ´ıs icas que se u ilizan ap endi-
zaje au om´a ico puede e se en la Tabla 3.
Ca ac . Desc ipci´on
Nomb es Lis a de nomb es elacionados
con la UC
Ve bos Lis a de e bos elacionados
con la UC
Cla e/bonus Lis a de adje i os y ad e bios
Ve . Auxilia es Lis a de e bos con la p ime a
pe sona del plu al
De e minan es Del ipo hau ‘es e’ y hemen
‘aqui’
P onomb es P ime a pe sona del plu al gu
‘noso os’
Combinaciones Nomb es + de e minan es, p o-
nomb es + nomb es y e bos +
e bos auxilia es
Ve bos p inci-
pales
Si con iene un e bo p incipal
T´ı ulo Lis as de palab as que apa ecen
en el ex o del ´ı ulo
Posici´on Posici´on del segmen o en el ex-
o
Posici´on UDE
con e b. aux.
O den del segmen o en e los
que incluyen un e bo auxilia
Condional Si con iene un e bo condicio-
nal
Lis a de pala-
b as de pa ada
Lis a de palab as ca en es de
signi icado pa a las UCs
Tabla 3: Ca ac e ´ıs icas pa a de ec a la UC
3.6 Medidas de e aluaci´on
Pa a e alua el de ec o de la UC, el co pus
se ha sepa ado en dos pa es. Una pa e pa a
el en enamien o y o a pa a la p ueba inal
de alidaci´on.
Se ha u ilizado la misma sepa aci´on de da-
os de en enamien o y alidaci´on de I uskie-
a e al. (2015) pa a pode compa a los esul-
ados de ambos abajos. Los expe imen os se
han ealizado aplicando la ´ecnica de 10- old
c oss- alida ion sob e los da os de en ena-
mien o y inalmen e se ha e aluado sob e los
da os de alidaci´on. Pa a e alua el sis ema
se han u ilizado las medidas habi uales: Ex-
haus i idad (Recall), P ecisi´on, y los alo es
de ambas m´e icas combinadas en una media
a m´onica denominada alo -F (F-sco e oF1).
Tambi´en se ha lle ado a cabo un an´alisis
de e o es a ni el de ex o, pa a en ende co-
mo unciona el de ec o de la UC y e si hay
Kepa Bengoe xea, Ai zibe A u xa, Mikel I uskie a
40
log(P(UC|UDE)) = log(P(UC)) + X
i
log(P(Ai|UC)/P(Ai)),
Si UDE con iene Ai
log(P(Ai|UC)/P(Ai)),
Si UDE no con iene Ai
Tabla 4: F´o mula Be noulli mul i a ian e
luga pa a mejo as.
4 El de ec o au om´a ico de UCs
Como se ha mencionado p e iamen e, pa-
a c ea un clasi icado que de ec e aquellos
segmen os de un esumen que ienen mayo
p obabilidad pa a se e ique ados como UC,
se ha expe imen ado con di e en es algo i -
mos de clasi icaci´on como Mul inomial Nai e
Bayes,Mul i a ia e Be noulli Nai e Bayes,
Suppo Vec o Machines (SVM) con polino-
mios de g ado 2 y 3, Radial Basis Func ions
(RBF) ySingle Pe cep on, u ilizando an-
o ca ac e ´ıs icas basadas en ecuencia como
bina ias. Finalmen e se ha op ado po Mul-
i a ia e Be noulli Nai e Bayes po las si-
guien es azones:
−Los pa ´ame os necesa ios pa a el clasi-
icado se pueden es ima con co pus de
en enamien o peque˜nos.
−Ha sido u ilizado con ´exi o en a-
eas simila es: pa a iden i ica o aciones
em´a icas (Bu s ein e al., 2001) o pa-
a clasi ica ex os co os (McCallum y
Nigam, 1998).
−Puede se empleado an o como modelo
p edic i o como desc ip i o.
−La aplicaci´on de es e clasi icado es la
que mejo es esul ados nos ha b indado
sob e el co pus de en enamien o.
La dis ibuci´on de Be noulli a la ho a de
clasi ica iene en cuen a an o la ausencia
como la p esencia de las ca a e ´ıs icas. Pa-
a en iquece el modelo, hemos alido de las
ca ac e ´ıs icas que se mues an en la Tabla 3.
Empleando la ´o mula de la Tabla 4,Be -
noulli mul i a ian e, se ob iene la p obabili-
dad loga ´ı mica que iene una UDE pa a pe -
enece a la clase UC. El endimien o mejo a
si u ilizamos el es imado de Laplace pa a ha-
ce en e a los casos en que las es imaciones
de p obabilidad de cie as ca ac e ´ıs icas que
son iguales a ce o.
En la ´o mula de la Tabla 4:i)P(UC) es
la p obabilidad a p io i pa a que una UDE
pe enezca a la clase UC, ii)P(Ai|UC) es la
p obabilidad condicional pa a que una UDE
que pe enece a UC enga la ca ac e ´ıs ica
Ai, y iii)P(Ai) es la p obabilidad a p io i
pa a que una UDE con enga la ca ac e ´ıs ica
Ai,i )P(Ai|UC) es p obabilidad condicio-
nal de que una UDE que pe enece a UC no
enga la ca ac e ´ıs ica Ai, y )P(Ai) es la
p obabilidad a p io i pa a que una UDE no
con enga la ca ac e ´ıs ica Ai.
4.1 Elecci´on de un subconjun o de
ca ac e ´ıs icas usando un
m´e odo W appe
Como los algo i mos ingenuos de Bayes su-
en con las ca ac e ´ıs icas edun an es o co-
elacionadas, despu´es de selecciona el al-
go i mo de ap endizaje con odas las ca-
ac e ´ıs icas de en ada, hemos aplicado un
w appe que nos pe mi e selecciona el mejo
subconjun o de ca ac e ´ıs icas pa a el clasi i-
cado seleccionado.
Pa a aplica w appe necesi amos de ini
los siguien es c i e ios:
−Ope aciones en el Espacio de B´usque-
da. Las ope aciones puede se “a˜nadi
ca ac e ´ıs ica” o “elimina ca ac e ´ıs i-
ca” o ambas. El ´e mino de “selecci´on
hacia delan e” se e ie e a ealiza la
b´usqueda usando el ope ado “a˜nadi
ca ac e ´ıs ica”, mien as que el ´e mino
“selecci´on hacia a ´as” se e ie e a ea-
liza la b´usqueda usando el ope ado
“elimina ca ac e ´ıs ica”. Mien as que
´e mino “s ep-wise” usa ambos ope a-
do es. En nues os expe imen os hemos
usado ´unicamen e el ope ado “elimina
ca ac e ´ıs ica”.
−Es imado de exac i ud. Pa a medi la
exac i ud de cada ope aci´on hemos usa-
do en- old c oss- alida ion con la un-
ci´on de es imaci´on F-sco e.
−El algo i mo de b´usqueda. Pa a condu-
Un de ec o de la unidad cen al basado en écnicas de ap endizaje au omá ico en ex os cien í icos pa a el euske a
41
ci la b´usqueda se puede usa di e en-
es algo i mos. En nues o expe imen-
os hemos usado el algo i mo de b´usque-
da hill-climbing con la “selecci´on hacia
a ´as”. El algo i mo empieza con odo
el conjun o de ca ac e ´ıs icas y p og esi-
amen e elimina una ca ac e ´ıs ica y en
cada i e aci´on gene a suceso es del me-
jo nodo (aquel que ha ob enido el ma-
yo F-sco e). La condici´on de e mina-
ci´on se ´a cuando odos los suceso es de
la i e acci´on ac ual no mejo en el alo
de F-sco e de la i e acci´on an e io .
El w appe esuel e que el subconjun o
´op imo de ca ac e ´ıs icas que mejo esul a-
do ha ob enido es el siguien e: nomb es, e -
bos, bonus, de e minan es, p onomb es, pala-
b as del ´ı ulo, posici´on, e bos auxilia es y
3 combinaciones (nomb es + de e minan es,
p onomb es + nomb es y e bos + e bos au-
xilia es).
4.2 Pos -p oceso es ad´ıs ico
Finalmen e, se ha ealizado un pos -p oceso
es ad´ıs ico pa a los casos en los el clasi ica-
do no elija ninguna UDE como UC. En es e
caso, el pos -p oceso selecciona el p ime can-
dida o m´as p obable de odos ellos, ya que el
clasi icado nos de uel e un alo de p oba-
bilidad pa a cada UDE.
4.3 Demo pa a de ec a la UC
Una ez ealizadas es as a eas, hemos desa-
ollado una demo, pa a que pueda se u i-
lizada po la comunidad cien ´ı ica. De es a
o ma, la demo pide un ex o plano de en-
ada y o ece dos o ma os de salida di e en-
es: i) Fo ma o web, pa a u iliza en a eas
de PLN. ii) Fo ma o RSTTool (RS3), pa-
a pode co egui la segmen aci´on o la uni-
dad cen al y segui con la a ea manual de
la ano aci´on de las elaciones RST en eus-
ke a. La demo que puede se consul ada en
h p://ixa2.si.ehu.es/CU-de ec o .
5 Resul ados
En la Tabla 5se mues an a ios esul ados:
i)Rule Based. En la p ime a ila se p esen-
a el mejo esul ado egis ado en I uskie a,
An onio, y Labaka (2016) u ilizando m´e o-
dos basados en eglas y aplicando la mejo
heu ´ıs ica. ii)ML. En la segunda ila se pue-
den e los esul ados ob enidos con el clasi i-
cado Be noulli Nai e Bayes u ilizando odas
las ca ac e ´ıs icas. iii)ML +W ap. En la
e ce a ila apa ecen los esul ados ob enidos
despu´es de emplea el w appe , y aplicando
el mejo subconjun o de ca ac e ´ıs icas ob e-
nido. i )ML +W ap +Pos . Y inalmen e,
en la cua a ila se p esen an los esul ados
despu´es de aplica el pos -p oceso es ad´ıs i-
co. Ob eniendo los mejo es esul ados en F-
sco e de 0,54 con 10- old c oss- alida ion y
0,57 con los da os de alidaci´on.
Sis ema Da os P ec. Rec. F1
Rule Based De 0,43 0,51 0,47
Tes 0,70 0,40 0,51
ML De 0,47 0,48 0,48
Tes 0,46 0,54 0,50
ML+W ap De 0,58 0,46 0,51
Tes 0,46 0,59 0,51
ML+W ap+Pos De 0,56 0,53 0,54
Tes 0,48 0,70 0,57
Tabla 5: Tabla de esul ados
5.1 An´alisis de e o es
Los di e en es ipos de acue dos y desacue -
dos que hemos obse ado en el an´alisis global
( ex o po ex o) de e o es que desc ibimos
en la Tabla 6son los siguien es:
−Acue do o al (coincidencia). El de ec-
o solamen e ha e ique ado como UC,
aquella UDE que se de e mina como UC
en el gold s anda d.
−Acue do en UC, pe o con alsos candida-
os (exceso). Adem´as de las UCs de e -
minadas, el de ec o ha e ique ado o as
UDEs que nos son UCs en el ex o.
−Acue do pa cial en UCs m´ul iples ( al-
a). El de ec o ha de ec ado alguna UC
del ex o, pe o ha dejado o as UCs sin
e ique a .
−Desacue do o al (desacue do). El de ec-
o no ha de ec ado bien ninguna UC del
ex o.
Coinc. Exc. Fal a Desac.
ML+W ap 13 13 0 14
ML+W ap+Pos 16 13 2 9
Tabla 6: An´alisis de e o es
Si compa amos los esul ados ob eni-
dos con el m´e odo ML+W ap y con el
ML+W ap+pos de la Tabla 6, obse amos
que el pos p oceso mejo a los esul ados; ya
que, hay mayo n´ume o de acue dos: i) hay
mayo ‘coincidencia’ y ii) hay mayo n´ume o
de ‘ al a’, que son acue dos pa ciales, ya que
Kepa Bengoe xea, Ai zibe A u xa, Mikel I uskie a
42
po lo menos una de las UCs ha sido e ique-
ada adecuadamen e.
Hemos podido obse a que las causas de
los e o es come idos po el sis ema en los e-
sul ados del pos -p oceso, son los siguien es:
−‘Exceso’. En 13 ocasiones se ha de ec a-
do la UC y o o also candida o. En 10
ocasiones la p ime a UC de ec ada po
el sis ema es el ´unico ´alido y en 7 de
ellas es la UDE con m´as indicado es. En
las o as 3 ocasiones, el sis ema debe ´ıa
decan a se po el segundo candida o de-
ec ado con ambi´en con m´as indicado-
es.
−‘Fal a’. En 2 ocasiones se ha de ec ado
una sola UC de las UCs m´ul iples ano-
adas manualmen e.
−‘Desacue do’. En 9 ocasiones el de ec o
no ha sabido es ablece co ec amen e la
UC. En 2 ocasiones el ex o no cuen a
con indicado es su icien es pa a su de-
ecci´on. En o as 5 ocasiones la unidad
cen al no se p esen a como ema p inci-
pal, sino como una de inici´on o se anun-
cia median e una ca ´a o a. En las o as
2 el sis ema ha allado, po que no se han
de inido alguna o a ca ac e ´ıs ica, co-
mo po ejemplo la de da le impo ancia
a que algunas ca ac e ´ı icas es ´en unas
de ´as de o as.
Obse ando es os da os pensamos que hay
luga pa a mejo a esul ados desa ollando
´ecnicas pa a selecciona candida os en el
pos p oceso bas´andonos en eglas.
6 Conclusiones y abajo u u o
La mayo apo aci´on de es e abajo es que se
ha c eado el p ime de ec o de la unidad cen-
al (UC) de ex os cien ´ı icos pa a el euske-
a, que p ime o segmen a los ex os en UDEs
y despu´es de e mina la UC u ilizando ´unica-
men e ´ecnicas de ap endizaje au om´a ico.14
La UC se puede ex ae del an´alisis au om´a i-
co que ealizan o os analizado es de la RST,
como po ejemplo del analizado CODRA,
que es ´a en enado con ex os pe iod´ıs icos
en ingl´es y no pa a abs ac s cien ´ı icos.
Aho a mismo es amos es udiando si es po-
sible mejo a los esul ados ob enidos de las
siguien es o mas:
14Es e de ec o se puede p oba en h p://ixa2.
si.ehu.es/CU-de ec o .
−Combinando o as ´ecnicas de ap endi-
zaje au om´a ico.
−Combinando di e en es sis emas basados
en eglas y en ap endizaje au om´a ico.
En el u u o ambi´en que emos medi la
u ilidad de es e de ec o en a eas del PLN y
adap a es e de ec o a o as lenguas y g´ene-
os ex uales.
−U iliza en a eas de b´usqueda de es-
pues as (Aldabe e al., 2013) pa a p e-
gun a sob e el ema p incipal del ex o.
−Aplica en a eas de an´alisis del sen i-
mien o en euske a, ya que mejo a esul-
ados seg´un Alko a e al. (2015).
−Adap a el de ec o a o as lenguas y
e alua lo con co pus ano ados con RST,
como pueden se :
•La Spanish RST T eebank (da Cun-
ha e al., 2011) con 267 ex os ano-
ados.
•La RST T eebank en ingl´es (Ca l-
son, Oku owski, y Ma cu, 2002) con
385 ex os ano ados.
Bibliog a ´ıa
Adu iz, I. 2000. EUSMG: mo ologia ik
sin axi a mu iz apen g ama ika e abiliz.
Ph.D. esis, Euskal He iko Unibe si a-
ea, UPV/EHU, Donos ia.
Aldabe, I., I. Gonzalez-Dios, I. Lopez-Gazpio,
I. Mad azo, y M. Ma i xala . 2013. Two
app oaches o gene a e ques ions in bas-
que. P ocesamien o del Lenguaje Na u al,
(51):101–108.
Alko a, J., K. Gojenola, M. I uskie a, y
A. Pe ez. 2015. Using ela ional discou se
s uc u e in o ma ion in Basque sen imen
analysis. En 5 h Wo kshop RST and Dis-
cou se S udies”, in Ac as del XXXI Con-
g eso de la Sociedad Espa˜nola del P oce-
samien o del Lenguaje Na u al (SEPLN
2015), Alican e.
Bu s ein, J., D. Ma cu, S. And eye , y
M. Chodo ow. 2001. Towa ds au oma-
ic classi ica ion o discou se elemen s in
essays. En P oceedings o he 39 h annual
Mee ing on Associa ion o Compu a io-
nal Linguis ics, p´aginas 98–105. Associa-
ion o Compu a ional Linguis ics.
Un de ec o de la unidad cen al basado en écnicas de ap endizaje au omá ico en ex os cien í icos pa a el euske a
43
Ca lson, L., D. Ma cu, y M. Oku owski.
2001. Building a discou se- agged co -
pus in he amewo k o he o ical s uc-
u e heo y. En 2nd SIGDIAL Wo ks-
hop on Discou se and Dialogue, Eu os-
peech 2001, p´agina 10, Aalbo g, Denma k,
1-2 Sep embe . Associa ion o Compu-
a ional Linguis ics.
Ca lson, L., M. E. Oku owski, y D. Ma cu.
2002. RST discou se eebank. Linguis ic
Da a Conso ium, Uni e si y o Pennsyl-
ania.
da Cunha, I., J.-M. To es-Mo eno, G. Sie-
a, L.-A. Cab e a-Diego, y B.-G. Cas o-
Rol´on. 2011. The RST Spanish T eebank
On-line In e ace. En In e na ional Con-
e ence Recen Ad ances in NLP, Bulga-
ia, 12-14 Sep embe .
Ezeiza, N., I. Aleg ia, J.-M. A iola, R. U i-
za , y I. Adu iz. 1998. Combining s o-
chas ic and ule-based me hods o disam-
bigua ion in agglu ina i e languages. P o-
ceedings and 17 h In e na ional Con e en-
ce on Compu a ional Lingus ics, 1:380–
384.
I uskie a, M., J. An onio, y G. Labaka. 2016.
De ec ing he cen al uni s in wo di e-
en gen es and languages: a p elimina y
s udy o b azilian po uguese and basque
ex s. P ocesamien o de Lenguaje Na u-
al, (56):65–72.
I uskie a, M., M. A anzabe, A. Diaz de Ila-
aza, I. Gonzalez, M. Le sundi, y O. L.
de la Calle. 2013. The RST Basque
T eeBank: an online sea ch in e ace o
check he o ical ela ions. En 4 h Wo ks-
hop ”RST and Discou se S udies”, B asil,
Oc obe 21-23.
I uskie a, M., A. Diaz de Ila aza, G. La-
baka, y M. Le sundi. 2015. The De ec-
ion o Cen al Uni s in Basque scien i-
ic abs ac s. En 5 h Wo kshop RST and
Discou se S udies¨ın Ac as del XXXI Con-
g eso de la Sociedad Espa˜nola del P oce-
samien o del Lenguaje Na u al (SEPLN),
Alican e.
I uskie a, M., A. Diaz de Ila aza, y M. Le -
sundi. 2014. The anno a ion o he cen-
al uni in he o ical s uc u e ees: A
key s ep in anno a ing he o ical ela ions.
En COLING, p´aginas 466–475, Dublin.
Dublin Ci y Uni e si y and ACL.
I uskie a, M. y B. Zapi ain. 2015. Euse-
duseg: a dependency-based edu segmen a-
ion o basque. P ocesamien o del Len-
guaje Na u al, (55):41–48.
Jo y, S., G. Ca enini, y R. T. Ng. 2015. Co-
d a: A no el disc imina i e amewo k o
he o ical analysis. Compu a ional Lin-
guis ics, 41(3):385–435.
K ippendo , K. 2004. Con en analysis: An
in oduc ion o i s me hodology. Sage.
Luhn, H. P. 1958. The au oma ic c ea ion
o li e a u e abs ac s. IBM Jou nal o
esea ch and de elopmen , 2(2):159–165.
Mann, W. C. y S. A. Thompson. 1988. Rhe-
o ical s uc u e heo y: Towa d a un-
c ional heo y o ex o ganiza ion. Tex -
In e disciplina y Jou nal o he S udy o
Discou se, 8(3):243–281.
Ma cu, D. 2000. The he o ical pa -
sing o un es ic ed ex s: A su ace-
based app oach. Compu a ional Linguis-
ics, 26(3):395–448.
McCallum, A. y K. Nigam. 1998. A compa-
ison o e en models o nai e bayes ex
classi ica ion. En AAAI-98 wo kshop on
lea ning o ex ca ego iza ion, olumen
752, p´aginas 41–48.
Ne o, J. L., A. D. San os, C. A. Kaes ne , y
A. A. F ei as. 2000. Gene a ing ex sum-
ma ies h ough he ela i e impo ance o
opics. Ad ances in A i icial In elligence,
p´aginas 300–309.
Paice, C. D. 1980. The au oma ic gene a ion
o li e a u e abs ac s: an app oach based
on he iden i ica ion o sel -indica ing ph-
ases. En P oceedings o he 3 d annual
ACM con e ence on Resea ch and de e-
lopmen in in o ma ion e ie al, p´aginas
172–191. Bu e wo h & Co.
Pa do, T., L. Rino, y M. Nunes. 2003. Gis-
Summ: A summa iza ion ool based on
a new ex ac i e me hod. Compu a io-
nal P ocessing o he Po uguese Langua-
ge, p´aginas 196–196.
Siegel, S. y N. Cas ellan. 1988. The
F iedman wo-way analysis o a iance by
anks. Nonpa ame ic s a is ics o he
beha io al sciences, p´aginas 174–184.
Kepa Bengoe xea, Ai zibe A u xa, Mikel I uskie a
44