Ac as de las XV Jo nadas
de Ingenie ía Telemá ica
(JITEL 2021),
A Co uña (España),
27-29 de oc ub e de 2021.
This wo k is licensed unde a C ea i e Commons 4.0 In e na ional License (CC BY-NC-ND 4.0)
Gene aci´
on au om´
a ica de i mas pa a de ecci´
on
de cibe a aques basados en URI
R. Es epa Alonso∗, J. Diaz-Ve dejo†, A. Es epa Alonso∗, G. Madinabei ia∗, F. J. Mu˜
noz∗
∗Dp . Ingenie ´
ıa Telem´
a ica, Escuela Supe io de Ingenie os, Uni . de Se illa
C/ Camino de los Descub imien os s/n, 41092 Se illa (Spain)
E-mail: { a a,aes epa,ge man,ja i }@ ajano.us.es
†Dp . Teo ´
ıa de Se˜
nal, Telem´
a ica y Comunicaciones, CITIC, Uni . de G anada
C/ Pe iodis a Daniel Saucedo A anda, s/n, 18071 G anada (Spain)
E-mail: jed @ug .es
La mayo pa e de los sis emas de de ecci´
on de
in usiones (IDS) ope a i os se basan en el uso de
i mas que pe mi en iden i ica a aques conocidos. La
dependencia de es os IDS con la ac ualizaci´
on de
las bases de da os de i mas cons i uye una de sus
mayo es limi aciones, siendo de in e ´
es el desa ollo
de sis emas que posibili en la gene aci´
on au om´
a ica
o supe isada de i mas.
En el p esen e abajo se e al´
ua expe imen almen e
un sis ema pa a la gene aci´
on de i mas a pa i
de un IDS basado en anomal´
ıas p opues o en un
abajo p e io. Tambi´
en se desa olla y e al´
ua un
sis ema au oma izado pa a la selecci´
on del pun o de
ope aci´
on ´
op imo del gene ado de i mas. Los esul-
ados p elimina es de es e abajo en cu so mues an
que se pueden gene a i mas nue as que aumen en la
capacidad de de ecci´
on del IDS basados en i mas o
pa ones conocidos (SIDS) con olando el n´
ume o de
alsos posi i os in oducidos.
Palab as Cla e—Cybe secu i y, In usion De ec ion, Au o-
ma ic signa u es gene a ion, Web-based a acks
I. INTRODUCCI ´
ON
La necesidad de p o ege los equipos y edes de cib-
e amenzas es cada ez m´
as no o ia y ele an e. Uno
de los elemen os cla e en la segu idad de los sis emas
y edes son los denominados sis emas de de ecci´
on de
in usiones (IDS, del ingl´
es In usion De ec ion Sys ems)
[1], que emi en ale as a pa i de la obse aci´
on de los
di e sos e en os que ocu en en la ed o los sis emas a
p o ege . Los IDS gene an ale as seg´
un dos modos de
ope aci´
on b´
asicos: basado en i mas (SIDS, del ingl´
es
Signa u e-based IDS), que iden i ican un pa ´
on malicioso
p ees ablecido denominado i ma, como po ejemplo una
secuencia den o de la URI de una pe ici´
on HTTP; o
basados en anomal´
ıas (AIDS, del ingl´
es Anomaly-based
IDS), que iden i icaci´
on de compo amien os an´
omalos,
dando luga a los IDS.
Los SIDS son sis emas muy ex endidos en la ac ualidad,
dado que pe mi en de ec a a aques ya conocidos con
una iabilidad y cos e compu acional azonables. Como es
l´
ogico, el adecuado compo amien o de los SIDS depende
ue emen e de la disponibilidad y calidad de las i mas,
que deben se gene adas y ac ualizadas pe i´
odicamen e.
Po an o, es os sis emas esul an inadecuados pa a de ec-
a a aques no edosos, o de d´
ıa ce o (0-day), po no exis i
i mas pa a los mismos. Sin emba go, ´
es os ep esen an
un po cen aje impo an e del o al de a aques y, sob e
odo, gene an un ue e impac o. La soluci´
on pasa ´
ıa po
la gene aci´
on de las i mas co espondien es, pe o es e
p oblema es ecu si o, ya que pa a pode gene a la i ma
es necesa io de ec a p e iamen e el a aque, po lo que
debe u iliza se alg´
un p ocedimien o al e na i o. De ah´
ı el
in e ´
es de desa olla sis emas que sean capaces de gene a
las i mas de o ma au om´
a ica o semiau om´
a ica.
Como hemos mencionado an e io men e, los AIDS [1]
cons i uyen una ap oximaci´
on di e en e a la de ecci´
on
de a aques y son po encialmen e capaces de de ec a
a aques 0-day. Su endimien o depende ´
a de su capaci-
dad de ap ende y disc imina el compo amien o no -
mal/an´
omalo. En en o nos IT, donde en ocasiones no
hay un pa ´
on cla o de compo amien o del usua io, es a
a ea se adi ina compleja, lo que p opicia la apa ici´
on de
nume osos alsos posi i os (FP), siendo ´
es a una de las
mayo es limi aciones de los AIDS en la ac ualidad.
Son m´
ul iples los abajos en los que se ha p opues o
el uso de AIDS pa a iden i ica a aques y, a pa i de
ellos, gene a las i mas co espondien es pa a los SIDS
[2]. Pa a ello, se necesi a no s´
olo de e mina si se es ´
a
desa ollando un a aque, sino ambi´
en iden i ica los ele-
men os signi ica i os del mismo, que se ´
an los asociados
a la i ma. El in e ´
es de es a ap oximaci´
on eside en la
mayo acilidad de uso e implemen aci´
on de los SIDS, y
en la posible capacidad de gene alizaci´
on de las i mas
192
Es epa, D´
ıaz-Ve dejo, Es epa, 2021.
as´
ı ob enidas, eliminando o educiendo signi ica i amen e
la in e enci´
on de los expe os. Su u ilidad, no obs an e,
end ´
ıa limi ada po las asas de FP a las que pod ´
ıan da
luga es as nue as i mas.
En un abajo p e io [3] se ha p opues o un sis ema
au om´
a ico pa a la gene aci´
on de i mas en el con ex o
de a aques basados en URI ( ´
ease Secci´
on II). El AIDS
subyacen e se basa en [4], que modela las URI en base a
una ap oximaci´
on ma ko iana que pe mi e iden i ica los
elemen os asociados en mayo medida a la clasi icaci´
on
como a aque y, consecuen emen e, p opone i mas pa a
los mismos. Los esul ados ob enidos e idencian la posi-
bilidad de consegui una gene aci´
on de i mas adecuada,
pe o son ue emen e dependien es del pun o de ope aci´
on
del sis ema, que es ajus ado de o ma manual en un
p ocedimien o que puede esul a complejo.
En el p esen e abajo en cu so p e endemos explo a las
capacidades de dicha p opues a en un escena io ope a i o
eal que incluye a ios se ido es que coope an pa a es-
ablece las nue as i mas. Pa a ello se abo dan p opues as
y mejo as en es aspec os ele an es. En p ime luga ,
se plan ea un sis ema au om´
a ico de selecci´
on del pun o
de ope aci´
on ´
op imo pa a la gene aci´
on de las i mas,
analizando el impac o de los FP sob e las eglas gene adas
y, consecuen emen e, sob e el uso de las mismas en el
escena io eal. Po o a pa e, se plan ean di e sas ´
ecnicas
pa a la selecci´
on y ag upaci´
on de las i mas a pa i de
los segmen os iden i icados como asociados a a aques.
Finalmen e, se analiza ´
a la capacidad de gene alizaci´
on
de las i mas a pa i de su dis ibuci´
on a o os se icios
di e en es a aquel en el que se ha in e ido. El obje i o
inal es el desa ollo de un sis ema global de gene aci´
on
y dis ibuci´
on de i mas pa a a aques basados en URI.
Es e abajo se es ´
a lle ando a cabo en el ´
ambi o de
un p oyec o de colabo aci´
on con una emp esa andaluza
del sec o de Sma Ci ies, que p opo ciona ´
a da os eales
ob enidos du an e ope aci´
on.
El p esen e a ´
ıculo se es uc u a como sigue. En p ime
luga , en el Apa ado II se p esen a ´
a b e emen e la
´
ecnica SSM y el abajo p e io en el que se basa la
p esen e p opues a. El Apa ado III desc ibe la a qui ec u a
gene al del sis ema p opues o y abo da el p oblema del
ajus e au om´
a ico del pun o de ope aci´
on, p esen ´
andose
el escena io u ilizado pa a es as p uebas y los esul ados
expe imen ales ob enidos en el Apa ado IV. Finalmen e,
en el Apa ado V se p esen an las conclusiones y se
esbozan los desa ollos y esul ados p elimina es ela i os
a la ag upaci´
on de i mas y su dis ibuci´
on.
II. GENERACI ´
ON DE FIRMAS
A con inuaci´
on, desc ibi emos b e emen e los unda-
men os de la ´
ecnica u ilizada y su aplicaci´
on a la gen-
e aci´
on de i mas de a aques [3].
A. De ecci´
on de anomal´
ıas en URI
La ´
ecnica u iliza un au ´
oma a de es ados ini os p ob-
abil´
ıs ico pa a ep esen a las ins ancias de un p o ocolo
con es uc u a sin ´
ac ica en sus ca gas ´
u iles (en nues o
caso las URI de HTTP) median e su segmen aci´
on en
palab as. De acue do al es ´
anda RFC 3986, un URI, Uk,
debe p esen a una es uc u a sin ´
ac ica de la o ma:
”h p://”hos [”:”po ][ abs pa h[”?”que y]]
siendo posible su segmen aci´
on, a pa i de los deli-
mi ado es es ´
anda , en un conjun o de Lpalab as, wk=
wk
1, wk
2,· · · , wk
L, asociadas a cada uno de los campos
(en nues o caso s´
olo son de in e ´
es los campos abs pa h
yque y, o mada po los pa es a ibu o, alo ).
A pa i de un conjun o de URI, es posible es ablece
un dicciona io,D={(wi, i)}, compues o po odas
las palab as obse adas, wiy su ecuencia ela i a de
obse aci´
on, i. De es a o ma, dado un URI de en ada
Ukcompues o po una secuencia de palab as, wky un
dicciona io p e iamen e es imado, es posible asigna un
´
ındice de anomal´
ıa,As(Uk), a pa i de la p obabilidad
es imada pa a cada una de dichas palab as [5]:
As(Uk) = −log 1
L
L
X
i=1
log( k
i)!(1)
Es e ´
ındice se ´
a posi i o y an o mayo cuan o meno sea
la p obabilidad de la secuencia obse ada. De es a o ma,
se pod ´
a clasi ica un URI como no mal o an´
omalo de
acue do al umb al de de ecci´
on,θ, como
Clase(U) = No mal si As(U)< θ
Anomalo si As(U)≥θ(2)
Po o a pa e, es a ap oximaci´
on plan ea un p oblema
de en enamien o insu icien e elacionado con la posible
apa ici´
on de palab as que no han sido obse adas du an e
el p oceso de en enamien o y que, en consecuencia,
end ´
ıan asociada una p obabilidad nula. Pa a soluciona lo
se es ablece una p obabilidad ija m´
ınima pa a cualquie
palab a obse ada, denominada p obabilidad de ue a de
ocabula io,pOOV .
B. Gene aci´
on de i mas
El modelado an e io men e desc i o pe mi e e alua la
p obabilidad de no malidad de las dis in as palab as que
componen la URI, po lo que, dada una URI que se de e -
mina an´
omala (a aque), es posible iden i ica y selecciona
los segmen os que con ibuyen en mayo p opo ci´
on a
dicha clasi icaci´
on. De es a o ma, se delimi an y ex aen
las palab as o secuencias de palab as que supe an el
denominado umb al de gene aci´
on de i ma pa a un seg-
men o,φ, incluyendo los delimi ado es co espondien es.
Cada uno de es os agmen os se ´
a candida o a o ma
pa e de una nue a i ma.
Po o a pa e, el p opio ´
ındice de anomal´
ıa de una URI
es indica i o del g ado de no malidad de la misma, po
lo que, pa a minimiza el posible impac o de los FP, se
es ablece un umb al de gene aci´
on de i mas,Ψ, de al
o ma que ´
unicamen e las URI cuyo ´
ındice de anomal´
ıa
supe e dicho umb al se ´
an conside adas en el p oceso de
gene aci´
on de i mas. En consecuencia, dado un URI, U,
se de e mina que un segmen o es an´
omalo y se inco po a
a una i ma si se cumple
(A
s(U)≥φ)∧(As(U)≥Ψ), con Ψ> θ (3)
This wo k is licensed unde a C ea i e Commons 4.0 In e na ional License (CC BY-NC-ND 4.0)
193
Gene aci´
on au om´
a ica de i mas pa a de ecci´
on de cibe a aques basados en URI
Fig. 1. Funcionamien o del sis ema p opues o
siendo A
s(U)el ´
ındice de anomal´
ıa del segmen o.
La ope aci´
on del sis ema p opues o en es e abajo
se esquema iza en la Fig. 1. Po un lado, cada uno de
los AIDS desplegados y en enados con su ´
a ico local
e al´
uan las URI de en ada y, pa a aquellas su icien emen e
an´
omalas, ex aen los segmen os candida os a i mas, que
se ´
an ag upados con enien emen e en una nue a i ma
in eg ada en un eposi o io local de i mas. Como se puede
obse a , a pa i de los modelos en enados y ajus ados en
a ios se ido es se in ie en eposi o ios de i mas locales
que son ag upadas y analizadas pa a ex ae un eposi o io
global con i mas ´
alidas pa a odos los se ido es. La
gene aci´
on de un eposi o io global coope a i o de i mas
se ´
a abo dado en las siguien es ases del p oyec o en cu so,
cen ´
andose es e abajo en el sis ema gene ado de i mas.
III. AJUSTE DE UMBRALES DE LA GENERACI ´
ON DE
FIRMAS
Pa a la ex acci´
on de las i mas locales es necesa io
ajus a expe imen almen e el sis ema pa a selecciona el
pun o ´
op imo de ope aci´
on, que in lui ´
a en la asas inales
de de ecci´
on y de alsos posi i os. Consecuen emen e, es
necesa io ajus a 3 pa ´
ame os: θ, φ yΨ, ya que el alo
de pOOV depende del conjun o de en enamien o. As´
ı, el
alo del umb al de gene aci´
on de i ma pa a un segmen o,
φ, debe se in e io al de la p obabilidad m´
ınima egis ada
en el dicciona io, es o es, φ < min({ i}), pa a asegu a
que las palab as que cons i uyen la i ma no han sido
obse adas p e iamen e. As´
ı mismo, pa ece l´
ogico pensa
que las URI candida as a gene aci´
on de i mas sean un
subconjun o de aquellas de ec adas como an´
omalas, lo que
exige que se cumpla θ < Ψ. Tambi´
en esul a cohe en e
que, pa a con ola el n´
ume o de FP que pueden da luga
a i mas, haya que ajus a el alo de Ψ. A con inuaci´
on,
p oponemos un p ocedimien o de ajus e del umb al de
gene aci´
on de i mas en el que aco amos la asa m´
axima
de FP acep ada. Es e algo i mo pa e de la suposici´
on de
que la asa de FP obje i o que engamos en el conjun o de
en enamien o se ´
a simila a la que ob end emos du an e
la explo aci´
on del sis ema.
A. Ajus e au om´
a ico del alo de Ψ
El obje i o del mecanismo de ajus e que se p opone en
es e abajo es explo a un espacio de b´
usqueda de alo es
pa a Ψa in de que la asa de FP conseguida con las i mas
Fig. 2. Casos pa a el his og ama de As.
no sob epase un umb al de e minado po el ope ado del
se icio. En p ime luga , podemos de e mina co as pa a
el alo de Ψ, umb al de gene aci´
on de i ma, a la is a
de los ´
ındices de anomal´
ıa egis ados du an e la ase de
en enamien o.
Dado un da ase de en enamien o con ´
a ico limpio
(TL) y o o con ´
a ico de a aques (TA), es de espe a
que el his og ama de los ´
ındices de anomal´
ıa esponda
a una de las dos si uaciones mos adas en la Fig. 2. En
el p ime caso (pa e supe io ), que co esponde ´
ıa a la
si uaci´
on ideal, el ´
a ico limpio y el de a aque p esen an
una g an di e encia en sus dicciona ios, esul ando que
max(As(T L)) < min(As(T A)), lo que implica que si
elegimos Ψ> max(As(T L)) no end emos ning´
un FP
en el en enamien o y de ec a emos odos los a aques.
Desa o unadamen e, el segundo caso es el m´
as habi ual e
implica que max(As(T L)) > min(As(T A)), po lo que
alo es de Ψen el ango [min(As(T A)), max(As(T L))]
gene a ´
an una asa de alsos posi i os en el en enamien o.
As´
ı pues, el ajus e de Ψse ealiza ´
a du an e el en-
enamien o, e aluando i e a i amen e la asa de FP en-
con ada en el TL cuando se u ilizan las i mas gen-
e adas1pa a alo es c ecien es de Ψ. Es o se puede
hace con un algo i mo que pa e de un alo inicial
Ψ = min(As(T A)), que gene a ´
a la asa de FP m´
axima
posible, que se compu a ´
a a pa i de TL. Si dicha asa es
meno que la asa de FP obje i o, el algo i mo se de end ´
a,
en o o caso, se inc emen a ´
a el alo de Ψy se ol e ´
a
a e alua en una nue a i e aci´
on. El esul ado inal se ´
a el
alo de Ψque cumple que la asa de FP que in oducen
las nue as i mas es meno que el alo obje i o.
IV. RESULTADOS EXPERIMENTALES PRELIMINARES
A con inuaci´
on, se p esen an los esul ados expe imen-
ales ob enidos ela i os a la capacidad de de ecci´
on y
1A al e ec o se ha desa ollado una sencilla he amien a SIDS
denominada Inspec o Log, que pe mi e aplica las i mas gene adas a
las URI.
This wo k is licensed unde a C ea i e Commons 4.0 In e na ional License (CC BY-NC-ND 4.0)
194
Es epa, D´
ıaz-Ve dejo, Es epa, 2021.
Fig. 3. Capacidad de de ecci´
on de las i mas en di e sos pun os de
ope aci´
on del AIDS.
el ajus e de umb ales. El alo de φse ha ajus ado a
0,9·min({ i}), cumpliendo as´
ı la es icci´
on de que un
segmen o an´
omalo no puede habe sido is o en el ´
a ico
limpio. Pa a la expe imen aci´
on se ha u ilizado:
•T a ico limpio (TL): p o enien e de 1 semana de
´
a ico eal del se icio P oxyWeb de una emp esa,
que denomina emos H, que cuen a con 289 505 pe i-
ciones GET. Se han ealizado 4 pa iciones pa a
en enamien o, es y alidaci´
on.
•T ´
a ico de a aques (TA): se han u ilizado dos da ase
con 833 y 1 177 URI de a aques, espec i amen e,
gene adas a pa i de las ulne abilidades encon adas
en la base de da os CVE (Common Vulne abili ies
and Exposu es) aplicables a se ido es HTTP del a˜
no
2018 [5].
El p ime expe imen o ealizado u iliza el algo i mo de
ajus e de Ψp opues o an e io men e pa a ob ene i mas
con dis in os umb ales de FP ole ados en el AIDS: 0%,
0,01%, 0,05% y 0,09%. Pa a ello se en ena el sis ema
con una de las cua o pa iciones y se e al´
ua con el
es o, p omediando los esul ados seg´
un un esquema lea e-
one-ou . Los esul ados inales ob enidos pa a las i mas
gene adas con los dis in os da ase de a aques se mues an
en la Fig. 3.
En es a igu a se puede obse a que, a mayo FP
obje i o mayo capacidad de de ecci´
on de las i mas
gene adas. Con espec o a los FP de ec ados, siemp e
ue on in e io es al FP obje i o del algo i mo, omando
los alo es de 0%, 0.001%, 0.007%, 0.023% pa a los FP
obje i os 0%, 0.01%, 0.05% y 0.09% espec i amen e.
Es os esul ados a alan la hip´
o esis de que la asa de FP
gene ados po el AIDS se ´
a siemp e supe io a la de las
i mas ob enidas.
El siguien e expe imen o ealizado consis i´
o en explo a
los l´
ımi es del sis ema cuando se es ablece la asa de
FP a 0, pa a obse a la capacidad m´
axima de de ecci´
on
ob enida. En la Tabla I se pueden obse a los esul ados
pa a el da ase de 833 a aques. Vemos que en enando
con el ´
a ico limpio H1 (p ime a pa ici´
on) an s´
olo
somos capaces de de ec a un 33,73% de los a aques,
que gene a ´
ıan 33 i mas. Las dis in as pa iciones de
TL empleadas (H1-H4) dan luga a di e en es alo es.
Pa a cada expe imen o se mues a el alo ´
op imo de
Tabla I
RESULTADOS DE GENERACI ´
ON DE FIRMAS CON DIFERENTES
PARTICIONES.
Exp Ψ ango CD(%) FP(%) N. Fi mas
H1.833 16.31 17.36 33,73 0 33
H2.833 16.27 17.31 33,73 0 66
H3.833 16.83 17.33 2 0 20
H4.833 16.29 17.33 33,7 0 33
Ψde e minado po el algo i mo, el m´
aximo alo que
pod ´
ıa oma (columna ango), la capacidad de de ecci´
on
de a aques, los alsos posi i os encon ados y el n´
ume o
de i mas gene adas.
V. CONCLUSIONES
La gene aci´
on au oma izada pe mi e mejo a la capaci-
dad de de ecci´
on de los SIDS. En es e a ´
ıculo se ha
e aluado el endimien o de un sis ema gene ado de i mas
en el con ex o de a aques en la URI as´
ı como un m´
e odo
pa a el ajus e de umb ales y educci´
on de FP. Tambi´
en
se han p esen ado algunos esul ados p elimina es den o
de los l´
ımi es de espacio asociados al ipo de abajo (en
cu so). Los esul ados mues an la capacidad de de ecci´
on
de a aques no edosos que no e an de ec ados median e las
i mas disponibles sin inc emen a la asa de FP del SIDS.
Ac ualmen e es amos abajando con da ase s de mayo
ama˜
no que pe mi en segui desa ollando y mejo ando el
sis ema, as´
ı como en el uso c uzado de las i mas pa a
es udia la capacidad de gene alizaci´
on.
AGRADECIMIENTOS
Es e abajo ha sido pa cialmen e inanciado po el
p oyec o 2020/00000172 den o del p og ama de P oyec-
os singula es de ac uaciones singula es de ans e encia
en los CEI en las ´
a eas RIS3 de la Jun a de Andaluc´
ıa.
REFERENCIAS
[1] N. Mous a a, J. Hu, J. Slay, ”A holis ic e iew o Ne wo k Anomaly
De ec ion Sys ems: A comp ehensi e su ey”, Jou nal o Ne wo k
and Compu e Applica ions,(128)33?55, 2019.
[2] S. Kau , M. Singh, ”Au oma ic a ack signa u e gene a ion sys ems:
A e iew”, IEEE Secu . P i ., (11)54–61, 2013.
[3] P. Ga cia-Teodo o, J.E. Diaz-Ve dejo, J. Tapiado , R. Salaza -
He nandez, ”Au oma ic gene a ion o HTTP in usion signa u es
by selec i e iden i ica ion o anomalies”, Compu e s and Secu i y,
(55)159–174, 2015.
[4] J. M. Es ´
e ez-Tapiado , P. Ga c´
ıa-Teodo o, J. E. D´
ıaz-Ve dejo, ”De-
ec ion o web-based a acks h ough Ma ko ian p o ocol pa sing”,
P oc. IEEE Symp. on Compu e s and Communica ions, 2005.
[5] R. Es epa, J.E. D´
ıaz-Ve dejo, A. Es epa, G. Madinabei ia, ”How
Much T aining Da a Is Enough? A Case S udy o HTTP Anomaly-
Based In usion De ec ion”, IEEE Access, 8:44410–44425, 2020.
This wo k is licensed unde a C ea i e Commons 4.0 In e na ional License (CC BY-NC-ND 4.0)
195