UNIVERSIDAD DE ALMERIA
ESCUELA SUPERIOR DE INGENIERÍA
TRABAJO FIN DE GRADO
Cu so 2016/2017
Alumno/a:
José Luis Na a o Mo os
Di ec o /es:
José del Sag ado Ma ínez
“Ando e –Aplicación pa a el análisis
empo al y geog á ico de opinión en
endencias de Twi e ”
1
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
P ólogo
Du an e los 4 años de ca e a son muchas las asigna u as po las que pasamos.
Resul a habi ual, du an e los p ime os años, p egun a se si he elegido la i ulación que
ealmen e me gus a as pasa asigna u a y asigna u a sin acaba con esa sensación de “es o
es lo que ealmen e me gus a”. Pe o al inal, más a de que emp ano, llega el espe ado
momen o, que en mi caso, no ha sido has a el cua o cu so de ca e a con la asigna u a de
In eligencia de Negocio, asigna u a con la cuál he descubie o que la ama que más me
apasiona y en la que menos es ue zo me cues a abaja es la Mine ía de Da os. Quizás una de
las amas menos “pu amen e” in o má icas pe o no po ello menos impo an e.
Cuando, du an e el anscu so de la asigna u a sabo ee la capacidad que, jun o a la Mine ía
de Da os, enemos pa a ecoge una inmensa can idad de da os, sin apenas in o mación a
p io i, y con e i los en un en e capaz de apo a una in o mación an po en e como pa a
plan ea se un cambio en la polí ica de una emp esa es cuando descub í que lo que enía
en e a mi enía que se el ámbi o al que dedica mi T abajo de Fin de G ado.
En ese momen o comencé a da le uel as a la cabeza sin consegui es ablece un ema
especí ico den o de la Mine ía de Da os sob e el que p o undiza . Descub í al can idad de
emas que me abo da on y pe dí el umbo.
Fue el momen o de acudi a una pe sona con expe iencia en el campo que me cogie a de la
mano y me si ua a en el inicio del camino que yo ealmen e buscaba. Y que mejo pe sona
que el p o eso que me impa ió la asigna u a an e io men e ci ada.
Du an e una cha la en su despacho, con solo habla del ema, casi sin que e , se iba
o malizando el ema del p oyec o. Y aho a que lo engo en mis manos pienso que no pod ía
habe elegido o o mejo .
Así que desde aquí, no me gus a ía pasa al siguien e pun o pa a en a en ma e ia sin
ag adece su ayuda. José, mi más since a g a i ud po la colabo ación p es ada. He
dis u ado y ap endido más de lo que nunca hubie a pensado du an e la ealización de es e
p oyec o y g an pa e de culpa es uya.
Sin más dilación, comencemos con el p oyec o, que, espe o gus e a los leyen es igual o más
que lo ha hecho a mí.
2
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Índice
gene al
P
´
ologo
I
´
Indice
gene al
II
1.
INTRODUCCIÓN
4
1.1
P esen ación del p oblema
4
1.2
Obje i os del p oyec o
5
1.2
Es uc u a del documen o
6
2. ESTADO DEL ARTE
7
3. FASES DE DESARROLLO
11
4.
ANÁLISIS
12
4.1
Desc ipción de allada de la
solución
12
4.2
Análisis de equisi os
14
5.
RECURSOS Y HERRAMIENTAS
15
5.1
RS udio
15
5.2
Shiny
16
5.3
Twi eR
16
5.4
Lea le
17
5.5
Sen imen
18
5.6
Shinyapps.io
18
5.7
Léxico de pola idad
19
6.
DISEÑO
22
6.1
A qui ec u a del sis ema
22
6.2
Conexión y ex acción de wee s
23
6.3
T ending Topics
25
6.4
Limpieza de wee s
27
3
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
6.5
Análisis basado en el léxico
28
6.6
Análisis con algo i mo Naï e
Bayes
31
6.7
Nube de palab as (Wo dcloud)
34
6.8
Diseño de la in e az de usua io
35
6.9
Deploy con Shinyapps.io
39
7.
RESULTADOS
40
7.1
Ejemplo de análisis basado en el
léxico
40
7.2
Ejemplo de análisis con algo i mo
Nai e Bayes
42
7.3
Compa ación de los 2 ipos de
análisis
46
8.
CONCLUSIONES
48
8.1
Desa ollo del p oyec o
48
8.2
Conclusiones
49
8.3
T abajo u u o
49
ANEXOS
A. Análisis de equisi os
50
B.
Diag ama de casos de uso
54
C.
C onog ama de las ases del p oyec o
55
D.
Código en R de la aplicación
56
BIBLIOGRA
F
´
IA
57
4
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Ca
p
´
ı ulo
1
In
oducc
io
´
n
1.1
P esen ación del p oblema.
Resul a sencillo da se cuen a que las edes sociales son un campo en pleno auge en la
sociedad ac ual.
Según Facebook: casi un o al de 1.230.000.000 usua ios de la pla a o ma inician sesión
habi ualmen e en sus cuen as, llegando a pasa un p omedio de 17 minu os al día
conec ados.
Además, ecien es es udios es adís icos e elan que el 72% de los homb es y el 80% de las
muje es poseen un pe il ac i o en alguna ed social.
Redes sociales como wi e suelen u iliza se pa a exp esa opiniones ace ca de una
de e minada emá ica, como pod ía se una no icia sob e un caso de co upción. Teniendo en
cuen a la inmensa can idad de usua ios que usan las edes sociales, es amos hablando de
millones de opiniones dia ias.
Puede esul a más que in e esan e se capaz de ealiza un análisis de odas esas opiniones
pa a ob ene in o mación ace ca de los in e eses de la sociedad en cada momen o y ubicación
geog á ica.
De es o p ecisamen e se enca ga la mine ía de da os aplicada a las edes sociales. És a
consis e en la ex acción no i ial de in o mación que eside de mane a implíci a en los
da os. En o as palab as, la mine ía de da os p epa a, sondea y explo a los da os pa a saca
in o mación ocul a de ellos.
5
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Los usos más habi uales de la mine ía de da os, en el campo de las edes sociales, son los
elacionados con se icios de publicidad pe sonalizada (no es casualidad que en la ed se nos
mues en anuncios elacionados con nues as a iciones o gus os) y con los p ocesos de
con a ación de pe sonal en emp esas (en la selección de pe sonal, el es udio de los pe iles
de las edes sociales puede apo a a las emp esas in o mación ele an e que no se ob end á
en una simple en e is a de abajo y puede se cla e pa a una co ec a elección).
Nues o en oque no se co esponde con ninguno de los dos usos an e io es. Nues o in e és
se cen a en es udia la opinión de la sociedad an e una de e minada emá ica en unción de
la si uación empo al y geog á ica. Con el desa ollo de es e p oyec o se p e ende ob ene una
he amien a que nos pe mi a analiza el sen imien o (posi i o, nega i o o neu o) y la
emoción (aleg ía, miedo, en ado, e c.) de los usua ios de Twi e an e una de e minada
endencia o emá ica, odo es o desde un análisis empo al y geog á ico.
Po ejemplo, pod ía esul a ú il analiza qué opina la sociedad ace ca de las p óximas
elecciones y cómo és a opinión a ía en unción del luga geog á ico en que nos encon emos
o del momen o empo al en el que nos si uemos.
1.2
Obje i os del p oyec o.
Cómo obje i o de es e p oyec o se p e ende ob ene una he amien a con la que, a pa i de
una emá ica o endencia de en ada, ob engamos el sen imien o y emoción que dicha
endencia causa en la sociedad a a és de Twi e .
La aplicación desa ollada es in e ac i a con el usua io y mues a la in o mación de una
mane a cla a y p ecisa. Realiza á 2 ipos de análisis:
- Análisis de sen imien o basado en el léxico. Realizamos una ponde ación y un
ecuen o de las palab as o exp esiones que deno an un sen imien o posi i o,
neu o y nega i o y nos basamos en es e ecuen o pa a exp esa el sen imien o del
mensaje comple o [5, 6].
- Análisis median e clasi icado Nai e Bayes. Un clasi icado Bayesiano es un
clasi icado p obabilís ico undamen ado en el eo ema de Bayes. Tend emos un
clasi icado Nai e Bayes en enado con un conjun o de da os de en enamien o
con el cuál, a pa i de un mensaje de en ada, se á capaz de clasi ica su
sen imien o y emoción [5, 6].
6
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Pa a ambos análisis la aplicación pe mi e al usua io in oduci di e sos pa áme os de
en ada que end án e lejo en el esul ado del mismo.
Jun o a es o, la aplicación con iene una sección pa a la ob ención de los ac uales ending
opics sob e los cuales el usua io puede ealiza pos e io men e uno de los dos análisis
an e io men e ci ados. És os ending opics pueden ob ene se a pa i de una localización
geog á ica conc e a.
1.3
Es uc u a del documen o.
El p esen e documen o se inicia con un p ólogo.
En el p ime capí ulo se p esen a una in oducción con la p esen ación del p oblema y los obje i os
del p oyec o. En el segundo capí ulo se de alla el es ado del a e con la in o mación ob enida an es
del inicio del p oyec o sob e el ámbi o del mismo. A con inuación, en el capí ulo 3, se pasa a
de alla el análisis del sis ema, es o es, una desc ipción de allada de la solución sin en a en
de alles de implemen ación, es deci , el qué y no el cómo. Una ez p esen ado el análisis, en el
capí ulo 4, se de allan odos los ecu sos y he amien as empleados pa a el desa ollo del p oyec o.
En el capí ulo 5 se desc ibe el diseño del sis ema, comenzando po la a qui ec u a del mismo y
pasando a de alla cada módulo implemen ado jun o con el diseño de la in e az de usua io.
Seguidamen e, en el capí ulo 6, se p esen an los esul ados, de allando 2 ejemplos, uno de cada ipo
de análisis jun o con una compa ación inal de los 2. Finalmen e, en el capí ulo 7 se de allan las
conclusiones del p oyec o y el abajo u u o.
Además, en los anexos se incluye el análisis de equisi os del sis ema (Anexo A), el diag ama UML
de casos de uso pa a el modelado de los equisi os del sis ema (Anexo B), el c onog ama asociado a
las ases de desa ollo del p oyec o (Anexo C) y el enlace al código del p oyec o (Anexo D).
7
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Ca
p
´
ı ulo
2
Es ado del a e
Uno de los desa íos del Análisis de Sen imien os es la de inición de los obje os de es udio de las
opiniones y la subje i idad. O iginalmen e, la subje i idad ue de inida po lingüis as, den o del
que des aca, Randolph Qui k [20]. Qui k de ine un es ado p i ado como algo que no se encuen a
abie o a la obse ación obje i a o e i icación. Es os es ados p i ados incluyen emociones,
opiniones y especulaciones, en e o os. La de inición misma de es e es ado p i ado di icul a el
análisis del sen imien o. La subje i idad es á a menudo implíci a en una con e sación, además de
se al amen e sensible al con ex o, y su exp esión a menudo es peculia de cada pe sona. Sin
emba go, esa subje i idad no implica que no sea e dad [21]. Po ejemplo, la ase “Jenni e ama el
chocola e” exp esa un sen imien o de Jenni e pa a con el chocola e, pe o es o no signi ica que no
sea e dad. Es así, como de es a misma mane a no odas las ases obje i as son e dade as.
Como campo de in es igación, el análisis de sen imien os, es á es echamen e elacionado con (o se
puede conside a una pa e de) la lingüís ica compu acional, p ocesamien o del lenguaje na u al y
la mine ía de ex os. Pa iendo po el es udio del es ado a ec i o (psicología) y el juicio ( eo ía de la
e aluación), es e campo iene po obje o esponde a las p egun as es udiadas du an e mucho
iempo en o as á eas sob e el discu so, u ilizando nue as he amien as p opo cionadas po la
mine ía de da os y la lingüís ica compu acional.
Análisis de Sen imien os iene muchos nomb es. A menudo, se conoce como análisis de
subje i idad, mine ía de opinión, y ex acción de e aluación, con algunas conexiones con la
in o má ica a ec i a ( econocimien o compu acional y la exp esión de la emoción) [
22
]. Es e campo
po lo gene al es udia los elemen os subje i os, de inidos como "exp esiones lingüís icas de los
es ados pa icula es en con ex o"[21]. Es as suelen se palab as suel as, ases u o aciones. A eces,
los documen os en e os son es udiados como una unidad de sen imien o, pe o es gene almen e
acep ado que el sen imien o eside en pequeñas unidades lingüís icas [23]. Tan o el sen imien o,
como la opinión a menudo se e ie en a la misma idea, en es e documen o se u ilizan los é minos
indis in amen e.
Los sen imien os que apa ecen en ex os se en de dos o mas, la p ime a es explíci amen e, donde
la ase subje i a di ec amen e exp esa la opinión (“Es un he moso día”), mien as que la segunda
es implíci a, en donde el ex o implica una opinión (“Los audí onos se queb a on en dos días”) [24].
La mayo ía de los abajos ealizados se han en ocado en el p ime ipo de sen imien o, debido a
que es e es más ácil de analiza .
8
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
La pola idad de los sen imien os es una ca ac e ís ica pa icula de los ex os. És a se hace p esen e
egula men e de o ma dico ómica, posi i o o nega i o, a pesa de que ambién puede se is a
den o de un ango. Un documen o posee a ias ases que demues an opiniones, las cuales
pod ían ene una pola idad mix a, que es di e en e a que es as no u iesen pola idad. Yendo más
lejos, se debe hace una dis inción en e la pola idad del sen imien o y la ue za que es e iene.
O a impo an e pa e del sen imien o es el obje i o, pudiendo se un obje o, un concep o, una
pe sona o cualquie cosa. La mayo ía de los abajos han sido ealizados sob e p oduc os o c i icas
de películas, donde es ácil iden i ica el ópico del ex o. Pe o ambién es ú il pone a ención a la
ca ac e ís ica del obje o del cual el esc i o se es á e i iendo: “¿es la pan alla de la cáma a o la
du ación de la ba e ía el p oblema que más de ec an los consumido es?” [25]. Debido a la
disponibilidad de da os pe enecien es a comen a ios de p oduc os, po ello la ex acción de
ca ac e ís icas ha sido al amen e es udiada en la década pasada [24]. La mención de es as
ca ac e ís icas en los ex os ambién puede se explici a (“La du ación de la ba e ía es muy co a”) o
implíci a (“La cáma a es muy g ande”) [24].
Du an e la úl ima década, con el auge de las edes sociales, se han ealizado muchos abajos en el
campo de la mine ía de da os o ien ados al análisis de sen imien o.
Un es udio des acado sob e el p oblema de la clasi icación de opiniones en posi i as o nega i as, lo
ealiza Pang, 2002 [1], u ilizando como da os las c í icas de películas encon adas en la web. El
hecho de que el usua io además de esc ibi una opinión, pueda e alua con un núme o de es ellas
la película en cues ión, hace que no sea necesa io e ique a manualmen e cada una de las opiniones
como posi i as o nega i as.
En su es udio u ilizan es algo i mos ya u ilizados an e io men e pa a
a eas como la clasi icación de ex os po ema: Nai e Bayes, maximum en opy (MaxEn) y suppo
ec o machines (SVM). La conclusión ob enida es que, a pesa de que la p ecisión del esul ado del
uso de mé odos de ap endizaje au omá ico supe a los es ánda es p oducidos manualmen e po un
humano, és os no ienen un endimien o an bueno como el que se ob iene al a a el p oblema de
ca ego ización po ema, con i iendo po an o el p oblema de análisis de sen imien o en una
a ea más compleja.
Los p ime os es udios únicamen e conside aban el ap endizaje a pa i de ejemplos con una
pola idad posi i a o nega i a, igno ando los ejemplos que mues an un sen imien o neu o. Exis en
es udios como el de Koppel e al., 2006 [2], en el que se mues a la impo ancia que iene el uso de
ejemplos neu ales en el p oceso de ap endizaje, demos ando una mejo dis inción en e pola idad
posi i a y nega i a si se hace uso de és os.
En cuan o al análisis de sen imien o aplicado a las edes sociales, podemos des aca el a ículo en
español de G igo i Sido o , 2013 [3]. Explo an di e en es con igu aciones pa a e cómo cada una
a ec a a la p ecisión de los algo i mos de ap endizaje au omá ico. Expe imen an con los algo i mos
de Nai e Bayes, Decision T ee y SVM, dado que és os ya han p esen ado buenos esul ados pa a el
idioma inglés. En sus con igu aciones ienen en cuen a di e en es amaños n-g am, la longi ud del
co pus, el núme o de clases de sen imien os, co pus balanceado s. Co pus no balanceado y
di e en es dominios pa a en ena y es ea ( elé onos mó iles y polí ica). En sus conclusiones
de e minan que la mejo con igu ación co esponde al uso de unig amas como ca ac e ís icas, un
núme o an pequeño como se pueda de clases (posi i o y nega i o), un amaño de al menos 3000
wee s en el conjun o de en enamien o (un amaño supe io no inc emen a la p ecisión
signi ica i amen e), un co pus no balanceado, mues a una lige a mejo ía en los esul ados y el
clasi icado con más p ecisión es el SVM.
15
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Ca
p
´
ı ulo
5
Recu sos y he amien as
5.1
RS udio
El lenguaje de desa ollo de la aplicación es R. Se a a de un lenguaje de p og amación con
un en oque al análisis es adís ico. La elección de és e se basa p incipalmen e en que es uno de
los más u ilizados en el campo de la mine ía de da os, la in es igación biomédica, la
bioin o má ica y las ma emá icas inancie as apo ando g andes en ajas en el análisis de
da os y p esen ación de los mismos median e g á icos.
Como en o no de desa ollo se op a po RS udio ( e Fig. 1) po se en p ime luga open
sou ce además de se el más usado ampliamen e pa a el desa ollo en R. Cuen a con una
in e az simple que incluye una consola, un edi o de código y he amien as pa a la
depu ación y ges ión del espacio de abajo.
Fig. 1. In e az g á ica de RS udio
16
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
5.2
Shiny
Pa a el desa ollo de la in e az de usua io se buscaba una he amien a simple y capaz de gene a
una in e az dinámica y a ac i a.
Ap o echando el uso de R en el p oyec o se op a po emplea Shiny. Se a a básicamen e de una
po en e he amien a o amewo k pa a R que nos pe mi e el desa ollo de in e aces
comple amen e in e ac i as con un conocimien o muy básico de h ml.
Los elemen os de la in e az se c ean median e llamadas a unciones de la p opia he amien a lo
que nos e i a ene un g an conocimien o de h ml o ja asc ip .
G acias a la p og amación eac i a que implemen a la he amien a ob enemos una in e az
comple amen e dinámica, ac ualizándose, po ejemplo, con solo in oduci un alo en un campo
de ex o sin ene que pulsa pos e io men e ningún bo ón.
Con solo ins ala Shiny en nues o p oyec o como un paque e más de R y c ea los a chi os ui.
(con iene el on end) y se e . (con iene el backend) ya es amos lis os pa a comenza a
desa olla la in e az. Con iene la implemen ación de un se ido local, po lo que, una ez hecho
es o con solo pulsa el bo ón de ejecu a ya end emos la aplicación en ejecución [8, 11].
5.3
Twi eR
Necesi amos algo que nos pe mi a conec a a Twi e y ex ae wee s.
Es a uncionalidad nos la apo a Twi eR. Se a a de una API en R que nos pe mi e conec a a la
API de Twi e con nues as c edenciales pe sonales de De elope y ex ae wee s y ending opics
median e las unciones de e minadas. El esul ado de es as unciones lo ob enemos di ec amen e
en un da a ame (es uc u a de da os ca ac e ís ica de R). Todas las unciones cuen an con
di e sos pa áme os que nos pe mi en ajus a la consul a a nues o gus o.
Básicamen e se a a de una API que implemen a la uncionalidad de la API o icial de Twi e a R,
pues o que és a no iene sopo e pa a dicho lenguaje.
También se ins ala como un paque e más de R.
17
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Resul a impo an e, llegados a es e pun o, des aca las obligadas limi aciones que posee la
aplicación debido a las es icciones de la API de Twi e o API Ra e Limi s [12]. Todas las
es icciones es án di ididas en en anas o in e alos de 15 minu os. Es o quie e deci que pasados
15 minu os se enue an las es icciones. Desde el paque e Twi eR enemos una unción enca gada
de da nos el es ado ac ual de las es icciones pa a nues a conexión. Las es icciones que nos
a ec an en la aplicación son las siguien es:
-
T ending opics: 15 búsquedas po en ana (15 minu os).
-
Twee s: 180 búsquedas po en ana.
También es impo an e menciona que la API de Twi e es inge la búsqueda de wee s an iguos a
solo los 9 días an e io es. Po es o, la capacidad de análisis empo al de la aplicación se e á
a ec ada y queda á es ingida a es a en ana empo al.
5.4
Lea le
Lea le es un paque e de R ( s udio.gi hub.io/lea le ) que nos pe mi e el uso de mapas in e ac i os
en nues a aplicación
( e Fig. 2)
. La lib e ía es á desa ollada en Ja asc ip y es una de las
lib e ías open-sou ce más popula es pa a el uso de mapas in e ac i os usada en paginas como The
New Yo k Times o Gi Hub.
Nos pe mi e selecciona dis in os ipos de mapas y añadi en és os ma cado es median e el uso de
coo denadas. Además cuen a con unciones especí icas pa a cap u a e en os en el p opio mapa
que nos pe mi en po ejemplo, ac ualiza una a iable de país con el alo del país que el usua io
haya pulsado.
Fig. 2. Ejemplo de mapa in e ac i o desa ollado con Lea le
18
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
5.5
Sen imen
Sen imen es un paque e de R que implemen a un algo i mo de clasi icación Nai e Bayes pa a el
análisis de sen imien o [18]. De momen o solo es álido pa a ex os en inglés.
Cuen a con unciones que nos pe mi en clasi ica la pola idad y la emoción p esen e en un ex o.
Dichas unciones cuen an con pa áme os que nos pe mi en ajus a el clasi icado .
El mo i o de op a po és e paque e es po se el más usado en el ámbi o del análisis de sen imien o
con R y el que mejo es esul ados ob iene g acias a los co pus que emplea.
El conjun o de en enamien o usado pa a el clasi icado de pola idad es el de Janyce Wiebe [13]
Pa a el clasi icado de emoción el conjun o de en enamien o usado es el de Ca lo S appa a a y
Alessand o Vali u i [14] La ausencia de con enido open-sou ce en español pa a el análisis de
sen imien o impide el desa ollo del algo i mo de Nai e Bayes pa a español.
5.6
Shinyapps.io
Uno de los incon enien es del uso de he amien as amewo k como shiny es que es amos bas an e
limi ados en el uso de se ido es en los que ealiza el despliegue de la aplicación.
Se ha op ado inalmen e po el plan g a ui o de shinyapps.io
( e Fig. 3)
con la que enemos una
limi ación de 5 aplicaciones (noso os solo necesi amos 1) y 25 ho as ac i as po mes. És a es la
limi ación que más nos pe judica ya que la aplicación no pod á es a online odo el iempo.
Fig. 3. P ecios y es icciones de los planes o e ados po Shinyapps.io
19
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
5.7
Léxico de pola idad
Pa a el análisis de sen imien o basado en el léxico necesi amos de un conjun o de palab as
clasi icadas según su pola idad. Como és e análisis da sopo e an o a wee s en español como en
inglés hemos necesi ado de 2 conjun os, uno pa a español y o o pa a inglés.
De los pocos ecu sos encon ados en español el que mejo esul ados ha ob enido ha sido el
p opo cionado po la Fundación Elhuya [15]. És e se c eó a pa i de di e en es uen es e incluye
al ededo de 5200 palab as clasi icadas en posi i as y nega i as.
El o o conjun o de palab as encon ado en español se a a de un conjun o aducido a pa i de
o o co pus en inglés. Es o hace que po la aducción muchas palab as cambien su pola idad, lo
que inalmen e adicaba en unos esul ados bas an e inexac os. Sin emba go el conjun o de la
Fundación Elhuya ha sido desa ollado manualmen e po españoles na i os lo que da mayo
obus ez y iabilidad a és e úl imo.
El conjun o empleado cons a de a ias secciones.
Po una pa e enemos una sección con é minos gene ales que son simplemen e palab as
adicionales del cas ellano clasi icadas con su pola idad
( e Fig. 4)
.
Una mues a de su con enido:
Fig. 4. Ejemplo de é minos gene ales del léxico de pola idad
20
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Po o o lado, con amos con una sección de in e jecciones
( e Fig. 5)
. És as palab as exp esan
sen imien os muy i os po lo que son de g an in luencia en el esul ado inal de clasi icación.
Unos ejemplos de és as in e jecciones:
Fig. 5. Ejemplo de in e jecciones del léxico de pola idad
La siguien e sección se a a de un lis ado de coloquialismos ( e Fig. 6). És os son palab as o
exp esiones que se dicen de o ma amilia o co idiana. Aunque p edominan en el lenguaje
o al, ambién se dan en el lenguaje esc i o g acias a las con e saciones elec ónicas y los
cha s, po an o, se á impo an e ene los en cuen a en nues o análisis.
Fig. 6. Ejemplo de coloquialismos del léxico de pola idad
21
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Po úl imo, con amos con una sección que nos esul a más que in e esan e. És a se compone
de un conjun o de é minos empleados gene almen e en Twi e ( e Fig. 7).
Fig. 7. Ejemplo de é minos especí icos de Twi e en el léxico de pola idad
El conjun o con palab as en inglés empleado es el elabo ado po Minqing Hu y Bing Liu [16]
y p esen ado en el a ículo “Mining and Suma izing Cus ome Re iews” [17]. És e cuen a con
un conjun o de é minos gene ales en inglés clasi icados como posi i os o nega i os según su
pola idad.
22
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Ca
p
´
ı ulo
6
Diseño
6.1
A qui ec u a del sis ema.
El sis ema se di ide en 6 módulos.
En la siguien e igu a se puede e un esquema g á ico gene al de la a qui ec u a aquí
desc i a ( e Fig. 8). En los p óximos apa ados del capí ulo analiza emos en de alle el
uncionamien o de cada módulo.
Fig. 8. Esquema gene al de la a qui ec u a del sis ema
En p ime luga enemos un módulo enca gado de inicia la ac i idad de la aplicación
ealizando la conexión con la API de Twi e y apo ando la uncionalidad necesa ia pa a
ex ae los wee s que pos e io men e se án u ilizados en los análisis.
Po o o lado enemos un módulo que implemen a la uncionalidad necesa ia pa a ex ae los
ending opics solici ados po el usua io. És e lo pod íamos ca aloga como un submódulo
del módulo an e io .
23
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Como e ce módulo end íamos el enca gado de ecoge los wee s ob enidos po el p ime
módulo y ealiza un p oceso de limpieza sob e ellos pa a hace posible su pos e io análisis.
En es e momen o in e ienen los módulos que pod íamos denomina como núcleo del
sis ema, los enca gados de ealiza los análisis. Po un lado end íamos el módulo enca gado
de ealiza el análisis basado en el léxico que oma ía como en adas los wee s limpios
gene ados po el módulo an e io y los los conjun os de léxicos de pola idad.
Po o o lado enemos el módulo enca gado de ealiza el análisis u ilizando el algo i mo de
Nai e Bayes que, de nue o, uel e a usa como en ada los wee s limpios gene ados po el
e ce módulo.
Aunque quizás no posea la en e gadu a su icien e pa a clasi ica lo como módulo, pues o que
es di ícil de encaja en uno de los an e io es, añadi emos o o pequeño módulo enca gado de
gene a el wo dcloud o nube de palab as con las palab as mas epe idas en los wee s
analizados. De nue o, es e módulo uel e a emplea los wee s gene ados po el e ce
módulo.
6.2
Conexión y ex acción de wee s.
Como equisi o indispensable an es de ealiza cualquie ope ación en la aplicación es necesa ia la
conexión con la API de Twi e pa a la ex acción de los da os. Pa a ello, en p ime luga , es
necesa io i a la página de wi e de desa ollado es, egis a nos como desa ollado y c ea una
app, lo que nos gene a á unas c edenciales pa a la pos e io conexión
( e Fig. 9)
.
Fig. 9. Ejemplo de aplicación c eada en wi e de elope s
24
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Una ez que enemos nues a app c eada gene a emos los pa áme os necesa ios pa a la
conexión con la API de Twi e . És os son: las api key pública y p i ada y los okens público y
p i ado. Con es o es amos lis os pa a ealiza la conexión con la unción especí ica del
paque e Twi eR.
Una ez que enemos la conexión ealizada con éxi o el siguien e paso es la ex acción de
wee s. Pa a ello, el paque e Twi eR nos p o ee de una unción que ealiza á la consul a a la
API de Twi e en base a una se ie de pa áme os in oducidos po noso os:
- Núme o de wee s a busca .
- Lenguaje de los wee s.
- Res icción de echa pa a los wee s.
- Geolocalización.
- Twee s ecien es, popula es o una mezcla de ambos.
Con odo es o, una ez ealizada la consul a, la unción nos de uel e una lis a de obje os ipo
s a us. El ipo s a us es un obje o especial del paque e Twi eR que con iene oda la
in o mación co espondien e a un wee :
- Tex o del wee .
- Nomb e del usua io que lo ha publicado.
- Id
- Fecha de publicación.
- Núme o de e wee s y a o i os.
Una ez ex aídos los wee s y almacenados en una lis a, eliminamos en p ime luga odos
los wee s e wi eados con el obje i o de ealiza el análisis solo con wee s pu os. Una ez
eliminados nos quedamos solamen e con el ex o del wee que es lo que nos in e esa pa a el
análisis y ya enemos nues o conjun o de wee s lis o pa a pasa al siguien e módulo.
A con inuación se mues a un ejemplo de conjun o de wee s que end íamos al inal de és e
módulo en elación al IPhone 7 ( e Fig. 10).
Fig. 10. Conjun o de wee s ob enidos as el p ime módulo. Tendencia: IPhone 7
31
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
El algo i mo ambién ealiza un análisis empo al de los úl imos 9 días (en el apa ado 4.3 se
de alla el mo i o de es e ango de iempo an pequeño). Pa a ello, simplemen e epe imos 9
eces el p oceso desc i o, ob eniendo pa a cada i e ación, los wee s co espondien es solo al
día que es amos analizando. Un ejemplo de lo que ob end íamos man eniendo la endencia
de “IPhone 7” es el siguien e ( e Fig. 18):
Fig. 18. Análisis empo al pa a la endencia “IPhone 7”
Es e ipo de análisis, sin con a con la es icción de la API de Twi e , iene una aplicación
más que in e esan e. En el caso del ejemplo mos ado pod íamos, po ejemplo, obse a
como a ía la opinión de los usua ios en o no al IPhone 7 con o me nos ace camos a la echa
de su p esen ación y después de ella. És a se ía una o ma más que in e esan e de ob ene un
eedback ace ca del éxi o de la p esen ación.
6.6
Análisis con algo i mo Nai e Bayes.
De allado el uncionamien o del algo i mo basado en el léxico pasamos al de Nai e Bayes.
An es de nada, pa a coloca nos en si uación eamos po encima que es un algo i mo Nai e Bayes.
El algo i mo comúnmen e conocido como Nai e Bayes es una de las implemen aciones más
popula es de una ed bayesiana. Una ed bayesiana es un clasi icado es adís ico. És e p edice la
p obabilidad de que, dada una upla, és a pe enezca a una clase conc e a. És a clasi icación se basa
en el eo ema de Bayes.
32
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Pa a usa un algo i mo Nai e Bayes es indispensable en ena lo. Es o se hace median e un
conjun o de da os de en enamien o, que, en nues o caso, es un co pus con una g an can idad de
wee s ya clasi icados manualmen e. El paque e sen imen [18], ya implemen a un algo i mo Nai e
Bayes en enado con 2 co pus dis in os. Uno pa a la clasi icación de pola idad y o o pa a la
clasi icación de emoción. El algo i mo, de momen o, solo cuen a con co pus en inglés, po an o, la
clasi icación solo pod emos ealiza la sob e wee s en inglés. Las e e encias a los co pus usados
po el paque e sen imen se de allan en la sección 4.5 de es e documen o.
Una ez implemen ado y en enado el algo i mo, lo único que nos queda po hace es selecciona el
wee , p ocesa lo con los a ibu os empleados po el algo i mo y ob ene la clasi icación. De nue o,
es necesa io el p oceso de ob ención y limpieza de wee s an e io men e desc i o. Vamos a
ep esen a un ejemplo de lo que ob end íamos con és e algo i mo.
Po no se epe i i os amos a cambia de endencia. És a ez amos a analiza la endencia “no
mans sky”.
T as la ob ención y limpieza de wee s ob enemos el siguien e conjun o
( e Fig. 19)
:
Fig. 19. Conjun o de wee s limpios pa a la endencia “no mans sky”
La unción enca gada de ealiza el análisis de pola idad nos de uel e el siguien e da a ame.
Fig. 20. Resul ado análisis de pola idad pa a endencia “no mans sky”
33
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Las columnas POS y NEG nos indican el alo de p obabilidad calculado po el algo i mo de
que la upla analizada pe enezca a esa clase. La columna POS/NEG indica simplemen e la
di isión de los dos alo es an e io es. Un alo de 1 indica una pola idad neu a, un alo
meno que 0 nega i a y mayo que 0 posi i a. La columna BEST_FIT nos indica la mejo
clasi icación en base a lo desc i o an e io men e. Del mismo modo ob enemos la clasi icación
de emoción pa a los wee s. Pa a es e caso ob enemos el siguien e esul ado ( e Fig. 21):
Fig. 21. Resul ado análisis de emoción pa a endencia “no mans sky”
De nue o, los alo es de cada columna indican el alo de p obabilidad de que la upla
analizada pe enezca a dicha clase. En la columna BEST_FIT ob enemos la mejo
clasi icación calculada. En los casos en los que el algo i mo no es capaz de clasi ica la upla el
alo pa a es a columna es NA.
Obse amos que pa a es e caso la mayo ía de los wee s se clasi ican con una emoción de
aleg ía. Es impo an e indica que es o es solo un ejemplo ilus a i o. Pa a ob ene unos
esul ados más iables es impo an e amplia en g an medida el núme o de wee s analizados.
34
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
6.7
Nube de palab as (Wo dcloud).
Quizás es a pa e de la aplicación no iene la en e gadu a su icien e como pa a ca aloga la en un
módulo apa e, pe o con al de acili a la comp ensión del diseño de la aplicación se ha op ado po
hace de ella un módulo independien e.
Una nube de palab as o su é mino más conocido, wo dcloud, es una o ma de obse a de o ma
muy simple la endencia de un ex o. Es a es una ep esen ación isual de las palab as que
con o man un ex o, donde cuan o mayo amaño mayo es la ecuencia de apa ición.
En nues o con ex o, es o no esul a muy ú il pa a obse a a simple is a en que se es á haciendo
más hincapié den o la endencia que es amos analizando.
La c eación de un wo dcloud en R esul a muy simple g acias al paque e wo dcloud que con iene la
uncionalidad necesa ia pa a dibuja la. Sin emba go, an es de es o, enemos que ealiza un
pequeño p oceso.
En cada lenguaje enemos un conjun o de palab as ca alogadas como palab as acías o s opwo ds.
Es o no son mas que las palab as sin signi icado como a ículos, p onomb es, p eposiciones, e c.
Pa a gene a un wo dcloud que esul e ealmen e ú il es muy impo an e la eliminación de es as
s opwo ds an es. Una ez eliminadas se jun a odo en un co pus, pos e io men e en una ma iz de
é minos, se o denan las palab as de mas ecuencia a menos y po úl imo se llama a la unción del
paque e wo dcloud que nos dibuja el g á ico.
A con inuación, se mues a el ejemplo de un wo dcloud gene ado a pa i de la endencia “RIO
2016”
( e Fig. 22)
Fig. 22. Wo dcloud gene ado a pa i de la endencia “RIO 2016”
35
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
6.8
Diseño de la in e az de usua io.
Una ez desc i os odos los módulos del sis ema pasamos a p esen a el diseño de la in e az
de usua io. Uno de los obje i os de la aplicación e a consegui una in e az de usua io
amigable y dinámica. Shiny nos ha pe mi ido cumpli con es o g acias a su plan illa in e na y
su p og amación eac i a. La c eación de in e aces en Shiny se ealiza median e el uso de
componen es con un diseño ya p og amado, po lo que, no necesi amos oca CSS.
- Página p incipal.
La página p incipal es simplemen e la página de bien enida de la aplicación en la que se da
un poco de in o mación ace ca de la misma e in o mación de con ac o ( e Fig. 23).
Además en la pa e supe io podemos comp oba la can idad de búsquedas de wee s y
ending opics que quedan pa a alcanza el lími e pe mi ido po la API.
El menú, si uado en la pa e izquie da, es dinámico: se puede ex ende y con ae y su
con enido a ía dependiendo de la página en la que nos encon emos.
Fig. 23. Página p incipal
36
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
- T ending opics.
Es a es la página enca gada de con ene la uncionalidad co espondien e a la búsqueda de
ending opics ( e Fig. 24).
Obse amos que en el menú se añade una nue a sección pa a in oduci la localización sob e
la que que emos busca los ending opics. Además con amos con un mapa in e ac i o en la
pa e de echa desde el cual ambién podemos selecciona la localización simplemen e
pinchando sob e una de las ubicaciones disponibles.
Fig. 24. Página de ending opics.
- Análisis basado en el léxico.
A con inuación pasamos a de alla la página enca gada de o ece el análisis basado en el
léxico ( e Fig. 25).
En el menú nos apa ecen una se ie de pa áme os de en ada pa a con igu a la consul a.
En p ime luga enemos una lis a desplegable pa a selecciona un ending opic a pa i del
cual ealiza el análisis (pa a es o es indispensable habe ealizado p ime o una búsqueda de
ending opics). También podemos in oduci la endencia de o ma manual desde el
siguien e campo de ex o. Además podemos selecciona el núme o de wee s sob e el que
ealiza el análisis, el idioma de dichos wee s y el ango de echa de publicación.
37
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Pa a la isualización del esul ado se mues an un his og ama y un g á ico de caja además del
wo dcloud y un g á ico de línea pa a el análisis empo al [10]. En o a sección se mues a una
is a de alle con la clasi icación ealizada po el algo i mo pa a cada wee .
- Fig. 25. Ejemplo de análisis basado en el léxico pa a la endencia “Ben ica”
38
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
- Análisis con algo i mo Nai e Bayes.
La página enca gada de p esen a la uncionalidad del análisis con el algo i mo Nai e Bayes
p esen a un aspec o bas an e simila a la del análisis basado en el léxico ( e Fig. 26).
De nue o ol emos a ene el wo dcloud en la pa e de echa de la en ana y la is a de alle
jus o debajo. Pe o en es e caso en lado izquie do se mues an los esul ados de los dos
análisis ealizados, el de pola idad y el de emoción. És os se mues an de allados median e
ex o y se acompañan de unos g á icos de ba as pa a una mejo isualización.
En la is a de allada se mues a cada wee con su clasi icación an o de pola idad como de
emoción.
Pa a es a página se u ilizan un nue o es ilo de g á icos gene ados median e la lib e ía ggplo 2
que dan una mejo isión pa a es os ipos de his og amas con a ias a iables dis in as.
Fig. 26. Ejemplo de análisis con algo i mo Nai e Bayes pa a la endencia “Mon ils
39
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
6.9
Deploy con Shinyapps.io
La g an en aja del uso de un se ido de shinyapps.io es el g an aho o de iempo que
ganamos con la ins alación y con igu ación del se ido .
Pa a ealiza el deploy de la aplicación desde nues o p oyec o local en R, shinyapps.io se
equie e del paque e sconnec que se ins ala en nues a ins alación local de R como un
paque e mas [11].
T as c ea una cuen a y una aplicación en la web de shiynapps.io enemos que gene a un pa
de okens (público y p i ado) Con es os okens pasamos a con igu a la conexión de la cuen a
en nues o p oyec o local median e una unción del paque e sconnec .
Una ez con igu ada la conexión, con simplemen e llama a la unción deployApp() de
sconnec nues a aplicación se subi á al se ido y es a á comple amen e accesible desde su
u l.
La u l en la que se encuen a desplegada la aplicación es:
h ps://ando e .shinyapps.io/Ando e /
40
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Ca
p
´
ı ulo
7
Resul ados
En es e apa ado in oduci emos un ejemplo p ác ico pa a cada uno de los dos ipos de
análisis implemen ados pa a inalmen e ealiza un análisis de los esul ados compa ando el
análisis de los dos clasi icado es sob e una misma endencia.
7.1
Ejemplo de análisis basado en el léxico.
Comenza emos el capí ulo con un ejemplo comple o sob e un análisis basado en el léxico a
pa i del cual pod emos ob ene una e aluación sob e és e análisis independien emen e.
Imaginemos que en amos en la aplicación y no enemos una endencia de e minada a
analiza . Po lo an o nos i emos a la sección de ending opics pa a busca una endencia
que nos in e ese y ealiza el análisis sob e ella (Ve Fig. 27).
Fig. 27. Búsqueda de ending opics en España
47
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Fig. 33. Ánalisis con algo i mo basado en el léxico pa a la endencia “#Boico NFL”
Compa ando ambos esul ados comp obamos que en ambos ob enemos un esul ado de
sen imien o nega i o. A simple is a quizás pueda pa ece que el algo i mo de Nai e Bayes
(Ve Fig. 32) p esen e un esul ado más nega i o pe o as es udia bas an es análisis con el
algo i mo basado en el léxico (Ve Fig. 33) se puede a i ma que un esul ado de -1 ya indica
un sen imien o nega i o impo an e, pasando es a on e a en muy con adas ocasiones.
48
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Ca
p
´
ı ulo
8
Conclusiones
8.1
Desa ollo del p oyec o.
El p oyec o se comenzaba con un ni el muy básico de R y sin ninguna expe iencia sob e
Shiny ni mine ía de da os aplicada a Twi e u o a ed social.
Cabe des aca que la cu a de ap endizaje de Shiny y R ha sido ex emadamen e al a,
llegando a ene sol u a en el desa ollo de la in e az g á ica con Shiny en solo 2 días de
ap endizaje.
Sin emba go, no odo ha sido un camino de osas. El p ocesado de los da os, en es e caso los
wee s ex aídos de Twi e , ha dado muchos queb ade os de cabeza debido a la codi icación
de los wee s. Los emo iconos usados en los wee s no se pueden p ocesa en la codi icación
usada po las cadenas en R (UTF-8) po lo que es necesa io ealiza un cambio de
codi icación y pos e io men e esol e los con lic os c eados po dicho cambio, como la
desapa ición de los ca ac e es con ildes.
Po o a pa e, la implemen ación del mapa in e ac i o ambién conlle ó una g an pa e del
iempo, sob e odo pa a pensa la o ma de ob ene las coo denadas de los países habili ados
pa a la consul a de los ending opics y ep esen a los en el mapa.
Uno de los p oblemas encon ados du an e el anscu so del p oyec o es que no podemos
con ola los wee s publicados po los usua ios. La mayo ía con ienen al as de o og a ía,
palab as ab e iadas, emo iconos, e c. que son i econocibles po los algo i mos de
clasi icación.
O o g an p oblema en es e sen ido es la p esencia de i onía en los wee s. Resul a muy di ícil
pa a un algo i mo de ec a la i onía en los mensajes. En muchas ocasiones esul a di ícil
has a pa a noso os.
49
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
8.2
Conclusiones.
Hemos podido comp oba que el esul ado ob enido pa a los análisis de pola idad de ambos
algo i mos es iable, aunque se pod ía mejo a pa a algunos casos especí icos, como po
ejemplo cuando nos en en amos a wee s con un g an g ado de i onía como ya se ha
comen ado an e io men e.
Sin emba go, el análisis de emoción nos ha dado unos esul ados poco iables, p esen ando
una cla a endencia hacia la clasi icación de los wee s como aleg es. El mo i o de es a
imp ecisión quizás adique en un mal diseño del algo i mo o en el co pus de da os u ilizado
pa a el en enamien o del algo i mo.
8.3
T abajo u u o.
T as la consecución del p oyec o quedan abie os a ios caminos pa a un abajo u u o.
En p ime luga , la implemen ación de un clasi icado au omá ico pa a el análisis de sen imien o
en cas ellano. Pa a es o se necesi a ía de un co pus en español. Du an e el inal del desa ollo del
p oyec o se localizó y consiguió acceso a un co pus, el u ilizado en las ediciones anuales de TASS
con lo que ya end íamos la base pa a la implemen ación del algo i mo.
Po o a pa e, esul a ía de g an mejo a pa a los esul ados de los análisis la mejo a del algo i mo
de p ocesado de wee s, añadiendo uncionalidades pa a in en a de ec a algunos casos
pa icula es de i onía.
También esul a ía in e esan e mejo a la aplicación, pe mi iendo la au en i icación de usua ios
pa a gua da los análisis ealizados, es a uncionalidad no se ha implemen ado aho a debido a que
el se ido g a ui o de shiny se e no pe mi e es a uncionalidad, se ía necesa io pasa a la e sión
p o de pago.
50
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Anexo A
Análisis de equisi os
RF-01
Búsqueda de ending opics
Ac o es
asociados
ACT-01 Usua io in i ado
Desc ipción
El usua io puede ealiza una búsqueda
geog á ica de ending opics. Ob eniendo una
lis a con los más popula es pa a esa ubicación.
P econdición
-
Secuencia
no mal
Paso
Acción
1
El usua io selecciona la
ubicación geog á ica
median e una lis a
desplegable o el mapa
in e ac i o.
2
El sis ema ealiza la
consul a a la API.
3
Se de uel e el esul ado
en una abla.
Pos condición
El esul ado ob enido eca ga una lis a
desplegable que pe mi e la selección de
endencias en los análisis.
Excepciones
-
Comen a ios
La ubicación se especi ica median e el nomb e
del país y, si se p ecisa, el es ado o p o incia.
51
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
RF-02
Análisis basado en el léxico
Ac o es
asociados
ACT-01 Usua io in i ado
Desc ipción
El usua io ealiza el análisis basado en el
léxico sob e una endencia de e minada,
ob eniendo el esul ado de pola idad pa a
dicha endencia.
P econdición
Si se desea ealiza el análisis sob e un
ending opic es necesa io ealiza la
búsqueda de ending opics con an e io idad.
Secuencia
no mal
Paso
Acción
1
El usua io in oduce los
pa áme os de en ada
pa a el análisis: endencia,
núme o de wee s, idioma
y ango de echa.
2
El sis ema ealiza el
análisis.
3
Se mues a el esul ado
del análisis de sen imien o
con un his og ama y un
diag ama de caja jun o
con una is a de alle.
Pos condición
Una ez ealizado el análisis se pe mi e
gene a un análisis empo al pa a dicha
endencia.
Excepciones
-
Comen a ios
El esul ado de pola idad ob enido es un
en e o que puede se nega i o, posi i o o 0.
52
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
RF-03
Wo dcloud
Ac o es
asociados
ACT-01 Usua io in i ado
Desc ipción
En el esul ado de cada análisis se incluye un
wo dcloud con los é minos más
mencionados en dicha endencia.
P econdición
Pa a la ob ención del wo dcloud es necesa io
ealiza un análisis basado en el léxico o con
algo i mo Nai e Bayes.
Secuencia
no mal
Paso
Acción
1
El sis ema gene a y
mues a el wo dcloud en
una sección de la página.
Pos condición
-
Excepciones
-
Comen a ios
-
RF-04
Análisis empo al
Ac o es
asociados
ACT-01 Usua io in i ado
Desc ipción
En los análisis basados en el léxico se pe mi e
ambién la ob ención de un análisis empo al
de los úl imos 9 días.
P econdición
Pa a la ob ención del análisis empo al es
necesa io ealiza un análisis basado en el
léxico.
Secuencia
no mal
Paso
Acción
1
El usua io despliega la
sección especí ica del
análisis empo al.
2
El sis ema ealiza el
análisis y mues a el
esul ado en la sección
co espondien e.
Pos condición
-
Excepciones
-
Comen a ios
El esul ado del análisis empo al se mues a
median e un g á ico con el alo de
sen imien o pa a cada día analizado.
53
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
RF-05
Análisis con algo i mo Nai e Bayes
Ac o es
asociados
ACT-01 Usua io in i ado
Desc ipción
El usua io ealiza el análisis con un algo i mo
Nai e Bayes sob e una endencia de e minada,
ob eniendo el esul ado de pola idad y emoción
pa a dicha endencia.
P econdición
Si se desea ealiza el análisis sob e un
ending opic es necesa io ealiza la búsqueda
de ending opics con an e io idad.
Secuencia
no mal
Paso
Acción
1
El usua io in oduce los
pa áme os de en ada
pa a el análisis: endencia,
núme o de wee s, idioma
y ango de echa.
2
El sis ema ealiza el
análisis.
3
Se mues a el esul ado del
análisis de sen imien o y
emoción con dos
his og amas jun o con una
is a de alle.
Pos condición
-
Excepciones
-
Comen a ios
-
54
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Anexo B
Diag ama de casos de uso
Diag ama UML de casos de uso con el modelado de los equisi os del sis ema.
55
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Anexo C
C onog ama asociado a las ases
del p oyec o.
56
Ando e – Aplicación pa a el análisis empo al y geog á ico de opinión en endencias de Twi e
José Luis Na a o Mo os
G ado en Ingenie ía In o má ica - Uni e sidad de Alme ía
Anexo D
Código en R de la aplicación
Todo el código empleado en el desa ollo de la aplicación se encuen a accesible desde el eposi o io
público de Gi Hub:
h ps://gi hub.com/jnm733/Ando e