scieee Science in your language
[sp] (orig)

Beamforming adaptativo basado en Deep Reinforcement Learning para comunicaciones IBFD (In-Band Full-Duplex)

Author: Chuga Perugachi, José Daniel
Year: 2023
Source: https://addi.ehu.eus/bitstream/10810/59524/1/TFM_ChugaJoseDaniel_.pdf
MÁSTER UNIVERSITARIO EN
INGENIERÍA DE LAS TELECOMUNICACIONES.
TRABAJO FIN DE MÁSTER
BEAMFORMING ADAPTATIVO BASADO EN DEEP
REINFORCEMENT LEARNING PARA
COMUNICACIONES IBFD (IN-BAND FULL-DUPLEX).
Es udian e: Chuga, Pe ugachi, Daniel.
Di ec o es: Anguei a, Buce a, Pablo;
Mon alban, Sanchez, Jon.
Depa amen o: Depa amen o de Ingenie ía de
Comunicaciones
Cu so académico: 2021-2022.
Bilbao, 11 de Sep iemb e de 2022.
Resumen
Español:
El con inuo c ecimien o´de con enidos a a és de los ac uales sis emas de adiodi u-
sión, hacen necesa ia una e olución hacia nue as ecnologías que puedan cub i las
u u as necesidades. En el pano ama de la ele isión digi al, el comi é ATSC 3.0, p o-
pone una nue a a qui ec u a, IDL/ITCN, que pe mi a ealiza la con e gencia hacia
lo que denominan como la p óxima gene ación de ele isión digi al. Sin emba go, es-
as nue as ecnologías inco po an nue os e os, como la ges ión de una g an can idad
de señales in e e en es. Den o de es e con ex o, es e p oyec o iene como obje i o
es ablece unas bases iniciales hacia lo que de i a ía en una in es igación mayo , la
cual pueda acili a la ges ión de las señales de in e e encia den o de es os nue os
escena ios. Pa a ello, se p opone una solución que combina las ac uales écnicas pa a
la ges ión de in e e encias, con algo i mos de machine lea ning. De es a o ma se
p e ende ob ene una solución más e icien e que la conseguida con los ac uales sis e-
mas.
Palab as cla e: Agen e, en o no, Deep Q-Ne wo k, IDL, ITCN, Beam o ming, IBFD.
Inglés:
The con inuous g ow h in con en deli e y h ough he cu en b oadcas ing sys-
ems makes necessa y he e olu ion owa ds new echnologies ha can add ess u-
u e needs. In e ms o digi al ele ision, he ATSC 3.0 commi ee p oposes a new
a chi ec u e, IDL/ITCN, o enable con e gence owa ds he nex gene a ion o digi-
al ele ision. Howe e , hese new echnologies inco po a e new challenges, such as
managing a la ge numbe o in e e ing signals. In his con ex , his p ojec aims o
es ablish he ini ial basis o u he esea ch o acili a e he managemen o in e -
e ence signals wi hin hese new scena ios. Fo his pu pose, we p oposed a solu ion
ha combines cu en in e e ence managemen echniques wi h machine lea ning al-
go i hms. In his way, i is in ended o ob ain a mo e op imal solu ion han he one
achie ed wi h he adi ional sys ems.
Keywo ds: Agen , en i omen , Deep Q-Ne wo k, IDL, ITCN, Beam o ming, IBFD.
1
Euske a:
Egungo i a i-di usio sis emen bidez pai a u den eduki-ho nikun za en go akadak ek-
nologia be ie a anzko bilakae a ba eska zen du, egoe a be i honek so u di uen
beha ei e an zun ahal iza eko. Telebis a digi ala en alo ean, ATSC 3.0 ba zo deak
a ki ek u a be i ba p oposa zen du hu engo belaunaldia ekiko konbe gen zia gau-
za u ahal iza eko, IDL/ITCN bezala ezagu zen dena. Hala e e, eknologia be i ho iek
e onka be iak eska zen di uz e, hala nola in e e en zia-seinale asko en kudeake-
a. Tes uingu u ho en ba uan, p oiek u honen helbu ua hasie ako oina iak eza -
zea da, ge o a, ike ke a handiago ba eka iko lukeena egoe a be i ho ien ba uan
in e e en zia-seinaleen kudeake a e az eko. Ho e a ako, in e e en ziak kudea zeko
me odo adizionalak e a machine lea ning algo i moak konbina u nahi di a, egungo
sis emekin lo u akoa baino i enbide hobea lo zea ahalbide uko du enak.
Gako-Hi zak: Agen e, ingu unea, Deep Q-Ne wo k, IDL, ITCN, Beam o ming, IBFD.
2
Índice gene al
1. In oducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. Obje i os............................................................. 3
2.1. Obje i o global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Obje i os especí icos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3. Bene icios ............................................................ 4
3.1. Bene icios écnicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2. Bene icios económicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3. Bene icios sociales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4. Me odología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1. Es ado del a e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1.1. Beam o ming basado en ap endizaje au omá ico pa a canales
MISO en e dos usua ios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1.2. Fas Beam o ming basado en ap endizaje no supe isado pa a
un enlace descenden e MIMO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.3. Fas Beam o ming con Rein o cemen lea ning en comunica-
ciones MIMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.4. Beam o ming obus o usando Mul i-Agen Deep Rein o ce-
men Lea ning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2. Es udio del p oblema de au o-in e e encia en los escena ios IDL/ITCN 9
4.3. De inición del en o no de simulación: Ma lab y Quad iga.. . . . . . . . . . . . 10
4.4. Es udio y diseño del algo i mo Deep Q-Ne wo k . . . . . . . . . . . . . . . . . . . . 11
4.5. Implemen ación del modelo Beam o ming basado en el algo i mo DQN 12
4.6. Simulaciones del modelo DQN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5. Análisis del p oblema de Au o-in e e encia en IDL/ITCN . . . . . . . . . . . . . . . . 13
5.1. Desc ipción gene al del p oblema de au o-in e e encia . . . . . . . . . . . . . . 13
5.2. Beam o ming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6. Deep Rein o cemen Lea ning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.1. Rein o cemen Lea ning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.1.1. Componen es p incipales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.1.2. Es a egia pa a la selección de acciones: Explo ación s Ex-
plo ación.................................................. 20
6.2. Tipos de algo i mos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.2.1. Q-Lea ning. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.2.2. Deep Q-Ne wo k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7. Diseño de la p opues a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1

7.1. C eación del escena io en Quad iga y ob ención de los da os de en-
enamien o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
7.2. Diseño del modelo Beam o ming en el ecep o . . . . . . . . . . . . . . . . . . . . . . 29
7.3. Diseño del algo i mo Deep Q-Ne wo k. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
7.3.1. Escena io: en o no, agen e, es ados y acciones. . . . . . . . . . . . . . . . 32
7.3.2. De inición de la unción ecompensa. . . . . . . . . . . . . . . . . . . . . . . . . 34
7.3.3. De inición de los hipe pa áme os del en enamien o . . . . . . . . . . 36
7.3.4. En enamien o del modelo Beam o ming basado en Deep Q-
Ne wo k. ................................................. 38
8. Resul ados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.1. Resul ados p e ios: De inición de los hipe pa áme os.. . . . . . . . . . . . . . . 42
8.1.1. Capas y neu onas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.1.2. Lea ning a e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
8.1.3. Núme o de epochs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.2. Resul ados inales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.2.1. P ime plan eamien o: gene ación au omá ica del diag ama de
adiación.................................................. 48
8.2.2. Segundo plan eamien o: selección au omá ica del diag ama de
adiación de inido den o de un codebook. . . . . . . . . . . . . . . . . . . . 50
9. Plan de ges ión.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
9.1. Desc ipción de los paque es de abajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
9.1.1. Fase comple a del p oyec o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
9.1.2. Fase 1 del p oyec o.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
9.1.3. Fase 2 del p oyec o.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
9.1.4. Fase 3 del p oyec o.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
9.2. Diag ama de Gan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
10. Conclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Bibliog a ía.............................................................. 62
i
ii
Siglas
3GPP 3D Gene a ion Pa ne ship P ojec . 28
AI A i icial In elligence. 2
AoA Angle O A ack. 29
ATSC Ad ance Tele ision Sys ems Commi ee. 1
CNN Con olu ional Neu al Ne wo k. 8
CSI Channel S a e In o ma ion. 8
DQN Deep Q-Ne wo k. 6
IBFD In Band Full-Duplex. 1
IDE In eg a ed De elopmen En i onmen . 11
IDL In-Band dis ibu ion Link. 1
ITCN In e -Towe s Communica ions Ne wo k. 1
LDM Laye ed Di ision Mul iplexing. 1
LTE Lon Te m E olu ion. 16
MADDPG Mul i-Agen Deep De e minis ic Policy G adien . 8
MIMO Mul iple-Inpu Mul iple-Ou pu . 7
MISO Mul iple-Inpu Single-Ou pu . 1, 6
MRT Maximum Ra io T ansmissio. 6
MSE Mean Squa ed E o . 34
RL Rein o cemen Lea ning. 24
ULA Uni o m Linea A ay. 29
WLAN Wi eless Local A ea Ne wo k. 16
WMMSE Weigh ed Minimum Mean Squa e E o . 7
ZF Ze o o cing. 6
iii
Índice de igu as
1. Escena io de la comunicacion Downlink. Imagen omada del a iculo: [8] . 7
2. Esquemas del p oyec o ealizado [9] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3. Esquemas del p oyec o ealizado [8] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4. Ejemplos de di e en es escena ios en Quad iga . . . . . . . . . . . . . . . . . . . . . . . . 10
5. In e cambio de in o mación en e agen e y en o no. Imagen omada de
la página [15]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
6. ATSC 3.0 SFN con dis ibución inalámb ica en banda. Imagen omada
del a ículo: [3] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
7. Esquemas de una conexión unidi eccional ITCN/IDL. Imagen omada
del a ículo [10] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
8. Diag ama de bloques de un nodo de ed ITCN en banda. Imagen omada
del a ículo [5] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
9. Ejemplo de Beam o ming. Imagen omada del enlace [16] . . . . . . . . . . . . . . . 16
10. Beam o ming en el ecep o pa a cap a la señal del T ansmiso 2. . . . . . . 17
11. Beam o ming en un nodo ITCN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
12. Subconjun os de algo i mos de machine lea ning. . . . . . . . . . . . . . . . . . . . . . . 18
13. Esquema de los componen es de un algo i mo Rein o cemen Lea ning. . . 19
14. Es a egia epsilon-g eedy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
15. Clasi icación de los algo i mos RL mode nos según OpenAI. Imagen o-
mada de la publicación: [17] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
16. Ejemplo de una abla Q en un escena io simple. Imagen omada de la
publicación: [18] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
17. Di e encia en e Q-lea ning y DQN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
18. Escena io simulado con Quad iga. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
19. Respues as de canales simulados en di e en es escena ios de Quad iga. . . . 28
20. Posibles escena ios de en enamien o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
21. Onda plana que incide sob e la an ena ipo ULA. Imagen omada de [11] 30
22. Posibles diag amas de adiación a selecciona po pa e del ecep o .. . . . . 30
23. Red Neu onal u ilizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
24. Esquema del en enamien o del modelo Beam o ming. . . . . . . . . . . . . . . . . . . 41
25. En enamien o con una ed neu onal de 2 capas y 50 neu onas. . . . . . . . . . 42
26. En enamien o con una ed neu onal de 2 capas y 100 neu onas. . . . . . . . . 43
27. En enamien o con una ed neu onal de 2 capas y 300 neu onas. . . . . . . . . 43
28. En enamien o con una ed neu onal de 2 capas y 400 neu onas. . . . . . . . . 44
29. En enamien o con una ed neu onal de 3 capas y 300 neu onas. . . . . . . . . 44
30. En enamien o con una LR = 0.8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
i
implique una educción de iempo, se puede aduci di ec amen e como un aho o
económico an o en ecu sos humanos, como en iempo empleado pa a elabo a o as
a eas.
3.3 Bene icios sociales.
Una mayo e iciencia en el uso de los ecu sos disponibles, iene un impac o di ec o
en el lujo de da os que se puede ansmi i . Cuan a más capacidad se dispone pa a
la ansmisión de da os, mayo es el núme o de se icios que se pueden o ece , pe -
mi iendo así, pode mejo a la expe iencia de usua io. Es o pe mi i ía aumen a la
calidad de los ideos ansmi idos, adap ándolos a las u u as necesidades eque idas
en lo que se á la nue a gene ación de ele isión digi al.
5

4 Me odología
A lo la go de es e apa ado, se ha á un esumen del p ocedimien o lle ado a cabo pa a
log a consegui los obje i os ma cados en el apa ado 2. Pa a ello, se ha á uso del
siguien e esquema, donde en cada uno de los apa ados, se explica a esumidamen e
los pasos que se han lle ado a cabo.
1. Elabo ación del es ado del a e.
2. Es udio del p oblema de au o-in e e encia en los escena ios IDL/ITCN.
3. De inición del en o no de simulación: Ma lab y Quad iga.
4. Es udio y diseño del algo i mo Deep Q-Ne wo k.
5. Implemen ación del modelo Beam o ming basado en el algo i mo DQN.
6. Simulaciones del modelo DQN.
4.1 Es ado del a e
En p ime luga , se ealizó una búsqueda en cuan o a modelos de Beam o ming ba-
sados en algo i mos de machine lea ning. En es a búsqueda, se encon a on a ios
p oyec os, donde la g an mayo ía son elabo ados den o de escena ios 5G. Es muy
común el uso de écnicas de Beam o ming den o de es e ipo de escena ios, debido a
la opología y a qui ec u a mallada po las que es án compues os, haciendo necesa ia
la ges ión de un g an núme o de in e e encias. Los p oyec os que se han enido en
cuen a a la ho a de ealiza es e p oyec o, son los siguien es:
4.1.1 Beam o ming basado en ap endizaje au omá ico pa a canales MISO
en e dos usua ios
Es e p ime ejemplo, ci ado en el a ículo [6], p opone un diseño de Beam o ming
basado en edes neu onales p o undas, den o de un escena io compues o po dos
usua ios con canales de in e e encia MISO. En es e caso, los usua ios ap enden a
selecciona en e dos de los esquemas más popula es pa a ealiza Beam o ming: Ma-
ximum Ra io T ansmission (MRT) y ze o o cing (ZF). En cada momen o, el modelo
en enado, le ecomienda al usua io que esquema u iliza en unción de los alo es
de la po encia de ansmisión y los ec o es de canal. Pa a log a es e obje i o, se
en ena al modelo haciendo uso de un Da ase con di e en es da os e ique ados en
6
unción de la po encia de en ada y los ec o es de canal. De es a o ma, en unción de
es os pa áme os de en ada, el modelo ap ende a ealiza una clasi icación co ec a.
4.1.2 Fas Beam o ming basado en ap endizaje no supe isado pa a un
enlace descenden e MIMO.
En es e segundo ejemplo [7], se p opone un mé odo de diseño Beam o ming basado en
un ap endizaje no supe isado que da una solución más óp ima al clásico algo i mo
WMMSE. Los algo i mos clásicos, como WMMSE, son soluciones óp imas pe o de
una al a complejidad compu acional. Con el in de educi es a complejidad, se p opo-
ne un modelo basado en edes neu onales p o undas, que o ece un se icio eal- ime
solo con ope aciones simples de la ed neu onal. A di e encia que en el caso an e io ,
el en enamien o se basa en un mé odo de ex emo a ex emo sin mues as e ique-
adas, e i ando así, el complejo p oceso de ob ención de un da ase p e io. Además,
se hace uso de un algo i mo "p uning"pa a educi la complejidad compu acional y el
olumen de la DNN, haciéndolo más adecuado pa a disposi i os de baja capacidad
compu acional.
Figu a 1 Escena io de la comunicacion Downlink. Imagen omada del a iculo: [8]
4.1.3 Fas Beam o ming con Rein o cemen lea ning en comunicaciones
MIMO
Es e abajo, ci ado en el a ículo [9], se cen a en la ealización de un modelo Beam-
o ming pa a comunicaciones mmWa e (en onda milimé ica) basadas en comunica-
ciones MIMO. Su obje i o p incipal consis e en p opo ciona un se icio con inuo en
7
los disposi i os de al a mo ilidad, donde exis e una g an p esencia de in e e encias
y a enuación en la señal. En es e caso, la c eación del modelo se hace a a és del
algo i mo Deep Rein o cemen Lea ning. Al igual que en el caso an e io , es e es un
algo i mo que no equie e de da os p e iamen e e ique ados. Du an e el en enamien-
o, el modelo se ap ende únicamen e con las obse aciones y ecompensas ob enidas
en cada ins an e de iempo. Las ecompensas, son alo es que de e mina como de
buena es una obse ación en unción del obje i o inal.
(a) Disponibilidad de la ed con el modelo
Beam o ming
(b) Diag ama de bloques del sis ema
Figu a 2 Esquemas del p oyec o ealizado [9]
4.1.4 Beam o ming obus o usando Mul i-Agen Deep Rein o cemen Lea -
ning
Finalmen e, en el abajo [8] se implemen a un modelo Beam o ming den o de un
escena io mul icelula MISO en p esencia de una in o mación de es ado (CSI) im-
pe ec a. En es e caso, el ap endizaje es á basado en el algo i mo MADDPG (Mul i-
Agen Deep De e minis ic Policy G adien ), donde cada es ación base ac úa como
un agen e independien e, y cada uno dispone de una ed neu onal DDPG con una
es uc u a CNN (Con olu ional Neu al Ne wo k). El obje i o consis e en ap ende a
elegi la di ección co ec a del beam, y a asigna la po encia de múl iples usua ios a
a és de un p o ocolo de in e cambio de in o mación limi ado, con el único in de
p opo ciona obus ez en e a e o es del CSI.
8
Figu a 3 Esquemas del p oyec o ealizado [8]
Una ez analizado es os ejemplos, se puede in ui que, la g an mayo ía de modelos de
beam o ming basados en algo i mos de machine lea ning, no supe an los esul ados
de los clásicos algo i mos de i e ación como WMMSE, simplemen e los igualan. Sin
emba go, p esen an una mayo e iciencia en cuan o a cálculo compu acional, haciendo
que sean de g an u ilidad pa a se icios en iempo eal como los nue os es ánda es
de ele isión.
4.2 Es udio del p oblema de au o-in e e encia en los escena-
ios IDL/ITCN
T as ealiza un es udio sob e las di e sas al e na i as de algo i mos de in eligencia
a i icial exis en es pa a la c eación de modelos Beam o ming, se dio paso al es udio
del p oblema al que se p e ende da solución. En es e caso, como ya se ha menciona-
do en o os apa ados, se a a del p oblema de au o-in e e encia en los escena ios
IDL/ITCN, debido al uso de comunicaciones IBFD.
En p ime luga , ue necesa io en ende el escena io IDL/ITCN en el que se a a
abaja , con el in de ene en cuen a odos los elemen os necesa ios, pa a su pos e io
simulación en un en o no de desa ollo. Pa a ello se u o en cuen a los a ículos [3] y
[4], en e o os, donde se desc iben las nue as p opues a ecnológicas (los enlaces IDL
y la a qui ec u a ITCN), que p e enden sol en a las u u as necesidades en cuan o a
calidad y capacidad, den o de la nue a gene ación de ele isión digi al. Así mismo,
o os a ículos, como [5] o [10], ue on de g an ayuda pa a en ende los bene icios de
aplica algo i mos de machine lea ning den o de los escena ios IDL/ITCN.
Finalmen e, en es a misma sección, ambién se es udió el uncionamien o eó ico de la
écnica de Beam o ming, que se p e ende u iliza pa a cancela la au o-in e e encia
9
en los escena ios IDL/ITCN. La página [11], ue ú il pa a la comp esión eó ica de
es a écnica, y así pode ejecu a la den o de un en o no de desa ollo.
4.3 De inición del en o no de simulación: Ma lab y Quad iga.
Una ez en endido los elemen os que componen los escena ios IDL/ITCN, se dio
paso a su simulación den o de un en o no de desa ollo. Es e en o no debe ene
la capacidad de simula un escena io donde se dé el p oblema de au o-in e e encia.
En e los múl iples p oyec os encon ados a la ho a de ealiza el es ado del a e, se
encon ó el eposi o io [12].
Es e eposi o io con iene un p oyec o que desa olla un modelo beam o ming, basado
en un algo i mo de Rein o cemen Lea ning, pa a escena ios 5G. En es e caso, el es-
cena io simulado es más complejo que el que se p e ende lle a a cabo, ya que en él,
se ienen en cuen a la ges ión de múl iples in e e encias p o enien es de di e en es
usua ios en mo imien o. Aun así, es una buena e e encia como pun o de pa ida. Se-
gún la de inición de es e p oyec o, el escena io de simulación se puede ejecu a an o
en Ma lab, como en Oc a e. Ambas pla a o mas hacen uso de los ecu sos p opo -
cionados po el simulado de canales, Quad iga. Es e gene ado es muy conocido po
los esul ados ealis as que p opo ciona a la ho a de simula modelos de canal.
(a) Ejemplo de mul i- ecuencia Quad iga. (b) Ejemplo de mo ilidad Quad iga.
Figu a 4 Ejemplos de di e en es escena ios en Quad iga
Con el in de pode diseña y simula el escena io deseado, ha sido necesa io ap ende
a maneja los ecu sos p opo cionados po Quad iga. En su página o icial [13], iene
ecogida oda la in o mación sob e las unciones y escena ios que se pueden simula ,
además de a ios ejemplos ya ealizados, que pe mi en es udia su uncionamien o.
T as ealiza es os ejemplos, ue posible elabo a un escena io que suminis e los da os
necesa ios pa a alimen a el en enamien o del algo i mo de Deep Q-Ne wo k. Es e
en enamien o se lle a a cabo en o o edi o conocido como Spyde , el cual abaja
10

sob e el lenguaje Py hon. Es e IDE es comúnmen e u ilizado pa a el desa ollo de
modelos basados en algo i mos de machine lea ning.
4.4 Es udio y diseño del algo i mo Deep Q-Ne wo k
An es de empeza a p og ama den o de Spyde , ue necesa io es udia y en ende el
uncionamien o de los algo i mos de Rein o cemen Lea ning. En pa icula , los de la
amilia Q-Lea ning, a la cual pe enece el algo i mo Deep Q-Ne wo k [14] que se a a
u iliza en es e p oyec o. La amilia de algo i mos Q-Lea ning, cen a su ap endizaje
en el in e cambio de in o mación en e un agen e y un en o no. En es os escena ios,
el en o no es el enca gado de p opo ciona le la in o mación necesa ia al agen e, pa a
que es e ap enda a mo e se den o de él. Ambos ac o es han sido c eados den o de
Spyde , haciendo uso de la lib e ía Tenso Flow, la cual iene explicada en su página
web [15] a a és de di e sa documen ación. Además de la documen ación o icial,
o ece in o mación de allada sob e los di e en es ipos de algo i mos de machine lea -
ning con los que se puede abaja , los de Rein o cemen Lea ning en e ellos, y a ios
u o iales pa a su implemen ación. La ealización de es os u o iales y p uebas a ias,
han sido ú iles pa a conoce los di e sos pa áme os e hipe pa áme os, necesa ios de
ges iona pa a en ena es e ipo de algo i mos.
Los pa áme os e hipe pa áme os, son los conjun os de alo es que se deben ajus a a
la ho a de c ea el modelo pa a un p oblema dado. En es e caso, es de in e és conoce
los hipe pa áme os que se deben maneja , ya que a di e encia de los pa áme os de
un modelo, es os son los alo es de las con igu aciones u ilizadas du an e el p oceso
de en enamien o. Es os alo es no se ob ienen de los da os, y a p io i no se puede
conoce su alo óp imo con exac i ud. Po lo que gene almen e se iende a usa eglas
gené icas, alo es pa a los cuales ya se ha comp obado su e icacia, o simplemen e se
busca la mejo opción median e p ueba y e o .
Figu a 5 In e cambio de in o mación en e agen e y en o no. Imagen omada de la
página [15].
11
4.5 Implemen ación del modelo Beam o ming basado en el
algo i mo DQN
T as habe es udiado el escena io de au o-in e e encia IDL/ITCN que se debe si-
mula , y los di e sos algo i mos de Rein o cemen Lea ning con los que se puede
cons ui un modelo Beam o ming, se dio paso a la combinación de ambos concep os
pa a la cons ucción de la solución p opues a. Po una pa e, haciendo uso de Oc a e
y Quad iga, se elabo ó un escena io compues o po 2 ansmiso es, uno pa a la señal
deseada y o o pa a la señal de in e e encia, además de un ecep o pa a cap a
ambas señales. Con el escena io mon ado, se ealiza on a ias simulaciones en las que
los ansmiso es iban cambiando su posición. Es e mo imien o de los ansmiso es,
pe mi ió ob ene una mayo a iedad en los canales simulados, y de es a o ma, una
mayo can idad de da os pa a el en enamien o del algo i mo. Es a in o mación es
almacenada pa a su pos e io uso en la c eación del en o no de en enamien o del
algo i mo den o de Spyde .
Du an e el en enamien o, el en o no hace uso de los da os almacenados pa a p opo -
ciona al ecep o , que es e caso ac úa como agen e, la in o mación sob e el es ado del
canal. Con es a in o mación, el agen e debe i ap endiendo a lo la go del en enamien-
o a selecciona , en e un abanico de posibles diag amas de adiación, un diag ama
que le pe mi a ealiza una mayo cancelación de la señal de in e e encia.
4.6 Simulaciones del modelo DQN
Finalmen e, con odos los módulos mon ados y comunicándose en e sí, se ealizan
a ias p uebas con el in de ajus a los alo es de los hipe pa áme os. Es a es una
a ea que conlle a mucho iempo, debido a los múl iples hipe pa áme os que se deben
ajus a , y al iempo de du ación de cada en enamien o. En cada p ueba, se en ena
y e alúa al modelo con los mismos da os. Una ez que se consigue una al a pun ación
de p edicción pa a los da os de en enamien o, el modelo es e aluado con o os da os
di e en es. De es a o ma, se comp ueba si su conocimien o es ex apolable a o os
escena ios simila es pa a los cuales no ha sido en enado.
T as explica de o ma esumida lo ealizado a lo la go del p oyec o, se da paso a
explica de una mane a más de allada cie os pun os de in e és, que son impo an es
a la ho a de en ende los pasos ealizados.
12
5 Análisis del p oblema de Au o-in e e encia en
IDL/ITCN
Tal y como se ha mencionado en el apa ado de 4, con el in de comp ende el
p oblema de au o-in e e encia al que se p e ende da solución, ue necesa io es udia
los escena ios IDL/ITCN. En es e apa ado, se explica á con más de alle los concep os
que se desc iben en los a ículos [3] y [4], donde se explican las p opues as de los
enlaces IDL, y la ed de comunicación ITCN. Además, se explica á en que consis e
la écnica de Beam o ming, y como se p e ende aplica es a écnica den o de los
escena ios IDL/ITCN.
5.1 Desc ipción gene al del p oblema de au o-in e e encia
Los au o es del a ículo [3], explican como el enlace de dis ibución IDL p e ende
ansmi i las señales de backhaul (da os de dis ibución) y de con ol en la misma
banda de ecuencias que el se icio de ele isión. De es a o ma, las o es de ans-
misión que p opo cionan cobe u a de TV, se comunica ían de o ma inalámb ica
u ilizando el mismo espec o que el con enido de di usión ansmi ido. Las señales de
backhaul y de con ol se en ia ían de una o e a la siguien e, donde cada o e ac ua-
ia como un nodo In-Band Full-Duplex (IBFD), haciendo que ansmi an y eciban
simul áneamen e señales den o del mismo canal de adio ecuencia.
Figu a 6 ATSC 3.0 SFN con dis ibución inalámb ica en banda. Imagen omada del
a ículo: [3]
Pos e io men e, los mismos au o es en el a ículo [4], p opusie on la ed de comunica-
ción en e o es ITCN como una e sión mejo ada de los enlaces IDL. La p opues a
13
ealizada consis e en un esquema de comunicación bidi eccional, donde la comuni-
cación en e o es no se ealiza en cascada, sino que las o es pod án esponde a
la in o mación ecibida u ilizando una ed mallada, donde odos los nodos es án co-
nec ados en e sí. Uno de los p incipales incon enien es de es e modelo es la ele ada
señal de in e e encia, la cual es común en los sis emas IBFD. Lo que implica la ne-
cesidad de mecanismos de cancelación de la señal de al a e iciencia, sin emba go, los
mecanismos ac uales pueden no se lo su icien emen e ú iles, debido a que se equie e
una cancelación supe io a los 60 dB pa a que se pueda desa olla co ec amen e es a
idea. Además, la e apa de cancelación de al o endimien o eque ida conlle a o os
p oblemas como la limi ación del ango dinámico.
La siguien e igu a mues a una is a esquemá ica de una comunicación den o de
una ed ITCN/IDL, donde se e e lejado el p oblema de au o-in e e encia.
Figu a 7 Esquemas de una conexión unidi eccional ITCN/IDL. Imagen omada del
a ículo [10]
En la igu a 7, se puede e como la señal que ecibe la segunda o e iene e lejada
po la siguien e ecuación:
y( )=x ws( )∗h ws( )+xlbs( )∗hlbs( )+n0( )(5.1)
donde el segundo ac o de la ecuación: xlbs( )∗hlbs( )hace e e encia a la señal de
au o-in e e encia que se p e ende educi .
14
Figu a 14 Es a egia epsilon-g eedy
Hay muchas o mas con las cuales se puede hace dec ece la a iable épsilon du an e
el en enamien o. Una opción ípica consis e en, mul iplica épsilon po una a ia-
ble de alo in e io a la unidad, y que es e aya dec eciendo exponencialmen e en
unción del núme o de episodios eco idos (epsilon ∗ alo N, donde Nes el núme o
de episodios.). O a opción más simple, consis e en es a a épsilon un alo in e -
samen e p opo cional al núme o de episodios ( 1
N, siendo N el núme o de episodios).
En el momen o de de ini es a es a egia, se á necesa io selecciona el alo de los
hipe pa áme os:
−Valo inicial de épsilon.
−Valo inal de épsilon.
−Valo con el que dec ece épsilon.
6.2 Tipos de algo i mos
Una ez de inidos la e minología y los concep os básicos de los algo i mos RL, en es e
apa ado, se da paso a explica el uncionamien o de algunos de los algo i mos más
u ilizados den o del subcampo RL. Según la documen ación de Open AI [17], una
de las mayo es compañías de in es igación sob e IA, la clasi icación de los algo i mos
RL mode nos se pueden ep esen a a a és del siguien e esquema:
21

Figu a 15 Clasi icación de los algo i mos RL mode nos según OpenAI. Imagen o-
mada de la publicación: [17]
Sin emba go, en es a sección, solo se explica án los pe enecien es a la amilia Q-
Lea ning, que es de donde p o iene el algo i mo Deep Q-Ne wo k, u ilizado en es e
p oyec o.
6.2.1 Q-Lea ning.
Los algo i mos Q-lea ning, son aquellos que basan su ap endizaje en la ecuación de
Bellman:
Q(s, a)= +γ∗maxa′Q(s′, a′)(6.1)
Es a ecuación calcula un alo llamado: alo -Q, pa a un es ado sy una acción a. El
alo -Q, ep esen a la ‘calidad’ de ejecu a dicha acción en dicho es ado, y se calcula
como la suma de la ecompensa inmedia a , más una componen e que ep esen a
la ecompensa u u a del siguien e es ado. Es e segundo ac o . maxa′Q(s′, a′), es el
alo Q que se ob iene as ejecu a la mejo acción posible en el siguien e es ado s′,
y es mul iplicado po un ac o de descuen o (γ) comp endido en e 0 y 1. El alo
de γ, es un hipe pá ame o que ep esen a el peso que se le o o ga a las ecompensas
a co o y la go plazo. En ejemplos simples de esol e , los alo es Q ob enidos se
pueden ep esen a en una abla Q:
22
Figu a 16 Ejemplo de una abla Q en un escena io simple. Imagen omada de la
publicación: [18]
El ejemplo sencillo de la igu a 16, dispone de una abla Q, que cons a de 4 acciones
y 5 es ados. Den o de ella, se almacenan los alo es Q que indican la idoneidad
de ejecu a cada una de las acciones en cada es ado. Inicialmen e, ienen un alo
igual a 0, y a medida que el en enamien o a anza, es os alo es se an ajus ando
has a consegui un mapa de es ado-acciones que ep esen e la polí ica del agen e. El
hecho de pode ep esen a la ecuación de Bellman 6.2.1 como una abla o ma iz de
alo es, hace que es e ipo de escena ios sean muy sencillos de esol e . Sin emba go,
en la ida eal, los p oblemas cons an de millones de es ados di e en es y cien os
de acciones dis in as, haciendo que las ablas Q omen g andes dimensiones, donde
su uso ya no es iable. Es aquí donde su ge el algo i mo Deep Q-Ne wo k o DQN,
publicado en el a ículo [14].
6.2.2 Deep Q-Ne wo k
El algo i mo DQN es una combinación en e el clásico algo i mo Q-Lea ning y las
edes neu onales p o undas. Es conocido que las edes neu onales p o undas, son una
he amien a muy ú il pa a ap oxima unciones no lineales. En el caso de DQN, pe -
mi en ap oxima la unción Q sin la necesidad de usa ablas pa a su ep esen ación,
solucionando así, el p oblema de escalabilidad que p esen a el algo i mo Q-lea ning.
En es os casos, el es ado ac ual p opo cionado po el en o no, ac úa como el inpu de
la ed, la cual gene a como salidas un alo Q po cada una de las acciones posibles.
23
Figu a 17 Di e encia en e Q-lea ning y DQN.
En cuan o al p oceso de ap endizaje, las edes neu onales ac ualizan sus pa áme os
θi, minimizando el e o es imado po una unción de pe didas que de e mina el e o
de p edicción. Es a unción se calcula como la di e encia en e el alo espe ado (el
eal) y el alo de p edicción. En los algo i mos DQN, la unción de pe didas se
puede ep esen a como el e o cuad á ico medio del alo Q obje i o y el alo Q
de p edicción.
Li(θi)=E[(Q a ge −Qp edic ed(s, a;θi))2](6.2)
siendo el alo Q obje i o:
Q a ge = +γ∗maxa′Q(s′, a′;θ′
i)(6.3)
Sin emba go, al y como se menciona en el a ículo [14], el uso de ap oximado es de
unciones no lineales, como las edes neu onales, sob e algo i mos de RL, hacen que
es os sean ines ables. Es a ines abilidad puede de i a en:
−Una co elación p esen e en la secuencia de obse aciones. Al abaja con
secuencia de da os, el modelo puede ap ende a segui es as secuencias,
induciendo un ap endizaje e óneo.
−Una co elación en e los alo es Qp edic ed y los alo es Q a ge .
24
−Pequeñas ac ualizaciones de los alo es Q, pueden cambia signi ica i amen-
e la polí ica, cambiando así, la dis ibución de los da os.
Pa a soluciona es a ines abilidad, ue on in oducidos los concep os de: Ta ge Ne -
wo k y Expe ience Replay.
Ta ge Ne wo k
Según la ecuación de Bellman 6.2.1, los alo es Q(s, a)son ac ualizados a a és de
las ecompensas u u as Q(s′, a′), donde solo exis e un s ep de di e encia en e los
es ados sys′, es o hace que ambos alo es sean muy simila es y di íciles de di e encia
po pa e de la ed. Además, como la ecuación de Bellman es usada pa a el cálculo de
los alo es Q obje i o den o de la unción de pé didas 6.2.2, hace que el ap endizaje
sea ines able.
Con el in de sol en a es e p oblema, se in oduce una segunda ed llamada Ta ge
Ne wo k. El obje i o de la Ta ge Ne wo k consis e en calcula los alo es Q(s′, a′)
de la ecuación de Bellman, y así, pode mejo a la es abilidad del ap endizaje, e-
duciendo la co elación en e alo es Q(s, a)y los Q(s′, a′). Es a nue a ed es una
copia de la ed p incipal y no es en enada, sus pa áme os simplemen e se ac ualizan
sinc onizándolos pe iódicamen e con los de la ed p incipal.
Expe ience Replay
Inspi ada en un mecanismo biológico, la écnica de expe ience eplay, alea o iza los
da os de al mane a que elimina la co elación en e las obse aciones o es ados con-
secu i os. Si la ed ap endiese únicamen e a a és de obse aciones consecu i as,
puede apa ece sesgos en es as secuencias, que impidan ap ende o os caminos hacia
el obje i o más e icien es. Po es o, la écnica de expe ience eplay, pe mi e almace-
na las expe iencias del agen e en cada ins as e de iempo, den o de una memo ia
de amaño ini o N, llamada eplay memo y. Du an e el en enamien o, se oma án
de o ma alea o ia las expe iencias almacenadas den o de la eplay memo y pa a
alimen a la ed neu onal. De es a o ma, se consigue ompe con la co elación en e
obse aciones consecu i as. Las expe iencias del agen e se almacenan en la eplay
memo y como uplas que se de ine de la siguien e o ma:
e =(s , a , , s +1)(6.4)
Es a upla con iene in o mación del es ado ac ual s , la acción omada en ese es ado
a , la ecompensa ob enida as ejecu a esa acción en dicho es ado , y el siguien e
es ado s +1. Algunos de los hipe pa áme os impo an es a de ini en la c eación de
la eplay memo y son:
25
−Memo y size: de ine el amaño de la memo ia, es deci , cuan as uplas se
pueden almacena como máximo. Una ez se alcanza es e alo , la memo ia
se a ac ualizando con nue os da os, eliminando los an e io es.
−Ba ch size: de ine el cuan as uplas oma an de la memo ia pa a en ena
la a ge ne wo k.
26

7 Diseño de la p opues a
A con inuación, en los siguien es apa ados, se da paso a la explicación de odo el
p ocedimien o lle ado a cabo du an e la ealización de es e p oyec o. Empezando
desde el es udio y simulación del p oblema de au o-in e e encia en los escena ios
IDL/ITCN, has a la c eación y simulación del algo i mo Deep Q-Ne wo k den o de
Spyde .
7.1 C eación del escena io en Quad iga y ob ención de los
da os de en enamien o.
En p ime luga , ue necesa io el es udio del p oblema de au o-in e e encia den o
de los escena ios IDL/ITCN, que al y como se ha explicado en el apa ado 4.2, se
debe al uso de comunicaciones IBFD, es deci , a que sus o es de comunicaciones,
ansmi en y eciben simul áneamen e sob e la misma ecuencia. Es o hace que, la
señal ansmi ida desde un nodo hacia su zona de se icio, se acople en su ecep o
ac uando como una señal de in e e encia.
Una ez acla ado el escena io que se p e ende simula , se da paso a su cons ucción.
Aunque se ha mencionado que el escena io eal cons a de un único nodo que ac úa
como ansmiso y ecep o simul áneamen e, en es e caso, se ha ep esen ado el p o-
blema de au o-in e e encia a a és de un escena io compues o po dos ansmiso es
y un ecep o . Es e escena io, e lejado en la igu a 18, ha sido simulado a a és de
Quad iga, y pe mi e ob ene los canales equi alen es al p oblema de au o-in e e encia
deseado.
Figu a 18 Escena io simulado con Quad iga.
27
En es e caso, uno de los ansmiso es se á u ilizado pa a ansmi i la señal deseada, y
el segundo, pa a la señal de in e e encia. Po o a pa e, el ecep o se á el enca gado
de aplica la écnica de Beam o ming, que le pe mi a maximiza la ganancia de la
señal deseada, y a su ez, in en a anula , lo máximo posible, la señal de in e e encia.
Pa a la simulación, se han u ilizado an enas omnidi eccionales en cada uno de los
ansmiso es, y se ha ansmi ido con una po encia de 0 dB. El hecho de usa es os
pa áme os an gene ales, se debe a que el obje i o p incipal de es a simulación, es
únicamen e el de p o ee di e en es mues as de los canales simulados, an o de la
señal deseada, como de la señal de in e e encia.
Es os canales depende án del espacio o escena io, donde se simulen los ansmiso es.
En es e sen ido, Quad iga o ece una g an a iedad de posibilidades, desde espacios
simples como LOSonly, el cual con iene una isión di ec a, sin shadowing, ni pe didas
de espacio lib e, has a escena ios más complejos como los modelos 3GPP, donde se
pueden da si uaciones de mul i ayec o. Algunas de las p uebas ealizadas die on los
siguien es canales como esul ado:
(a) Respues a del canal en LOSonly. (b) Respues a del canal en F eeSpace.
(c) Respues a del canal en 3GPP LOS. (d) Respues a del canal en 3GPP NLOS
Figu a 19 Respues as de canales simulados en di e en es escena ios de Quad iga.
Las simulaciones ep esen adas en la igu a 19, ue on ú iles pa a comp ende el un-
cionamien o de Quad iga, y comp oba que la maque a diseñada, p opo ciona los
esul ados deseados. En cada una de las imágenes, iene ep esen ado en azul, el
canal de la señal deseada H1, y en ojo, el canal de la señal de in e e encia H2.
28
A pa i de es e momen o, el obje i o se cen ó in en a anula lo máximo posible
las mues as del canal de in e e encia, y pa a que es o uese posible, e a necesa io
consegui la mayo can idad de ejemplos. Pa a ob ene una g an a iedad en los da os
de en enamien o, se ealiza on a ias simulaciones den o de un escena io 3GPP con
isión di ec a, donde los ansmiso es iban cambiando su posición. Las posiciones
ue on seleccionadas de al o ma que pe mi iesen aba ca el mayo ango de casos
posibles. A con inuación, se mues an a ios ejemplos de algunos escena ios simulados
desde donde se han cap ado los da os.
Figu a 20 Posibles escena ios de en enamien o.
En o al, se han seleccionado 14 combinaciones di e en es pa a simula las posiciones
de los ansmiso es, y en cada combinación, se han cap u ado mues as de los canales,
H1 y H2, en 5 ins an es de iempo di e en es. Cuan as más mues as se omen, el
algo i mo DQN ap ende á a econoce mejo los canales en cada combinación. O os
pa áme os que se han ob enido en cada simulación son los ángulos de incidencia,
AoA, y e a dos de los coe icien es que componen los canales H1 y H2.
7.2 Diseño del modelo Beam o ming en el ecep o .
Una ez ob enidos los da os p opo cionados po los ansmiso es, se dio paso al diseño
del modelo Beam o ming den o del ecep o . Pa a ello, ue necesa io la de inición de
una an ena, y comp ende como gene a un diag ama de adiación a pa i de ella.
En es e caso, se decidió que el ecep o ha ía uso de una con igu ación de an enas de
ipo Uni o m Linea A ay (ULA). Es a con igu ación de ine un conjun o de dipolos
sepa ados en e sí, po una dis ancia d, la cual debe se meno o igual a la mi ad de
la longi ud de onda.
29
Figu a 21 Onda plana que incide sob e la an ena ipo ULA. Imagen omada de [11]
La igu a 21, ep esen a la con igu ación de una an ena ipo ULA, en la cual incide una
onda plana. Cada uno de los ayos, incide con un e aso p opo cional a dcos(θ). Es os
e asos son los que de e minan si las señales se an a suma de o ma cons uc i a
o des uc i a. Po o a pa e, si se conside a cada an ena del a ay como iso ópica,
el diag ama de adiación se puede ep esen a con la siguien e ó mula:
FA =ejϕ 4
∑
n=1
e−j2π(n−1)dcos(θ)
λ(7.1)
Es a ecuación denominada como ac o de a ay, ep esen a el campo adiado po el
a ay, donde el coe icien e de alimen ación, ejϕ, con iene la ase ϕ, que ma ca la di ec-
ción del diag ama. Aplicando es e concep o den o de Spyde , ue posible p og ama
un ’codebook’ que almacena di e en es diag amas de adiación, apun ando a dis in-
as di ecciones. Es e codebook, se á u ilizado en la pos e io ase de en enamien o,
pa a el ap endizaje del ecep o . La siguien e igu a mues a un ejemplo de 8 posibles
diag amas de adiación que pod ía selecciona el ecep o .
Figu a 22 Posibles diag amas de adiación a selecciona po pa e del ecep o .
30
ha seleccionado, en base a p uebas de e o /acie o, un alo de 0.00025.
Es o se e á más de alladamen e en el siguien e apa ado de esul ados.
−Ta ge upda e: es e alo de ine cada cuan os s eps se ac ualiza a la a ge
ne wo k. En es e caso, se ha op ado po un alo igual a 20.
Po o a pa e, como ya se io en el apa ado 6.1, o os hipe pa áme os a ene en
cuen a, son los u ilizados a la ho a de selecciona la es a egia con la que el agen e
oma a las acciones, y los u ilizados pa a de ini la Replay Memo y.
Es a egia épsilon-g eedy.
Tal y como se explicó en el apa ado 6.1.2, es a es a egia de ine, en base al dec eci-
mien o de una a iable llamada épsilon, si el agen e oma las acciones de una o ma
alea o ia, o haciendo uso del conocimien o ya adqui ido has a ese momen o. Pa a
ello, es necesa io decidi como hace dec ece es a a iable épsilon, y selecciona el
alo de los hipe pa áme os que oma an pa e en es e p oceso.
En es e caso, se ha op ado po dec emen a la a iable épsilon eniendo en cuen a el
núme o de epoch. Pa a ello se es ablecie on dos ases, donde la du ación de cada una
de ellas son los p ime os hipe pa áme os a de ini . La p ime a de es as ases, iene
una du ación igual al 10% del o al de epochs, y la segunda, una du ación igual al
90% del o al de epochs. Con es o se p e ende es ablece una ase inicial, que du e
al menos el 10% del en enamien o o al, donde el agen e se encuen e explo ando
el en o no, seleccionando acciones alea o ias. Po o a pa e, en la segunda ase, se
dec emen a la a iable épsilon de una o ma p opo cional al núme o de epochs o ales,
pe mi iendo así, aumen a la p obabilidad de que el agen e use el conocimien o ya
adqui ido, pa a selecciona la mejo acción posible.
Algo i hm 2 Es a egia epsilon-g eedy.
1: p ocedu e selec ac ion(epoch, s a , end, epochs, epsilon)
2: explo a ⇐0,1∗epochs ▷se de ine la du acion de las ases.
3: explo a ⇐0,8∗epochs
4: i (epoch <explo a) hen ▷Fase de explo ación.
5: epsilon ⇐s a
6: else i (epoch <explo a) hen ▷Fase de explo ación.
7: epsilon ⇐(s a −(epoch−explo a))/((explo a−explo a)∗(s a −end))
8: else
9: epsilon ⇐end
10: i (epsilon > andomV alue) hen
11: ac ion ⇐ andom(ac ions)▷Se oma una accion alea o ia.
12: else
13: ac ion ⇐max(policyne (ac ions)) ▷Se usa la ed neu onal.
14: e u n ac ion
37

En el algo i mo 2, se de inen las 2 ases que componen el p oceso, y los hipe pa áme-
os, s a y end, que hacen e e encia al alo inicial y inal de la a iable épsilon.
Como es habi ual en es e ipo de es a egia, se oma un alo inicial igual a 1, y un
alo inal igual a 0.05. Es impo an e ene en cuen a que, es e alo inal, de e mina
la p obabilidad con la que el agen e en a á en la ase de explo ación en los úl imos
s eps del en enamien o. Po es o, es ecomendable no es ablece un alo muy pe-
queño, ya que a pesa de que en es a ase el agen e debe ía se capaz de cumpli
su obje i o, aún es necesa io que disponga de cie os momen os donde pueda oma
acciones de o ma alea o ia, que le pe mi an descub i o os caminos más óp imos
hacia su obje i o.
Replay Memo y
En cuan o a la de inición de la eplay memo y, simplemen e se oma on los alo es
más comunes pa a es e ipo de en enamien o.
−Ba ch size = 64. Es o quie e deci , que cada ez que se quie a ac ualiza
la ed p incipal, se oma an 64 uplas alea o ias de la memo ia. A es e
conjun o de uplas se le conoce como ’ba ch’.
−Memo y size = 100000. La memo ia almacena á un o al de 100000
uplas. En el momen o que supe e es e alo , sé i a ac ualizando con nue as
uplas, desca ando las más an iguas.
7.3.4 En enamien o del modelo Beam o ming basado en Deep Q-Ne wo k.
Una ez de inidos los ac o es que oman pa e en el en enamien o, la unción ecom-
pensa y los di e sos hipe pa áme os, se da paso a la explicación del p ocedimien o
lle ado a cabo pa a en ena el modelo Beam o ming. Tal y como se ha de inido en
el apa ado an e io , el en enamien o iene una du ación de 10 epoch, y en cada
epoch, se ealizan 2000 s eps. An es de empeza con el en enamien o, es necesa io
inicializa odos los componen es, como las edes neu onales, el es ado inicial, S, o la
eplay memo y. Una ez es á odo inicializado, en cada uno de los s eps se ealizan
los siguien es pasos:
−Selecciona una accion a, con el es ado S, en base a la es a egia Epsilo-
g eedy de inida.
−Selecciona el nue o diag ama de adiación, beam.
−Calcula el siguien e es ado, S’.
38
−Calcula el alo de MSE, pa a el siguien e es ado, y ob ene el alo de
ewa d, .
−Almacena la upla (S, S’, a, ) den o de la eplay memo y.
−Ac ualiza el es ado S.
−Ac ualiza la ed neu onal p incipal, policyne .
−Comp oba sí es necesa io ac ualiza la Ta ge ne wo k, a ge ne .
−Comp oba si el episodio ha inalizado.
Es os pasos se pueden e e lejados en el siguien e algo i mo, y aunque no ienen
de allados odos los pasos que ealmen e se ealizan, es ú il pa a en ende el p oce-
dimien o que se lle a a cabo den o del en enamien o.
Algo i hm 3 De inición de la unción ecompensa
1: p ocedu e En enamien o DQN(H1, H2, AoA1, AoA2, codebook)
2: s a e ⇐p ep ocess(H1, H2, AoA1, AoA2, posi ion)
3: s a egy ⇐epsilonG eedyS a egy(s a , end, epochs)
4: policyne , a ge ne , agen , memo y ⇐ini ializeAc o s(s a egy, ac ions)
5: o (epoch <10)do
6: o (s eps <1000)do
7: ac ion ⇐agen .selec Ac ion(s a e, policyne , epoch)
8: beam ⇐changeBeam(ac ion, codebook, posi ion)
9: nex S a e ⇐upda eS a e(AoA1, AoA2, H1, H2, beam)
10: MSE ⇐meanSqua edE o (nex S a e, Hideal)
11: ewa d, done ⇐ uncionRecompensa(MSE, s ep)
12: memo y.push(s a e, nex S a e, ac ion, ewa d, done)
13: s a e ⇐nex S a e
14: i memo ySize >ba chSize hen
15: s a es, ac ions, ewa ds, nex S a es, dones ⇐memo y(ba chSize)
16: Qp ime ⇐ a ge ne (nex S a es)
17: Q a ge ⇐ ewa ds +lea ningRa e ∗Qp ime
18: Q⇐policyne (s a es)
19: loss ⇐meanSqua edE o (Q a ge , Q)
20: loss ⇐meanSqua edE o (Q a ge , Q)
21: upda eNe wo k(policyne )
22: upda eTa ge Ne wo k(policyne , a ge ne )
23: i done =T ue hen
24: H1, H2, AoA1, AoA2⇐upda eDa a()
25: s a e ⇐p ep ocess(H1, H2, AoA1, AoA2, posi ion)
En las p ime as líneas, 2-4 del algo i mo 3, se inicializan odas las a iables que an a
se pa ícipes del en enamien o, donde las más impo an es son las edes neu onales,
39
el es ado inicial con el que da á comienzo el en enamien o, el agen e y la es a egia
que a a u iliza . El es ado inicial se ob iene p ocesando los da os co espondien es
a los canales: H1yH2, con el in de ob ene una ma iz no malizada en e 0 y 1,
que acili e el ajus e de los pa áme os de las edes neu onales. Con los da os ya
inicializados, se da comienzo al en enamien o, donde en cada uno de los s eps, se
ealizan los pasos enume ados an e io men e.
En p ime luga , se selecciona una acción u ilizando la es a egia epsilon-g eedy de-
inida en la sección 14. Es a es a egia de ol e á una acción seleccionada de o ma
alea o ia, o usando la ed neu onal p incipal policyne , dependiendo del alo de la
epoch en la que se encuen e en ese momen o. Una ez seleccionada la acción, se
hace uso de ella pa a selecciona el diag ama de adiación den o del codebook p e-
iamen e de inido. Con es e nue o diag ama, de inido como beam, se calculan los
nue os alo es de los coe icien es de H1yH2haciendo uso de los ángulos de inciden-
cia AoA. De es a o ma se consigue el nue o es ado, S’, que e leja la espues a del
beam seleccionado an e los canales H1yH2, es deci , ep esen a los nue os canales
ecibidos po el ecep o a a és del beam seleccionado. Es e nue o es ado, jun o al
canal ideal p e iamen e de inido, son u ilizados pa a calcula el alo de MSE, que
e leja la simili ud en e ambos canales. El alo MSE ob enido, es p opo cionado a
la unción ecompensa, de inida en 1, pa a calcula el alo de ewa d y de e mina ,
a a és de la a iable done, si el episodio ha inalizado o no. Una ez que se ob ienen
los alo es de las a iables: es ado, acción, siguien e es ado, ewa d y done, son alma-
cenadas en o ma de upla (S, S’, a, ), den o de la eplay memo y. Con los alo es ya
almacenados, se ac ualiza la a iable es ado, S, con los alo es del siguien e es ado,
S’, pa a que la siguien e i e ación inicie con los alo es ac ualizados.
Los siguien es pasos del algo i mo se co esponden con la ac ualización de las edes
neu onales, policyne y a ge ne . Pa a ac ualiza la ed policyne , como se e en la
línea 14, es necesa io comp oba si la memo y eplay con iene el núme o de uplas
mínimo eque ido pa a ac ualiza la ed. En el caso de se así, se p ocede a selecciona
un conjun o de uplas alea o ias, o ba ch, de la eplay memo y, cuyo amaño iene
de inido po el hipe pa áme os ba chSize. Los alo es de es e conjun o de uplas,
son u ilizados pa a calcula los alo es Q a a és de la ecuación de Bellman 6.2.1, y
así, pode ac ualiza los pa áme os de las edes neu onales calculando la unción de
pe didas. En es e caso, la unción de pe didas se calcula a a és del e o cuad á ico
medio en e el alo Q obje i o, Q a ge , y el alo Q de p edicción. Po o a pa e, la
a ge ne wo k se ac ualiza en unción del hipe pa áme o a ge upda e, cuyo alo
indica cada cuan o debe se ac ualizada es a ed.
40
Finalmen e, con el alo done ob enido de la unción ecompensa, se comp ueba si
ha inalizado un episodio de en enamien o. Los episodios pueden inaliza as habe
alcanzado el obje i o, o as habe excedido el núme o de s ep máximos. En el caso de
que un episodio inalice, se ac ualiza el escena io cambiando los alo es de los canales
ecibidos. Es os nue os alo es se co esponde a o o escena io, donde los ansmiso es
ienen nue as posiciones. Con es o se p e ende que el algo i mo sea en enado en odos
los escena ios p e iamen e ob enidos a a és de Quad iga, explicada en el apa ado
7.1.
Todo el p ocedimien o explicado has a es e momen o se puede e e lejado, de o ma
esumida, en la siguien e imagen:
Figu a 24 Esquema del en enamien o del modelo Beam o ming.
41
8 Resul ados.
Una ez explicado el p ocedimien o lle ado a cabo pa a en ena el algo imo DQN,
se da paso a explica los esul ados ob enidos du an e el p oceso de en enamien o.
En p ime luga , se mos a án los esul ados de las p uebas ealizadas pa a elegi los
alo es de algunos hipe pa áme os, y pos e io men e, se explica án los esul ados
ob enidos en los escena ios explicados en el apa ado 7.3.1.
8.1 Resul ados p e ios: De inición de los hipe pa áme os.
El p ime paso consis ió en ealiza a ias p uebas que pe mi an ajus a los alo es de
los hipe pa áme os explicados en el apa ado 7.3.3. En es e caso, solo se explica án
las p uebas ealizadas sob e 3 hipe pa áme os, con el único in de en ende como se
ajus an es e ipo de a iables. Los hipe pa áme os que se han ajus ado son: capas
y neu onas, lea ning a e y núme o de epoch. Las p uebas consis en en i p obando
di e en es alo es pa a cada uno de es os hipe pa áme os.
8.1.1 Capas y neu onas.
A la ho a de selecciona es os alo es hay que ene en cuen a que un mayo núme o
de neu onas y capas, puede p opo ciona un mejo ap endizaje, pe o ambién equie e
de mayo iempo de p ocesamien o. Es o se ha podido comp oba en las siguien es
simulaciones, donde se ealiza un o al de 10 epochs, y se e alúa el po cen aje de
acie os conseguido, al cambia el núme o de neu onas, en cada una de ellas. Es e
po cen aje deno a cuan os episodios se han ealizado co ec amen e espec o al o al
de episodios ejecu ados en cada epoch.
Simulación 1: 2 capas y 50 neu onas en cada capa.
Figu a 25 En enamien o con una ed neu onal de 2 capas y 50 neu onas.
42

Resul ados:
−Tiempo de simulación: 29 s/epoch.
−Sco e máximo: 79.2%.
Simulación 2: 2 capas y 100 neu onas en cada capa.
Figu a 26 En enamien o con una ed neu onal de 2 capas y 100 neu onas.
Resul ados:
−Tiempo de simulación: 31 s/epoch.
−Sco e máximo: 82.81%.
Simulación 3: 2 capas y 300 neu onas en cada capa.
Figu a 27 En enamien o con una ed neu onal de 2 capas y 300 neu onas.
Resul ados:
−Tiempo de simulación: 35 s/epoch.
−Sco e máximo: 87.7%.
43
Simulación 4: 2 capas y 400 neu onas en cada capa:
Figu a 28 En enamien o con una ed neu onal de 2 capas y 400 neu onas.
Resul ados:
−Tiempo de simulación: 37 s/epoch.
−Sco e máximo: 72.64%.
En las simulaciones is as has a es e momen o, se puede comp oba que la mejo
opción se mues a en igu a 27, donde la ed neu onal es á o mada po 2 capas de
300 neu onas. A pa i de es e núme o de neu onas, al y como se puede e en la
igu a 28, el ap endizaje empieza a decae . Pa a de ini el núme o de capas, se ha
enido en cuen a el núme o de neu onas seleccionado (300), y se ha añadido una capa
más, con es e mismo núme o de neu onas, pa a comp oba que impac o iene den o
del en enamien o. En es e caso, se obse a el siguien e compo amien o:
Simulación 5: 3 capas y 300 neu onas en cada capa.
Figu a 29 En enamien o con una ed neu onal de 3 capas y 300 neu onas.
Resul ados:
−Tiempo de simulación: 55 s/epoch.
−Sco e máximo: 78.62%
44
Como se puede e en la igu a 29, el alo máximo ob enido en cuan o a po cen aje
de acie o es de 78.62%, siendo in e io al ob enido en la simulación 27, donde se
usa on 2 capas. Además de ob ene un peo esul ado, al y como e a de espe a ,
el iempo de simulación es muy supe io al ob enido con 2 capas. Po es a azón,
se decide que los alo es en cuan o a núme o de capas y de neu onas pa a la ed
neu onal son:
−Núme o de capas: 2.
−Núme o de neu onas: 300.
8.1.2 Lea ning a e.
Es e hipe pa áme o, de una o ma muy esumida, se pod ía conside a como la
a iable que de e mina a la elocidad de ap endizaje de nues o algo i mo. Tal y
como se mencionó en el apa ado 7.3.3, un alo muy g ande pod ía hace que el
algo i mo no llegase a con e ge , y un alo muy pequeño, pod ía hace que la solución
p opo cionada no sea la más óp ima. En es e caso, se ealizan 4 simulaciones pa a
obse a el compo amien o de es e hipe pa áme o, y así pode decidi que alo es
el más adecuado pa a es e p oyec o.
Simulación 1: Lea ning Ra e = 0.8.
Figu a 30 En enamien o con una LR = 0.8.
Resul ados:
−Sco e máximo: 55.76%
45
Simulación 2: Lea ning Ra e = 0.25.
Figu a 31 En enamien o con una LR = 0.25.
Resul ados:
−Sco e máximo: 50.49%
Simulación 3: Lea ning Ra e = 0.00025
Figu a 32 En enamien o con una LR = 0.00025.
Resul ados:
−Sco e máximo: 85.65%
46
En es a si uación, se puede e como el beam seleccionado a enúa el canal H2, e e-
en e a la señal de in e e encia, y ob iene la mayo ganancia posible pa a el canal
H1, e e en e a la señal deseada.
Po o o lado, a la ho a de es ea cada escena io, se ealizan un o al de 25 s eps, con
el in de comp oba si una ez alcanzado el obje i o, el ecep o es capaz de man ene
el esul ado. En la siguien e igu a 41 se puede comp oba como as habe eco ido
25 s eps, el diag ama sigue siendo el co espondien e a la posición 20.
Figu a 41 Escena io 2 simulado: Mues a: 3, S ep: 25, Posición del beam: 20.
Pa a una mejo isualización de es os esul ados, se ha c eado un ideo disponible en
el link [19].
E aluación con da os di e en es a los del en enamien o:
Pa a comp oba que el modelo en enado puede ex apola su conocimien o a esce-
na ios pa a los cuales no ha sido en enado, se gene a on nue os escena ios donde
las posiciones de los ansmiso es se gene a on de una o ma alea o ia. An es de e
los esul ados, se ha á una compa a i a de las posiciones con las que se en enó al
algo i mo, y las posiciones con las que se e aluó. En la siguien e abla, apa ecen las
posiciones que ienen los ansmiso es sob e un plano de ango [-100, 100]. Así mismo,
los ángulos indicados, hacen e e encia al ángulo que o ma cada ansmiso espec o
al eje ho izon al, y omando como pun o de o igen el ecep o .
53

Posiciones andom pa a el Tes Posiciones pa a el En enamien o
T ansmiso 1 ángulo 1 T ansmiso 2 ángulo 2 T ansmiso 1 ángulo 1 T ansmiso 2 ángulo 2
[-25, 55] 295 [-12, -58] 282 [70, 70] 45 [-70, 70] 135
[20, -17] 320 [-41, 46] 132 [-70, 70] 135 [70, 70] 45
[34, 36] 46 [41, -1] 359 [-70, -70] 225 [70, -70] 315
[1, 57] 88 [-40, 45] 133 [70, -70] 315 [-70, -70] 225
[47, 4] 4 [12, -19] 303 [70, 0] 0 [70, 70] 45
[41, -17] 338 [58, -3] 358 [-70, 0] 180 [70, 70] 45
[-38, -33] 220 [-44, -26] 210 [43, 74.6] 60 [70, 70] 45
[33, 59] 60 [-31, 45] 125 [-43, 74.6] 120 [70, 70] 45
[6, -48] 278 [-27, -56] 244 [43, -74.6] 300 [70, 70] 45
[-8, -47] 260 [-43, 29] 147 [-43, -74.6] 240 [-70, 70] 135
[51, -34] 330 [53, -55] 314 [80, 47] 30 [-70, 70] 135
[-38, -22] 210 [38, -58] 304 [-80, 47] 150 [70, 70] 45
[36, -59] 302 [40, -19.] 335 [80, -47] 330 [70, 70] 45
[47, -19] 338 [-41, -36] 221 [-80, -47] 210 [-70, 70] 135
Cuad o 1 Posiciones y ángulos de los escena ios de en enamien o y de e aluación.
Es as mismas posiciones y ángulos se pueden e e lejados de una o ma g á ica en
la siguien e igu a:
(a) Escena ios de en enamien o. (b) Escena ios alea o ios pa a la e aluacion.
54
Pa a es os nue os escena ios, donde las posiciones ue on gene adas de una o ma
alea o ia, se consiguió un po cen aje de acie o supe io al 71%.
Figu a 43 Rewa d po episodio de e aluación.
Como se puede e en la igu a 43, los escena ios 1, 3, 7 y 11 son los únicos que no
se pudo esol e , ob eniendo un ewa d nega i o en cada uno de ellos. Los escena ios
pa a los cuales no se ha cumplido el obje i o son los siguien es:
Figu a 44 Escena ios de e aluación no cumplidos.
Analizando es os escena ios se puede e que, en cada uno de ellos, los ansmiso es
se encuen an a una dis ancia muy ce cana en e sí, y con los diag amas de adiación
p opues os, es di ícil consegui una di e enciación co ec a en e las señales ans-
mi idas. Es os se sol en a ía aumen ando el núme o de elemen os que componen la
an ena ipo ULA, dando así una mayo di ec i idad a los diag amas de adiación.
Al igual que se hizo an e io men e, pa a es e caso ambién se ha ealizado un i-
deo que pe mi a isualiza la ac uación del modelo en enado den o de es os nue os
escena ios. Es e ideo es á disponible a a és del link [20].
55
9 Plan de ges ión.
En es e apa ado se desc ibe el plan de ges ión ealizado pa a lle a a cabo la elabo-
ación del p oyec o. En él se desc iben las ases en las que se dis ibuye el p oyec o,
y den o de cada una, se explican las a eas a ealiza , ag upadas en paque es de
abajo.
9.1 Desc ipción de los paque es de abajo.
Las siguien es ablas desc iben los paque es de abajo que se ealiza en cada una de
las ases. En cada una, se hace una b e e desc ipción del paque e de abajo, y se
enume an las a eas a ealiza jun o con los plazos p e is os.
9.1.1 Fase comple a del p oyec o.
Es e paque e de abajo e leja las a eas y el plazo en el que deben se ealizadas,
an o po los coo dinado es del p oyec o, como po el alumno.
PT1 Fecha de
inicio.
Fecha de
inalización. Du ación
Ges ión del p oyec o: Moni o ización
y adminis ación necesa ia pa a
asegu a el cumplimien o
de los obje i os ma cados.
02-05-2022 10-10-2022 107
PT1.1: Ges ión, moni o ización
y supe isión de abajo:
Coo dinación, supe isión y moni o ización
del p oyec o, desde el inicio has a
la inalización del mismo.
02-05-2022 10-10-2022 107
Cuad o 2 Paque e de abajo Nº: 1.
9.1.2 Fase 1 del p oyec o.
En es a ase inicial, se adquie en los conocimien os iniciales y se de ine la plani icación
a segui .
56
PT2 Fecha de
inicio.
Fecha de
inalización. Du ación
P epa ación del p oyec o:
Adquisición del conocimien o necesa io
p e io al desa ollo de la solución
plan eada.
02-05-2022 31-05-2022 22
PT2.1: Conocimien o p e io:
Lec u a de a ículos elacionados
con los escena ios IDL/ITCN.
Es udio de los algo i mos de
Rein o cemen Lea ning.
02-05-2022 13-05-2022 10
PT2.2: De inición del p oyec o:
Desc ipción del ámbi o del p oyec o
y el lujo de abajo a segui .
16-05-2022 20-05-2022 5
PT2.3: Es ado del a e:
Búsqueda de in o mación en o ma de
es udios, p oyec os y publicaciones
elacionados con el p oyec o.
23-05-2022 31-05-2022 7
Cuad o 3 Paque e de abajo Nº: 2.
9.1.3 Fase 2 del p oyec o.
En es a ase se cen a odo el desa ollo del código, an o pa a la ob ención de los
da os con los que se alimen a a el algo i mo, como pa a su en enamien o.
PT3 Fecha de
inicio.
Fecha de
inalización. Du ación
De inición del en o no de simulacion:
Ma lab y Quad iga.
C eación de un escena io que simule él
p oblema de au o-in e e encia que se da
en los escena ios IDL/ITCN.
01-06-2022 24-06-2022 18
PT3.1: Conocimien o p e io:
Lec u a sob e la documen ación de
Quad iga, y elabo ación de a ios ejemplos
pa a su ap endizaje.
01-06-2022 10-06-2022 8
PT3.2: De inición del escena io:
De inición del escena io equi alen e que
simula á el p oblema de au o-in e e encia.
13-05-2022 17-05-2022 5
PT3.3: P uebas de alidación:
Realiza a ias p uebas u ilizando
los di e en es espacios que p opo ciona
Quad iga, como LOSonly, eeSpace y 3GPT.
C eación de las p ime as g á icas de los
canales ob enidos con Quad iga.
20-06-2022 24-06-2022 5
Cuad o 4 Paque e de abajo Nº: 3.
57
PT4 Fecha de
inicio.
Fecha de
inalización. Du ación
Diseño del algo i mo Deep Q-Ne wo k.
De inición, p uebas y p ime os ajus es
de los pa áme os e hipe pa áme os
del algo i mo DQN.
27-06-2022 10-08-2022 33
PT4.1: P epa ación de los da os:
Análisis, p ep ocesamien o y pa ición de los
da os ob enidos con Quad iga. De ini los
da os con los que se a a alimen a la ed.
27-06-2022 01-07-2022 5
PT4.2: De inición de los ac o es y
unción ecompensa:
De inición del agen e, en o no, acciones
y ewa ds de cada es ado.
04-07-2022 08-07-2022 5
PT4.3: Elabo ación del código den o de
Spyde .
C ea el código e e en e a la eplay memo y,
ed neu onal, es a egia épsilon y demás
componen es del algo i mo.
11-07-2022 22-07-2022 10
PT4.4:P uebas de alidación:
Comp oba que el modelo unciona
co ec amen e, y ealiza los ajus es
co espondien es en cada hipe pa áme o.
25-07-2022 10-08-2022 13
Cuad o 5 Paque e de abajo Nº: 4.
9.1.4 Fase 3 del p oyec o.
La ase inal se cen a en documen a lo ealizado y los esul ados ob enidos, así como,
la de ensa del p oyec o en e a un ibunal.
PT5 Fecha de
inicio.
Fecha de
inalización. Du ación
Documen ación y p esen ación del
p oyec o:Esc i u a de la memo ia del p oyec o y
P esen ación o al.
10-08-2022 10-10-2022 44
PT5.1: Documen ación del p oyec o:
Elabo ación del documen o que de ine
el con ex o del p oyec o, obje i os,
bene icios, me odología, desc ipción
de la solución y conclusiones.
10-08-2022 18-09-2022 34
PT5.2: P esen ación del p oyec o:
Elabo ación y ejecución de la p esen ación
del p oyec o en e al ibunal. 26-09-2022 10-10-2022 10
Cuad o 6 Paque e de abajo Nº: 5.
58

9.2 Diag ama de Gan .
Figu a 45 Diag ama de Gan del p oyec o.
59
10 Conclusiones.
Los esul ados ob enidos has a es e momen o demues an que, el obje i o ma cado
al inicio de es e p oyec o, ha sido conseguido. Como ya se ha is o, es e modelo
Beam o ming, basado en un algo i mo Deep Q-Ne wo k, es una buena opción pa a
minimiza el p oblema de au o-in e e encia exis en e en una comunicación IBFD,
pudiendo así, se u ilizado den o de las comunicaciones IBFD ealizadas en los en-
o nos ICTN/IDL. Pa a ello, hay que ene en cuen a que, los da os de en enamien o
debe ían se los adecuados pa a esa si uación, ya que en es e caso, los da os u ilizados,
pe enecen a un escena io equi alen e al eal.
En cuan o al escena io p opues o en el apa ado 7.3.1, como ya se ha is o, no ue
posible lle a a cabo la au o-gene ación del diag ama de adiación, sin emba go, no
signi ica que no sea posible. El p oblema de no habe llegado a una solución cohe en e,
puede debe se a múl iples mo i os, como el inco ec o ajus e de los hipe pa áme os,
o una mala de inición de las acciones a ealiza po pa e del agen e.
En la de inición de las acciones, se de inie on 2 posibles acciones pa a cada elemen o
del a ay, más una acción común pa a odos los elemen os. Es o hace que el núme o
de acciones a elegi po pa e del agen e, dependa di ec amen e del núme o de ele-
men os que componen la an ena ipo ULA, con i iendo al núme o de an enas, en
un hipe pa áme o a ene en cuen a. En es e p oyec o, se decidió usa 4 an enas,
lo que hizo un o al de 9 posibles acciones, sin emba go, cabe la posibilidad de que
usando más an enas, y eajus ando los hipe pa áme os, se pueda llega a una mejo
solución. Aun así, se debe ene en cuen a que, cuan as más an enas se de inan, más
acciones debe á ap ende a selecciona el agen e, haciendo que la a ea a esol e sea
más compleja.
Po o a pa e, las acciones de inidas consis ían en inc emen a o dec emen a el alo
de las ases ϕ, co espondien es a cada elemen o de la an ena, sumando o es ando
un alo ijo a dicha ase. Es e alo ijo se dio como o o hipe pa áme o que debía
se ajus ado, ya que en unción de su alo , se podían gene a di e en es diag amas
de adiación. En es e caso, quizás, la o ma en la que se gene aban o seleccionaban
las ases ϕ, de cada elemen o de a ay, podía se el causan e de un mal ap endizaje,
ya que los diag amas gene ados con es as ases, p obablemen e no podían esol e los
escena ios p opues os.
En de ini i a, es e p ime plan eamien o queda de inido como un u u o abajo a
esol e , eniendo en cuen a las conclusiones ob enidas en es e p oyec o. Así mismo,
queda pendien e la compa ación de es e modelo basado en Deep Q-Ne wo k, con
60
o o modelo i e a i o adicional pa a el sis ema Beam o ming que pe mi a a i ma
que, es e ipo de algo i mos son compu acionalmen e más e icien es que los mé odos
adicionales.
61
Bibliog a ía
[1] W. L. L. Zhang Y. Wu, S.-I. Pa k, J.-y. L. andH.-M. Kim y col., «ATSC 3.0
In-band Backhaul o SFN Using LDM wi h Full Backwa d Compa ibili y,»
2022. di ección: h ps://ieeexplo e.ieee.o g/s amp/s amp.jsp? p=
&a numbe =8971918.
[2] L. Z. e . all, «Laye ed-Di ision-Mul iplexing: Theo y and P ac ice,» 2016. di-
ección: h ps://ieeexplo e.ieee.o g/s amp/s amp.jsp? p=&a numbe =
7378924.
[3] L. Z. e al., «Using Laye ed Di ision Mul iplexing o Wi eless In-Band Dis i-
bu ion Links in Nex Gene a ion B oadcas Sys ems,» 2021. di ección: h ps:
//ieeexplo e.ieee.o g/s amp/s amp.jsp? p=&a numbe =9093864.
[4] W. L. e al., «In eg a ed In e -Towe Wi eless Communica ions Ne wo k o
Te es ial B oadcas ing and Mul icas ing Sys ems,» 2021. di ección: h ps:
//ieeexplo e.ieee.o g/s amp/s amp.jsp? p=&a numbe =9444117.
[5] E. I. Iñigo Bilbao y J. Mon alban, «AI-based In e -Towe Communica ion Ne -
wo ks: Fi s app oach,» 2022. di ección: h ps://ieeexplo e.ieee.o g/
s amp/s amp.jsp? p=&a numbe =9828767.
[6] J. H. L. Hyung Jun Kwon y W. Choi, «Machine Lea ning-Based Beam o -
ming in Two-Use MISO In e e ence Channels,» 2019. di ección: h ps://
ieeexplo e.ieee.o g/s amp/s amp.jsp? p=&a numbe =8669027& ag=1.
[7] Q. S. Hao an Sun Xiangyi Chen, M. Hong, X. Fu y N. D. Sidi opoulos, «Lea -
ning o Op imize: T aining Deep Neu al Ne wo ks o In e e ence Manage-
men ,» 2018. di ección: h ps://ieeexplo e.ieee.o g/s amp/s amp.jsp?
p=&a numbe =8444648.
[8] H. Jia, Z.-Q. He, H. Rui y W. Lin†, «Robus Dis ibu ed MISO Beam o ming
Using Mul i-Agen Deep Rein o cemen Lea ning,» 2022. di ección: h ps :
//ieeexplo e.ieee.o g/s amp/s amp.jsp? p=&a numbe =9817604& ag=1.
[9] M. B. Mahdi Fozi Ahmad R. Sha a a , «Fas MIMO Beam o ming ia Deep
Rein o cemen Lea ning o High Mobili y mmWa e Connec i i y,» 2022. di-
ección: h ps://ieeexplo e.ieee.o g/s amp/s amp.jsp? p=&a numbe =
9612729.
[10] J. M. Iñigo Bilbao Eneko I adie y P. Anguei a, «AI-based In e -Towe Com-
munica ion Ne wo ks: Challenges and Bene i s,» 2022. di ección: h ps ://
ieeexplo e.ieee.o g/s amp/s amp.jsp? p=&a numbe =9547159.
62