scieee Science in your language
[sp] (orig)

Caracterización genómica de la anchoa europea (Engraulis encrasicolus)

Author: Rubio Almeida, Nerea
Year: 2024
Source: https://addi.ehu.eus/bitstream/10810/67834/1/TFG_Nerea_Rubio.pdf
Leioa 21 de junio de 2023
T abajo Fin de G ado
G ado en Biología
Ca ac e ización genómica de la anchoa
eu opea (Eng aulis enc asicolus)
Au o /a:
Ne ea Rubio Almeida
Di ec o /a:
Luis Ja ie Chueca Simón
Codi ec o /a:
I a xe Za aonaindia Ma ínez
Índice
Resumen/Abs ac 1
1. In oducción 2
2. Obje i os 5
3. Ma e iales y Mé odos 5
3.1. Cons ucción de lib e ías y secuenciación 5
3.2. Ensamblaje del ansc ip oma 5
3.3. Ensamblaje del genoma 6
3.4. Ano ación de epe iciones 6
3.5. P edicción de genes y ano ación uncional 7
3.6. Compa ación del genoma ensamblado y ano ación con especies elacionadas 7
3.7. Genoma mi ocond ial 7
4. Resul ados 8
4.1. T ansc ip oma 8
4.2. Ensamblaje del genoma 9
4.3. Ano ación de epe iciones y uncional del genoma 11
4.4. Mi ogenoma 13
5. Discusión 13
6. Conclusión 15
7. Bibliog a ía 16
8. Anexo y ma e ial complemen a io 21
I. Tabla con So wa e u ilizados en es e es udio 21
II. Disponibilidad de ma e ial suplemen a io 21
III. Lis ado de los o ganismos de e e encia pa a la ano ación uncional 21
IV. Á bol ilogené ico del o den Clupei o mes 22
V. Glosa io con ab e ia u as y e minología básica 22
1
Resumen
La anchoa eu opea, Eng aulis enc asicolus (Linnaeus, 1758), es un pequeño pez eleós eo con
un amplio ango de dis ibución que comp ende la cos a A lán ica de Eu opa y Á ica
occiden al, el Ma Medi e áneo y el Ma Neg o. Mues a una g an capacidad de dispe sión,
dando luga a dos eco ipos gené icamen e di e enciados como esul ado de aislamien os,
dispe siones y colonizaciones pasadas. Se a a de una especie sob eexplo ada con g an
impo ancia come cial, pa icula men e en el ma Can áb ico. La ausencia de ecu sos
genómicos de la anchoa, su amplia dis ibución y dinámica poblacional, di icul a comp ende
sus equisi os isiológicos y ecológicos. En es e abajo, se emplea on las ecnologías de
secuenciación de Illumina y PacBio, pa a gene a lec u as co as (RNA-seq) y la gas (HiFi) que
ue on u ilizadas pa a el pos e io ensamblaje del ansc ip oma y genoma, espec i amen e,
median e he amien as bioin o má icas. Se ob u o un genoma con una longi ud de 918,56
megabases, o mado po 27.218 cón igos, una longi ud de cón igo N50 de 38,21 kilobases y
con una in eg idad de BUSCO del 60%. Un 45,86% del ensamblaje es á o mado po elemen o
epe i i os y se p edije on un o al de 35.742 genes codi ican es de p o eínas. Pa a
complemen a la ano ación uncional del genoma se ensambló el ansc ip oma de hue o de
anchoa esul ando en 349 megabases con una in eg idad del 48,7%. Además, se ob u o el
mi ogenoma con una longi ud de 16.677 pa es de bases. Es e es udio p opo ciona un conjun o
de da os ómicos y el p ime bo ado del genoma pa a Eng aulis enc asicolus, que apo a á la
base pa a la c eación uno de mayo calidad. La disponibilidad de un genoma de e e encia
pe mi i á comp ende su es uc u a y unción, así como se u ilizado en es udios genómicos
compa a i os con o os cupléidos. A su ez, ep esen a un ecu so esencial pa a la
conse ación, ges ión y explo ación sos enible de la anchoa.
Abs ac
The Eu opean ancho y, Eng aulis enc asicolus (Linnaeus, 1758), is a small eleos ish wi h a
wide dis ibu ion ange ha includes he A lan ic coas o Eu ope and wes e n A ica, he
Medi e anean Sea and he Black Sea. I has a g ea dispe sal capaci y, gi ing ise o wo
gene ically di e en ia ed eco ypes as a esul o pas isola ions, dispe sals, and coloniza ions.
I is an o e exploi ed species wi h g ea comme cial impo ance, pa icula ly in he Can ab ian
Sea. The absence o genomic esou ces o he ancho y, i s wide dis ibu ion and popula ion
dynamics, makes mo e di icul o unde s and i s physiological and ecological equi emen s. In
his wo k, Illumina and PacBio sequencing echnologies we e used o ob ain sho (RNA-seq)
and long (HiFi) eads ha we e used o he subsequen assembly o he ansc ip ome and
genome, espec i ely, using bioin o ma ics ools. A genome wi h a leng h o 918.56 megabases
2
was ob ained, made up o 27,218 con igs, an N50 con ig leng h o 38.21 kilobases and wi h a
60% BUSCO in eg i y. A 45.86% o he assembly was o med by epe i i e elemen s and a
o al o 35,742 p o ein-coding genes we e p edic ed. To complemen he unc ional anno a ion
o he genome, he ancho y egg ansc ip ome was assembled, esul ing in 349 megabases wi h
48.7%. in eg i y. Fu he mo e, he mi ogenome wi h a leng h o 16,677 base pai s was ob ained.
This s udy p o ides a se o omic da a and he i s d a genome o Eng aulis enc asicolus,
which will p o ide he basis o he c ea ion o a highe quali y one. The a ailabili y o a
e e ence genome will allow o unde s and i s s uc u e and unc ion, as well as o be used in
compa a i e genomic s udies wi h o he clupleid ishes. In u n, i ep esen s an essen ial
esou ce o he conse a ion, managemen and sus ainable exploi a ion o he ancho y.
1. In oducción
La anchoa eu opea, Eng aulis enc asicolus (Linnaeus, 1758), es un pequeño pez eleós eo con
un amplio ango de dis ibución cos e a y en la pla a o ma con inen al (Mon es e al., 2016).
Su ex ensión geog á ica comp ende la cos a a lán ica de Eu opa y Á ica occiden al, el Ma
Medi e áneo y el Ma Neg o (Fe e e al., 2016). Al igual que o as especies pelágicas, la
anchoa mues a un compo amien o de ca dumen y mig a o io, así como una g an capacidad de
dispe sión an o en es ado la a io como adul o (Agos ini y Bakun, 2002). Ac ualmen e, se
dis inguen dos linajes con di e en e compo amien o y mo ología como esul ado de
aislamien os, dispe siones y colonizaciones pasadas (Za aonaindia e al., 2012). Se ha
asociado es a di e enciación con la he e ogeneidad del hábi a (Bembo e al., 1996), el clima
(Sil a e al., 2014), la dis ancia geog á ica y las ca ac e ís icas oceánicas (Bo ell e al., 2012;
Za aonaindia e al., 2012), que da ía luga a la exis encia de dos eco ipos gené icamen e
di e enciados (Le Moan e al., 2016).
Se a a de una especie con g an impo ancia come cial y pesque a in e nacionalmen e,
pa icula men e en el ma Can áb ico (Fe e e al., 2016). En los úl imos años, la al a demanda
come cial ha desencadenado una sob eexplo ación del ecu so (Fe e e al., 2016), donde
his ó icamen e nume osas pesque ías de anchoa han su ido colapsos en sus s ocks como en el
ma Neg o (1990), ma de Albo án (2001) y po úl imo en el gol o de Bizkaia (2005), que no
se ecupe ó has a 2011. Debido a ello, y a pesa de que su abundancia sigue siendo al a, su
biomasa y el amaño medio de los indi iduos ha disminuido d ás icamen e (Van Be e en e al.,
2014). De es a mane a, la pesca es uno de los ac o es, que jun o o os, in luyen en la pé dida
de di e sidad génica (Rugge i e al., 2016).
3
Su amplia dis ibución y dinámica poblacional, di icul a el seguimien o de su his o ia
demog á ica y la iden i icación de la p ocedencia de adul os, ju eniles y hue os (Ca anese e
al., 2020). Pa a comp ende comple amen e la base gené ica desde el pun o de is a e olu i o
y ecológico, es necesa io conoce la composición de genes y elemen os egulado es de
di e en es indi iduos o poblaciones. Pa a ello, se p ecisa conoce el genoma de E. enc asicolus
como he amien a de e e encia. De es a mane a, se puede e alua la es uc u a gené ica y
dinámica de la(s) población(es) de anchoa. Así como, ealiza es udios gené icos sob e su
his o ia de ida y asgos ecológicos, que se á undamen al pa a la conse ación de la especie y
la co ec a ges ión del s ock en la pesca.
El a ance de las ecnologías de secuenciación de nue a gene ación ha supues o una g an
e olución en la ob ención de genomas de o ganismos no modelo. Es as nue as écnicas de
secuenciación pe mi en ob ene de mane a masi a y pa alela g an can idad de secuencias de
ADN y ARN en poco iempo y con una mayo calidad y p ecisión. Ac ualmen e, exis en dos
pla a o mas de secuenciación p incipales. Po un lado, las pla a o mas de secuenciación de
lec u as co as (secuenciación de segunda gene ación), ep esen adas po Illumina, que
p oducen lec u as de longi udes meno es de 500 pa es de bases (Alkan e al., 2010). Po o o
lado, las pla a o mas de secuenciación de lec u as la gas (secuenciación de e ce a gene ación),
ep esen adas po PacBio y Ox o d Nanopo e Technologies (ONT), con una con igüidad y un
pe il gené ico más comple o, pe o es án limi adas debido a el endimien o, el cos o y la
p ecisión (Me zke , 2010). La p incipal des en aja de la secuenciación de lec u as la gas es su
ele ada asa de e o del 11-15 % (Rhoads & Au, 2015). Sin emba go, las lec u as indi iduales
se pueden co egi usando, po ejemplo, lec u as de Illumina más p ecisas, que p esen an una
asa de e o de 1-1,5% (Cao e al., 2017). Al e na i amen e, se puede deduci una secuencia
de consenso con iable a pa i de lec u as de PacBio de al a cobe u a (mayo de cincuen a
eces) a a és de he amien as bioin o má icas (Xie e al., 2020). Los sis emas PacBio más
ecien es mues an longi udes de lec u a p omedio muy mejo adas de más de diez kilobases,
que pe mi en esol e egiones epe idas genómicas la gas que no se pueden desci a usando
lec u as co as de Illumina (Pe i e al., 2017). Pa a mejo a la calidad de los ensamblajes, se
desa olla on lec u as de al a idelidad (HiFi) pa a gene a secuencias la gas (con más de diez
kilobases de longi ud) con una asa de e o del 0,1% (Wenge e al., 2019).
La secuenciación PacBio, secuenciación de e ce a gene ación (TGS), es un mé odo de
secuenciación a iempo eal y de o ma con inua, es deci , no hay pausa en e el p oceso de

4
lec u a. A di e encia de o os mé odos de secuenciación, PacBio pe mi e ob ene longi udes de
lec u a mucho más la gas y ejecuciones a mayo elocidad. El mecanismo se basa en liga
adap ado es de ho quilla a ambos ex emos de la secuencia de ADN obje i o, gene ando así un
ADN ci cula monoca ena io, denominado SMRTbell (T a e s e al., 2010). Pos e io men e,
se ca ga la mues a en un chip (celda SMRT), con nume osos pocillos de unión “guía de ondas
de modo ce o” (ZMW). En la pa e in e io de cada ZMW, se inmo iliza un ADN polime asa
enca gado de la eplicación (Rhoads & Au, 2015). Debido a que los nucleó idos se encuen an
ma cados con luo escencia, a medida que la polime asa e iene una base, se p oduce un pulso
de luz que iden i icando la base unida (Eid e al., 2009). Después de que la polime asa eplica
una heb a del ADN obje i o, como el ADN es monoca ena io po la unión median e los
adap ado es, con inúa inco po ando las bases del adap ado y pos e io men e la eplicación de
la heb a complemen a ia (Rhoads & Au, 2015). Es e p oceso se epi e has a que la polime asa
de deg ada, de mane a que se ob ienen múl iples copias. Finalmen e, se ob iene un egis o de
los pulsos de luz emi idos en cada ZMW, que pe mi en iden i ica la secuencia de bases (Rhoads
& Au, 2015). A pa i de las lec u as gene adas, se puede ob ene las lec u as HiFi (CCS), que
de i an de una secuencia de consenso as múl iples pases de un SMRTbell, p oduciendo
lec u as más p ecisas a pa i de sublec u as indi iduales uidosas (Wenge e al., 2019).
El en oque de Illumina log a una ampli icación en puen e de ADN, median e la unión de
agmen os de ADN monoca ena ios a una ma iz (S eeme s & Gunde son 2005). Los
agmen os de ADN a secuencia se colocan sob e un sopo e sólido, que con iene secuencias
de ADN complemen a ias a los adap ado es de cada agmen o (Mo ozo a, & Ma a, 2008).
De es a mane a pe mi e que cada agmen o se pueda ancla a la ma iz (Mo ozo a, & Ma a,
2008). Una ez anclados los segmen os, la polime asa los eplica, gene ando una heb a e e sa
complemen a ia. La heb a o iginal es e i ada; mien as que la heb a e e sa, a a és de una
secuencia e minal, se pliega y se ancla a su espec i a secuencia complemen a ia c eando el
“puen e” (Mo ozo a, & Ma a, 2008). Pos e io men e, la polime asa gene a una heb a
complemen a ia idén ica a la o iginal, que esul a en dos heb as clonadas del segmen o inicial.
Es e p oceso se epi e masi amen e has a o ma millones de copias de cada agmen o.
Finalmen e, se e i an las heb as e e sas y se añaden oligonucleó idos ma cados con
luo escencia de mane a, que pe mi e la iden i icación de la secuencia (Rubio e al., 2020). Es o
se epi e de simul áneamen e con odos los agmen os. La exac i ud de la secuenciación es
de e minada po la in ensidad de la señal, y la longi ud de las lec u as, po el núme o de ciclos
ealizados (Rubio e al., 2020).
5
2. Obje i os
El obje i o de es e es udio es gene a po p ime a ez un bo ado del genoma de la anchoa
eu opea (siendo el segundo pa a la amilia Eng aulidae) que pueda se i como base pa a
u u as in es igaciones genómicas. Es o ayuda á a amplia el conocimien o sob e la amilia
Eng aulidae y p opo ciona á una e e encia pa a especies elacionadas. El ensamblaje del
genoma pe mi i á analiza las dinámicas poblacionales, así como comp ende la in luencia de
ac o es abió icos y bió icos en la especie y su di e sidad gené ica.
3. Ma e iales y Mé odos
3.1. Cons ucción de lib e ías y secuenciación
A pa i de la ex acción de ADN de un ejempla adul o, se cons uyó una biblio eca SMRTbell
siguiendo las ins ucciones del ki “SMRTbell Exp ess P ep 2.0 wih Low DNA Inpu
P o ocol” (Paci ic Biosciences, Menlo Pa k, CA). Se ealiza on dos se ies de secuenciación de
células SMRT en modo de secuenciación de consenso ci cula (CCS) en el Sequel Sys em II
con “Sequel II Sequencing Ki 2.0”. También se es imó el amaño del genoma median e
ci ome ía de lujo.
Además, se secuenció el ARN o al ob enido de 10 hue os y 3 la as de anchoa median e
Illumina 150 ARN-seq de ex emo empa ejado, a pa i de la cons ucción de dos lib e ías de
ADN complemen a io de inse ción de 250-300 pa es de bases (pb), una pa a las mues as de
hue os y o a pa a la de la as. A pa i de las lec u as de ADN y ARN ob enidas, se p osiguió
con una se ie de análisis bioin o má icos de los da os (Figu a 1, Anexo I, Anexo II).
3.2. Ensamblaje del ansc ip oma
Se comenzó analizando la calidad de las secuencias de ARN ob enidas a pa i de las mues as
de hue o y de la a median e el p og ama Fas QC 0.11.9 (And ews, 2010) y se esumie on
los esul ados pa a su isualización u ilizando la he amien a Mul iQC 1.9 (Ewels e al., 2016).
La secuencia de ARN de hue o se limpió con T imomma ic 0.39 (Bolge e al., 2014), que
eliminó los adap ado es u ilizados con Illumina y las secuencias de mala calidad (Ph ed < 30).
A pa i de es as secuencias, se ensambló el ansc ip oma median e T ini y 2.11.0 (G abhe
e al., 2011& Haas e al., 2013). La calidad del ensamblaje ue e aluada con BUSCO 4.1.4
(Manni e al., 2021) u ilizando como base de da os de e e encia “ac inop e ygii_odb10”. Se
analizó la dis ibución de las lec u as, median e backmap 0.5 (Ewels e al., 2016; Li e al.,
2009; Li, 2013; Li, 2018; Okonechniko e al., 2016; Quinlan & Hall, 2010; R Co e Team,
2021; Schell e al., 2017) que alinea las lec u as de Illumina espec o al ansc ip oma.
6
Pa a ob ene una mayo ep esen ación de la exp esión génica de la especie, se desca ga on los
da os de es udios p e ios disponibles en la base de da os Eu opean Nucleo ide A chi e (ENA).
Del p ime es udio (PRJNA348159) (ENA, 2016), se desca ga on secuencias ob enidas a pa i
de ju enil y ejido de o a io, es ículo, iñón, hígado y ju enil. El segundo es udio
(PRJNA261165) (ENA, 2014), apo ó secuencias ob enidas de ejido muscula . En ambos
casos, as elimina los adap ado es median e T imomma ic 0.39, se ealizó una segunda
limpieza de las secuencias median e Cu adap 2.8 (Ma in, 2011) donde se elimina on las
p ime as 15 bases de las secuencias pa a el es udio PRJNA348159 y las 10 p ime as bases de
las secuencias co espondien es al es udio PRJNA261165. Se comp obó los esul ados con
Fas QC y Mul iQC pa a con inua con el ensamblaje median e T ini y 2.11.0, la e aluación
de la calidad del ensamblaje con BUSCO 4.1.4 y el mapeo y cobe u a median e backmap
0.5. Los esul ados ob enidos a pa i de los es análisis de la in eg idad del ansc ip oma,
median e BUSCO, ue on combinados median e el sc ip de phy on3 “gene a e_plo .py”.
3.3. Ensamblaje del genoma
Las lec u as de ADN ob enidas median e la secuenciación de PacBio se ensambla on con dos
he amien as di e en es, Hi iasm 0.16.1 (Cheng e al., 2021) y Flye 2.9 (Kolmogo o e al.,
2019). La in eg idad de los ensamblajes ob enidos ue analizada u ilizando BUSCO 5.2.2 con
la base de da os odb10. Debido a que el genoma ensamblado con Hi iasm p esen ó la mayo
con igüidad e in eg idad, ue seleccionado pa a análisis pos e io es. Además, u ilizando las
lec u as ob enidas a pa i de Hi-C, se ealizó un e ce ensamblaje median e Hi iasm 0.16.1 y
su e aluación de in eg idad con BUSCO 5.2.2. Los dos genomas ensamblados con Hi iasm se
compa a on en é minos de con igüidad usando Quas 5.0.2 (Gu e ich e al., 2013).
T as e alua la compa a i a en e ensamblajes, se decidió con inua con el genoma ob enido
median e Hi iasm y solo con las lec u as de PacBio. Pa a e alua la dis ibución y cobe u a de
las lec u as en e al genoma, así como es ima el amaño eal del genoma, se empleó la
he amien a backmap 0.5. Po úl imo, se e aluó una posible con aminación en el ensamblaje
usando BlobTools 1.1.1 (Lae sch & Blax e , 2017), que e alúa la cobe u a, el con enido de
GC y la simili ud de la secuencia con a cada secuencia de la base de da os NCBI-BLAST
2.12.0.
3.4. Ano ación de epe iciones
Se ejecu ó Repea Modele 2.0 (Flynn e al., 2020) pa a cons ui de no o, a pa i del
ensamblaje, una biblio eca con las epe iciones. La biblio eca gene ada con las epe iciones de
Eng aulis enc asicolus se combinó con una biblio eca de epe iciones disponible pa a el pez
7
ceb a (Danio e io), (RepBase27.03.) (Bao e al., 2015; gi iREPBASE, 2023), que se ano ó y
enmasca ó usando Repea Maske 4.1.4 (Ta ailo & Chen, 2009). El genoma de e e encia
esul an e, se alineó con las secuencias de ARN de di e en es ejidos (las de hue o ob enidas
median e Illumina y las p oceden es de PRJNA348159) median e HISAT2 (Kim e al., 2015).
3.5. P edicción de genes y ano ación uncional
Después de mapea las secuencias epe idas, se ealizó una p edicción de genes po homología
u ilizando la he amien a GeMoMa 1.8 (Keilwagen e al., 2019) jun o con 11 especies de la
clase Ac inop e ygii como o ganismos de e e encia (Anexo III, Anexo IV).
P ime o, desde las lec u as mapeadas de ARN, los in ones se ex aje on y il a on po los
módulos GeMoMa ERE y DenoiseIn ons. Una ez eliminados los in ones, se ejecu ó
GeMoMa Pipeline pa a cada especie de e e encia, como he amien a de alineación.
Finalmen e, las 11 ano aciones de genes se combina on en una ano ación inal u ilizando los
módulos GeMoMa GAF y Anno a ionFinalize . Median e GeMoMa Ex ac o , se ob u ie on
an o los CDS (secuencias codi ican es) como las p o eínas, las cuales ue on analizadas
median e BUSCO 5.2.2. A pa i de las p o eínas ex aídas, In e P oScan 5.39.77 (Jones e
al., 2014) se u ilizó pa a p edeci mo i os y dominios, así como su on ología génica (GO).
Pos e io men e, ue on ano ados po búsqueda BLAST con a el Base de da os Uni-P o con un
lími e de alo e de 10−6.
A pa i de la ano ación uncional, se ex aje on las iso o mas de las p o eínas de mayo longi ud
y pos e io men e se eliminó las duplicaciones con Aga 0.7.0 (Daina , 2023). Después de cada
ano ación, se ealizó una ex acción de p o eínas con GeMoMa Ex ac o pa a su pos e io
análisis con BUSCO 5.2.2.
3.6. Compa ación del genoma ensamblado y ano ación con especies elacionadas
Pa a la compa a i a, median e BUSCO 5.2.2, se u ilizó el genoma y las p o eínas ex aídas de
a ias especies ilogené icamen e ce canas (Anexo IV). Las especies a compa a ue on Coilia
nasus (GCA_007927625.1, Xu e al., 2019), Sa dina pilcha dus (GCA_003604335.1, Lou o e
al., 2019) y Alosa sapidissima (GCA_018492685.1, Rhie e al., 2021), además de E.
enc asicolus.
3.7. Genoma mi ocond ial
Se ensambló el genoma mi ocond ial a pa i de las lec u as PacBio HiFi median e la
he amien a in o má ica Mi oHIFI (Uliano e al., 2023). T as el ensamblaje, la ano ación se
14
ecupe ación de genes comple os dependen del o igen de las lec u as, ya que la exp esión génica
a ía en unción del ejido y del momen o. Los genes que se es én exp esando en el hue o
du an e el desa ollo emb iona io son di e en es a los que se exp esan du an e la ase adul a.
Debido a ello, no se ecupe a la o alidad de los genes a pa i del ARNm median e BUSCO y
los ecupe ados son di e en es pa a los ansc ip omas ensamblados a pa i de ARN-seq de
dis in o o igen. La combinación de di e en es ensamblajes con da os de ARN-seq gene ados a
pa i de di e en es e apas de desa ollo o ece un medio pa a p oduci ansc ip omas de una
calidad aún mayo , que a su ez da án como esul ado un ensamblaje y ano ación del genoma
más comple a.
El ensamblaje median e Hi iasm y a pa i de lec u as p oceden es PacBio, ha sido la
he amien a con mejo es esul ados, ya que ecupe a un mayo po cen aje de genes comple os.
U ilizando las lec u as de PacBio, el ensamblaje p esen a mayo con igüidad, ya que se ob iene
un N50 de 38,21 kb mien as que pa a Hi-C de 37,24 kb. En C. nasus, pa a un ensamblaje a
ni el de c omosoma de 851,67 Mb, p esen a un N50 de 35,42 Mb (Ma e al., 2023). Pa a un
ensamblaje de mayo calidad se espe a ían alo es simila es pa a E. enc asicolus, ya que una
mayo longi ud de N50 indica meno núme o de b echas en el ensamblaje y po an o mayo
con igüidad. La en aja de habe u ilizado secuencias de lec u a la gas, es que pe mi e a a esa
ácilmen e las egiones más epe i i as y ayuda a llena los espacios en e cón igos,
aumen ando así la longi ud de las secuencias ensambladas y, a su ez, mejo a las es adís icas
N50 (Logsdon e al., 2020). Se es ima que el amaño del genoma es de 1,49 Gb, meno a los
espe ado po ci ome ía de lujo, con un 60% mapeado en el ensamblaje. Es e coincide con el
60% de los genes ecupe ados en BUSCO, lo que pa ece indica que se es á pe diendo esa
acción del genoma. La pé dida de genes puede debe se a e o es en la secuenciación, a una
baja calidad de las lec u as secuenciadas o de la p opia mues a, o a la base de da os u ilizada
pa a e alua la in eg idad del ensamblaje del genoma. U ilizando como base de da os de
e e encia “ac inop e ygii_odb10” pa a el análisis BUSCO se ecupe a un 72,3% de genes
comple os pa a S. pilcha dus, mien as que u ilizando “ac inop e ygii_odb9” se ecupe a un
84,2 % (Lou o e al.,2019). Es a es una e sión an e io que con iene mayo núme o de genes
o ólogos, que aumen a la posibilidad de ecupe a mayo núme o de genes.
Las lec u as de PacBio u ilizadas no p esen an con aminación de o os o ganismos en la
mues a. Blob ools no de ec ó con aminaciones según el con enido de GC y la dis ibución de
cobe u a. La de ección mínima del ilo A h opoda o P o eobac e ia p obablemen e se deba a
secuencias al amen e conse adas en los di e en es ilos.

15
El con enido de epe iciones es imado pa a el genoma de la anchoa (45,48%) es lige amen e
supe io al po cen aje de elemen o epe idos en C. nasus (41,32%) (Ma e al., 2023) y en S.
pilcha dus (40,7 %) (Lou o e al., 2019). La p edicción del núme o genes codi ican es de
p o eínas es meno pa a E. enc asicolus, que pa a S. pilcha dus y A. sapidissima, ajus ándose
a lo espe ado eniendo en cuen a que en el ensamblaje del genoma se ecupe a una mayo
p opo ción de genes. A su ez, la in eg idad de los genes, codi ican es de p o eínas, ano ados
es del 62%, alo simila a la in eg idad del ensamblaje del genoma, lo que indica que pa a el
ensamblaje ob enido la ano ación es de al a calidad. Los alo es de BUSCO son simila es
ambién pa a C. nasus (64,9%) y S. pilcha dus (62,9%), mien as que pa a A.sapidissima
ecupe a un 98,7%. Se obse a que la in eg idad de los genes codi ican es de p o eínas es mayo
cuan o mayo es la in eg idad del ensamblaje.
Po úl imo, la longi ud del genoma mi ocond ial de Eng aulis enc asicolus p esen a una
longi ud simila (16.677 pb) a o as especies de la amilia Eng aulidae, como es Eng aulis
igens con un mi ogenoma de 16.690 pb de longi ud (Sun, 2019). Es o sugie e que el ADN
mi ocond ial se encuen a muy conse ado en es a amilia e incluso en los e eb ados, ya que
compa en la es uc u a con o os eleós eos y e eb ados (Chen e al., 2017; Shan e al., 2016;
Wen e al., 2017; Zou e al., 2017).
6. Conclusión
En el p esen e es udio, se u ilizó una es a egia combinada que in oluc a las ecnologías
Illumina y PacBio pa a el ensamblaje de no o del genoma y ansc ip oma del hue o de
Eng aulis enc asicolus. Se ob u o un genoma con una longi ud de 918,56 Mb, es imando que
co esponde al 60% del amaño o al del genoma, o mado po 27.218 cón igos y una longi ud
de cón igo N50 de 38,21 kb. Un 45,86% del ensamblaje es á o mado po elemen o epe i i os
y se p edije on un o al de 35.742 genes codi ican es de p o eínas. Además, se cons uyó el
mi ogenoma que p opo ciona las bases pa a de ec a ma cado es mi ocond iales de al a
esolución que pe mi en la iden i icación de especies. El bo ado del genoma ob enido po
p ime a ez en es e abajo, así como la p edicción de genes, y su ano ación uncional, se i á
como pun o de pa ida pa a ob ene un ensamblaje de mayo calidad, a ni el de c omosoma.
Además, es e genoma se i á como un ecu so pa a u u os es udios genómicos, e olu i os,
poblacionales y de la biología de la conse ación de la anchoa eu opea. Pa a ello, es necesa io
secuencia una mayo can idad de lec u as la gas con la inalidad de in en a mejo a la
con igüidad e in eg idad del genoma ob enido.
16
7. Bibliog a ía
Agos ini, V. N. & Bakun, A. (2002). ‘Ocean iads’ in he Medi e anean Sea: physical
mechanisms po en ially s uc u ing ep oduc i e habi a sui abili y (wi h example
applica ion o Eu opean ancho y, Eng aulis enc asicolus). Fishe ies Oceanog aphy,
11(2), 129-142. doi:10.1046/j.1365-2419.2002.00201.x.
Alkan, C., Sajjadian, S., & Eichle , E. E. (2010). Limi a ions o nex -gene a ion genome
sequence assembly. Na u e Me hods, 8, 61-65. doi: 10.1038/nme h.1527.
Bao, W., Kojima, K. K. & Kohany, O. (2015). Repbase Upda e, a da abase o epe i i e
elemen s in euka yo ic genomes. Mobile DNA, 6, 11. doi: 10.1186/s13100-015-0041-9.
Bembo, D. G., Ca alho, G. R., Cingolani, N., A ne i, E., Gianne i, G. & Pi che , T. J. (1996).
Allozymic and mo phome ic e idence o wo s ocks o he Eu opean ancho y
Eng aulis enc asicolus in Ad ia ic wa e s. Ma ine Biology, 126, 529-538.
doi:10.1007/BF00354635.
Be n , M., Dona h, A., Jühling, F., Ex e nb ink, F., Flo en z, C., F i zsch, G., … S adle , P. F.
(2013). MITOS: Imp o ed de no o Me azoan Mi ochond ial Genome Anno a ion.
Molecula Phylogene ics and E olu ion, 69(2), 313-319.
doi:10.1016/j.ympe .2012.08.023.
Bo ell, Y. J., Piñe a, J. A., P ado, J. A. S. & Blanco, G. (2012). Mi ochond ial DNA and
mic osa elli e gene ic di e en ia ion in he Eu opean ancho y Eng aulis enc asicolus
L. ICES Jou nal o Ma ine Science: Jou nal du Conseil, 69(8), 1357-1371.
doi:10.1093/icesjms/ ss129.
Cao, Y., Fanning, S., P oos, S., Jo dan, K. & S ikuma , S. (2017). A e iew on he applica ions
o nex gene a ion sequencing echnologies as applied o ood- ela ed mic obiome
s udies. F on ie s in Mic obiology, 8, 18-29. doi:10.3389/ micb.2017.01829.
Ca anese, G., Di Capua, I., I iondo, M., Bonanno, A., Es onba, A. & P ocaccini, G. (2020).
Applica ion o high- h oughpu single nucleo ide polymo phism geno yping o
assessing he o igin o Eng aulis enc asicolus eggs. Aqua ic Conse a ion: Ma ine and
F eshwa e Ecosys ems, 30, 1313-1324. doi:10.1002/aqc.3321.
Chen, Z., Li, H., Zhu, Y., Feng, Q., He, Y. & Chen, X. (2017). Molecula phylogeny o he
amily Dic oglossidae (Amphibia: Anu a) in e ed om comple e mi ochond ial
genomes. Biochemical Sys ema ics and Ecology, 71, 1-9.
doi:10.1016/j.bse.2017.01.006.
Cheng, H., Concepcion, G. T., Feng, X., Haowen, Z, & Li, H. (2021). Haplo ype- esol ed de
no o assembly using phased assembly g aphs wi h hi iasm. Na u e Me hods, 18, 170-
175. doi:10.1038/s41592-020-01056-5.
Daina , J. (s. .). AGAT: Ano he G Analysis Toolki o handle anno a ions in any GTF/GFF
o ma . (Ve sion 0.7.0). Zenodo. doi:10.5281/zenodo.3552717.
Eid, J., Feh , A. G ay, J., Luong, K., Lyle, J., O o, G., … Tu ne , S. (2009). Real- ime DNA
sequencing om single polyme ase molecules. Science, 323(5910), 133-138.
doi:10.1126/science.1162986.
Eu opean Nucleo ide A chi e (ENA). 2013. Genome-wide ansc ip ome p o iling o ancho y
muscle ansc ip ome. Recupe ado de Eu opean Nucleo ide A chi e el 6 de eb e o de
2023.
17
Eu opean Nucleo ide A chi e (ENA). 2016. Global issue-spesi ic ansc ip ome analysis o
Eng aulis enc asicolus. Recupe ado de Eu opean Nucleo ide A chi e el 6 de eb e o de
2023.
Ewels, P., Magnusson, M., Lundin, S. & Källe , M. (2016). Mul iQC: summa ize analysis
esul s o mul iple ools and samples in a single epo . Bioin o ma ics, 32(19), 3047-
3048. doi:10.1093/bioin o ma ics/b w354.
Fe e , D. M., Llo e , J., Muñoz, M., Faliex, E., Vila, S. & Sasal, P. (2016). Links be ween
pa asi ism, ene gy ese es and ecundi y o Eu opean ancho y, Eng aulis enc asicolus,
in he no hwes e n Medi e anean Sea. Conse a ion Physiology, 4(1), co 069.
doi:10.1093/conphys/co 069.
Flynn, J. M., Hubley, R., Goube , C., Rosen, J., Cla k, A. G., Fescho e, C., & Smi , A. F.
(2020). Repea Modele 2 o au oma ed genomic disco e y o ansposable elemen
amilies. P oceedings o he Na ional Academy o Sciences o he Uni ed S a es o
Ame ica, 117(17), 9451-9457. doi:10.1073/pnas.1921046117.
gi iREPBASE. 2023. RepBase27.03. Recupe ado de gi iREPBASE el 5 de mayo de 2023.
Gu e ich, A., Sa elie , V., Vyahhi, N. & Tesle , G. (2013). QUAST: quali y assessmen ool
o genome assemblies. Bioin o ma ics, 29(8), 1072-1075. doi:
10.1093/bioin o ma ics/b 086.
Jones, P., Binns, D. Chang, H. Y., F ase , M., Li, W., McAnulla, C., … Hun e , S. (2014).
In e P oScan 5: genome-scale p o ein unc ion classi ica ion. Bioin o ma ics, 30(9),
1236-1240. doi:10.1093/bioin o ma ics/b u031.
Keilwagen, J., Ha ung, F., & G au, J. (2019). GeMoMa: Homology-Based Gene P edic ion
U ilizing In on Posi ion Conse a ion and RNA-seq Da a. Me hods in molecula
biology (Cli on, N.J.), 1962, 161-177. doi:10.1007/978-1-4939-9173-0_9.
Kim, D., Langmead, B., & Salzbe g, S. L. (2015). HISAT: a as spliced aligne wi h low
memo y equi emen s. Na u e me hods, 12(4), 357-360. doi:10.1038/nme h.3317.
Kolmogo o , M., Yuan, J., Lin, Y. & Pe zne , P. A. (2019). Assembly o long, e o -p one
eads using epea g aphs. Na u e Bio echnology, 37, 540-546. doi:10.1038/s41587-
019-0072-8.
Lae sch, D. R. & Blax e M. L. (2017). BlobTools: In e oga ion o genome assemblies [ e sion
1; pee e iew: 2 app o ed wi h ese a ions]. F1000Resea ch, 6, 1287.
doi:10.12688/ 1000 esea ch.12232.1.
La oué, S., Miya, M., Sai oh, K., Ishigu o, N. B & Nishida, M. (2007). Phylogene ic
ela ionships among ancho ies, sa dines, he ings and hei ela i es (Clupei o mes),
in e ed om whole mi ogenome sequences. Molecula Phylogene ics and E olu ion,
43(3), 1096-105. doi:10.1016/j.ympe .2006.09.018.
Le Moan, A., Gagnai e, P. A. & Bonhomme, F. (2016). Pa allel gene ic di e gence among
coas al-ma ine eco ype pai s o Eu opean ancho y explained by di e en ial
in og ession a e seconda y con ac . Molecula Ecology, 25(13), 3187-3202.
doi:10.1111/mec.13627.
Li, C. & O í, G. (2007). Molecula phylogeny o Clupei o mes (Ac inop e ygii) in e ed om
nuclea and mi ochond ial DNA sequences. Molecula Phylogene ics and E olu ion,
44(1), 386-398. doi:10.1016/j.ympe .2006.10.030.
18
Li, H., Handsake , B., Wysoke , A., Fennell, T., Ruan, J., Home , N., … Du bin, R. (2009).
The Sequence Alignmen /Map o ma and SAM ools. Bioin o ma ics, 25(16), 2078-
2079. doi:10.1093/bioin o ma ics/b p352.
Li, H. (2013). Aligning sequence eads, clone sequences and assembly con igs wi h BWA-
MEM. P ep in a Xi , 1303.3997. doi:10.48550/a Xi .1303.3997.
Li, H. (2018). Minimap2: pai wise alignmen o nucleo ide sequences. Bioin o ma ics, 34(18),
3094-3100. doi:10.1093/bioin o ma ics/b y191.
Logsdon, G. A., Vollge , M. R. & Eichle , E. E. (2020). Secuenciación del genoma humano de
lec u a la ga y sus aplicaciones. Na u e Re iews Gene ics, 21(10), 597-614.
doi:10.1038/s41576-020-0236-x.
Lou o, B., De Mo o, G., Ga cia, C., Cox, C. J., Ve íssimo, A., Saba ino, S. J., … Caná io, A.
V. M. (2019). A haplo ype- esol ed d a genome o he Eu opean sa dine (Sa dina
pilcha dus). GigaScience, 8(5), giz059. doi:10.1093/gigascience/giz059.
Ma, F., Wang, Y., Su, B., Zhao, C., Yin, D., Chen, C., … Liu, K. (2023). Gap- ee genome
assembly o anad omous Coilia nasus. Scien i ic Da a, 10, 360. doi:10.1038/s41597-
023-02278-w.
Manni, M., Be keley, M. R., Seppey, M., & Zdobno , E. M. (2021). BUSCO: Assessing
genomic da a quali y and beyond. Cu en P o ocols, 1, e323. doi: 10.1002/cpz1.323
Ma in, M. (2011). Cu adap emo es adap e sequences om high- h oughpu sequencing
eads. EMBne .jou nal, 17(1), 10-12. doi: 10.14806/ej.17.1.200.
Me zke , M. L. (2010). Sequencing echnologies - he nex gene a ion. Na u e Re iews
Gene ics, 11, 31-46. doi: 10.1038/n g2626.
Mon es, I., Za aonaindia, I., I iondo, M., S ewa W. G., Manzano, C., Co ano, U., … Es onba,
A. (2016). T ansc ip ome analysis deciphe s e olu iona y mechanisms unde lying
gene ic di e en ia ion be ween coas al and o sho e ancho y popula ions in he Bay o
Biscay. Ma ine Biology, 163, 205. doi: 10.1007/s00227-016-2979-7.
Mo ozo a, O. & Ma a, M. A. (2008). Applica ions o nex -gene a ion sequencing echnologies
in unc ional genomics. Genomics, 92(5), 255-264. doi:10.1016/j.ygeno.2008.07.001.
Okonechniko , K., Conesa, A. & Ga cía, F. (2016). Qualimap2: ad anced mul i-sample quali y
con ol o high- h oughpu sequencing da a. Bioin o ma ics, 32(2), 292-
294. doi:10.1093/bioin o ma ics/b 566.
Pe i , J., Da id, L., Di ks, R. & Wiege jes, G. F. (2017). Genomic and ansc ip omic
app oaches o s udy immunology in cyp inids: Wha is nex ? De elopmen al &
Compa a i e Immunology, 75, 48-62. doi:10.1016/j.dci.2017.02.022.
Quinlan, A. R & Hall, I. M. (2010). BEDTools: a lexible sui e o u ili ies o compa ing
genomic ea u es. Bioin o ma ics, 26(6), 841-842. doi:10.1093/bioin o ma ics/b q033.
R Co e Team. (2021). R: A Language and En i onmen o S a is ical Compu ing. Vienna,
Aus ia: R Founda ion o S a is ical Compu ing. Consul ado el 20 eb e o de 2023 en
h p://www.R-p ojec .o g/
Rhie, A., McCa hy, S. A., Fed igo, O., Damas, J., Fo men i, G., Ko en, S., … Ja is, E. D.
(2021). Towa ds comple e and e o - ee genome assemblies o all e eb a e species.
Na u e, 592(7856), 737-746. doi:10.1038/s41586-021-03451-0.
Rhoads, A. & Au, K. F. (2015). PacBio Sequencing and I s Applica ions. Genomics, P o eomics
& Bioin o ma ics, 13(5), 278-289. doi:10.1016/j.gpb.2015.08.002.
19
Rubio, S., Pacheco, R. A. O., Milena, A. M., Pe domo, S. & Ga cía, R. R. (2020). Secuenciación
de nue a gene ación (NGS) de ADN: p esen e y u u o en la p ác ica clínica.
Uni e si as Medica, 61(2). doi:10.11144/Ja e iana.umed61-2.sngs.
Rugge i, P., Splendiani, A., Di Mu i, C., Fio a an i, T., San ojanni, A., Leono i, I., … Capu o,
V. B. (2016). Coupling Demog aphic and Gene ic Va iabili y om A chi ed
Collec ions o Eu opean Ancho y (Eng aulis enc asicolus). PLOS ONE, 11(3),
e0151507. doi: 10.1371/jou nal.pone.0151507.
Shan, B., Song, N., Han, Z., Wang, J., Gao, T. & Yokogawa, K. (2016). Comple e
mi ochond ial genomes o h ee sea basses La eolab ax (Pe ci o mes, La eolab acidae)
species: Genome desc ip ion and phylogene ic conside a ions. Biochemical Sys ema ics
and Ecology, 67, 44-52. doi:10.1016/j.bse.2016.04.007.
Sil a, G., Lima, F. P., Ma el, P. & Cas ilho, R. (2014). The mal adap a ion and clinal
mi ochond ial DNA a ia ion o Eu opean ancho y. P oceedings o he Royal Socie y
o London B: Biological Sciences, 281(1792), 20141093. doi:10.1098/ spb.2014.1093.
S eeme s, F. J & Gunde son, K. L. (2005). Illumina, Inc. Pha macogenomics, 6(7), 777-782.
doi:10.2217/14622416.6.7.777.
Sun, W. (2019). The comple e mi ochond ial genome o Eng aulis ingens (Eng aulidae,
Clupei o mes) and phylogene ic s udies o Eng aulidae. Mi ochond ial DNA Pa B,
4(2), 3525-3526. doi: 10.1080/23802359.2019.1675553.
Ta ailo, M. G., & Chen, N. (2009). Using Repea Maske o iden i y epe i i e elemen s in
genomic sequences. Cu en p o ocols in bioin o ma ics, 25(1), 4.10.1-4.10.14.
doi:10.1002/0471250953.bi0410s25.
T a e s, K., Chin, C. S., Rank, D., Eid, J. & Tu ne , S. (2010). A lexible and e icien empla e
o ma o ci cula consensus sequencing and SNP de ec ion. Nucleic Acids Resea ch,
38(15), e159. doi:10.1093/na /gkq543.
Uliano, M. S., Fe ei a, J. G., K asheninniko a, K., Da win T ee o Li e Conso ium, Fo men i,
G., Abueg, L., … McCa hy, S. A. (2023). Mi oHiFi: a py hon pipeline o
mi ochond ial genome assembly om PacBio High Fideli y eads. bioRxi .
doi:10.1101/2022.12.23.521667
Van Be e en, E., Bonhommeau, S., F omen in, J. M., Bigo , J. L., Bou deix, J. H., B osse , P.,
… Sa aux, C. (2014). Rapid changes in g ow h, condi ion, size and age o small pelagic
ish in he Medi e anean. Ma ine Biology, 161, 1809-1822. doi:10.1007/s00227-014-
2463-1
Wen, Z. Y., Xie, B. W., Qin, C. J., Wang, J., Yuan, D. Y., Li, R. & Zou, Y. C. (2017). The
comple e mi ochond ial genome o a h ea ened loach (Beau o ia kweichowensis) and
i s phylogeny. Conse a ion Gene ic Resou ces, 9, 565-568. doi:10.1007/s12686-017-
0723-3.
Wenge , A. M., Peluso, P., Rowell, W. J., Chang, P. C., Hall, R. J., Concepción, G. T., …
Hunkapille , M. W. (2019). Accu a e ci cula consensus long- ead sequencing imp o es
a ian de ec ion and assembly o a human genome. Na u e Bio echnology, 37(10),
1155-1162. doi:10.1038/s41587-019-0217-9.
Xie, H., Yang, C., Sun, Y., Iga ashi, Y., Jin, T. & Luo, F. (2020). PacBio Long Reads Imp o e
Me agenomic Assemblies, Gene Ca alogs, and Genome Binning. F on ie s in Gene ics,
11, 1664-8021. doi:10.3389/ gene.2020.516269.

20
Xu, G., Bian, C., Nie, Z., Li, J., Wang, Y., Xu, D., … Xu, P. (2019). Suppo ing da a o
"Genome and popula ion sequencing o a ch omosome-le el genome assembly o
Chinese ape ail ancho y (Coilia nasus) p o ides no el insigh s in o mig a o y
adap a ion" GigaScience Da abase. doi:10.5524/100677.
Za aonaindia, I., I iondo, M., Albaina, A., Pa do, M. A., Manzano, C., S ewa , W. G., …
Es onba, A. (2012). Mul iple SNP ma ke s e eal ine scale popula ion and deep
phylogeog aphic s uc u e in Eu opean ancho y (Eng aulis enc asicolus L.). PLoS One,
7, e42201. doi:10.1371/jou nal.pone.0042201.
Zou, Y. C., Xie, B. W., Qin, C. J., Wang, Y. M., Yuan, D. Y., Li, R. &Wen, Z. Y. (2017). The
comple e mi ochond ial genome o a h ea ened loach (Sinibo ia ee esae) and i s
phylogeny. Genes & Genomics, 39, 767- 778. doi:10.1007/s13258-017-0541-8.
21
8. Anexo e in o mación complemen a ia
Anexo I. So wa e u ilizados en es e es udio, su e sión y disponibilidad de uen e. Se
accedió po úl ima ez a odas las URL el 14-06-2023.
Nomb e
Ve sión
Enlace
AGAT
0.7.0
h ps://gi hub.com/NBISweden/AGAT
AUGUSTUS
3.4.0
h ps://gi hub.com/Gaius-Augus us/Augus us
backmap
0.5
h ps://gi hub.com/schell /backmap
BlobTools
1.1.1
h ps://gi hub.com/DRL/blob ools
BUSCO
4.1.4 & 5.2.2
h ps://busco.ezlab.o g/
Cu adap
2.8
h ps://cu adap . ead hedocs.io/en/s able/
Fas QC
0.11.9
h ps://www.bioin o ma ics.bab aham.ac.uk/p ojec s/ as qc/
Flye
2.9
h ps://gi hub.com/ ende glass/Flye
GeMoMa
1.8
h p://www.js acs.de/index.php/GeMoMa
Hi iasm
0.16.1
h ps://gi hub.com/chhylp123/hi iasm
HISAT2
2.2.1
h p://daehwankimlab.gi hub.io/hisa 2/
In e p oscan
5.39.77
h ps://gi hub.com/ebi-p - eam/in e p oscan
Make
2.31.10
h ps://gi hub.com/Yandell-Lab/make
Mi oHIFI
2.2
h ps://gi hub.com/ma celauliano/Mi oHiFi
MITOS
1
h p://mi os.bioin .uni-leipzig.de/index.py
Mul iQC
1.9 & 1.10
h ps://mul iqc.in o/
Ncbi-blas
2.14.0
h ps://blas .ncbi.nlm.nih.go /Blas .cgi
Repea Maske
4.1.4
h ps://www. epea maske .o g/
Repea Modele
2.0
h ps://gi hub.com/D am-
conso ium/Repea Modele /blob/mas e /Repea Modele
Sam ools
1.15.1
h ps://gi hub.com/sam ools/sam ools
T immoma ic
0.39
h p://www.usadellab.o g/cms/?page= immoma ic
T ini y
2.11.0
h ps://gi hub.com/ ini y naseq/ ini y naseq/wiki
Quas
5.0.2
h ps://gi hub.com/ablab/quas
Anexo II. Disponibilidad de ma e ial suplemen a io.
El código empleado en es e abajo es á subido en un eposi o io de Gi hub, que se puede
consul a en: h ps://gi hub.com/ljchueca/Eng aulis_enc asicolus_genome.gi .
Anexo III. Lis ado de los o ganismos cuyo genoma y ano ación se u ilizó como e e encia
pa a la ano ación uncional de Eng aulis enc asicolus.
O den
Familia
Especie
Acceso GenBank
Clupei o mes
Eng aulidae
Coilia nasus *
Clupei o mes
Clupeidae
Alosa sapidissima
GCA_018492685.1
Clupei o mes
Clupeidae
Alosa alosa
GCA_017589495.2
Clupei o mes
Clupeidae
Clupea ha engus
GCA_900700415.2
Clupei o mes
Den icipi idae
Den iceps clupeoides
GCA_900700375.1
Cyp ini o mes
Cyp inidae
Cyp inus ca pio
GCA_018340385.1
Cyp ini o mes
Cyp inidae
Ca assius au a us
GCA_003368295.1
Ca angi o mes
Ca angidae
Se iola lalandi
GCA_002814215.1
22
O den
Familia
Especie
Acceso GenBank
Cen a chi o mes
Cen a chidae
Mic op e us salmoides
GCA_014851395.1
Ba achoid o mes
Ba achoididae
Thalassoph yne amazonica
GCA_902500255.1
Pe ci o mes
Cyclop e idae
Cyclop e us lumpus
GCA_009769545.1
* El genoma de es a especie no es á disponible en el GenBank, se ha ob enido de la base de da os GigaScience
Da abase (Xu e al., 2019).
Anexo IV. Á bol ilogené ico del o den Clupei o mes basado en secuencias de ADN nuclea
y mi ocond ial (Li & O í, 2017).
Anexo V. Glosa io con ab e ia u as y e minología básica.
Té mino o sigla
De inición
ADN
Ácido desoxi ibonucleico.
Ano ación
Asignación de una unción a un gen conocido.
ARN
Ácido ibonucleico.
ARN-seq
Secuenciación de ARN.
Biblio eca
Rep esen ación del conjun o de ADN o ADN complemen a io. La de
ADNc se cons uye median e e o ansc ipción de los ARNm, y po lo
an o solo ep esen a las egiones codi ican es de p o eínas del genoma.
CDS
Coding Sequence es pa e del ARNm o secuencia genómica que
codi ica una secuencia de p o eína.
Cobe u a
Es imación de la p opo ción del genoma que ha sido secuenciada.
Cón igo
Secuencia con igua: secuencia de ADN que p ocede de dos o más
secuencias que se supe ponen en sus ex emos y se pueden jun a en una
sola secuencia no edundan e.
Ensamblaje de
no o
Ensamblado de un genoma basado únicamen e en la in o mación que
con ienen las lec u as, sin necesidad de compa ación con un genoma de
e e encia.
23
Té mino o sigla
De inición
Ensamblado
P oceso po el cual los agmen os co os del ADN secuenciados se
jun an en agmen os más g andes has a econs ui el genoma.
Gb
Gigabase: unidad de medida pa a designa la longi ud del ADN. Es
igual a mil millones de bases.
Kb
Kilobase: unidad de medida pa a designa la longi ud del ADN. Es igual
a mil de bases.
Lec u a
Secuencia del ADN con inúa ob enida de un secuenciado .
L50
Dado un conjun o de cón igos, cada uno con su p opia longi ud, el L50
se de ine como el ecuen o del meno núme o de cón igos cuya longi ud
suma la mi ad del amaño del genoma.
L75
El ecuen o del meno núme o de cón igos cuya longi ud suma el 75%
del amaño del genoma.
Mapeado
Alineamien o de cada una de las lec u as de ADN a una posición en el
genoma de e e encia.
Mb
Megabase: unidad de medida pa a designa la longi ud del ADN. Es
igual a 1 millón de bases
NGS
Nex gene a ion sequencing es la ecnología de secuenciación masi a
que su gió después de la de Sange .
N50
Es la longi ud máxima de cón igo que ep esen a al menos el 50 % de la
longi ud o al del ensamblaje.
N75
Es la longi ud máxima de cón igo que ep esen a al menos el 75 % de la
longi ud o al del ensamblaje.
PCR
Reacción en cadena de la polime asa.
P o undidad
Media del núme o de eces que cada base de un genoma secuenciando
iene una lec u a que alinea en esa posición.