scieee Science in your language
[en] (orig)

O'zbek tili matnlarining universal bog'liqlik daraxti korpusiga asoslangan neyron semanatik tahlili

Author: San'atbek Matlatipov; Xurshid Fayzullayev
Publisher: Zenodo
DOI: 10.5281/zenodo.17295634
Source: https://zenodo.org/records/17295634/files/22_907-135-138-Matlatipov.pdf
135
“Al-Fa g‘oniy a lodla i” elek on ilmiy
ju nali
ISSN 2181-4252. Tom: 1 | Son: 3 | 2025-yil
"Descendan s o Al-Fa ghani" elec onic scien i ic
jou nal.
ISSN 2181-4252. Vol: 1 | Iss: 3 | 2025 yea
Электронный научный журнал "Потомки Аль-
Фаргани"
ISSN 2181-4252. Том: 1 | Выпуск: 3 | 2025 год
h ps://al- a goniy.uz/
O‘zbek ili ma nla ining uni e sal bog‘liqlik da ax i ko pusiga asoslangan ney on semana ik ahlili
Ma la ipo San’a bek G‘ay a o ich,
Ph.D., ye akchi ilmiy xodim, Mi zo Ulug‘bek nomidagi
O‘zbekis on Milliy uni e si e i.
[email p o ec ed]
Fayzullaye Xu shid,
O‘zbekis on Milliy uni e si e ining UzUDT loyihasi s ajyo -
o‘qu chisi.
Anno a siya. O’zbek ili mo ologik jiha dan boy qoʻshimchala ga ega boʻlib, gapda o , e’l a
boshqa soʻz u kumla ining qa o qoʻshimchala i o qali ma’no i odalanadi. Soʻnggi 5 yillikda, oʻzbek
ilining i ojlanishiga e’ ibo sababli, sezila li s uk u aga egan bo‘lgan ko pusla a mo ologik
osi ala paydo boʻla boshladi, ammo oʻliq anno a siyalangan bog’liqlik da ax i ko pusi a yuqo i
si a li seman ik pa se lash hali ham ma jud emas. Ushbu maqolada, Uni e sal Dependencies (UD)
ko pusi asosida ya a ilgan da ax la oʻplamiga ayangan holda Oʻzbek ili ma nla ining ney on
seman ik ahlilini aqdim e amiz. Mazku ko pus 686 a jumla a 7 950 a okenni oʻz ichiga oladi,
ha bi jumla oʻ acha 11,6 okenni ashkil e adi. Biz ikki bosqichli a xi ek u a – BiLSTM asosidagi
kon eks ual enkode a bosh/bog‘lo chi (head/dependen ) p oyeksiyala ini bi lash i gan bia in
unksiyasi bilan ishlaydigan g a la ga asoslangan pa se ni qu amiz. Sino la UAS/LAS
koʻ sa kichla i, gap uzunligi bo‘yicha a silo la bilan aqdim e iladi.
Kali so’zla : uni e sal bog‘liqlik da ax i ko pusi, o‘zbek ili, ney on seman ik ahlil, abiiy illa
ja ayoni
Ki ish. Oʻzbek ili bugun dunyoda axminan 40
million kishiga ona ili boʻlib, u kiy illa ichida u k
ilidan keyin ikkinchi eng koʻp soʻzlashu chila soniga
ega[1]. Til agglu ina i xususiya ga ega, shuning uchun
sin ak ik azi ala ni i odalash uchun
ah i lanmaydigan koʻplab mo emala qoʻshiladi.
Ma jud kompyu e ling is ik manbala o asida P olog
asosidagi mo ologik analiza o la [5], bosh uchun
qoida iy belgilo chi POS egga la a FST asosidagi
analiza o la ishlab chiqildi[1]. Bi oq oʻliq qoʻlda
anno a siyalangan sin ak ik da ax li ko pusla ning
ye ishmasligi Oʻzbek ili uchun a oma ik pa se la
qu ishni qiyinlash i di. Uni e sal Dependencies (UD)
loyihasi u li illa uchun yagona mo osin ak ik skele
akli e adi, bu esa da slikdan oydalanu chila ni ahlil
na ijala ini solish i ishga imkon be adi. UD ilida 17 a
umumiy soʻz u kumla i (UPOS) ma jud boʻlib,
ula ning ba chasi Oʻzbek ilida qoʻllaniladi: PRON,
PUNCT, VERB, NOUN, AUX, ADP, CCONJ,
SCONJ, ADV, PROPN, DET, ADJ, NUM, INTJ,
PART, SYM a X[4]. Oʻzbek ili sin aksisi hamda
mo ologiyasini oʻliq i odalash uchun UD ko pusidagi
munosaba u la ining al ‑ u la i (masalan, ad cl:cond,
compound:l c, nmod:poss a obl:agen ) keng
qoʻllaniladi[4].
Adabiyo la ahlili. Oʻzbek ili boʻyicha
das labki ko pusla asosan mo ologik ahlil a POS
eglashga qa a ilgan boʻlib, [5] P olog asosida
mo ologik analiza o ni ya a ishgan[1]. [6] bi necha
yillik ishla da omida qoʻshimcha egla oʻplamini
ya a ish hamda qoida iy POS eglo chini ishlab
chiqishdi. Shuningdek, soʻnggi yilla da uzbekcha
Wo dNe , sen imen ahlil oʻplamla i, seman ik
baholash, ma n asni i a ans o me asosidagi il
modella i (masalan, UzBERT[3] a BERTbek[2])
paydo boʻldi[1]. Bi oq, sin ak ik bogʻliqlik da ax i
ko pusla i bi necha yuz jumla bilan cheklanib qolgan;
masalan, UD Uzbek‑UT ko pusi 500 jumla (5850
oken) bilan aqdim e ilgan[1]. Biz oydalanayo gan
UD_Uzbek‑UzUDT
(h ps://gi hub.com/Uni e salDependencies/UD_Uzbe
136
“Al-Fa g‘oniy a lodla i” elek on ilmiy
ju nali
ISSN 2181-4252. Tom: 1 | Son: 3 | 2025-yil
"Descendan s o Al-Fa ghani" elec onic scien i ic
jou nal.
ISSN 2181-4252. Vol: 1 | Iss: 3 | 2025 yea
Электронный научный журнал "Потомки Аль-
Фаргани"
ISSN 2181-4252. Том: 1 | Выпуск: 3 | 2025 год
h ps://al- a goniy.uz/
k-UzUDT/ ee/de ) ko pusi esa jo iy ishimiz uchun
keng oq ma’lumo bazasini be adi (686 jumla).
Ko pus. UzUDT ko pusi ling is ik jiha dan
qoʻlda oʻliq belgilangan koʻp qa lamli da ax la
oʻplamidi . Ko pus 686 a jumla a 7 950 a okenni
oʻz ichiga oladi; ha bi jumla oʻ acha 11,6 okenni
ashkil e adi[2]. Ko pusning ya a ilishi g amma ik
misolla , dialogla hamda nas iy ma nla dan ibo a
boʻlib, ha bi jumla uchun lemma iza siya,
uni e sallash i ilgan soʻz u kumla i (UPOS),
mo ologik xususiya la , us unga mos ki ish (head) a
bogʻlanma (dependen ) munosaba la i qoʻlda
ekshi ilgan. Oʻzbek ili uchun asosiy soʻz a ibi
subyek ‑obyek ‑p edika boʻlishiga qa amay, UD
ko pusida ma zu bi ikmala i (ad cl), egasiz gapla
(null‑subjec ) a koʻplab qoʻshimcha appa a la u ayli
non‑p ojec i e bogʻlanishla ez‑ ez uch aydi[1].
Oʻzbek ilida egalik a geni i munosaba la i
nmod:poss o qali, yengil e’l kons uk siyala i esa
compound:l c o qali i odalanadi[4]. Ko pusdagi
ma’lumo la ain a es oʻplamla iga boʻlingan.
Ushbu ma’lumo la ning mu o iqligi uchun biz UD
o ma i (CoNLL‑U)dagi ba cha us unla ni, jumladagi
koʻp soʻzli okenla a bo‘sh nuq ali ugunla ni ham
e’ ibo siz qoldi masdan qay a ishladik. Tahlilla imizda
punk ua siya okenla ini UAS a LAS hisoblashdan
che lash i dik a oo (0 bosh ugun) → ROOT
munosaba ini aniq a ishda belgiladik.
Me odologiya. Biz Kipe wasse a Goldbe g,
shuningdek Doza a Manningning ishla i asosida
g a la ga asoslangan ney on pa she dan oydalanamiz.
A xi ek u ani quyidagi komponen la ashkil e adi:
1. Ki ish qa lamla i. Ha bi oken uchun biz
s a ik belgilangan wo d embedding a
mo oologik xususiya embeddingla ini
bi lash i ib, yaxli ek o hosil qilamiz. Ushbu
ek o 2‑yoʻnalishli LSTM (BiLSTM) o qali
kon eks ual ma’noda boyi iladi.
2. P oyeksiyala . BiLSTM chiqishla i ikki
alohida MLP o qali bosh (head) a bogʻlanma
(dependen ) azola iga p oyeksiya qilinadi. Ha
bi oken uchun ℎ𝑖
head = MLPhead(𝑟𝑖) a ℎ𝑖
dep =
MLPdep(𝑟𝑖) ek o la olinadi.
3. Bia ine bogʻlanish bahosi. Ha bi po ensial
yoy 𝑗 → 𝑖 uchun baho quyidagicha hisoblanadi:
𝑠(𝑗 → 𝑖)=(ℎ𝑗
head)⊤𝑈 ℎ𝑖
dep +(ℎ𝑗
head)⊤𝑢,
bu ye da 𝑈 – ikki oʻlchamli enso ga ega
ma i sa a 𝑢 – bias ek o i. Ha bi okenning
po ensial boshini anlash uchun so max
no maliza siyasi qoʻllaniladi. Oʻzbek ilidagi
non‑p ojec i e bogʻlanishla ni qay a iklash uchun
Chu–Liu/Edmonds maksimal spanning ee (MST)
algo i midan oydalanamiz; u ha bi jumla uchun
yuqo i ballga ega yagona da ax hosil qiladi. Bi nech a
ROOT a zandla i yuzaga kelganda, ula o asidan eng
yuqo i umumiy ballga ega da ax anlanadi.
1. Labele . Baholangan yoyla uchun sin ak ik
munosaba e ike ini aniqlash maqsadida boshqa
MLPdan oydalaniladi. Label MLP ki ishiga
ℎ𝑗
head ⊕ ℎ𝑖
dep conca ena siya qilinib, uni
yumshoqmax bilan no maliza siya qilish o qali
munosaba eh imoli olinadi.
2. Oʻqi ish a op imallash i ish. Modella
k oss‑en opiya yoʻqo ishi asosida qoʻshma
a zda oʻqi iladi: yoyning ma jud‑yoki‑ma jud
emasligi a uning egini bi galikda
minimallash i amiz. Op imallash i ish uchun
Adam op imize idan oydalanamiz; o‘qi ish
ja ayonida d oupou qa lamla i (gi ilu 0.33) a
3 u inishli nasl (ba ch) no maliza siyasi
qoʻllaniladi. Modelning umumlashganlik
qobiliya ini oshi ish uchun sino pogʻonasida
beam sea ch o‘ niga MSTga ayanamiz.
Na ijala . T ening uchun ko pusning 80 oizi,
sino uchun esa 20 oizi aj a ildi. T ening aq ida ha
bi epochda modella ning sama ado ligi de
oʻplamida kuza ildi a 3 epoch da omida yaxshilanish
kuza ilmaganida e a oʻx ash qoʻllanildi. Na ijala
UAS (yozu qoʻyilmagan ye akchi bogʻlanishla
oʻgʻ iligini) a LAS (bogʻlanishning e ike i ham
oʻgʻ i boʻlishini) koʻ sa kichla i bilan baholandi.
Na ijala ning umumiy koʻ inishi quyidagi
jad alda kel i ilgan. Qisqa gapla (< 12 oken)
oʻplamida modella ning na ijasi sezila li da ajada
yuqo i boʻlishini kuza dik; bu Oʻzbek ili mo ologik
137
“Al-Fa g‘oniy a lodla i” elek on ilmiy
ju nali
ISSN 2181-4252. Tom: 1 | Son: 3 | 2025-yil
"Descendan s o Al-Fa ghani" elec onic scien i ic
jou nal.
ISSN 2181-4252. Vol: 1 | Iss: 3 | 2025 yea
Электронный научный журнал "Потомки Аль-
Фаргани"
ISSN 2181-4252. Том: 1 | Выпуск: 3 | 2025 год
h ps://al- a goniy.uz/
mu akkablikla i uzun gapla da ko‘p oq xa ola ga olib
kelishini ko‘ sa adi.
Toʻplam
UAS (%)
LAS (%)
Ba cha gapla ( es )
84.7
79.3
Qisqa gapla (<12
oken)
88.2
82.1
Modelimiz o‘zbek ilining agglu ina i
xususiya la i a SOV soʻz a ibini mu a aqiya li
oʻ gandi. Bi oq, non‑p oyek i e bogʻlanishla soni
o gan sa i xa olikla ham ko‘paydi. Koʻplab xa ola
egalik nisba i (nmod:poss) a yengil e’l
kons uk siyala i (compound:l c) e ike la ida
kuza ildi, chunki bu munosaba la da soʻzla ning u li
qoʻshimchala o qali bogʻlanishi modelni
chalkash i adi. Shuningdek, ba’zi uzoq maso ali
bogʻlanishla (masalan, ki i ma gapla ) ancha
mu akkab boʻlib, MST dekode i no oʻgʻ i boshla ni
anladi. Top‑5 xa ola ni ahlil qilishda nsubj s obl,
obj s nmod, a ad cl s xcomp o‘ asidagi
chalkashlikla ye akchi ol o‘ynadi.
Xa olikla ahlili. Modella imizning xa ola ini
yanada chuqu oq ahlil qilish uchun quyidagi
jiha la ga e’ ibo qa a dik:
• Maso a bo‘yicha xa ola . Yoy uzunligi (bosh
a boĝlo chi o asidagi soʻzla soni) oshgani
sa i xa o da ajasi ham oshdi. 1–2 oken
maso adagi bogʻlanishla da xa o ulushi 5
oizdan kam boʻlsa, 7 oken a undan uzun
maso ala da bu ko‘ sa kich 18 oizga ye di.
• Nop oyek i lik. Ko pusdagi noaniq
bogʻlanishla umumiy yoyla ning axminan 3
oizini ashkil e di. Model bu yoyla ni chuqu
bosh‑boĝlo chi p oyeksiyala i yo damida
iklasa‑da, ay im hola la da MST bi nech a
ROOT a zandini anlab, no oʻgʻ i da ax ga
olib kelgan.
• Munosaba la a alashishi. Eng koʻp
chalkashgan e ike la – obl a nmod kabi
umumiy munosaba la hamda ad cl:cond a
xcomp kabi qoʻshimcha hola la di . Bu xa ola ,
asosan, gapda qoʻshimchala omonidan
sha langan bogʻlanishla oʻgʻ i
aniqlanmaganida paydo boʻlgan.
• Si a li misolla . Ba’zi gapla da model hech
qanday qiyinchiliksiz oʻgʻ i da ax qu di;
masalan, “Sen oʻz sahnangda ha xil odamla ni
ol oʻyna ib, ula ga yu akni la zaga soladigan
komediya a agediyala ni oʻyna asan”
misolida ba cha asosiy munosaba la oʻgʻ i
opildi[2]. Boshqa gapla da esa geni i ega
a kibiy bi ikmala no oʻgʻ i iden i ika siya
qilindi.
Xulosa. Ushbu maqolada biz UzUDT ko pusi
asosida qu ilgan g a la ga asoslangan ney on pa she ni
aqdim e dik. Oʻzbek ili mo pho‑sin ak ik jiha dan
mu akkab boʻlsa‑da, BiLSTM + bia ine a xi ek u a a
MST dekode dan ibo a model qisqa gapla da yuqo i
aniqlikka e ishdi. Uzoq maso ali bogʻlanishla ,
non‑p ojec i e s uk u ala a ma’nodosh
munosaba la ni a qlash eng ka a qiyinchilikla bo‘lib
qoldi.
Kelajakdagi ishla da quyidagi yoʻnalishla
ejalash i ilmoqda:
• T ans o ma o modella i. Oʻzbek ilidagi
UzBERT a BERTbek kabi p e‑ ain qilingan
modella dan oydalanib, kon eksual
embeddingla ni yanada kuchay i ish.
• Ko pusni kengay i ish. Qoʻshimcha qoʻlda
belgilangan ma’lumo la , dialogla a ilmiy
ma nla qoʻshish o qali ko pusni minglab
jumlala bilan oʻldi ish a modelni
umumlash i ish.
• Koʻp illilik a ans e lea ning. Tu k illa i
oilasiga mansub boshqa ko pusla bilan
bi galikda mul i ask oʻqi ish o qali Oʻzbek
ilida ayniqsa kam uch aydigan sin ak ik
kons uk siyala ni yaxshi oq oʻ ganish.
• Seman ik ahlilga kengay i ish.
Anno a siyalangan da ajala da seman ik ol
belgilash, belgisiz aniqlik (ambigui y)ni
kamay i ish a ekislik ( la ) uzilmala da
ma’no ushunchala ini chiqa ish.
Maqolamiz Oʻzbek ili uchun ney on seman ik
ahlilning yangi yoʻnalishla ini ochib be adi hamda
138
“Al-Fa g‘oniy a lodla i” elek on ilmiy
ju nali
ISSN 2181-4252. Tom: 1 | Son: 3 | 2025-yil
"Descendan s o Al-Fa ghani" elec onic scien i ic
jou nal.
ISSN 2181-4252. Vol: 1 | Iss: 3 | 2025 yea
Электронный научный журнал "Потомки Аль-
Фаргани"
ISSN 2181-4252. Том: 1 | Выпуск: 3 | 2025 год
h ps://al- a goniy.uz/
Uni e sal bog‘liqlikning da ax simon ko pusla i
asosida ahlil qilishning sama ali usulini namoyish
e adi. Ushbu na ijala ilshunosla a abiiy ilni qay a
ishlash adqiqo chila i uchun oydali boʻlib, oʻzbek
ilining chuqu seman ik as i ini ya a ishda ayanch
boʻlib xizma qiladi.
Foydalanilgan adabiyo la .
1. A. Akhundjano a and L. Talamo, “Uni e sal
Dependencies T eebank o Uzbek,” in P oceedings o
he Thi d Wo kshop on Resou ces and Rep esen a ions
o Unde -Resou ced Languages and Domains
(Resou ce ul 2025), pp. 129–134.
2. Elmu od Ku iyozo , Da id Vila es, and
Ca los Gómez-Rod íguez. 2024. BERTbek: A
P e ained Language Model o Uzbek. In P oceedings
o he 3 d Annual Mee ing o he Special In e es
G oup on Unde - esou ced Languages @ LREC-
COLING 2024, pages 33–44, To ino, I alia. ELRA and
ICCL.
3. Mansu o , B., Mansu o , A. (2021).
UzBERT: p e aining a BERT model o Uzbek. a Xi
p ep in a Xi :2108.09814.
4. A o a Akhundjano a, Fu kan Akku ,
Be me Chon ae a, Soudabeh Eslami, and Cag i
Col ekin. 2025. Pa allel Uni e sal Dependencies
T eebanks o Tu kic Languages. In P oceedings o he
Eigh h Wo kshop on Uni e sal Dependencies (UDW,
Syn axFes 2025), pages 129–136, Ljubljana, Slo enia.
Associa ion o Compu a ional Linguis ics.
5. Ma la ipo , G., Ve ulani, Z. (2009).
Rep esen a ion o Uzbek Mo phology in P olog. In:
Ma ciniak, M., Mykowiecka, A. (eds) Aspec s o
Na u al Language P ocessing. Lec u e No es in
Compu e Science, ol 5070. Sp inge , Be lin,
Heidelbe g. h ps://doi.o g/10.1007/978-3-642-04735-
0_4
6. M. S. Sha ipo , H. S. Adinae and E. R.
Ku iyozo , "Rule-Based Punc ua ion Algo i hm o
he Uzbek Language," 2024 IEEE 25 h In e na ional
Con e ence o Young P o essionals in Elec on
De ices and Ma e ials (EDM), Al ai, Russian
Fede a ion, 2024, pp. 2410-2414, doi:
10.1109/EDM61683.2024.10615061.