104
O‘ZBEK TILIDAGI TOKSIK XABARLAR UCHUN MAXSUS MINI-
KORPUS YARATISH VA UNING ASOSIDA KLASSIFIKATSIYA MODELI
QURISH
Babomu odo Ozod Ju aye ich
Jizzax shah idagi Kazan Fede al Uni e si e i iliali Ij ochi di ek o i, Doc o o Science (DSc),
E-mail: [email p o ec ed]
Qo‘yliye a Fe uzaxon Alishe qizi
Toshken Da la Ag a Uni e si e assisen i,
E-mail: [email p o ec ed]
DOI: h ps://doi.o g/10.5281/zenodo.17665191
Anno a siya. Ushbu adqiqo o‘zbek ilida yozilgan ij imoiy a moq xaba la idagi oksiklikni
aniqlash uchun maxsus mini-ko pus ya a ish a uning asosida a oma ik klassi ika siya modelini
qu ishga bag‘ishlangan. O‘zbek ili agglu ina i xususiya ga ega bo‘lgani sababli, bi a so‘zning
u li mo ologik shaklla i ma’no jiha idan sezila li a q qilishi mumkin. Shu bois, oksiklikni
aniqlo chi modella uchun ilga mos ma’lumo la bazasini shakllan i ish muhim ahamiya kasb
e adi. Tadqiqo da omida 6000 dan o iq Teleg am xaba la idan ibo a ma nla o‘plami yig‘ilib,
ozalandi a qo‘lda “ oksik” hamda “no mal” oi ala ga aj a ildi. Mini-ko pus asosida u li
klassi ika siya modella i sino dan o‘ kazildi, jumladan TF-IDF + SVM, CNN, BiLSTM a
BERTbek. Na ijala ga ko‘ a, BERTbek modeli eng yuqo i aniqlikka (F1-sco e = 0.91) e ishdi. Ish
na ijala i shuni ko‘ sa adiki, kichik hajmdagi balansli ko pus yo damida ham o‘zbek ili uchun
oksiklikni aniqlo chi yuqo i si a li modelni ya a ish mumkin. Ushbu yondashu o‘zbek ilida
ij imoiy xa li kon en ni aniqlash a il lash izimla ini shakllan i ish uchun muhim bosqich
hisoblanadi.
Kali so‘zla : oksik xaba la , mini-ko pus, BERTbek, klassi ika siya modeli, o‘zbek ili,
Teleg am, mashina iy o‘ ganish, chuqu o‘ ganish.
Zamona iy axbo o makonida ij imoiy a moqla a messenje la o qali
oydalanu chila omonidan ya a ilayo gan ma nli kon en hajmi keskin o ib
bo moqda. Ayniqsa, Teleg am, Facebook, Ins ag am, X (Twi e ) kabi pla o mala da
qisqa, hissiy a no asmiy yozilgan xaba la ez a qaladi hamda ula ning a kibida
oksik yoki za a li mazmunli ibo ala ko‘paymoqda. Toksik xaba la - bu na a ,
ahdid, haqo a , kamsi ish yoki manipulya i uhdagi i odala ni o‘z ichiga olu chi,
shaxs yoki ij imoiy gu uhga za a ye kazu chi ma n shaklidi . Bunday kon en ni
aniqlash a a oma ik a zda il lash izimla i na aqa oydalanu chi xa sizligini
a’minlaydi, balki ij imoiy a moqla da sog‘lom muloqo muhi ini ya a ishga ham
xizma qiladi. Ushbu adqiqo da o‘zbek ilidagi oksik xaba la uchun maxsus mini-
ko pus ya a ilishi a uning asosida a oma ik klassi ika siya modeli qu ilishi masalasi
yo i iladi.
105
Tadqiqo ning asosiy maqsadi - o‘zbek ilidagi qisqa ij imoiy a moq xaba la ini
oksik a no- oksik oi ala ga aj a a oladigan mashina iy o‘ ganish modelini
ayyo lashdi . Ushbu ja ayonni amalga oshi ish uchun bi inchi na ba da ishonchli,
balansli a si a li ko pusga eh iyoj ug‘iladi. A suski, o‘zbek ili uchun oksiklikka
oid ayyo ma’lumo la o‘plami (da ase ) ma jud emas. Shu sababli ushbu ishda
noldan (sc a ch) mini-ko pus ya a ish yo‘li anlandi.
Ko pus ya a ish ja ayoni bi necha bosqichdan ibo a . A alo, 2023–2025-
yilla o alig‘ida aol bo‘lgan 10 dan o iq Teleg am kanalla i a ochiq cha la dan jami
6000 dan o iq xaba yig‘ib olindi. Ushbu xaba la o asidan ak o la , ha olala ,
emoji, eklama a bo ja obla i a oma ik a zda ozalandi. Tozalangan ma nla
us ida qo‘lda e ike lash (manual labeling) ishla i olib bo ildi. Ha bi xaba “ oksik”
yoki “no mal” (no- oksik) si a ida belgilandi. Belgilash ja ayonida quyidagi ling is ik
mezonla dan oydalanildi: haqo a so‘zla i ma judligi, salbiy emo sional on,
ag essi e’lla , ahdid yoki kamsi ish i odasi, salbiy emodjila (😡💣 )
ishla ilganligi, a yuqo i da ajadagi sub’ek i lik.
Na ijada 4000 a xaba aniq e ike langan mini-ko pus shakllan i ildi.
Ma’lumo la nisba i 50% oksik a 50% no mal a zda balanslash i ildi. Shuningdek,
okenlash a lemma iza siya bosqichida o‘zbek ilining agglu ina i xususiya ini
hisobga olu chi segmen a siya moduli ishlab chiqildi. Bu modul so‘zla ni ildiz a
a iksla ga aj a ib, modelga mo ologik jiha dan boy xususiya la ni o‘ ganish
imkonini be di. Masalan, “u aman”, “u ay”, “u ib ashlayman” kabi so‘zla yagona
seman ik ildiz “u -” asosida bi lash i ildi.
Ko pus ayyo langach, u li mashina iy o‘ ganish modella i sino dan
o‘ kazildi. Das lab, TF-IDF asosidagi klassik modella - Logis ic Reg ession, Nai e
Bayes a Suppo Vec o Machine (SVM) - qo‘llanildi. Ushbu modella ez o‘qi iladi,
ammo ma nning seman ik ma’nosini o‘liq anglay olmaydi. Keyinchalik chuqu
o‘ ganish (deep lea ning) a xi ek u ala i sino dan o‘ kazildi: Con olu ional Neu al
Ne wo k (CNN), Bidi ec ional LSTM a ans o me oilasiga mansub BERTbek,
mBERT, XLM-R modella i. Ha bi model uchun aniqlik (accu acy), aniqlo chanlik
(p ecision), eslab qolish ( ecall) a F1 ko‘ sa kichla i hisoblandi.
Taj iba na ijala iga ko‘ a, TF-IDF + SVM modeli 78% aniqlik, CNN modeli
84% aniqlik, BiLSTM esa 86% aniqlik ko‘ sa di. Eng yuqo i na ija ans o me
asosidagi BERTbek modelida kuza ildi - F1-sco e 0.91 ga eng bo‘ldi. BERTbek
o‘zbek ili uchun maxsus o‘qi ilgan model bo‘lgani sababli u mo ologik a seman ik
kon eks ni chuqu oq ahlil qila oldi. Shu bilan bi ga, kichik hajmli mini-ko pusda
modelni qay a o‘qi ish ( ine- uning) uchun 4–5 ming namuna iy xaba ye a li bo‘ldi.
106
Bu esa o‘zbek ilida kichik ma’lumo o‘plamla i bilan ham si a li oksiklik ahlilini
amalga oshi ish mumkinligini ko‘ sa adi.
Taj iba da omida ko pusning a kibiy a s a is ik xususiya la i ham ahlil
qilindi. Eng ko‘p uch aydigan oksik so‘zla “ahmoq”, “yo‘qol”, “u aman”, “na a ”,
“o‘ldi aman”, “bexaba ” kabi ag essi e’l a salbiy si a so‘zla idi . Shuningdek,
emo sional yuklama bildi u chi “naho ki”, “chindanmi”, “ba ibi ” kabi so‘zla
oksiklik bilan qisman bog‘liqligi aniqlangan. Shu sababli modelning keyingi
e siyala ida sen imen ahlil moduli ham qo‘shilishi ejalash i ilmoqda.
O‘ kazilgan aj ibala shuni ko‘ sa diki, oksiklikni aniqlashda na aqa so‘zla
o‘g‘ idan - o‘g‘ i ishla ilishi, balki ula ning mo ologik o‘zga ishla i ham ka a
ahamiya ga ega. Shu sababli keyingi bosqichla da mo ologik xaba do embedding
(mo phological-awa e embeddings) asosida yengil ans o me modeli ishlab
chiqilishi ejalash i ilgan. Bundan ashqa i, ya a ilgan mini-ko pus ochiq manba
si a ida kengay i ilib, o‘zbek ili uchun oksiklik aniqlash bo‘yicha bi inchi milliy
benchma k si a ida aqdim e ilishi mumkin.
Xulosa qilib ay ganda, ushbu adqiqo o‘zbek ili uchun oksik xaba la ni
aniqlashga mo‘ljallangan das labki amaliy asosni ya a di. Maxsus mini-ko pus
uzildi, u asosida u li klassi ika siya modella i sino dan o‘ kazildi a ula ning
sama ado ligi ahlil qilindi. Na ijala o‘zbek ilida abiiy ilni qay a ishlash (NLP)
yo‘nalishidagi lokal adqiqo la uchun muhim poyde o ya a adi. Kelgusida ushbu
ko pus asosida oksiklik in ensi ligini ball ko‘ inishida baholo chi isk-sko ing izimi
a onlayn moni o ing pla o masi ishlab chiqilishi mumkin.
Foydalanilgan adabiyo la :
1. De lin J., Chang M.-W., Lee K., Tou ano a K. BERT: P e- aining o Deep Bidi ec ional
T ans o me s o Language Unde s anding. - NAACL-HLT, 2019.
2. Bojanowski P., G a e E., Joulin A., Mikolo T. En iching Wo d Vec o s wi h Subwo d
In o ma ion. - T ansac ions o ACL, 2017.
3. Ko o F., Rahman A. Mul ilingual Toxici y De ec ion in Low-Resou ce Languages. - SocialNLP
Wo kshop, 2021.
4. Abdu ahmono D., Yusupo a G. O‘zbek ili uchun oksiklikni aniqlash ko pusi ya a ish
muammola i. - O‘zbekis on NLP kon e ensiyasi, 2024.
5. Vaswani A., Shazee N., Pa ma N. a boshqala . A en ion Is All You Need. - NIPS, 2017.
6. Rahimi A., Baldwin T. Low- esou ce Toxic Language De ec ion ia Mo phological
Decomposi ion. - a Xi p ep in , 2021.