Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
VIDEO TASVIRLARDA INSON KO'ZLARINI ANIQLASH UCHUN CHUQUR O'RGANISH
ALGORITMLARIDAN FOYDALANISH
Djabbarov Dilshod Turdikulovich
Jizzax davlat pedagogika universiteti Tabiiy va aniq fanlarni o'qitishda masofaviy ta'lim
kafedrasi o'qituvchisi j abbarovdil shod1007@gmail .com
Asrayev Muhammadmullo Abdullajon o'g'li
Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti Farg'ona filiali
katta o'qituvchisi. [email protected]
G'oipova Xumora Qobiljon qizi
Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti Farg'ona filiali
assistent o'qituvchisi [email protected]
Annotatsiya. Bugungi jadal rivojlanayotgan raqamli dunyoda tasvirlarga ishlov berish asosiy sohalardan biriga aylandi. Ushbu soha kuzatuvdan tortib, inson va kompyuter o'zaro ta'sirigacha bo'lgan sohalarda mavjud bo'lgan ko'plab muammolarni yechishga yordam berdi. Ushbu transformatsiyaning zamirida video kadrlar ichidagi murakkab tafsilotlarni, jumladan, inson ko'zlarini aniq kuzatish qobiliyatini farqlash masalasi yotadi. Ushbu texnologiya kompyuterni ko'rish texnikasining qiziqarli masalasi va chuqur o'qitish algoritmlarining moslashuvchanlik darajasini oshirish tufayli rivojlandi.
Kalit so'zlar: Mashinali o'qitish, vizual hisoblash, chuqur neyron tarmoqlari, video ma'lumotlarni tahlil qilish, raqamli tasvirni qayta ishlash, yuz xususiyatlarini ajratib olish, jonli video tahlili, vizual obyektlarni aniqlash.
I. Kirish
Ushbu maqolada video oqimdangi inson yuzi tasviridan ko'z maydonini aniqlash masalasi ko'rib o'tilgan. Inson ko'zi ongning murakkab ishlariga ajoyib oynasi bo'lib, diqqat, kognitiv jarayonlar va hissiy holatlar haqida ma'lumotlarni taqdim etadi. Ko'zni kuzatish texnologiyasidan foydalangan holda, virtual reallik muhitida foydalanuvchining ishtirokini yaxshilashdan tortib, haydovchilarda uyquchanlik belgilarini aniqlash, halokatli baxtsiz hodisalarning oldini olishgacha bo'lgan son-sanoqsiz hayokiy muammolarni yechishda foydalanish mumkin.
Bundan tashqari, ko'zni kuzatish imkoniyati cheklangan shaxslarga raqamli interfeyslarni yanada qulayroq va mustaqil ravishda boshqarish imkoniyatini
beruvchi yordamchi texnologiyalar sohasida o'zining mahoratini isbotladi. Ko'z harakatlarini farqlash qobiliyati inson va kompyuterning uzluksiz o'zaro ta'siri uchun yangi yo'llarni ochib, intuitiv va inklyuziv tajribalar uchun yo'l ochadi.
Olimlar an'anaviy kompyuterli ko'rish (Computer vision) usullari orqali ko'zni aniqlash va kuzatish kabi murakkab masalalarni hal etish bilan shug'ullanishgan. Biroq, chuqur o'qitishning paydo bo'lishi transformatsion davrni boshlab berdi, mashinalarni katta hajmdagi ma'lumotlardan murakkab timsollar va tasvirlarni o'qitish imkoniyatini yaratdi.
Chuqur o'qitish algoritmlari, xususan, konvolyutsion neyron tarmoqlari (CNN) tasvir va
291
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
videolardan vizual xususiyatlarni ajratib olish va tahlil qilishda yuqori samaradorlikka erishishga yordam beradi. Ushbu algoritmlar tuzilgan ma'lumotlar to'plamiga (dataset) o'rgatish orqali ular turli xil yorug'lik, ranglar o'xshashligi va turli xil yuz ifodalari kabi qiyin sharoitlarda ham yuqori aniqlik bilan inson ko'zlarini aniqlash imkonini yaratdi.
Yuz sohasi ajratilgandan so'ng, yuz tasviridagi ko'zlarning aniq joylarini aniqlash uchun chuqur o'qitish modellaridan foydalanish mumkin. Ushbu modellar izohli tasvirlarning katta ma'lumotlar to'plamida o'qitilib, ularga inson ko'zlari bilan bog'liq murakkab tasvirlarni o'rganish imkonini beradi.
Ko'z qarashni baholash va ko'z harakatini kuzatishni o'z ichiga olishi mumkin, ularning har biri video oqimidan mazmunli ma'lumot olish uchun chuqur o'rganish kuchidan foydalanadi. Olingan ma'lumotlar keyinchalik foydalanuvchi interfeysini boshqarishdan xulq-atvor tahliligacha va undan tashqarida turli xil ilovalarga birlashtirilishi mumkin.
II. Metodologiya
Video kameralardan olingan tasvirlardan ko'zni kuzatish usullari real vaqt rejimida tasvirni qayta ishlash va kompyuter ko'rish algoritmidan foydalanadi, bunda yuzning kuzatilgan koordinatalari yoki ko'z tasvirining piksellari kabi regressiya funksiyalariga o'rgatiladi. Ekrandagi qarash nuqtalarini bashorat qilish mumkin. Ushbu usullar ko'zni onlayn kuzatish uchun juda qulay ammo, ularning turli ko'z harakati turlari, muhitlar, sub'ektlar va uzoq sinov muddatlariga nisbatan mustahkamligi cheklangan. Oldingi tadqiqotlar eng yaxshi ishlaydigan WebGazer modelidan foydalangan holda 3 dan 4° gacha bo'lgan ko'zning aniqligiga erishilgan.
Bu yerda birinchi marta onlayn tajriba davomida yozib olingan veb-kamera videolariga ko'zni kuzatish uchun tashqi ko'rinishga asoslangan chuqur o'rganish usullarini qo'lladik. Biz ushbu usullarning ishlashini ko'zni kuzatish vazifalari bufferi yordamida (1-rasm) tavsifladik: fiksatsiya, zonalarni tasniflash, silliq izlanish, erkin ko'rish va miltillashni aniqlash va boshqalar. Buffer ko'z harakatining har xil turlari bo'yicha ko'z kuzatuvchisi ishlashini keng qamrovli taqqoslash imkonini berdi va boshqa
tadqiqotchilar tomonidan bir xil vazifalar bo'yicha baholangan EyeLink 1000 va Pupil Core laboratoriya asosidagi ko'z kuzatuvi bilan taqqoslash imkonini berdi. Biz onlayn ma'lumotlarni yig'ish va oflayn modelni aniqlash bosqichlarini ajratdik, bu esa real vaqtda kompyuter xulosasining hisoblash cheklanishini kamaytirdi va moslashuvchan, subekt ichida bir nechta modellarni taqqoslash imkonini beradi.
1-rasm. Buffer yordamida tafsiflash
Video kadrlardan ko'zni aniqlash jarayoni odatda muhim qayta ishlash bosqichidan boshlanadi. Ushbu bosqich keyingi bosqichlar uchun optimal kiritishni ta'minlash uchun yuzni aniqlash, diqqatga sazovor joylarni mahalliylashtirish va tasvirni yaxshilash usullari kabi vazifalarni o'z ichiga oladi.
Masalani yechish jarayoni. Video tasvirdan inson ko'zlarini ajratib olish muammosini hal qilishda GazeNet sayoz neyron tarmog'i hamda cvzone Python kutibxonasidan foydalanamiz.
GazeNet - bu PyTorch yordamida amalga oshirilgan sayoz oldinga yo'naltirilgan sun'iy neyron tarmoq. U 14 ta kirish neyronidan iborat (yuzga olingan yettita belgining x va y koordinatalari). Kirish qatlami yashirin qatlamga to'liq ulangan ( N = 200 neyron; xatolik darajasi va konvergentsiya tezligi o'rtasidagi muvozanat orqali evristik tarzda tayinlangan), sigmasimon faollashtirish funktsiyasi tomonidan amalga oshiriladi. Yashirin qatlam shuningdek, taxminiy qarash nuqtasining x va y koordinatalari uchun ikkita chiqish neyronidan iborat bo'lgan chiqish qatlamiga to'liq bog'langan. Bundan tashqari, GazeNet yo'qotish funksiyasining minimalini
292
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
topi sh jarayonini tezlashtirish uchun Stoxastik Gradient Descent (SGD) usulidan foydalanadi, o'rganish tezligi va momentum mos ravishda 0,03 va 0,6 bo'lib, natijada paydo bo'lgan xato tezligi/konvergentsiyani kuzatish asosida qo'lda tanlanadi. ta'lim va tekshirish ma'lumotlari tezligi. Har 2000 ta o'rganish davrida, optimal yechim sari borgan sari kichikroq qadamlarni samarali hisobga olish uchun o'rganish tezligi rejalashtiruvchi tomonidan ikki baravar kamayadi. GazeNet parametrlarini har bir davrda (to'plam hajmi) sozlashdan oldin tekshirilgan kadrlar soni to'rttaga o'rnatildi.
Tanlangan xato funksiyasi o'rtacha kvadratik xatoning (L2 yo'qolishi) hosilasidir:
>2
Pi =
11 = 1С, - $ )2
n
bu yerda n , t va t mos ravishda namuna o'lchamini, zamin haqiqatini va taxminiy qarash joyini bildiring.
Ushbu ishda foydalanilgan x va y koordinatalarini o'z ichiga olgan ma'lumotlar uchun asosiy haqiqat va baholashning farqi quyidagicha hisoblanadi:
t t (tx, ty) (tx, ty) (DX, Dy)
Yo'qotish funktsiyasi (piksellarda) quyidagi formula bo'yicha hisoblanadi:
F =
z?=1 IDX?+Dy?
n
Keyinchalik, piksellardagi xatolikdan vizual burchak darajalaridagi xatoni hisoblash uchun quyidagi formuladan foydalandik:
F d
'-'px, "-r,
SW„.
SWpX piksellardagi xatoni,
sub'ektning ko'zlari va ekran orasidagi masofani mm da, ekran kengligini mm va ekran kengligini piksellarda bildiradi.
III. Natijalar
Yuz videolari yordamida nigohning joylashishini taxmin qilish uchun biz ob'ekt monitorning butun yuzasini aylanib o'tuvchi labirintda
harakatlanayotgan kichik doirani kuzatayotgan paytda biz ob'ektning video kadrlarini yozdik. Dastlab, yozuvlardan tasodifiy 50 ta (barcha qayd etilganlarning 1,4%) kadrlar tanlab olindi va quyidagi yuz belgilariga qo'lda izoh berildi: ikki lateral burchak, ko'z qorachig'ining o'rtasi, ikkita medial burchak va yuqori lab va lab o'rtasidagi markaziy nuqta va filtrum ( 2 va 3 rasmlarga qarang). Ushbu belgilar ko'zdan barcha muhim ma'lumotlarni va bosh pozasining etarli ma'lumotlarini olish uchun tanlangan. Annotatsiya eksperimentator tomonidan DLC ning grafik foydalanuvchi interfeysi yordamida amalga oshirildi. GazeNet bilan bog'liq barcha bosqichlar uchun ko'z qorachig'ining markazi har bir o'quvchining to'rt burchagining Dekart joylashuvini o'rtacha hisoblab chiqdi. Mavzu o'lchovlarning pozitsiyadan mustaqilligini ta'minlash uchun uch xil bosh pozitsiyasi bilan vazifani bajardi (3-rasm). Tanlangan kadrlarga qo'lda izoh berilgandan so'ng (bu taxminan 30 daqiqa davom etdi).
2-rasm Algoritm arxitekturasining konturi.
3-rasm. Yuz belgilari va poza variantlari
Chuqur o'rganishga asoslangan ko'zni aniqlash bo'yicha ajoyib yutuqlarga qaramay, bir qator muammolar saqlanib qolmoqda. Etnik kelib chiqishi, yoshi va yuz xususiyatlarining o'zgarishi sezilarli to'siqlarni keltirib chiqarishi mumkin, chunki cheklangan ma'lumotlar to'plamida o'qitilgan modellar samarali umumlashtirish uchun kurash olib borishi mumkin.
293
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
Ushbu muammolarni hal qilish uchun tadqiqotchilar va ishlab chiquvchilar o'zlarining o'quv ma'lumotlar to'plamini doimiy ravishda kengaytirmoqdalar va diversifikatsiya qilmoqdalar, bu modellarning yuz xususiyatlari va atrof-muhit sharoitlarining keng doirasiga ta'sir qilishini ta'minlaydi. Bundan tashqari, ushbu modellarni umumlashtirish imkoniyatlarini oshirish uchun transferni o'rganish va domenni moslashtirish kabi usullar o'rganilmoqda. Chuqur o'rganish modellari ko'zni aniqlash vazifalarida ajoyib samaradorlikni namoyish etgan bo'lsa-da, ularning hisoblash talablari, ayniqsa real vaqtda video oqimlari bilan ishlashda sezilarli bo'lishi mumkin. Bu resurslar cheklangan qurilmalarda yoki kechikish muhim omil bo'lgan stsenariylarda ushbu echimlarni qo'llashda qiyinchiliklar tug'diradi.
Aniqlik va samaradorlik o'rtasidagi muvozanatni saqlash uchun tadqiqotchilar turli xil optimallashtirish usullarini o'rganmoqdalar. Bularga modelni siqish, kvantlash va ko'zni aniqlash vazifalari uchun maxsus moslashtirilgan engil arxitekturalarni ishlab chiqish kiradi. Bundan tashqari, GPU va ixtisoslashtirilgan sun'iy intellekt chiplari kabi maxsus apparat tezlatgichlarining paydo bo'lishi ushbu tizimlarning hisoblash imkoniyatlarini sezilarli darajada oshirib, aniqlikni buzmasdan real vaqt rejimida ishlash imkonini berdi.
IV. Munozara
Chuqur o'rganish ko'zni aniqlash va kuzatishda inqilob qilgan bo'lsa-da, tadqiqotchilar bir-birini to'ldiruvchi usullarning integratsiyasini o'rganish orqali doimiy ravishda chegaralarni oshirmoqdalar. Ko'zni kuzatish ma'lumotlarini yuz ifodalari, tana tili va audio signallari kabi boshqa ma'lumotlar manbalari bilan birlashtirgan multimodal termoyadroviy inson xatti-harakatlarini tahlil qilish tizimlarining aniqligi va mustahkamligini oshirish uchun ulkan imkoniyatlarga ega.
Bundan tashqari, ko'zni kuzatishning kengaytirilgan haqiqat, virtual haqiqat va miya-kompyuter interfeyslari kabi rivojlanayotgan texnologiyalar bilan yaqinlashishi inson va mashinaning misli ko'rilmagan o'zaro ta'siriga yo'l
ochmoqda. Ko'z harakatlarini immersiv muhitlar va neyron signallar bilan uzluksiz birlashtirib, tadqiqotchilar intuitiv va tabiiy interfeyslar an'anaviy kiritish usullari cheklovlaridan oshib, odatiy holga aylangan kelajakni tasavvur qilishadi. Chuqur o'rganishga asoslangan ko'zni kuzatish ilovalari har biri o'ziga xos talablar va qiyinchiliklarga ega bo'lgan juda ko'p domenlarni o'z ichiga oladi. Sog'liqni saqlash sohasida ko'zni kuzatish nevrologik kasalliklarni tashxislash va monitoring qilishda bebaho ahamiyatga ega bo'lib, erta aralashuv va shaxsiylashtirilgan davolash rejalarini amalga oshirish imkonini beradi.
Ta'lim sohasida ko'zni kuzatish texnologiyalari o'quvchilarning faolligi, diqqat naqshlari va o'quv jarayonlari haqida tushunchaga ega bo'lish uchun moslashtirilgan va moslashtirilgan ta'lim vositalarini ishlab chiqishga yordam beradi.
Ko'ngilochar industriya, shuningdek, ko'zni kuzatishni o'zlashtirdi, nigohga asoslangan o'zaro ta'sirlar orqali o'yin tajribasini oshirdi va foydalanuvchilarning vizual diqqatiga dinamik ravishda javob beradigan immersiv virtual haqiqat muhitini yoqdi.
V. Xulosa
Chuqur o'rganishga asoslangan ko'zni kuzatishning jadal rivojlanishi tadqiqot hamjamiyatidagi hamkorlikdagi sa'y-harakatlarning kuchidan dalolat beradi. DeepLabCut va OpenCV kabi ochiq manba tashabbuslari ilg'or kompyuter ko'rish va chuqur o'rganish vositalariga kirishni demokratlashtirishda, innovatsiyalar va turli sohalarda bilim almashishni rag'batlantirishda muhim rol o'ynadi.
Bundan tashqari, kompyuter olimlari, nevrologlar, psixologlar va domen mutaxassislari o'rtasidagi fanlararo hamkorlik bebaho tushunchalarni berdi, bu esa muayyan dastur sohalariga moslashtirilgan echimlarni ishlab chiqish imkonini berdi. O'zaro changlanish va bilim almashish madaniyatini rivojlantirish orqali ko'zni kuzatish sohasi rivojlanishda davom etmoqda, inson va mashina o'zaro ta'sirida va undan tashqarida yangi chegaralarni ochib beradi.
294
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
Chuqur o'rganish algoritmlari rivojlanishda davom etar ekan va hisoblash resurslari yanada qulayroq bo'ladi, ko'zni kuzatish sohasi ajoyib yutuqlarga tayyor. Tadqiqotchilar aniqlik, mustahkamlik va real vaqtda ishlash chegaralarini kengaytirish uchun yangi arxitekturalar, o'qitish metodologiyalari va ma'lumotlarni ko'paytirish usullarini faol ravishda o'rganmoqdalar.
Bundan tashqari, ko'zni kuzatish texnologiyalarining ijtimoiy ta'siri keng qamrovli bo'lib, foydalanish imkoniyati, ta'lim, sog'liqni saqlash va boshqa sohalarda inqilob qilish potentsialiga ega. Uzluksiz va intuitiv o'zaro ta'sirlarni ta'minlash orqali ushbu texnologiyalar odamlarga imkoniyatlarni kengaytirish, samaradorlikni oshirish va yanada inklyuziv va adolatli raqamli landshaftni rivojlantirishga katta xissa qo'shadi.
Foydalanilgan adabiyotlar
1. Papoutsaki, A., Daskalova, N., Sangkloy, P., Huang, J., Laskey, J., & Hays, J. (2016). WebGazer: foydalanuvchi o'zaro ta'siridan foydalangan holda kengaytiriladigan veb-kamera ko'zni kuzatish. Sun'iy intellekt bo'yicha IJCAI xalqaro qo'shma konferentsiyasi , 2016-yanvar , 3839-3845.
2. Semmelmann, K. va Weigelt, S. (2018). Kognitiv fanda onlayn veb-kameraga asoslangan ko'zni kuzatish: birinchi qarash. Xulq-atvorni o'rganish usullari, 50 (2), 451-465. https://doi.org/10.3758/s13428-017-
5. Lemley, J., Kar, A., Drimbarean, A. va Corcoran, P. (2018). Kam quvvatli/past sifatli iste'molchi tasvirlash tizimlarida ko'z qarashlarini baholash uchun samarali CNN ilovasi. ArXiv [Preprint]. ArXiv: 1806.10890. Onlayn
manzilda: http://arxiv.org/abs/1806.10890 (20 20-yil 4-noyabrda foydalanish mumkin).
6. Zdarsky, Niklas and Treue, Stefan and Esghaei, Moein, A Deep Learning-Based Approach to Video-Based Eye Tracking for Human Psychophysics. Frontiers in Human Neuroscience.
DOI:10.3389/fnhum.2021.685830.
https://www.frontiersin.org/articles/10.3389/fn
hum.2021.685830
7. Saxena, S., Fink, L.K. & Lange, E.B. Deep learning models for webcam eye tracking in online experiments. Behav Res (2023). https://doi.org/10.3758/s13428-023-02190-6
0913-7
3. Ehinger, BV, Groß, K., Ibs, I., & König, P. (2019). Pupil Labs ko'zoynaklari va EyeLink 1000 ni bir vaqtda baholovchi yangi keng qamrovli ko'zni kuzatish uchun sinov batareyasi. PeerJ, 2019 (7), 1-43. https://doi .org/ 10.7717/peerj .7086
4. Adhikari, S. va Stark, DE (2017). Neyropsikiyatrik baholash uchun videoga asoslangan ko'zni kuzatish: neyropsikiyatrik baholashni kuzatish. Ann. NY akad. Sci. 1387, 145-152. doi: 10.1111/nyas.13305
295