Научная статья на тему 'AVTOMATIK MATNLARNI UMUMLASHTIRISH USULLARI TAHLILI'

AVTOMATIK MATNLARNI UMUMLASHTIRISH USULLARI TAHLILI Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
205
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ATS / EHAT / matnli hujjat / matnlarni umumlashtirish / tasniflash / ATS / СЭДО / текстовый документ / обобщение текста / классификация

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Nishnov A.X., Babadjanov E.S., Kenjaev X.B.

Mazkur maqolada bir toifali matnli hujjatlar to’plamidan tegishli axborot borliklarini chiqarib olish va yakuniy hujjatga ularni umumlashtirish masalasi qaraladi. Xususan, Text Mining masalaridan biri hisoblangan elektron hujjatlardagi matnlarni avtomatik umumlashtirish masalasi hamda umumlashtirish masalasidagi uslubiyatlaylar batafsil tadqiq etiladi.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

АНАЛИЗ МЕТОДОВ АВТОМАТИЧЕСКОГО ОБОБЩЕНИЯ ТЕКСТА

В данной статье рассматривается вопрос извлечения актуальной информации из набора однокатегорийных текстовых документов и ее обобщения в итоговый документ. В частности, подробно изучен вопрос автоматического обобщение текста в электронных документах, который считается одной из задач Text Mining, и методология решение задачи обобщение текста.

Текст научной работы на тему «AVTOMATIK MATNLARNI UMUMLASHTIRISH USULLARI TAHLILI»

DOI 10.24412/2181-1431-2023-2-37-46 Nishnov A.X., Babadjanov E.S., Kenjaev X.B.

AVTOMATIK MATNLARNI UMUMLASHTIRISH

USULLARI TAHLILI

Nishnov A.X. - t.f.d., professor, Muhammad al-Xorazmiy nomidagi TATU TAD kafedrasi, Babadjanov E.S. -PhD. Muhammad al-Xorazmiy nomidagi TATU TAD kafedrasi doktoranti, Kenjaev X.B. - Muhammad al-Xorazmiy nomidagi TATUNukus filiali ATM assistenti.

Annotatsiya. Mazkur maqolada bir toifali matnli hujjatlar to'plamidan tegishli axborot borliklarini chiqarib olish va yakuniy hujjatga ularni umumlashtirish masalasi qaraladi. Xususan, Text Mining masalaridan biri hisoblangan elektron hujjatlardagi matnlarni avtomatik umumlashtirish masalasi hamda umumlashtirish masalasidagi uslubiyatlaylar batafsil tadqiq etiladi.

Kalit so'zlar: ATS, EHAT, matnli hujjat, matnlarni umumlashtirish, tasniflash

АНАЛИЗ МЕТОДОВ АВТОМАТИЧЕСКОГО ОБОБЩЕНИЯ ТЕКСТА

Нишнов А.Х.- д.т.н., профессор, кафедра СПП ТУИТ имени Мухаммада аль-Хорезми, Бабаджанов Э.С. - PhD., докторант кафедры СПП ТАТУ имени Мухаммада аль-Хорезми, Кенжаев Х.Б. - ассистент кафедры КС Нукуссиский филиал ТУИТ имени Мухаммада аль-Хорезми.

Аннотация. В данной статье рассматривается вопрос извлечения актуальной информации из набора однокатегорийных текстовых документов и ее обобщения в итоговый документ. В частности, подробно изучен вопрос автоматического обобщение текста в электронных документах, который считается одной из задач Text Mining, и методология решение задачи обобщение текста. Ключевые слова: ATS, СЭДО, текстовый документ, обобщение текста, классификация.

ANALYSIS OF METHODS OF AUTOMATIC TEXT

SUMMARIZATION

Nishnov A.Kh. - Doctor of Technical Sciences, Professor, Department of SPP TUIT named after Muhammad al-Khwarizmi, Babadzhanov E.S. - PhD. Doctoral student of the Department of SPP TUIT named after Muhammad al-Khwarizmi, Kenjaev Kh.B. - assistant of the department of CS Nukus branch of TUIT named after Muhammad al-Khwarizmi.

Annotation. This article discusses the issue of extracting relevant information from a set of single-category text documents and its summarization into a final document. In particular, the issue of automatic summarization of text in electronic documents, which is considered one of the tasks of Text Mining, and the methodology for solving the problem of summarization of text have been studied in detail. Key words: ATS, EDMS, text document, text summarization, classification.

Kirish.

Hozirgi kunda axborot tizimlari orqali aylanayotgan hujjatlar, hususan EHAT tizimlaridagi hujjatlar ma'lum axborot saqlovchilarda saqlanib, bu to'plam hujjatlarining mazmun mohiyatini tahlil qiqlishda asosan inson visual kuzartishi va inellektiga tayaniladi. Misol uchun birir katta masshtabli tashkilot yoki boshqaruv organidagi EHAT tizimini olish mumkin. Bu tizimda quyi turuvchi ko'plab sondagi tashkilotlar ijro uchun kelgan kiruvchi hujjatga javob hujjatni yuqori turuvchi organ yuboradi. Odatda, yuqori turuvchi organda ma'sul shaxs(lar) javob hujjatlarni aqliy mehnat orqali umumlastiradi. Internetda katta hajmdagi matn hujjatlarni qo'lda umumlashtirish juda ko'p vaqt, kuch, xarajat sarflaydi va hatto matn tarkibining ulkan miqdori bilan amaliy bo'lmaydi. 1950-yillar paydo bo'lgan ATS gj usulini hozirgacha takomillashtir ustida ishlar olib borilmoqda. ATS tabiiy tilni qayta ishlash

va umuman sun'iy intellektdagi eng qiyin vazifalardan biridir. Mazkuz maqolada bir toifali matnli hujjatlar to'plamidan tegishli axborot borliklarini chiqarib olish va yakuniy hujjatga ularni umumlashtirish masalasi qaraladi [1,310,11]. Xususan, Text Mining masalaridan biri bo'lgan elektron hujjatlardagi matnlarni avtomatik umumlashtirish (ATS) masalasi, undagi uslubiyatlay batafsil tadqiq etiladi.

ATS tizimining asosi va tushunchalar Avtomatik matnni umumlashtirish (ATS) tizimining asosiy maqsadi - kirish hujjatining asosiy mazmunini o'z ichiga olgan qisqa ma'lumotni kamroq joyda va takrorlanishi minimal darajada ushlab turishdir. Bunda foydalanuvchilar ko'p vaqt va kuchni sarflamasdan avtomatik yaratilgan xulosalar orqali qaralatotgan hujjatni to'liq o'qimasdan turib uning mazmunini biladi. Avtomatik umumlashtirish xulosasini quyidagicha ta'riflash mumkin [[10.]]:

- xulosa ma'lum bir foydalanuvchi(lar) va vazifa(lar) uchun asl ma'lumotlarning qisqartirilgan versiyasini yaratishda manba(lar)dan eng muhim ma'lumotlarni chiqaradi;

- xulosa shartli ravishda bir yoki bir nechta matnlardan tashkil topgan, manba matn(lar)dagi muhim ma'lumotlarni yetkazuvchi va asl matn(lar)ning yarmidan oshmaydigan va odatda bu miqdordan ancha kam bo'lgan matn sifatida belgilanishi mumkin.

- xulosa uzunligi kirish matnga qaraganda qisqa va kirish matndagi eng muhim ma'lumotlarni o'z ichiga oladi.

Odatda xulosalar asl matnning taxminan 17% ni tashkil qiladi va asl maqolani o'qishdan olinadigan hamma axborotni o'z ichiga oladi [[4.]]. ATSning umumiy arxitekturasi quyidagi vazifalardan iborat (1-rasm):

- Oldindan ishlov berish (Pre-Processing): gaplarni segmentlash, so'zlarni tokenlash, to'xtash so'zlarini olib tashlash, nutqning bir qismini teglash, stemming kabi ko'plab lingvistik usullardan foydalangan holda asl matnning tuzilmasini yaratish;

- Qayta ishlash (Processing): kiritilgan hujjat(lar)ni xulosaga aylantirishning bir yoki bir nechta usullarini qo'llash orqali matnni umumlashtirish yondashuvlaridan birini qo'llash;

- Post-processing (Post-Processing): Yakuniy xulosani yaratishdan oldin, anaforalarni (bir-biriga yaqin qatorlar) yechish va tanlangan gaplarni qayta tartiblash kabi yaratilgan jamlama gaplardagi ba'zi muammolarni hal qilish._

Kiruvchi hujjat

Avtomatik matnni umumlashtirish

r

Keyingi

—► ishlov

berish

0

Target xulosasi

(a) (b)

1-rasm. (a) bitta hujjatli yoki (b) ko'p hujjatli avtomatik matn umumlashtiruvchi.

ATS tadqiqotlarining dastlabkilari avtomatik ravishda jurnal maqolalari va texnik maqolalardan ko'chirmalarni chiqaradi. ATS tadqiqotchilar oldiga juda ko'p muammolarni qo'yadi, masalan: 1) yaratilgan xulosaga kiritilishi kerak bo'lgan kirish matnidagi eng informatsion segmentlarni aniqlash, 2) kitoblar kabi uzun yagona hujjatlarni umumlashtirish, 3) bir nechta hujjatlarni umumlashtirish, 4) inson tomonidan ishlab chiqarilgan xulosani solishtirishga hojat qoldirmasdan kompyuterda yaratilgan xulosani baholash, 5) inson tomonidan ishlab chiqarilgan xulosaga o'xshash mavhum xulosani yaratish.

Tadqiqotchilar hozirgacha kiritilgan matnning barcha asosiy ma'nosini qamrab oluvchi,) ortiqcha yoki takrorlanuvchi ma'lumotlardan holi, vizual o'qiladigan va va izchil xulosalar beruvchi aniq ATS tizimina yanada takomillashtirishga harakat qilishmoqda [[7.]]. Zamonaviy tadqiqotlarning aksariyati ATS aspektlarining bir qismini ko'rib chiqadi, Masalan, bitta yondashuvga, muayyan yondashuvdagi bitta usulga, bitta maxsus predmet sohaga. Bundan tashqari turli ATS algoritmlari bir xil kiritish matnlaridan turli xulosalar ishlab

chiqarishi, yaxshiroq xulosalar chiqarishda bir nechta ATS algoritm natijalarini birlashtirish juda samaralidir.

ATS tizimlarini tasniflash

ATS tizimlarida ko'plab tasniflar mavjud. Endi ushbu tasniflar haqida batafsil tizimli tahlil etiladi. ATS tizimlarini asosan quyidagi mezonlarga qarab tasniflash mumkin (2-rasm).

2-rasm. ATS tizimlarining tasnifi.

Kirish hajmi bo'yicha: bitta hujjat (SDS1) yoki ko'p hujjatli (MDS2). Bu umumlashtirishda bir yoki bir nechta kirish hujjatlari va bitta chiqish hujjati qaraladi. SDS xulosani yaratish uchun bitta matnli hujjatdan foydalanib, muhim ma'lumotlarni saqlagan holda uni qisqartiradi. MDS esa ko'plab kiritish hujjatlaridagi takrorlanuvchilar axborotlarni olib tashlaydi (Joshi va boshq., 2018). MDS SDSga qaraganda murakkabroq bo'lib, ortiqchalik, keng qamrovlilik, vaqtincha bog'liqlik, siqish darajasi kabi muhim muammolarga.

Umumlashtirish yondashuvi bo'yicha: ekstraktiv, mavhum yoki gibrid. Ekstraktiv matnni umumlashtirish yondashuvi kirish hujjat(lar)idagi eng muhim gaplarni tanlaydi va bu tanlangan gaplar xulosada birlashtiriladi.

Kiruvchi hujjat

0

с \

Oldindan ishliov Keyingi ishliov

\ /

0

Target xulosa

Matn tasvirini yaratish Gaplarni baholash Oraliq ko'rinishni yarating Ekstraktiv umumlashtirish

ф t \ t V \

Yuqori ballli gaplarni chiqarish Xulosani yaratish Mavhum umumlashtirish

(A) EKSTRAKTIV

(B) ABSTRAKTIV

(C) GIBRID

3-rasm. Matnni umumlashtirish yondashuvlarining arxitekturasi.

--w

1 SDS - Single-Document Summarization - Bitta Hujjatni Umumlashtirish

2 MDS - Multi-Document Summarization - Ko'p hujjatli umumlashtirish i

Bunda kirish hujjatidagi eng mos gaplarni tanlashda gaplarning statistik va lingvistik xususiyatlari foydalaniladi (3-a-rasm). Mavhum matnni umumlashtirish yondashuvi kirish hujjat(lar)ni oraliq ko'rinishdagi ifodalaydi va chiqish xulosasi shu tasvirdan hosil bo'ladi. Bu jarayonda mashina barcha kiritilgan hujjatlarning g'oyasini tushunadi, keyin o'zining maxsus gaplari bilan xulosa chiqaradi (3-b-rasm). Ya'ni, u matnni o'rganish va izohlash, so'ngra yangi tushuncha va iboralarni izlash uchun lingvistik usullardan foydalanadi, asl matn hujjatidan eng muhim ma'lumotlarni ifodalovchi yangi qisqaroq matn yaratadi. Ekstraktiv xulosadan farqli ravishda mavhum xulosalar asl hujjat(lar) gaplaridan farqli bo'ladi. Gibrid matnni umumlashtirish yondashuvi ekstraktiv va mavhum yondashuvlarninh kombinatsiyasi (3-c-rasm).

Xulosa alomatiga bo'yicha: Xulosa umumiy yoki so'rovga asoslangan. Matn umumlashtiruvchi uning mazmuni umumiy ifodalashda bir yoki bir nechta kirish hujjatlaridan muhim ma'lumotlarni ajratib oladi. So'rovga asoslangan umumlashtirish so'rov natijasida katta korpusdan olingan bir jinsli hujjatlar guruhi bilan ish olib boradi. Xulosa so'rov bilan bog'liq tarkibni o'z ichiga oladi va bu asl qidiruv so'roviga eng yaqin ma'lumotlarni taqdim etadi. So'rovga asoslangan xulosa ba'zan mavzuga asoslangan yoki foydalanuvchiga yo'naltirilgan xulosa deb ataladi.

Xulosa tili bo'yicha: bir til, ko'p tilli yoki tillararo. Agar manba va maqsadli hujjatlar tili bir xil bo'lsa, umumlashtirish tizimi bir tilli hisoblanadi. Agar manba bir nechta tillarda (masalan, ingliz, arab va frantsuz) yozilsa va xulosa ham shu tillarda yaratilsa, umumlashtirish tizimi ko'p tilli hisoblanadi. Agar manba matn bir tilda (masalan, ingliz) va xulosa esa boshqa tilda (masalan, arab yoki frantsuz) yaratilsa, umumlashtirish tizimi tillararo bo'ladi.

Xulosa algoritmi bo'yicha: nazorat ostida yoki nazoratsiz. Nazorat ostidagi algoritm o'qitish bosqichida izohli o'qitish ma'lumotlarini talab qiladi. O'qitish ma'lumotlarini qo'lda izohlash uchun inson kuchini talab qiladi va shuning uchun uni yaratish qiyin va qimmat. Nazoratsiz algoritm o'qitish bosqichida o'qitish ma'lumotlarini talab qilmaydi.

Xulosa mazmuni bo'yicha: ko'rsatkichli (indikativ) yoki informativ. Indikativ xulosa faqat manba matni haqidagi umumiy fikr yoki ma'lumotni o'z ichiga oladi. U foydalanuvchini kirish matni mazmuni nima haqida ekanligini aniqlashda ishlatiladi (ya'ni qanday mavzular borligi). Indikativ xulosaning maqsadi foydalanuvchilarga asl matnni o'qish yoki o'qimaslik to'g'risida qaror qabul qilishda yordam berish uchun kiritilgan matnning ko'lami haqida xabar berishdir. Informativ xulosa asl matndagi muhim ma'lumotlar va g'oyalarni o'z ichiga oladi, u matnning barcha mavzularini qamrab oladi. Informativ xulosaning maqsadi asl matnning asosiy mazmunini tafsilotlarsiz yoritishdir.

Xulosa turi bo'yicha: sarlavha, gap darajasi, eng muhimlari yoki to'liq xulosa. Yaratilgan xulosalar uzunligi ATS tizimining maqsadiga qarab farqlanadi. Sarlavha yaratish odatda gapdan qisqaroq sarlavha yaratadi. Gap darajasidagi umumlashtirish kirish matnidan odatda mavhum gap bo'lgan bitta gap yaratadi. Asosiy fikrlarning qisqacha mazmuni telegraf uslubiga va juda qisqa xulosaga ega bo'lib, u odatda markirovka qilingan ro'yxat shaklida bo'ladi. Eng muhim xulosa o'quvchiga kirish hujjat(lar)idagi asosiy ma'lumotlar haqida qisqa ma'lumot beradi. To'liq xulosani yaratishda, odatda, xulosaning kerakli uzunligi yoki siqilish darajasi hisobga olinadi.

Xulosa predmet sohasi bo'yicha: umumiy yoki predmet sohali. Umumiy xulosali ATS tizimi turli predmet sohalarga doir hujjatlarni umumlashtisa, predmet sohalisi ma'lum bir predmet sohadagi hujjatlarni (masalan, tibbiy yoki yuridik hujjatlar) umumlashtirish uchun mo'jjallngan.

Matnni umumlashtirish operatsiyalari, alomatlari va tuzilish bloklari

ATS tizimlarini loyihalash va amalga oshirishda turli komponenta va usullar foydalaniladi. Dastlab matnni umumlashtirish operatsiyalari, keyin statistik va lingvistik

О

alomatlar aniqlanadi. Natijada matnni umumlashtirish uchun tuzulish bloklari quyidagicha taqdim etiladi.

Matnni umumlashtirish operatsiyalarini turli toifalarga ajratish mumkin: bir gapli va ko'p gapli (4-rasm); ajratilmaydigan atomar operatsiyalar (ms: so'zlarni kiritish va o'chirish) va ajratilmaydigan murakkab operatsiyalar (ms, so'zlar tartibini almashtirish, o'zgartirish va gaplarni birlashtirish).

4-rasm. Bir va ko'p gapli matnni umumlashtirish amallan.

Ayrim operatsiyalar dastlabki berilgan hujjat(lar)ni umumlashtirishda yakka tartibli, ketma-ket yoki parallel ishlatilishi mumkin. Jing mutaxassislarining operatsiyalarini tahlil qilish asosida quyidagi operatsiyalarni aniqlagan [[5.]]:

1. Gapni siqish/qisqartirish: asl gapni qisqartirishda ahamiyatsiz qismini o'chirish.

2. Sintaktik transformatsiya: gapning sintaktik tuzilishini transformatsiya qilish orqali o'zgartirish (ms: gapda predmet o'rnini oxiridan oldinga ko'chirilish). Bu operatsiya gaplarni siqishda ham, gap birikmalarida ham ishlatilishi mumkin.

3. Leksik parafraz: so'z birikmalarini ularning parafrazalari bilan almashtirish.

4. Umumlashtirish: iboralar yoki gaplarni umumiyroq tavsiflarga almashtirish.

5. Spetsifikatsiya: iboralar yoki bandlarni aniqroq tavsiflar bilan almashtirish.

6. Gaplar kombinatsiyasi/birlashtirish: kirishdagi ko'p gaplarni bitta xulosali gapga birlashtirish.

7. Gapni qayta tartiblash: xulosa gaplar tartibini o'zgartirish.

8. Gapni tanlash: ikki yoki undan ortiq o'xshash gaplardan bitta gapni tanlash.

9. Gaplarni klasterlash: gaplarni turli sinflarga guruhlash [[12.]]. Bu operatsiya ko'p hujjatlarni umumlashtirishda zarur (masalan, mavzuni aniqlash va jumlalarni mavzu bo'yicha guruhlash.

ATS tizimlarida yuqoridagi operatsiyalardan bir yoki bir nechtasini ishlatadi. Adabiyotlarda ushbu operatsiyalar gaplarni siqish kabi avtomatik bajaradigan ko'plab tavsiya etilgan usullar va algoritmlar mavjud.

Statistik va iingvistik alomatlar asosan kirish hujjat(lari)dagi muhim gap va iboralarni aniqlashda ishlatiladi. Matnni umumlashtirish adabiyotlarida so'z darajasi va gap darajasidagi alomatlardan foydalanadi. Aksatiyat ATS tizimlari inson tomonidan ishlab chiqilgan alomatlarga asoslanadi. Tahlillar asosida yakuniy xulosaga gap (ibora) kiritish uchun maslahat sifatida eng keng tarqalgan alomatlar ro'yxati 1-jadvalda keltirilgan. Eng oddiy avtomatik matn jamlovchisi gaplarni tanlashga asoslanadi. Bunda gaplar statistik va lingvistik alomatlarning vaznli kombinatsiyasidan foydalangan holda umumlashtirish uchun tartiblanadi. Ushbu paradigma odatda tushunish, sharhlash, mavhumlashtirish va yangi xulosa hujjatini yaratish qobiliyatini talab qiladigan jamlash muammosini oddiyroq masalaga aylantiradi. Bu ikki bosqichda yechiladi [[9.]]: 1 ) har bir gapga ularning alomatlariga ko'ra ball qo'yish va 2) xulosani shakllantirish uchun yuqori o'rinli gaplarni birlashtirish. Gap balli 1 - ^ tenglama yordamida hisoblanadi.

Score(Sj)=ZhFi(Sj)*Wi, (1)

bu yerda S - gaplar ro'yxati, j - ro'yxatidagi gap indeksi, F - alomatlar to'plami, W - alomatlar uchun vazn qiymatlari va N - alomatlar soni. Alomatlarga to'g'ri vaznlarni belgilash muhim gaplarni tanlashda katta rol o'ynaydi va bu yaratilgan xulosa sifatiga ta'sir qiladi. Alomatlarga belgilangan vaznlar xulosa turiga va hujjat janriga qarab farq qilishi mumkin. Ushbu vaznlarni muayyan iiovaiar va janriar uchun optimallashtirish mumkin. Kirish hujjat(lar)ining "S" gapiaridagi har bir "j" gap uchun ushbu gapning "Score(Sj)" baiiini barcha gaplar ballarining "MaxScore(S)" maksimai qiymatiga bo'iish yo'ii bilan normaiiashtirish mumkin (2-tenglama).

Score(Sj)

Normalized Score(Sj) =

MaxScore(Sj)

(2)

Alomat Tushuntirish

So'z chastotasi (TF) Bitta hujjatli umumlashtirishda TF (Term Frequency) - bu hujjatda so'zning takrorlanish soni. Ko'p hujjatli umumlashtirishda TF barcha hujjatlarda so'zning uchraydigan sonini hujjatlar soniga bo'lish yo'li bilan hisoblanadi. TF eng tez-tez uchraydigan so'zlarni aniqlash orqali kirish hujjat(lar)idagi eng muhim tushunchalar yoki mavzularni aniqlashga yordam beradi.

Teskari hujjat chastotasi (IDF) IDF (Inverse Document Frequency) to'plam hujjatlarida ma'lum bir so'zning paydo bo'lish chastotasining inversiyasini o'lchash uchun ishiatiiadi. iDf qiymatlari artiki kabi umumiy so'ziar uchun (masalan, "a" va "the") noiga yaqin, IDF qiymatlari esa kam uchraydigan so'ziar (masalan, tibbiy atamalar va tegishli otlar) uchun yuqoriroqdir. IDF klasterdagi hujjatlarning umumiy sonini ushbu so'zni o'z ichiga olgan hujjatlar soniga bo'lish va keyin ushbu qismning logarifmini olish yo'li bilan hisoblanadi.

TF-IDF Hujjatlar sinfining mavzulari TF-IDF qiymati yuqori bo'lgan so'zlar bilan belgilanadi. Muayyan so'zning tF-IDF qiymati ushbu so'zning TF va IDF qiymatlarini ko'paytirish orqali hisoblanadi.

Kod soni printsipi (CQP) Matndagi eng muhim axborotlar ko'p sonli birliklar (ya'ni so'zlar yoki nominal iboralar) bilan ifodalanadi. CQP (Code Quantity Principle) axborotning ahamiyati va undagi kodlash elementlari soni o'rtasida mutanosib bog'liqlik mavjudligini isbotlaydi. Kodlash elementi kerakli tafsilotga qarab farq qilishi mumkin (ms, bo'g'inlar yoki nominal iboralar).

Ot va fe'l so'z birikmalari Agar gapda ot va fe'l iboralar bo'lsa, u muhim gap hisoblanadi va yaratilgan xulosaga kiritiladi, chunki u qimmatli axborotlarni o'z ichiga oladi.

Kontent so'z (Keyword) Maqolada uchraydigan kalit iboralar. Kontent so'zlari yoki kalit so'zlar odatda otlar bo'lib, TF-IDF o'lchovi yordamida aniqlanadi.

Sarlavhali so'z Maqolaning sarlavhasida kalit so'zlar uchrashi. Gap bilan sarlavhning o'xshashligi. Sarlavhada so'zlarni o'z ichiga olgan gaplar hujjatning mavzusini ko'rsatadi.

To'g'ri ot Gapda tegishli nomlanish (shaxs ism) mavjudligi. Xulosaga tarkibida tegishli nomlanishlar (masalan, shaxs nomi, joy va tushuncha) bo'lgan gaplar ko'proq kiritiladi.

Kalit ibora Xulosa tarkibida ko'pincha kalit iboralarni o'z ichiga olgan gaplar mavjud: "sabab", "natija", "ushbu maktub", "ushbu maqola", "xulosa", "maqsad", "ishlab chiqish", "taklif", " urinish" va boshqaiar.

Ahamiyatsiz axborotlarning paydo bo'lishi Ba'zi so'zlar "chunki", "bundan tashqari" va "qo'shimcha" kabi muhim bo'lmagan axborot ko'rsatkichlari yoki belgilaridir. Bu so'zlar odatda gap boshida keladi. Bu ikkilik alomatdir: agar gapda ushbu so'zlardan bittasi bo'lsa, qiymat "to'g'ri" va aks holda "noto'g'ri".

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Bir tomonlama so'z Agar gap bir yoki undan ko'p so'zni "so'zlar ro'yxatidan" (ya'ni, ro'yxat oldindan belgilanib, unda predmet sohaga oid so'zlar bor) olsa, bu gap muhim ahamiyatga ega.

Shriftga asoslangan Katta harfli (ms, qisqartma yoki nomlanish), kursiv, qalin yoki tagiga chizilgan shriftlar bilan yozilgan so'zlarni o'z ichiga olgan gaplar odatda muhimroq bo'lib, xulosaga kiritiladi.

Ijobiy/salbiy kalit so'z Gapdagi ijobiy/salbiy so'zlarning chastotasi.

Raqamli axborotlar Gapda raqamli axborotlarning mavjudligi.

Gapning joylashuvi Maqola yoki xatboshida hapning pozitsiyasi. Matn boshida yoki oxirida joylashgan gaplar odatda muhimroq deb hisoblanadi va yakuniy xulosada tanlanadi.

Gap uzunligi Nisbiy gap uzunligi. Uzunligi ma'lum chegaradan past bo'lgan gap avtomatik e'tibordan chetda qolishi mumkin. Odatda, xulosada juda qisqa va juda uzun jumlalar tanlanmaydi.

Hissiyot alomatlari (Matn orqali berilgan emotsiya) Matn orqali tasvirlangan hissiyot semantik alomatdir. Yashirin emotsiyani o'z ichiga olgan gaplar muallif uchun muhim va bu xulosaga qo'shilishi kerak. Kirish matnidagi emotsiyani aniqlash uchun bir nechta hissiyot sinflari mavjud: ijobiy, salbiy, quvonchli, qo'rquv, nafrat, ajablanish, jirkanish va boshqalar.

Gapdagi Havola Indeksi (SRI) SRI (Sentence Reference Index) olmosh bog'lovchisi bo'lgan gapdan oldingi gapga ko'proq og'irlik beradi. Olmoshlar ro'yxatidan foydalanib, agar gapda olmosh bo'lsa, oldingi gapning og'irligi oshiriladi.

Gapnin gapga bog'lanishi Boshqa gaplar bilan o'xshashlik. Har bir S gap uchun S va boshqa hujjatdagi gaplarining har biri o'rtasidagi o'xshashlikni hisoblash, keyin S uchun ushbu alomat qiymatini olishda barcha o'xshashlik qiymatlarini jamlash.

Gapning markazga bog'lanish Har bir S gap uchun hujjatning markaziy qismini ifodalovchi vektorni hisoblash (hujjatdagi barcha gaplarning tegishli koordinata qiymatlari o'rta arifmetigi), keyin har bir gap uchun ushbu alomat qiymatini olishda markaz va har bir gap o'rtasidagi o'xshashlik hisoblanadi.

Gapning kontseptual o'xshashligi Gapning kontseptual o'xshashligi - bu gapdagi so'zlarga mos keladigan so'rov so'zlarining sinonimlari (sinsetlari) soni. WordNetdan olingan sinsetalar to'plami jumlaga tushuncha o'xshashlik vaznini belgilash uchun ishlatiladi.

ATS bloklari. Har qanday tizim o'ziga xos bo'lgan tarkibiy tuzilmasiga ega bo'ladi. Matnni umumlashtiruvchi ATS tizimining turli bosqichlari uchun ATS tarkibiy tuzulma bloklari quyidagicha taqdim etiladi: kiritilgan matnlarni ifodalash uchun modellar bloki, lingvistik tahlil va qayta ishlash usullari bloki va ATSni amalga oshirishda foydali yumshoq hisoblash3 bloki (5-rasm).

--4

3 Soft Computing Techniques - yumshoq hisoblash noravshan mantiq, genetik algoritmlar, sun'iy neyron ^^ tarmoqlar, evolyutsion modellashtirish, mashinalarni o'qitish va ekspert tizimlari kabilarga asoslangan.

Matnni ifodalash modellari

Lingvistik tahlil va qayta ishlash usullari

Graf modellar (leksik graf, semantik graf)

Vektor modeli (so'zlar papkasi, vektor fazo modeli, so'z vektori)

N-gramm modeli (Bi-gram, Tri-gram, Kvadro-gram)

Mavzu modeli (LDA, PLSA)

Tasvirlash qiymati (lambda hisoblash, AMR)

Oldindan ishlov berish usullari (shovqinlarni olib tashlash, gaplarni segmentlash, tinish belgilarini va to'xtash so'zlarini olib tashlash, so'zlarni tokenizatsiya qilish, NER-nomlangan ob'ektni aniqlash, stemming, POS, chastotani hisoblash)

Fragmentlash usullari (Sintaktsis fragment, matn fragmenti, semantik fragment, yuza semantikasi)

Semantik usullar (WSD, anafora xulosasi, LSA, matn xulosasi, leksik bog'lanish)

Diskurs tahlili (ritorik tuzilish nazariyasi)

Gapning o'xshashligi (sintaktik o'xshashlik, semantik o'xshashlik, gibrid)

Tabiiy til ishlab chiqish

Yumshoq hisoblash usullari

Mashinalarni o'qitish (nazorat ostida [vektorli mashinani qo'llab-quvvatlash, sodda bayes, matematik regressiya, qarorlar daraxtlari, neyron tarmoqlar], nazoratsiz [klasterlash, yashirin markov modeli], yarim nazorat ostida)

Optimallashtirish algoritmlari (genetik algoritm, zarrachalar guruhini optimallashtirish)

Noravshan mantiq (noravshan mantiq tizimi)

5-rasm. ATSning tarkibiy bloklari

ATS tizimlar tadbiqi

ATS tizimlarining qayta ishlash bosqichida kirish hujjatlarini tagdim etishda ko'plab matn ifodalash modellari ishlatilgan (5-rasm, yuqori aism). Asl hujjatning lingvistik alomatlari yaratilgan xulosa sifatiga ta'sir qiladi. ATSda keng qo'llaniladigan ko'plab lingvistik tahlil va qayta ishlash usullari mavjud (5-rasm markaz). NLP bosqichlarini ta'minlashda keng tarqalgan Stenford CoreNLP vositasi so'zlarni tokenizatsiya qilish va qo'shma havolalarni aniqlash kabilarda ko'p ishlatiladi. Yumshoq hisoblashlar qaror qabul qilishda noma'lumlik va noaniqlikni manipulyatsiya qilish orqali murakkab muammolarni hal qiladi. Yumshoq hisoblashlar "nazorat qilish, ishonchlilik va arzon yechimga erishish uchun noma'lumlik, noaniqlik, qisman haqiqat va taxminlashlarga kenglikdan foydalanish" tamoyiliga asoslanadi. ATS tizimlari bloklarida mashinali o'qitish, noravshan mantiq, genetik algoritmlari kabi ko'plab yumshoq hisoblash usullari ishlatiadi (5-rasm, past). Bu usullar bir-birini to'ldirib, bular alohida yoki birgalikda yaxshiroq umumlashtirish natijalarini olishda ishlatiladi [[6.]]. Masalan, "neyro-noravshan" tizim neyron tarmoqlari va noravshan mantiq usullarini birlashtiradi.

ATS axborot qidirish, ma'lumot olish, savollarga javob berish kabi text mining va analitik dasturlarda keng qo'llaniladi. Jumladan, matnlardan algoritmlar va psevdo-kodlarni qidirish tizimini taklif qilingan [[8.]]. Dastlab ilmiy maqolalardan algoritmlarni ajratib olish yo'li bilan ma'lumotlar to'plami (dataset) yaratiladi. Keyin ATS olingan algoritmlarga qo'shimcha matn metama'lumotlarini qo'shish uchun ishlatiladi. Bundan tashqari faktoid bo'lmagan so'rovlarga javob olish uchun matnni umumlashtirish hamda matn, tasvir, audio va videoning asinxron to'plamlari uchun ekstraktiv multimodal umumlashtirish (multi-modal summarization - MMS) tizimlari ham taklif qilishgan. Matnni umumlashtirish bilan nutqni tanib olishni birlashtiradigan og'zaki dialoglar, tibbiy va huquqiy hujjatlar, romanlar, kitoblar, forumlar, bloglar, elektron pochta xabarlari, fikr-mulohazalar kabi turli xil matn janrlari mavjud. Har bir ATS tizimi kirish sifatida bir yoki bir nechta matn janrlarini qo'llab-quvvatlaydi. Shuning uchun ATS tizimlari turli ilovalar uchun ishlatiladi, masalan, yangiliklarni, fikr

mulohazalarni, elektron pochta xabarlarini, predmet soha bo'yicha, Microblog/Tweet, Kitoblar, Hikoya/Romanlarni umumlashtirish.

Mavjud ATS tizimlarining imkoniyatlari chegaralangan bo'lib, bu kelajakdagi tadqiqot yo'nalishlarini taqdim etadi. Ya'ni, mavjud muammolar tadqiqotlar zarur bo'lgan sohalarni aniqlashga yordam beradi. 6-rasmda aTs muammolarining turli toifalari ko'rsatilgan.

Foydalanish

• Muti-hujjat xulosasi

• Foydalanuvchi uchun maxsus xulosa

• Matnni umumlashtirish ilovalari

Kiritish

•Kirish va chiqish formatlari

• Kirish hujjatlarining uzunligi

• Qo'llab-quvvatlanadigan tillar

Usul

•Matnni umumlashtirish usullari

• Statistik va lingvistik alomatlar

• Matnni umumlashtirish uchun chuqur o'rganishdan foydalani

Chiqish

•Umumlashtirish jarayonida to'xtash mezonlari

• Yaratilgan xulosa sifati

• Yaratilgan xulosani baholash

6-rasm. ATS tizimlari uchum mavjud muammolar

Xulosa.

Ushbu maqolada bugungi kunda rivojlanayotgan va doimiy takomillashtirish tadqiqotlarini talab qiluvchi masala bo'lgan matnli hujjatlarni umumlashtirish tizimi tadqiq qilindi. Bu, elektron hujjat aylanish tizimlarida bir turkum va tuzilmaga ega matnli javob hujjatlarni inson ishtirokisiz umumlashtirish masalasida vazifalarning bir yoki asosiy bo'g'ini hisoblanadi. Umumiy holda maqola bo'yicha asosiy xulosalarni quyidagicha keltirish mumkin:

• ATS tizimlarining asosi va uning turli tasniflari bo'ycha tushunchalar berildi.

• ATS yondashuvlari va bu yondashuvlarni qo'llaydigan usullari tadqiq qilindi.

• ATS tizimlarini loyihalash va amalga oshirishda foydalanilgan turli xil tarkibiy bloklar, usullar va umumiy ifodalash taqdim etildi, ya'nu: 1) matnni umumlashtirish operatsiyalari, 2) statistik va lingvistik alomatlar, 3) matnni umumlashtirish tuzilma bloklari (matnni tasvirlash modellari, lingvistik tahlil va qayta ishlash usullar, yumshoq hisoblash).

• ATS uchun kelajakdagi tadqiqot yo'nalishlarining ro'yxati shakllantirildi.

Foydalanilgan adabiyotlar ro'yxati: [1.] A.X.Nishanov, X.B.Kenjayev, Hujjatlardan jadvallarni chiqarib olish masalasi, usullari va dasturiy ta'minotlar tahlili // Digital Transformation and Artificial Intelligence, ISSN: 31288121. Vol 1, No.2. 2023

[2.] Bharti, Drsantosh & Babu, Korra, "Automatic Keyword Extraction for Text Summarization: A Survey", 8 February 2017. https://doi.org/10.48550/arXiv.1704.03242 [3.] E.S.Babajanov, Sh.N.Saidrasulov, X.B.Kenjayev. Algorithm for determining the subject area by formalizing texts in natural Uzbek language // Descendants of Muhammad al-Khwarizmi Scientific-Practical and Information-Analytical Journal. № 2 (24), june 2023. P.54-63

[4.] G.Erkan, D.R.Radev, "Lexrank: graph-based lexical centrality as salience in text

summarization," Journal of Artificial Intelligence Research, 2004, pp. 457-479.

[5.] H.Jing. Using hidden Markov modeling to decompose human-written summaries.

Comput. Linguist., 2002. 28(4), 527543. doi: 10.1162/089120102762671972

[6.] Ibrahim, D. (2016). An Overview of Soft Computing. Procedia Computer Science,

102, 34-38. doi: https://doi.org/10.1016Zj.procs.2016.09.366

[7.] M.Gambhir, & V.Gupta, Recent automatic text summarization techniques: a survey. Artificial Intelligence Review, 2017, 47(1), 1-66. doi: 10.1007/s10462-016-9475-9

[8.] S.Tuarob, S.Bhatia, P.Mitra, & C.L.Giles, AlgorithmSeer: A System for Extracting and Searching for Algorithms in Scholarly Big Data. IEEE Transactions on Big Data, 2016, 2(1), 3-17. doi: 10.1109/TBDATA.2016.2546302

[9.] S.Wang, X.Zhao, B.Li, B.Ge, D.Tang, Integrating Extractive and Abstractive Models for Long Text Summarization. Paper presented at the 2017 IEEE International Congress on Big Data (BigData Congress).

[10.] Wafaa S. El-Kassas, Cherif R. Salama, Ahmed A. Rafea, Hoda K. Mohamed Automatic Text Summarization: A Comprehensive Survey. Expert Systems with Applications. July 2020. 165(4):113679. DOI: 10.1016/j.eswa.2020.113679 [11.] X.B.Kenjayev ,Elektron hujjatlarda jadvallar tuzilishini tanib olish // International Journal of Education, Social Science & Humanities. Finland Academic Research Science Publishers. Vol-11. Issue-7. 2023

[12.] Zhong, Y., Tang, Z., Ding, X., Zhu, L., Le, Y., Li, K., & Li, K. An Improved LDA Multi-document Summarization Model Based on TensorFlow. Paper presented at the 2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI).

J* 6

i Надоели баннеры? Вы всегда можете отключить рекламу.