№ 5 (110)
AunÎ
/Ш. TE)
universum:
ТЕХНИЧЕСКИЕ НАУКИ
май, 2023 г.
ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
ЛОГИЧЕСКАЯ МОДЕЛЬ БАЗЫ ДАННЫХ СИСТЕМЫ СЛОГОВОГО ВЫРАЖЕНИЯ СЛОВ
В УЗБЕКСКОМ ЯЗЫКЕ
Акмурадов Бахтиёр Уралович
канд. техн. наук, доц. Ташкентского университета информационных технологий
имени Мухаммада ал-Хоразми, Республика Узбекистан, г. Ташкент E-mail: b. akmuradov@tuit. uz
Ахмедова Хусния Хусановна
ст. преподаватель
Ташкентского университета информационных технологий
имени Мухаммада ал-Хоразми, Республика Узбекистан, г. Ташкент E-mail: h. ahmedova86@mail. ru
LOGICAL MODEL OF THE DATABASE OF THE SYSTEM OF SYLAL EXPRESSION
OF WORDS IN THE UZBEK LANGUAGE
Bakhtiyor Akmuradov
Ph.D, Associate Professor of the Tashkent University of Information Technologies named after Muhammad al-Khwarizmi, Republic of Uzbekistan, Tashkent
Khusniya Akhmedova
Senior Lecturer,
Tashkent University of Information Technologies named after Muhammad al-Khwarizmi, Republic of Uzbekistan, Tashkent
АННОТАЦИЯ
По мере увеличения возможностей вычислительных машин растут и задачи и возможности систем обработки естественного языка и искусственного интеллекта. В данной статье проводились исследования по разработке логической модели необходимой базы данных для выражения слов в узбекском языке через слоги. В частности, сформирована база данных слов и слогов узбекского языка, разработана необходимая модель организации отношений между ними.
ABSTRACT
As the capabilities of computers increase, so do the tasks and capabilities of natural language processing and artificial intelligence systems. In this article, research was carried out to develop a logical model of the necessary database for expressing words in the Uzbek language through syllables. In particular, a database of words and syllables of the Uzbek language has been formed, and the necessary model for organizing relations between them has been developed.
Ключевые слова: текст, модель, база данных, слово, слог, узбекский язык, звук, реляционная связь.
Keywords: text, model, database, word, syllable, Uzbek language, sound, relational connection.
Все разработанные на сегодняшний день механические и электронные средства направлены на автоматизацию выполнения любой задачи в жизни человека и повышение эффективности работы, облегчение и упрощение образа жизни. В частности,
проводится ряд работ по распознаванию и предварительной обработке текстовых данных, синтезу речи. В результате применения исследований на практике были разработаны и используются на практике системы обработки текста и синтеза речи на многих языках.
Библиографическое описание: Акмурадов Б.У., Ахмедова Х.Х. ЛОГИЧЕСКАЯ МОДЕЛЬ БАЗЫ ДАННЫХ СИСТЕМЫ СЛОГОВОГО ВЫРАЖЕНИЯ СЛОВ В УЗБЕКСКОМ ЯЗЫКЕ // Universum: технические науки : электрон. научн. журн. 2023. 5(110). URL: https ://7un iversum. com/ru/tech/archive/item/15510
№ 5 (110)
auni
/Ш. ТЕ)
universum:
ТЕХНИЧЕСКИЕ НАУКИ
май, 2023 г.
Под электронным текстом можно понимать текст, созданный с использованием любого электронного носителя информации, который сочетает в себе черты устной и письменной речи в одном порядке. Было проведено много исследований по изучению и анализу характеристик электронных текстов. В частности, в исследовательской работе Ю.В. Балакина «Электронный текст: принципиально новый тип текста?» дано подробное описание свойств электронного текста, межтекстовых отношений, мультимедийных возможностей, полноты, формата, статуса, функций, особенностей языка, состояния создания и других признаков [1].
В отличие от компьютеров, людям очень легко читать и понимать тексты. С другой стороны, если тексты должны быть проанализированы с помощью программного обеспечения, это сложная задача, требующая сочетания вычислительной лингвистики и статистических методов. В этом случае необходимо использовать современные системы, интеллектуально анализирующие тексты. В научно-исследовательских работах А.М. Ситульского и А.Б. Иванникова по теме «Интеллектуальный анализ текста» подробно рассматривается интеллектуальный анализ [2].
В целом алгоритмы работы любых систем синтеза речи напрямую зависят от формы и характеристик поступающей информации. В тех случаях, когда поступающая информация представлена в виде текста, требуется разработка методов анализа и синтеза системных и лингвистических алгоритмов на основе особенностей текста. Создание средств автоматической обработки электронных текстов, особенно на узбекском языке, станет решением многих проблем
ведения деловой документации и использования современных технологий.
Словарная база узбекского языка
Говоря обо всех словах и терминах, относящихся к какому-либо языку, прежде всего обратитесь к толковому словарю этого языка. В словарь включены слова и словосочетания, широко употребляемые в литературном языке этого периода, термины, относящиеся к областям науки , техники , искусства и культуры, а также исторические и устаревшие слова, относящиеся к некоторым диалектам.
В рамках исследования на основе анализа всех слов толкового словаря узбекского языка была создана электронная словарная база, содержащая более 31 000 слов [ 3 ].
Исследования показывают, что в результате развития современных технологий и глобализации в узбекский язык входят слова и термины из многих других языков. В результате анализа таких слов была создана дополнительная словарная база, содержащая более 7 тысяч слов.
В результате объединения всех слов разработанной электронной словарной базы была создана используемая в узбекском языке электронная словарная база с обобщенной структурой, охватывающая более 38,5 тысяч слов и терминов.
Основными полями создаваемой электронной словарной базы являются поле идентификатора слова - "ГО_So'z", поле идентификатора букв -"ГО_ИагГ', и поля слов и комментариев. На рис. 1 представлена логическая модель электронной базы слов.
Harflar
PK
ID harf
Harf_nomi Izoh
So'zlar
PK
FK1
ID so'z
ID_Harf
So'z Izoh
Рисунок 1. Логическая модель электронной словарной базы
Рассматриваемая словарная база создается на основе реляционной связи таблицы букв и таблицы слов. Учитывая, что все слова в узбекском языке написаны латиницей, уместно сгруппировать все слова по порядку букв латинского алфавита. По этой причине в общую базу [4;5] включена таблица букв .
Слоговая база слов в узбекском языке
Принимая во внимание, что слова в узбекском языке состоят из слогов, можно сделать вывод, что все слова и термины в сформированной электронной базе данных могут быть выражены через слоги. Слова в электронной базе включают односложные, двусложные и многосложные слова. Разделив слова
на слоги по правилам узбекского слогового переноса и проанализировав результаты, можно получить информацию о типах и характеристиках слогов, используемых в узбекском языке, и сформировать общую слоговую базу. В рамках исследования все слова в электронной базе слов были разделены на слоги и проведена работа по организации электронной слоговой базы[ 6 ].
В результате деления и разбора слов на слоги мы можем наблюдать случаи, когда некоторые слоги повторяются несколько раз в разных словах. Можно даже найти случаи, когда число повторений таких слогов превышает тысячу. То есть один слог можно найти более чем в тысяче слов в словарной базе.
№ 5 (110)
A UNI
¿Ж ТЕ)
universum:
ТЕХНИЧЕСКИЕ НАУКИ
май, 2023 г.
Приведем несколько примеров таких соединений в таблице 1:
Таблица 1.
Количество слогов 348 356 255 167 144 100 1 1
Количество повторений 1 2 3 4 5 6 2453 3678
LI
LIK
LA
MOQ
2178
2424
2453
3678
Большинство слогов встречаются только один раз во всей словесной базе. По результатам проведенных исследований количество таких слогов составляет 348. Было замечено, что эти типы слогов входят в состав слов и терминов, заимствованных из иностранных языков. Видно, что одни слоги повторяются 2 раза во всей базе, другие 3, 4, 5 и до больше всего 3678 раз слога 'MOQ". В табл. 2 представлены статистические данные о количестве повторений слогов в словесной основе.
Повторение слогов в базе слов
Таблица 2.
Количество слогов
348
356
255
167
144
100
Количество повторений
2453
3678
1
1
1
2
3
4
6
5
Независимо от того, встречается ли один слог в одном или нескольких словах, на письме он выражается одинаково. Принимая это во внимание, сколько бы раз он ни повторялся в базе слов, его можно считать как один слог[9].
В результате выполнения таких выводов сформирована электронная база данных слогов с общим
количеством более 2800. Организационно слог также представляет собой структуру, состоящую из последовательности одной или нескольких букв.
На рисунке 2 ниже в графическом виде представлены статистические данные о группировке слогов в сформированной слоговой базе по их инициалам.
Количество слогов 250
200
150
100
50 51
0
А В Б Е Б О Н I ткьмкордяБтиухуго' С БН СН Рисунок 2. График группировки слогов в общей базе
Из диаграммы, представленной на этой картинке, можно сделать вывод, что количество слогов в группах слогов, начинающихся с букв "А"," Е", "I", "О", "и", "О" относительно невелико, а количество слогов, начинающихся с букв "В"," К"," S"," Т" самый высокий.
Как было сказано выше, слоги состоят из последовательности одной или нескольких букв, а по результатам исследований слоги могут содержать от 1 до 5 звуков. Существующие соединения можно сгруппировать, как показано в Таблице 3 [7].
Таблица 3.
Группировка слогов по количеству звуков
Количество звуков 1 2 3 4 5
Количество слогов 6 247 1877 г. 646 40
Процент (%) 0,21 8,77 66,65 22,94 1,42
№ 5 (110)
auni
/Ш. ТЕ)
universum:
ТЕХНИЧЕСКИЕ НАУКИ
май, 2023 г.
Результаты проведенного исследования показывают, что более 38 000 слов и терминов в сгенерированной словарной базе могут быть выражены в общей сложности 2816 слоговыми формами.
Рассматриваемая база данных электронных ссылок по структуре состоит из нескольких таблиц,
Bo'g'inlar
PK
FK1
FK2
ID bo'g'in
ID_harf
Bo'g'in_nomi
Izoh
ID uzunlik
которые связаны между собой на основе взаимных реляционных ссылок[ 8 ]. Слоговая база данных в основном состоит из 3 таблиц: слоговой таблицы (Во ^ 'т1аг), таблицы букв (Иаг//аг), и таблицы длин (ииЫЩ. На рис. 3 представлена логическая модель слоговой базы системы.
Harflar
PK
ID harf
Harf_nomi Izoh
Uzunlik
PK
ID uzunlik
Tavsif Izoh
Рисунок 3. Логичес
В данной слоговой базе буквенная таблица обладает свойствами, описанными выше в базе слов, представляя, что все слоги сгруппированы в соответствии с порядком букв латинского алфавита.
Также слоги, сгруппированные по порядку букв алфавита, различаются по количеству содержащихся в них звуков. Согласно анализу базы общеупотребительных слогов существующие слоги в узбекском языке делятся на однозвуковые, двухзвуковые, трех-звуковые, четырехзвуковые и пятизвуковые слоги.
дель слоговой базы
Логическая модель базы данных
Рассматриваемая база слогов по структуре состоит из 4-х таблиц: таблицы слогов (Во 'g'inlar), таблицы слов ^о^1аг), таблицы букв (Иаг//аг), и таблицы длины (иия//&), которые связаны на основе реляционных ссылок. На рис. 4 ниже показана логическая модель базы данных системы слогового выражения слов.
Sozlar
PK ID Soz
FK1 ID_Harf Soz Izoh
Harflar
PK ID Harf
Harf_nomi Izoh
Buginlar
PK ID Bugin
FK1 FK2 Bugin_nomi Izoh ID Uzunlik ID_Harf
Uzunlik
PK ID Uzunlik
Uzunlik_nomi Izoh
Рисунок 4. Логическая модель базы д
В этом случае буквы - R 1 служат для определения названия буквы и имеют следующий вид:
^1[Х1,Х2,Хз] = {Г1[Х1],Г1[Х2],Г1[Хз]|Г1 6 Д1} (1)
здесь, г1[х1]- ГО буквы, г1[х2]- название буквы, 71 [х3]- комментарий.
Слова - R2 служат для формирования информации о словесной базе и имеет следующий вид:
Д2[*1,-,*4] = 6 Д2} (2)
здесь, г2[х1]- ГО слова получен из - г2[х2]ГО буквы и ее значения г1[х1] , г2[х3]- Слово , г2[х4]-комментарий.
системы слогового выражения слов
Слоги - Rз служат для формирования информации о слоговой базе :
Дз[*1.....*з] = {твЫ.....Гз[х5]|гз 6 Д3} (3)
здесь , г3[х1]- ID слога получен из , г3[х2]- ГО буквы и 71 [х1] его значения, г3 [х3]- ID длины и получен из г4[хх] , г3[х4]- имя слога , г3[х5]- комментарий.
Длина - R 4 служит для выражения длины слогов и имеет следующий вид:
Д4 *2,*3] = КЫ^М^М^ 6 Д4} (4)
здесь, 74 [х1]- ID длины, г4 [х2]- название длины, г4 [х3]- комментарий.
№ 5 (110)
a uní
/Ш. ТЕ)
universum:
ТЕХНИЧЕСКИЕ НАУКИ
май, 2023 г.
Отношения между ссылками в базе данных выполняются с помощью запросов на основе функций. Ниже приведена функция обнаружения одного слова:
f(x) =
f(x) = Rl >< R3 >< R4
(Г1(Х1))Г1(Х2)>Г3(Х1)>Г3(Х2)>Г3(Х3))Г3(Х4)> Г^Х^Г*^ )
I TlERl Л Г3 E R3 Л r4e R4Л Tl(Xl)6r3(X2) л Г3(Х3)в r4(Xl)
л r1(x2) = "harf л r3(x4) = "bugin" л r4(x-f) = "uzunlik";
(5)
(6)
Анализируя результаты проведенного исследования, можно сделать вывод, что многие слова могут быть выражены с помощью небольшого количества слогов, используя особенность слогового произношения слов в узбекском языке.
В заключении можно сказать, что разработанная в результате исследования логическая модель позволяет
организовывать большие узбекские тексты с небольшим количеством слогов, а также выявлять ошибки в тексте путем выражения слов по слогам. Созданная база данных и модель могут быть использованы в качестве важного структурного элемента для систем предварительной обработки текста, синтеза речи и распознавания речи.
Список литературы:
1. Ю.В. Балакина "Электронный текст: принципиально новый тип текста?" Вестник Волгоградского государственного университета. 2016. Т. 15. № 3. С. 17-27.
2. А.М. Цитульский, А.В. Иванников, И.С. Рогол "Интеллектульный анализ текста", StudNet 2020. №2 6. С. 476-483.
3. Akmuradov B., Khamdamov U., Mukhiddinov M., Zarmasov E., A novel algorithm for dividing uzbek language words into syllables for concatenative text-to-speech synthesizer //International Journal of Advanced Trends in Computer Science and Engineering. Volume 9, No.4, July-August 2020. -P.4657 -4664
4. Akmuradov B., Khamdamov U., Djurayev O., Mukhamedaminov A. Developing a database of Uzbek language con-catenative speech synthesizer // International Conference on Information Science and Communications Technologies (ICISCT 2021). 4-6 November, Tashkent - 2021. 5 p.
5. https://studfile.net/preview/2553894/page:13/-[Структура электронного документа текстового процессора]
6. Abasxanova, X. Yu. Modeling digital devices with the help of VHDL programming language. Current problems of modern science. International conference. Chicago USA - 2022. -P. 22-24.
7. Elov J., Khamdamov U., Abdullayev A., Narzullayev I., & Sultanov D. (2021, November). Development of a database of higher education process management information system based on the relational model. In 2021 International Conference on Information Science and Communications Technologies (ICISCT) (pp. 01-05).
8. J. Elov, U. Khamdamov, A. Abdullayev, I. Narzullayev and D. Sultanov, "Development of a database of higher education process management information system based on the relational model," International Conference on Information Science and Communications Technologies (ICISCT), Tashkent, Uzbekistan, 2021, pp. 01-05, doi: 10.1109/ICISCT52966.2021.9670349.
9. Khamdamov, U., Mukhiddinov, M., Akmuradov, B., & Zarmasov, E. (2020, November). A Novel Algorithm of Numbers to Text Conversion for Uzbek Language TTS Synthesizer. In 2020 International Conference on Information Science and Communications Technologies (ICISCT) (pp. 1-5).