Научная статья на тему 'ЛОГИЧЕСКАЯ МОДЕЛЬ БАЗЫ ДАННЫХ СИСТЕМЫ СЛОГОВОГО ВЫРАЖЕНИЯ СЛОВ В УЗБЕКСКОМ ЯЗЫКЕ'

ЛОГИЧЕСКАЯ МОДЕЛЬ БАЗЫ ДАННЫХ СИСТЕМЫ СЛОГОВОГО ВЫРАЖЕНИЯ СЛОВ В УЗБЕКСКОМ ЯЗЫКЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
14
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕКСТ / МОДЕЛЬ / БАЗА ДАННЫХ / СЛОВО / СЛОГ / УЗБЕКСКИЙ ЯЗЫК / ЗВУК / РЕЛЯЦИОННАЯ СВЯЗЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Акмурадов Бахтиёр Уралович, Ахмедова Хусния Хусановна

По мере увеличения возможностей вычислительных машин растут и задачи и возможности систем обработки естественного языка и искусственного интеллекта. В данной статье проводились исследования по разработке логической модели необходимой базы данных для выражения слов в узбекском языке через слоги. В частности, сформирована база данных слов и слогов узбекского языка, разработана необходимая модель организации отношений между ними.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

LOGICAL MODEL OF THE DATABASE OF THE SYSTEM OF SYLAL EXPRESSION OF WORDS IN THE UZBEK LANGUAGE

As the capabilities of computers increase, so do the tasks and capabilities of natural language processing and artificial intelligence systems. In this article, research was carried out to develop a logical model of the necessary database for expressing words in the Uzbek language through syllables. In particular, a database of words and syllables of the Uzbek language has been formed, and the necessary model for organizing relations between them has been developed.

Текст научной работы на тему «ЛОГИЧЕСКАЯ МОДЕЛЬ БАЗЫ ДАННЫХ СИСТЕМЫ СЛОГОВОГО ВЫРАЖЕНИЯ СЛОВ В УЗБЕКСКОМ ЯЗЫКЕ»

№ 5 (110)

AunÎ

/Ш. TE)

universum:

ТЕХНИЧЕСКИЕ НАУКИ

май, 2023 г.

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

ЛОГИЧЕСКАЯ МОДЕЛЬ БАЗЫ ДАННЫХ СИСТЕМЫ СЛОГОВОГО ВЫРАЖЕНИЯ СЛОВ

В УЗБЕКСКОМ ЯЗЫКЕ

Акмурадов Бахтиёр Уралович

канд. техн. наук, доц. Ташкентского университета информационных технологий

имени Мухаммада ал-Хоразми, Республика Узбекистан, г. Ташкент E-mail: b. akmuradov@tuit. uz

Ахмедова Хусния Хусановна

ст. преподаватель

Ташкентского университета информационных технологий

имени Мухаммада ал-Хоразми, Республика Узбекистан, г. Ташкент E-mail: h. ahmedova86@mail. ru

LOGICAL MODEL OF THE DATABASE OF THE SYSTEM OF SYLAL EXPRESSION

OF WORDS IN THE UZBEK LANGUAGE

Bakhtiyor Akmuradov

Ph.D, Associate Professor of the Tashkent University of Information Technologies named after Muhammad al-Khwarizmi, Republic of Uzbekistan, Tashkent

Khusniya Akhmedova

Senior Lecturer,

Tashkent University of Information Technologies named after Muhammad al-Khwarizmi, Republic of Uzbekistan, Tashkent

АННОТАЦИЯ

По мере увеличения возможностей вычислительных машин растут и задачи и возможности систем обработки естественного языка и искусственного интеллекта. В данной статье проводились исследования по разработке логической модели необходимой базы данных для выражения слов в узбекском языке через слоги. В частности, сформирована база данных слов и слогов узбекского языка, разработана необходимая модель организации отношений между ними.

ABSTRACT

As the capabilities of computers increase, so do the tasks and capabilities of natural language processing and artificial intelligence systems. In this article, research was carried out to develop a logical model of the necessary database for expressing words in the Uzbek language through syllables. In particular, a database of words and syllables of the Uzbek language has been formed, and the necessary model for organizing relations between them has been developed.

Ключевые слова: текст, модель, база данных, слово, слог, узбекский язык, звук, реляционная связь.

Keywords: text, model, database, word, syllable, Uzbek language, sound, relational connection.

Все разработанные на сегодняшний день механические и электронные средства направлены на автоматизацию выполнения любой задачи в жизни человека и повышение эффективности работы, облегчение и упрощение образа жизни. В частности,

проводится ряд работ по распознаванию и предварительной обработке текстовых данных, синтезу речи. В результате применения исследований на практике были разработаны и используются на практике системы обработки текста и синтеза речи на многих языках.

Библиографическое описание: Акмурадов Б.У., Ахмедова Х.Х. ЛОГИЧЕСКАЯ МОДЕЛЬ БАЗЫ ДАННЫХ СИСТЕМЫ СЛОГОВОГО ВЫРАЖЕНИЯ СЛОВ В УЗБЕКСКОМ ЯЗЫКЕ // Universum: технические науки : электрон. научн. журн. 2023. 5(110). URL: https ://7un iversum. com/ru/tech/archive/item/15510

№ 5 (110)

auni

/Ш. ТЕ)

universum:

ТЕХНИЧЕСКИЕ НАУКИ

май, 2023 г.

Под электронным текстом можно понимать текст, созданный с использованием любого электронного носителя информации, который сочетает в себе черты устной и письменной речи в одном порядке. Было проведено много исследований по изучению и анализу характеристик электронных текстов. В частности, в исследовательской работе Ю.В. Балакина «Электронный текст: принципиально новый тип текста?» дано подробное описание свойств электронного текста, межтекстовых отношений, мультимедийных возможностей, полноты, формата, статуса, функций, особенностей языка, состояния создания и других признаков [1].

В отличие от компьютеров, людям очень легко читать и понимать тексты. С другой стороны, если тексты должны быть проанализированы с помощью программного обеспечения, это сложная задача, требующая сочетания вычислительной лингвистики и статистических методов. В этом случае необходимо использовать современные системы, интеллектуально анализирующие тексты. В научно-исследовательских работах А.М. Ситульского и А.Б. Иванникова по теме «Интеллектуальный анализ текста» подробно рассматривается интеллектуальный анализ [2].

В целом алгоритмы работы любых систем синтеза речи напрямую зависят от формы и характеристик поступающей информации. В тех случаях, когда поступающая информация представлена в виде текста, требуется разработка методов анализа и синтеза системных и лингвистических алгоритмов на основе особенностей текста. Создание средств автоматической обработки электронных текстов, особенно на узбекском языке, станет решением многих проблем

ведения деловой документации и использования современных технологий.

Словарная база узбекского языка

Говоря обо всех словах и терминах, относящихся к какому-либо языку, прежде всего обратитесь к толковому словарю этого языка. В словарь включены слова и словосочетания, широко употребляемые в литературном языке этого периода, термины, относящиеся к областям науки , техники , искусства и культуры, а также исторические и устаревшие слова, относящиеся к некоторым диалектам.

В рамках исследования на основе анализа всех слов толкового словаря узбекского языка была создана электронная словарная база, содержащая более 31 000 слов [ 3 ].

Исследования показывают, что в результате развития современных технологий и глобализации в узбекский язык входят слова и термины из многих других языков. В результате анализа таких слов была создана дополнительная словарная база, содержащая более 7 тысяч слов.

В результате объединения всех слов разработанной электронной словарной базы была создана используемая в узбекском языке электронная словарная база с обобщенной структурой, охватывающая более 38,5 тысяч слов и терминов.

Основными полями создаваемой электронной словарной базы являются поле идентификатора слова - "ГО_So'z", поле идентификатора букв -"ГО_ИагГ', и поля слов и комментариев. На рис. 1 представлена логическая модель электронной базы слов.

Harflar

PK

ID harf

Harf_nomi Izoh

So'zlar

PK

FK1

ID so'z

ID_Harf

So'z Izoh

Рисунок 1. Логическая модель электронной словарной базы

Рассматриваемая словарная база создается на основе реляционной связи таблицы букв и таблицы слов. Учитывая, что все слова в узбекском языке написаны латиницей, уместно сгруппировать все слова по порядку букв латинского алфавита. По этой причине в общую базу [4;5] включена таблица букв .

Слоговая база слов в узбекском языке

Принимая во внимание, что слова в узбекском языке состоят из слогов, можно сделать вывод, что все слова и термины в сформированной электронной базе данных могут быть выражены через слоги. Слова в электронной базе включают односложные, двусложные и многосложные слова. Разделив слова

на слоги по правилам узбекского слогового переноса и проанализировав результаты, можно получить информацию о типах и характеристиках слогов, используемых в узбекском языке, и сформировать общую слоговую базу. В рамках исследования все слова в электронной базе слов были разделены на слоги и проведена работа по организации электронной слоговой базы[ 6 ].

В результате деления и разбора слов на слоги мы можем наблюдать случаи, когда некоторые слоги повторяются несколько раз в разных словах. Можно даже найти случаи, когда число повторений таких слогов превышает тысячу. То есть один слог можно найти более чем в тысяче слов в словарной базе.

№ 5 (110)

A UNI

¿Ж ТЕ)

universum:

ТЕХНИЧЕСКИЕ НАУКИ

май, 2023 г.

Приведем несколько примеров таких соединений в таблице 1:

Таблица 1.

Количество слогов 348 356 255 167 144 100 1 1

Количество повторений 1 2 3 4 5 6 2453 3678

LI

LIK

LA

MOQ

2178

2424

2453

3678

Большинство слогов встречаются только один раз во всей словесной базе. По результатам проведенных исследований количество таких слогов составляет 348. Было замечено, что эти типы слогов входят в состав слов и терминов, заимствованных из иностранных языков. Видно, что одни слоги повторяются 2 раза во всей базе, другие 3, 4, 5 и до больше всего 3678 раз слога 'MOQ". В табл. 2 представлены статистические данные о количестве повторений слогов в словесной основе.

Повторение слогов в базе слов

Таблица 2.

Количество слогов

348

356

255

167

144

100

Количество повторений

2453

3678

1

1

1

2

3

4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6

5

Независимо от того, встречается ли один слог в одном или нескольких словах, на письме он выражается одинаково. Принимая это во внимание, сколько бы раз он ни повторялся в базе слов, его можно считать как один слог[9].

В результате выполнения таких выводов сформирована электронная база данных слогов с общим

количеством более 2800. Организационно слог также представляет собой структуру, состоящую из последовательности одной или нескольких букв.

На рисунке 2 ниже в графическом виде представлены статистические данные о группировке слогов в сформированной слоговой базе по их инициалам.

Количество слогов 250

200

150

100

50 51

0

А В Б Е Б О Н I ткьмкордяБтиухуго' С БН СН Рисунок 2. График группировки слогов в общей базе

Из диаграммы, представленной на этой картинке, можно сделать вывод, что количество слогов в группах слогов, начинающихся с букв "А"," Е", "I", "О", "и", "О" относительно невелико, а количество слогов, начинающихся с букв "В"," К"," S"," Т" самый высокий.

Как было сказано выше, слоги состоят из последовательности одной или нескольких букв, а по результатам исследований слоги могут содержать от 1 до 5 звуков. Существующие соединения можно сгруппировать, как показано в Таблице 3 [7].

Таблица 3.

Группировка слогов по количеству звуков

Количество звуков 1 2 3 4 5

Количество слогов 6 247 1877 г. 646 40

Процент (%) 0,21 8,77 66,65 22,94 1,42

№ 5 (110)

auni

/Ш. ТЕ)

universum:

ТЕХНИЧЕСКИЕ НАУКИ

май, 2023 г.

Результаты проведенного исследования показывают, что более 38 000 слов и терминов в сгенерированной словарной базе могут быть выражены в общей сложности 2816 слоговыми формами.

Рассматриваемая база данных электронных ссылок по структуре состоит из нескольких таблиц,

Bo'g'inlar

PK

FK1

FK2

ID bo'g'in

ID_harf

Bo'g'in_nomi

Izoh

ID uzunlik

которые связаны между собой на основе взаимных реляционных ссылок[ 8 ]. Слоговая база данных в основном состоит из 3 таблиц: слоговой таблицы (Во ^ 'т1аг), таблицы букв (Иаг//аг), и таблицы длин (ииЫЩ. На рис. 3 представлена логическая модель слоговой базы системы.

Harflar

PK

ID harf

Harf_nomi Izoh

Uzunlik

PK

ID uzunlik

Tavsif Izoh

Рисунок 3. Логичес

В данной слоговой базе буквенная таблица обладает свойствами, описанными выше в базе слов, представляя, что все слоги сгруппированы в соответствии с порядком букв латинского алфавита.

Также слоги, сгруппированные по порядку букв алфавита, различаются по количеству содержащихся в них звуков. Согласно анализу базы общеупотребительных слогов существующие слоги в узбекском языке делятся на однозвуковые, двухзвуковые, трех-звуковые, четырехзвуковые и пятизвуковые слоги.

дель слоговой базы

Логическая модель базы данных

Рассматриваемая база слогов по структуре состоит из 4-х таблиц: таблицы слогов (Во 'g'inlar), таблицы слов ^о^1аг), таблицы букв (Иаг//аг), и таблицы длины (иия//&), которые связаны на основе реляционных ссылок. На рис. 4 ниже показана логическая модель базы данных системы слогового выражения слов.

Sozlar

PK ID Soz

FK1 ID_Harf Soz Izoh

Harflar

PK ID Harf

Harf_nomi Izoh

Buginlar

PK ID Bugin

FK1 FK2 Bugin_nomi Izoh ID Uzunlik ID_Harf

Uzunlik

PK ID Uzunlik

Uzunlik_nomi Izoh

Рисунок 4. Логическая модель базы д

В этом случае буквы - R 1 служат для определения названия буквы и имеют следующий вид:

^1[Х1,Х2,Хз] = {Г1[Х1],Г1[Х2],Г1[Хз]|Г1 6 Д1} (1)

здесь, г1[х1]- ГО буквы, г1[х2]- название буквы, 71 [х3]- комментарий.

Слова - R2 служат для формирования информации о словесной базе и имеет следующий вид:

Д2[*1,-,*4] = 6 Д2} (2)

здесь, г2[х1]- ГО слова получен из - г2[х2]ГО буквы и ее значения г1[х1] , г2[х3]- Слово , г2[х4]-комментарий.

системы слогового выражения слов

Слоги - Rз служат для формирования информации о слоговой базе :

Дз[*1.....*з] = {твЫ.....Гз[х5]|гз 6 Д3} (3)

здесь , г3[х1]- ID слога получен из , г3[х2]- ГО буквы и 71 [х1] его значения, г3 [х3]- ID длины и получен из г4[хх] , г3[х4]- имя слога , г3[х5]- комментарий.

Длина - R 4 служит для выражения длины слогов и имеет следующий вид:

Д4 *2,*3] = КЫ^М^М^ 6 Д4} (4)

здесь, 74 [х1]- ID длины, г4 [х2]- название длины, г4 [х3]- комментарий.

№ 5 (110)

a uní

/Ш. ТЕ)

universum:

ТЕХНИЧЕСКИЕ НАУКИ

май, 2023 г.

Отношения между ссылками в базе данных выполняются с помощью запросов на основе функций. Ниже приведена функция обнаружения одного слова:

f(x) =

f(x) = Rl >< R3 >< R4

(Г1(Х1))Г1(Х2)>Г3(Х1)>Г3(Х2)>Г3(Х3))Г3(Х4)> Г^Х^Г*^ )

I TlERl Л Г3 E R3 Л r4e R4Л Tl(Xl)6r3(X2) л Г3(Х3)в r4(Xl)

л r1(x2) = "harf л r3(x4) = "bugin" л r4(x-f) = "uzunlik";

(5)

(6)

Анализируя результаты проведенного исследования, можно сделать вывод, что многие слова могут быть выражены с помощью небольшого количества слогов, используя особенность слогового произношения слов в узбекском языке.

В заключении можно сказать, что разработанная в результате исследования логическая модель позволяет

организовывать большие узбекские тексты с небольшим количеством слогов, а также выявлять ошибки в тексте путем выражения слов по слогам. Созданная база данных и модель могут быть использованы в качестве важного структурного элемента для систем предварительной обработки текста, синтеза речи и распознавания речи.

Список литературы:

1. Ю.В. Балакина "Электронный текст: принципиально новый тип текста?" Вестник Волгоградского государственного университета. 2016. Т. 15. № 3. С. 17-27.

2. А.М. Цитульский, А.В. Иванников, И.С. Рогол "Интеллектульный анализ текста", StudNet 2020. №2 6. С. 476-483.

3. Akmuradov B., Khamdamov U., Mukhiddinov M., Zarmasov E., A novel algorithm for dividing uzbek language words into syllables for concatenative text-to-speech synthesizer //International Journal of Advanced Trends in Computer Science and Engineering. Volume 9, No.4, July-August 2020. -P.4657 -4664

4. Akmuradov B., Khamdamov U., Djurayev O., Mukhamedaminov A. Developing a database of Uzbek language con-catenative speech synthesizer // International Conference on Information Science and Communications Technologies (ICISCT 2021). 4-6 November, Tashkent - 2021. 5 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. https://studfile.net/preview/2553894/page:13/-[Структура электронного документа текстового процессора]

6. Abasxanova, X. Yu. Modeling digital devices with the help of VHDL programming language. Current problems of modern science. International conference. Chicago USA - 2022. -P. 22-24.

7. Elov J., Khamdamov U., Abdullayev A., Narzullayev I., & Sultanov D. (2021, November). Development of a database of higher education process management information system based on the relational model. In 2021 International Conference on Information Science and Communications Technologies (ICISCT) (pp. 01-05).

8. J. Elov, U. Khamdamov, A. Abdullayev, I. Narzullayev and D. Sultanov, "Development of a database of higher education process management information system based on the relational model," International Conference on Information Science and Communications Technologies (ICISCT), Tashkent, Uzbekistan, 2021, pp. 01-05, doi: 10.1109/ICISCT52966.2021.9670349.

9. Khamdamov, U., Mukhiddinov, M., Akmuradov, B., & Zarmasov, E. (2020, November). A Novel Algorithm of Numbers to Text Conversion for Uzbek Language TTS Synthesizer. In 2020 International Conference on Information Science and Communications Technologies (ICISCT) (pp. 1-5).

i Надоели баннеры? Вы всегда можете отключить рекламу.