Научная статья на тему 'ПРИМЕНЕНИЕ БИГРАММ ДЛЯ ОПРЕДЕЛЕНИЯ СВЯЗАННОСТИ ТЕКСТА'

ПРИМЕНЕНИЕ БИГРАММ ДЛЯ ОПРЕДЕЛЕНИЯ СВЯЗАННОСТИ ТЕКСТА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
103
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГАЗЕТНЫЙ КОРПУС / ЯКУТСКИЙ ЯЗЫК / ОБРАБОТКА ТЕКСТА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Леонтьев Н.А., Протопопова В.Ф.

В статье рассмотрен применение биграмм полученных из газетного корпуса якутского языка. Биграммы позволяют показать связь между словами, являются одним из способов анализа текста. Вероятность связанности текста вычисляется с помощью совпадения биграмм с базой данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING BIGRAMMS FOR IDENTIFY OF CONNECTIVITY OF TEXT

The article describes the use of bigramms derived from the corpus of the newspaper of Yakut language. Bigramms allow us to show the connection between the words, it is a way of analysis of the text. Probability text coherence is calculated using bigramms match with the database.

Текст научной работы на тему «ПРИМЕНЕНИЕ БИГРАММ ДЛЯ ОПРЕДЕЛЕНИЯ СВЯЗАННОСТИ ТЕКСТА»

Технические науки

УДК 004.912

ПРИМЕНЕНИЕ БИГРАММ ДЛЯ ОПРЕДЕЛЕНИЯ СВЯЗАННОСТИ ТЕКСТА

Н.А. Леонтьев1, В.Ф. Протопопова2

Аннотация

В статье рассмотрен применение биграмм полученных из газетного корпуса якутского языка. Биграммы позволяют показать связь между словами, являются одним из способов анализа текста. Вероятность связанности текста вычисляется с помощью совпадения биграмм с базой данных.

Ключевые слова: биграммы, газетный корпус, якутский язык, обработка текста.

При обработке текстовых документов имеется проблема определения типа текста: текстовый документ, список, набор слов. Для упрощенного анализа текста предлагается использовать биграммы, полученные из машинного корпуса.

Корпусная лингвистика исследует различные свойства естественного языка, в том числе и с помощью машинного корпуса. Машинные корпуса создаются из набора текстов для компьютерной обработки естественного языка. Развитие корпусной лингвистики идет с шестидесятых годов прошлого века, особенно сильно развиты распространенные языки, в том числе английский, русский. В нашей стране созданы машинные корпуса различных языков народов России, например тувинского языка [1, с. 408-409], башкирского языка [2, с. 232-236], татарского и других различных языков, в том числе и диалектов.

Существует машинный корпус якутского языка [3, с. 233-235], который создается в рамках проекта по развитию компьютерных методов обработки якутского языка. В его рамках были исследованы частотные свойства языка [4, с. 57-60, 5, 83-86], создан программный определитель языка [6, с. 45-50], а также проводятся работы по автоматизированному морфологическому анализатору.

Говоря простыми словами, биграмма - это пара стоящих рядом слов. При программной обработке корпуса были получены биграммы и вычислена частота употребления. Всего получено более 3,5 млн. биграмм. Частотные свойства биграмм рассмотрены в работе [7], там же приведен список наиболее часто употребляемых биграмм в якутском языке. Обычно биграммы используются для снятия неоднозначностей, поиска устойчивых словосочетаний и для обработки текста. Биграммы полученные из газетного корпуса были собраны в базе данных MySQL, со следующими полями: биграмма, частота употребления. Тип данных полей соответствует varchar, длиной 200 байт, и числовой целочисленный тип int.

Для поиска биграмм необходимо просканировать текст, найти все би-граммы и сравнить с базой данных. Для подтверждения данного предположения был сделан вычислительный эксперимент, для которого был собран материал в количестве 100 статьей, из различных источников, в том числе Интернет-газет, википедии на якутском языке (адрес URL: https://sah.wikipedia.org/wiki/). Содержимое газетных статей в основном новостные, содержимое статей из википедии самое различное, в том числе биографии, описание животных, описание населенных пунктов и стран, описание терминов и организаций.

1Леонтьев Ньургун Анатольевич - кандидат технических наук, Северо-Восточный федеральный университет им. М.К. Аммосова, Россия.

2Протопопова Валентина Федоровна - студент, Северо-Восточный федеральный университет им. М.К. Аммосова, Россия.

Технические науки

Рис. 1. График вероятности связи для газетных статей

Рис. 2. График вероятности связи для статей из википедии

Результаты: Среднее значение вероятности равно 65% для газетных публикаций (рис. 1) и среднее значение 54% для статей из википедии на якутском языке (рис. 2). Разброс точности вероятности составляет для газетных публикаций около 10% с выбросами до 20%. Для публикаций из википедии разброс составляет около 15% с выбросами в среднем до 35%.

Биографии, географические описания других стран и регионов, тексты, написанные в древнем стиле, тексты, относящие к областям науки (география, биология) снижают точность определения, также отрицательное влияние на точность оказывают грамматические опечатки и аббревиатуры. Все это исходить из-за того, что машинный корпус имеется в качестве источника газетные статьи.

Для определения числовых переменных необходимо использовать замену чисел на переменную _ЫишЬег, что дает возможность отслеживать биграммы с постоянной основой, например, даты.

Проблема определения имен собственных решается только расширением словаря и возможно их заменой на тип имен собственных, что позволить анализировать биграммы, связанные с собственными именами.

Метод определения связанности текста может быть полезен для компьютерной обработки документов и для возможной классификации.

Список литературы:

1. Салчак А.Я., Байыроол А.В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образования - №6 - 2013- с.408-409

2. Сиразитдинов З.А., Полянин А.И. О состоянии корпусных разработок башкирского языка // Актуальные проблемы диалектологии языков народов России - 2013 - с.232-236

3. Leontiev N.A. The newspaper corpus of the yakut language // Proceeding of the International Conference "Turkic Languages Prosessing: TurkLang-2015"- 2015 -p.233-235

4. Леонтьев Н.А. Частотный словарь якутского языка по материалам газетного корпуса // Язык и культура. Новосибирск - 2014 - №13 - с.57-60

5. Леонтьев Н.А. Частоты употребления букв якутского языка в газетном корпусе // Современные научные исследования и инновации. - 2014. - №7 (39). - с. 8386.

6. Леонтьев Н.А., Слепцов И.А. Идентификация текстового документа с помощью триграмм на материалах якутского языка // Вестник Северо-Восточного федерального университета им. М.К. Аммосова - 2015 - №4 (48)- с.45-50

7. Леонтьев Н.А., Протопопова В.Ф. Исследование частотных свойств биграмм якутского языка в газетном корпусе // Nauka-rastudent.ru - 2016 - №01 (25) / [Электронный ресурс] - Режим доступа - URL: http://nauka-rastudent.ru/25/3150/

© Н.А. Леонтьев, В.Ф. Протопопова, 2016

UDC 004.912

USING BIGRAMMS FOR IDENTIFY OF CONNECTIVITY OF TEXT

N.A. Leontiev, V.F. Protopopova

Abstract. The article describes the use of bigramms derived from the corpus of the newspaper of Yakut language. Bigramms allow us to show the connection between the words, it is a way of analysis of the text. Probability text coherence is calculated using bigramms match with the database.

Keywords: bigramms, newspaper corpus, Yakut language, text processing.

© N.A. Leontiev, V.F. Protopopova, 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.