Научная статья на тему 'Идентификация текстового документа с помощью триграмм на материалах якутского языка'

Идентификация текстового документа с помощью триграмм на материалах якутского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
402
90
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТРИГРАММЫ / БАЗА ТРИГРАММ / МЕТОД N-ГРАММ / КОДИРОВКА UTF-8 / ТРАНСКРИПЦИОННАЯ ЗАПИСЬ / ИДЕНТИФИКАЦИЯ ЯЗЫКА / ТОЧНОСТЬ ИДЕНТИФИКАЦИИ / АЛГОРИТМ ИДЕНТИФИКАЦИИ / ТЕКСТОВЫЙ ДОКУМЕНТ / ИНТЕРНЕТ-ГАЗЕТА

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Леонтьев Ньургун Анатольевич, Слепцов Иннокентий Алексеевич

В данной статье рассматривается вопрос идентификации якутского языка для текстового документа. Идентификация языка текстового документа производится с помощью метода триграмм, который является частным случаем метода N-грамм. Применяется база данных триграмм на основе газетного корпуса якутского языка. Разработана программа для автоматической идентификации текста в кодировке UTF-8 стандарта Unicode. Для проверки точности идентификации языка был собран материал из сайтов республиканских газет «Кыым», «Саха Сирэ» и «Аартык.ру» на якутском языке и из интернет-газеты «Sakhalife.ru» на русском языке с небольшим содержанием статей на якутском языке. Общий объем обработанных материалов составил более 100 тыс. газетных статей на русском и якутском языках. Получены графики зависимости точности вероятности идентификации с помощью триграмм от длины сообщения для текстов на якутском и русском языках. Определены причины отклонения вероятности идентификации от значения определения языка. Рассмотрены документы, имеющие транскрипционную запись графических аналогов якутских национальных символов. Выявлены документы, имеющие ошибки в кодировке якутских национальных символов. Метод триграмм показал устойчивость к незначительным транскрипционным ошибкам и позволил определить также документы со смешанным языковым составом.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Identification of Text Document with Trigrams as a Case Study of Yakut Language

The article describes the issue of identification of the Yakut language for text documents. Identification of the language of a text document produced by the method of trigrams, which is a special case of the method of N-grams. Database is used trigrams based on the corpus of the Yakut language newspapers. A program for automatical identification of text in UTF-8 encoding Unicode standard is developed. For the verification of the accuracy of the language identification there was collected material from the websites of national newspapers «Kyym», «Sakha Sire» and «Aartyk.ru» in the Yakut language and from the Internet-newspaper «Sakhalife.ru» in Russian with a small amount of articles in the Yakut language. The total volume of processed materials amounted more than 100 thousand articles in the Russian and Yakut languages. Trigrams helped to obtain dependency graphs of accuracy of the identification probability on the length of the message for the Yakut and Russian texts. Authors determined the rejection reason of identification probability from identifying the language definition. The documents with transcriptional record made by graphic analogues of the Yakut national symbols were considered. Documents that have errors in the coding of the Yakut national symbols were revealed. Trigrams method showed resistance to minor transcription errors and allowed us to determine the documents with mixed language structure.

Текст научной работы на тему «Идентификация текстового документа с помощью триграмм на материалах якутского языка»

УДК 519.711.3(571.56) Н. А. Леонтьев, И. А. Слепцов

ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО ДОКУМЕНТА С ПОМОЩЬЮ ТРИГРАММ НА МАТЕРИАЛАХ ЯКУТСКОГО ЯЗЫКА

В данной статье рассматривается вопрос идентификации якутского языка для текстового документа. Идентификация языка текстового документа производится с помощью метода триграмм, который является частным случаем метода N-грамм. Применяется база данных триграмм на основе газетного корпуса якутского языка. Разработана программа для автоматической идентификации текста в кодировке UTF-8 стандарта Unicode. Для проверки точности идентификации языка был собран материал из сайтов республиканских газет «Кыым», «Саха Сирэ» и «Аартык.ру» на якутском языке и из интернет-газеты «Sakhalife.ru» на русском языке с небольшим содержанием статей на якутском языке. Общий объем обработанных материалов составил более 100 тыс. газетных статей на русском и якутском языках. Получены графики зависимости точности вероятности идентификации с помощью триграмм от длины сообщения для текстов на якутском и русском языках. Определены причины отклонения вероятности идентификации от значения определения языка. Рассмотрены документы, имеющие транскрипционную запись графических аналогов якутских национальных символов. Выявлены документы, имеющие ошибки в кодировке якутских национальных символов. Метод триграмм показал устойчивость к незначительным транскрипционным ошибкам и позволил определить также документы со смешанным языковым составом.

Ключевые слова: триграммы, база триграмм, метод N-грамм, кодировка UTF-8, транскрипционная запись, идентификация языка, точность идентификации, алгоритм идентификации, текстовый документ, интернет-газета.

N. A. Leontiev, I. A. Sleptsov

Identification of Text Document with Trigrams as a Case Study of Yakut Language

The article describes the issue of identification of the Yakut language for text documents. Identification of the language of a text document produced by the method of trigrams, which is a special case of the method of N-grams. Database is used trigrams based on the corpus of the Yakut language newspapers. A program for automatical identification of text in UTF-8 encoding Unicode standard is developed. For the verification of the accuracy of the language identification there was collected material from the websites of national newspapers «Kyym», «Sakha Sire» and «Aartyk.ru» in the Yakut language and from the Internet-newspaper

ЛЕОНТЬЕВ Ньургун Анатольевич - к. т. н., доц. каф. радиотехники и информационных технологий ФТИ СВФУ им. М. К. Аммосова.

E-mai: [email protected]

LEONTIEV Nuyrgun Anatolievich - Candidate of Technical Sciences, Associate Professor of the Department of Radio-Engineering and Information Technology, Institute of Physics and Technologies, NorthEastern Federal University named after M. K. Ammosov.

E-mai: [email protected]

СЛЕПЦОВ Иннокентий Алексеевич - аспирант каф. радиофизики и электроники ФТИ СВФУ им. М. К. Аммосова.

E-mail: [email protected]

SLEPTSOV Innokentiy Alexeyevich - Postgraduate of the Department of Radiophysics and Electronic, Institute of Physics and Technologies, North-Eastern Federal University named after M. K. Ammosov.

E-mail: [email protected]

«Sakhalife.ru» in Russian with a small amount of articles in the Yakut language. The total volume of processed materials amounted more than 100 thousand articles in the Russian and Yakut languages. Trigrams helped to obtain dependency graphs of accuracy of the identification probability on the length of the message for the Yakut and Russian texts. Authors determined the rejection reason of identification probability from identifying the language definition. The documents with transcriptional record made by graphic analogues of the Yakut national symbols were considered. Documents that have errors in the coding of the Yakut national symbols were revealed. Trigrams method showed resistance to minor transcription errors and allowed us to determine the documents with mixed language structure.

Keywords: trigrams, base of trigrams, N-gram method, coding UTF-8, transcriptional record, language identification, identification accuracy, algorithm of identification, a text document, Internet newspaper.

Введение

До развития компьютерных методов идентификации языков существовали справочники - определители языков, по которым можно было определить язык, по таким данным, как графическое представление национальных символов и с помощью примера текста [1]. Развитие компьютерных методов идентификации языка позволило внедрить технологию распознавания в системе синтеза речи, распознавания речи, обработки веб- и мультиязычных документов [2]. Компьютерная идентификация документов на якутском языке становится весьма актуальным и востребованным, так как для автоматической обработки документов необходимо точно определить язык документа. В данное время отсутствуют средства и программы, позволяющие сделать корректную и быструю идентификацию документа на якутском языке.

Метод идентификации

Существуют разные методы и алгоритмы идентификации языка в текстовом документе, например, метод словаря, метод опорных векторов [3], метод нейронной сети, метод N-грамм [4-6]. Все эти методы позволяют идентифицировать язык с какой-то вероятностью, которая будет варьироваться от их точности. Так же разрабатываются методы идентификации языка и диктора по коротким сообщениям [7-8], текстов, написанных с помощью другой письменности [9]. Ведутся количественные оценки факторов, влияющих на точность идентификации [10], а также методов идентификации языка при обработке мультиязычных документов [11].

Для якутского языка были разработаны методы идентификации в текстовом документе с помощью метода словаря [12], с помощью большого словаря словоформ из языкового корпуса [13], с помощью биграмм [14]. Данные методы отличаются по точности идентификации, по размерам словаря, по скорости обработки.

Применение метода триграмм должно повысить точность и скорость идентификации якутского языка в документах, что позволит обработать большой объем документов (весьма критично в системах поиска и индексации документов).

Национальный газетный корпус якутского языка был создан в рамках проекта автоматизации обработки якутского языка. Корпус содержит более 1 миллиона словоформ, из которых был получен словарь словоформ объемом более 100 тыс. словоупотреблений [15]. На основе словаря была создана база триграмм с учетом особенностей якутского языка. Выбор базы триграмм был сделан с учетом особенностей якутского языка, с удалением заимствованных из русского языка букв [16].

База триграмм состоит из 4669 триграмм, для идентификации языка используются 3267 триграмм, имеющих более высокую вероятность употребления в тексте.

Результаты идентификации

Для проверки корректности метода триграмм была использована база данных газетных публикаций на якутском языке объемом 22330 статей из веб-сайтов следующих республиканских газет на якутском языке: «Кыым» (2006-2014 гг.), «Аартык.ру» (2011-2014 гг.), «Саха Сирэ» (2006-2014 гг.). Среди данных статей встречаются тексты на русском языке и тексты с включениями на русском языке.

Авторами создана программа на языке PHP с использованием библиотеки Multibyte Strings Function, с помощью которых производится расчет вероятности идентификации текста с помощью триграмм. Текстовые документы хранятся в базе данных MySQL в кодировке UTF8.

На веб-сайтах встречаются тексты с ошибками в кодировке национальных букв якутского языка, вероятность идентификации на таких текстах падает до 40-50 %. Вероятность идентификации также уменьшается на текстах с большим объемом имен собственных, которые обычно пишутся на русском языке, например, результаты и списки спортивных поединков, списки фамилий и стран.

На рис. 1 приведен график распределения зависимости вероятности идентификации от размера текстового документа. Как видно из графика, при большом размере текстового документа от 2 тысяч слов расхождения вероятности идентификации языка становится большим (более 30 %), что гарантирует точность определения языка документа. При малом размере документов вероятность идентификации языка начинает плавать, более плотная вероятность определения находится в области 70-95 %.

Документы со смешанным языковым составом имеют распределение вероятности идентификации от 30 до 50 %.

Для поиска текстов на якутском языке среди большого количества документов на другом языке был проанализирован новостной сайт Sakhalife.ru. Новостной сайт Sakhalife.ru является русскоязычной интернет-газетой с вкраплениями новостных текстов на якутском языке. Было обработано 82598 статей, где программным способом проведена проверка на принадлежность к якутскому языку. Установлено, что 341 статья на сайте написана на якутском языке, несколько десятков статей имеют большой процент якутских слов (в основном названия наслегов и населенных пунктов).

В ходе исследования выяснилось, что вероятность идентификации якутского языка может варьироваться в широких пределах в зависимости от характера текста.

Малую вероятность идентификации (до 20 %) имеют тексты на якутском языке, но с большим объемом русских слов, например, список призов в лотерее. В таком тексте первый абзац написан на якутском языке, а список призов - на русском языке. Такой же малой вероятностью идентификации отличается текст с перечнем большого списка фамилий и стран борцов вольного стиля.

Рис. 1. Зависимость вероятности идентификации от размера текста для сайтов на якутском языке

п _ * ■ ' _

и т-1-1-1-1-1

О 1000 2000 ЗООО 4000 500С

Рис. 2. Зависимость вероятности идентификации от размера текста для сайта на русском языке

К смешанным статьям относятся статьи, где первый абзац на якутском языке, а дальше приводится текст на русском языке. Также к смешанным статьям относятся статьи, где приводится список специальностей учебных заведений на русском языке. Имеются статьи с вставками на якутском и русском языках, цитатами и различными выражениями.

Тексты на якутском языке, имеющие большой объем фамилий и названий, могут быть отнесены к текстам на русском языке из-за преобладаний имен собственных на русском языке.

Таким образом, для документов на смешанных языках вероятность идентификации якутского языка является низким и отсутствует возможность точно идентифицировать язык документа.

Другой причиной низкой вероятности идентификации может служить большое количество ошибок в тексте. К примеру, текстовые документы на якутском языке, имеющие ошибки в кодировке национальных символов, имеют малую вероятность идентификации (от 20 до 40 %). Это связано с тем, что национальные символы прописываются символами, имеющими совсем другой код, что не позволяет отнести их к символам якутского и кириллического алфавита.

Тексты, написанные в транскрипции, могут иметь вероятность идентификации до 70 %. К таким относятся тексты, в которых, например, вместо якутских букв пишут их графические транскрипции (<^§нЬ> - «еу5ць») и аналоги, например, вместо якутской буквы «Ь> английская буква <А».

Тексты на русском языке с перечислением наслегов и населенных пунктов имеют вероятность идентификации от 40 до 60 %. К таким текстам можно отнести описания маршрута автобуса - список названий остановок (при определении вероятность равна 42 %), так как имеются названия на русском языке и якутском. Статья, где приводится график выдачи чистой воды, имеет вероятность идентификации - 41 %, так как в нем прописаны названия улиц и микрорайонов на русском и якутском языках.

Заключение

Программная идентификация текстового документа и вероятность идентификации языка возможна с применением триграмм, данный метод обладает высокой точностью и быстротой, его можно применить к документам смешанного характера.

Смешанные документы имеют вероятность идентификации якутского языка в диапазоне от 30 до 70 %. Документы на якутском языке имеют вероятность идентификации в диапазоне от 70 до 100 %, а документы на русском языке - ниже 30 %. Средняя вероятность

идентификации языка текстового документа на якутском языке равна 80 %, а текстов на русском языке - 24 %.

Имеется зависимость вероятности идентификации от количества слов в документе, чем больше слов, тем точнее процент определения языка. Также для повышения точности идентификации необходимо более точно определить базу триграмм и применять весовые коэффициенты триграмм.

Л и т е р а т у р а

1. Гиляровский Р. С., Гривнин В. С. Определитель языков мира по письменностям. Изд. второе, исправленное. - М.: Издательство восточной литературы, 1961 г. - 301 с.

2. Ермилов А. В. Методы, алгоритмы и программы решения задач идентификации языка и диктора. Автореферат диссертации. - 2014. - 22 с.

3. Романов А. С., Мещеряков Р. В. Идентификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). Вып. 8 (15). - М.: РГГУ, 2009. - С. 432-437.

4. Романов А. С. Подходы к идентификации авторства текста на основе N-грамм и нейронных сетей // Молодежь и современные информационные технологии: Сб. тр. VI Всерос. науч.-практ. конф. студентов, аспирантов и молодых ученых, Томск, 26-28 февраля 2008 г. - Томск: Изд-во ТПУ, 2008.

- C. 145-146.

5. Сотник С. Л. Идентификация языка UNICODE-текста по N-граммам длиной до 4-х включительно (квадрограммам). Журнал «Математичне моделювання». Днепродзержинск. - № 1, 2 (15), 2006

- С. 111-114.

6. Gyawali B., Ramirez G., Solorio T. Native Language Identification: a Simple n-gram Based Approach [Электронный ресурс] URL: www.aclweb.org/anthology/W13-1729 (Дата обращения: 18.01.2015 г.).

7. Vogel J., Tresner-Kirsh D. Robust Language Identification in Short, Noisy Texts: Improvements to LIGA. Third International Workshop on Mining Ubiquitous and Social Environments (MUSE 2012). [Электронный ресурс] URL: http://www.mitre.org/publications/technical-papers/robust-language-identifica-tion-in-short-noisy-texts-improvements-to-liga (Дата обращения: 18.01.2015 г.).

8. Tromp E., Pechenizkiy M. Graph-based n-gram language identification on short texts. In: Proceedings of the Twentieth Belgian Dutch Conference on Machine Learning (Benelearn 2011) - P. 27-34.

9. Гусев С. В., Чеповский А. М. Автоматическая идентификация текстов на славянских языках, пользующихся кириллицей, записанных латинским алфавитом // Научно-техническая информация. Серия 2: Информационные процессы и системы. - М.: 2013. - № 1. - С. 27-33.

10. Botha G. R., Barnard E. Factors that affect the accuracy of text-based language identification / [Электронный ресурс] - Режим доступа: - URL: http://www.researchgate.net/publication/30510468_Fac-tors_that_affect_the_accuracy_of_text-based_language_identification (дата обращения: 23.01.15).

11. Mandl T., Shramko M., Tartakovski O. et al. Language Identification in Multi-lingual Web-Documents / [Электронный ресурс]. - Режим доступа: http://link.springer.com/chapter/10.1007/11765448_14 (дата обращения: 23.01.15).

12. Леонтьев Н. А. Словарное определение якутского языка в текстовом сообщении. Научная перспектива. - 2014, № 2 (48). - С. 97-98.

13. Леонтьев Н. А. Идентификация языка текстового сообщения с помощью газетного корпуса якутского языка. Universum: Технические науки: электрон. научн. журн. 2014. № 8 (9). URL: http://7universum. com/ru/tech/archive/item/1539 (дата обращения: 21.01.2015).

14. Леонтьев Н. А. Распознавание языка текстовых сообщений с помощью биграмм на материалах якутского языка // Современное состояние естественных и технических наук. - М., 2014. - № 14.

- С. 88-91.

15. Леонтьев Н. А. Национальный корпус интернет-сайтов газет на якутском языке // Журнал научных и прикладных исследований. - Уфа, 2014. - № 4. - С. 35-36.

16. Леонтьев Н. А. Вопрос выбора словаря триграмм для автоматической идентификации якутского

языка // Современные научные исследования и инновации. 2014. № 12 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2014/12/40443 (дата обращения: 21.01.2015).

R e f e r e n c e s

1. Giliarovskii R. S., Grivnin V. S. Opredelitel' iazykov mira po pis'mennostiam. Izd. vtoroe, ispravlennoe.

- M.: Izdatel'stvo vostochnoi literatury, 1961 g. - 301 s.

2. Ermilov A. V. Metody, algoritmy i programmy resheniia zadach identifikatsii iazyka i diktora. Avtoreferat dissertatsii. - 2014. - 22 s.

3. Romanov A. S., Meshcheriakov R. V. Identifikatsiia avtora teksta s pomoshch'iu apparata opornykh vektorov // Komp'iuternaia lingvistika i intellektual'nye tekhnologii: Po materialam ezhegodnoi Mezhdunarodnoi konferentsii «Dialog 2009» (Bekasovo, 27-31 maia 2009 g.). Vyp. 8 (15). - M.: RGGU, 2009. - S. 432-437.

4. Romanov A. S. Podkhody k identifikatsii avtorstva teksta na osnove N-gramm i neironnykh setei // Molodezh' i sovremennye informatsionnye tekhnologii: Sb. tr. VI Vseros. nauch.-prakt. konf. studentov, aspirantov i molodykh uchenykh, Tomsk, 26-28 fevralia 2008 g. - Tomsk: Izd-vo TPU, 2008. - C. 145-146.

5. Sotnik S. L. Identifikatsiia iazyka UNICODE-teksta po N-grammam dlinoi do 4-kh vkliuchitel'no (kvadrogrammam). Zhurnal «Matematichne modeliuvannia». Dneprodzerzhinsk. - № 1, 2 (15), 2006

- S. 111-114.

6. Gyawali B., Ramirez G., Solorio T. Native Language Identification: a Simple n-gram Based Approach [Elektronnyi resurs] URL: www.aclweb.org/anthology/W13-1729 (Data obrashcheniia: 18.01.2015 g.).

7. Vogel J., Tresner-Kirsh D. Robust Language Identification in Short, Noisy Texts: Improvements to LIGA. Third International Workshop on Mining Ubiquitous and Social Environments (MUSE 2012). [Elektronnyi resurs] URL: http://www.mitre.org/publications/technical-papers/robust-language-identification-in-short-noisy-texts-improvements-to-liga (Data obrashcheniia: 18.01.2015 g.).

8. Tromp E., Pechenizkiy M. Graph-based n-gram language identification on short texts. In: Proceedings of the Twentieth Belgian Dutch Conference on Machine Learning (Benelearn 2011) - P. 27-34.

9. Gusev S. V., Chepovskii A. M. Avtomaticheskaia identifikatsiia tekstov na slavianskikh iazykakh, pol'zuiushchikhsia kirillitsei, zapisannykh latinskim alfavitom // Nauchno-tekhnicheskaia informatsiia. Seriia 2: Informatsionnye protsessy i sistemy. - M.: 2013. - № 1. - S. 27-33.

10. Botha G. R., Barnard E. Factors that affect the accuracy of text-based language identification / [Elektronnyi resurs] - Rezhim dostupa: - URL: http://www.researchgate.net/publication/30510468_Factors_ that_affect_the_accuracy_of_text-based_language_identification (data obrashcheniia: 23.01.15).

11. Mandl T., Shramko M., Tartakovski O. et al. Language Identification in Multi-lingual Web-Documents / [Elektronnyi resurs]. - Rezhim dostupa: http://link.springer.com/chapter/10.1007/11765448_14 (data obrashcheniia: 23.01.15).

12. Leont'ev N. A. Slovarnoe opredelenie iakutskogo iazyka v tekstovom soobshchenii. Nauchnaia perspektiva. - 2014, № 2 (48). - S. 97-98.

13. Leont'ev N. A. Identifikatsiia iazyka tekstovogo soobshcheniia s pomoshch'iu gazetnogo korpusa iakutskogo iazyka. Universum: Tekhnicheskie nauki: elektron. nauchn. zhurn. 2014. № 8 (9). URL: http://7universum.com/ru/tech/archive/item/1539 (data obrashcheniia: 21.01.2015).

14. Leont'ev N. A. Raspoznavanie iazyka tekstovykh soobshchenii s pomoshch'iu bigramm na materialakh iakutskogo iazyka // Sovremennoe sostoianie estestvennykh i tekhnicheskikh nauk. - M., 2014. - № 14.

- S. 88-91.

15. Leont'ev N. A. Natsional'nyi korpus internet-saitov gazet na iakutskom iazyke // Zhurnal nauchnykh i prikladnykh issledovanii. - Ufa, 2014. - № 4. - S. 35-36.

16. Leont'ev N. A. Vopros vybora slovaria trigramm dlia avtomaticheskoi identifikatsii iakutskogo iazyka // Sovremennye nauchnye issledovaniia i innovatsii. 2014. № 12 [Elektronnyi resurs]. URL: http://web.snauka. ru/issues/2014/12/40443 (data obrashcheniia: 21.01.2015).

^■Hir^ir

i Надоели баннеры? Вы всегда можете отключить рекламу.