Научная статья на тему 'Программное сравнение текстов на хакасском и якутском языке с помощью триграмм'

Программное сравнение текстов на хакасском и якутском языке с помощью триграмм Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
119
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИЯ ЯЗЫКА / МЕТОД ТРИГРАММ / ЯКУТСКИЙ ЯЗЫК / ХАКАССКИЙ ЯЗЫК / ГАЗЕТНЫЙ КОРПУС

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Леонтьев Н.А., Протопопова В.Ф.

В данной работе рассматривается сравнение документов на якутском и хакасском языке с помощью определителя якутского языка. Хакасский и якутский являются родственными тюркскими языками и вопрос корректного различения текстов является актуальным в связи с развитием глобальной сети Интернет. Для определения языка был выбран метод триграмм, база триграмм создана на основе газетного корпуса якутского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Леонтьев Н.А., Протопопова В.Ф.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Программное сравнение текстов на хакасском и якутском языке с помощью триграмм»

предлагаемой методики с представленными другими авторами способами измерения ДЛП по длине анизотропного световода.

Объединенное использование двух методов, а также автоматическое заполнение базы данных позволяют осуществить полный цикл контроля важнейших параметров активных волоконных световодов, сохраняющих состояние поляризации вводимого излучения.

Авторы выражают глубочайшую благодарность Клоду Д. (Claude D., Stormsystems.pro) за помощь, плодотворные дискуссии и экспертные советы по промышленной автоматизации установок.

Список литературы:

1. Бурдин В.В., Константинов Ю.А., Первадчук В.П., Смирнов А.С., Квант. электрон. 43, 531 (2013).

2. Бурдин В.В., Константинов Ю.А., Первадчук В.П., Смирнов А.С., спецвып. «ФОТОН-ЭКСПРЕСС-НАУКА 2013» 6, 173 (2013).

3. Константинов Ю.А. Автоматизация процессов технического контроля качества специальных волоконных световодов на этапах производства: дисс. канд. техн. наук. - Пермь, 2012. - 114 с.

4. Агравал Г. Нелинейная волоконная оптика: пер. с англ. - М.: Мир, 1996. - С. 257.

ПРОГРАММНОЕ СРАВНЕНИЕ ТЕКСТОВ НА ХАКАССКОМ И ЯКУТСКОМ ЯЗЫКЕ С ПОМОЩЬЮ ТРИГРАММ

1 2 © Леонтьев Н.А. , Протопопова В.Ф.

Северо-Восточный федеральный университет им. М.К. Аммосова,

г. Якутск

В данной работе рассматривается сравнение документов на якутском и хакасском языке с помощью определителя якутского языка. Хакасский и якутский являются родственными тюркскими языками и вопрос корректного различения текстов является актуальным в связи с развитием глобальной сети Интернет. Для определения языка был выбран метод триграмм, база триграмм создана на основе газетного корпуса якутского языка.

Ключевые слова: идентификация языка, метод триграмм, якутский язык, хакасский язык, газетный корпус.

1 Доцент кафедры Радиотехники и информационных технологий, кандидат технических наук.

2 Студент.

Классический метод определения языка заключается в анализе текста на наличие национальных символов [1], хотя данный метод может давать сбои при их отсутствии или же при их наличии в качестве примера или вставки. Существуют системы для иностранных языков, для поиска в многоязычных документах [2], они могут применять слова характерные для определенного языка, например the - английский язык, pour - французский язык, voo - датский язык. Поисковые системы в Интернете часто не могут корректно определить язык, так они отличаются от классических текстов размеров в несколько страниц:

1. Сообщения могут состоять из одного или нескольких предложений.

2. Могут присутствовать только слова без национальных символов.

3. Большое число заимствований из других языков.

4. Наличие опечаток и орфографических ошибок.

5. Транслитерационное написание текста.

6. Смешанные тексты, в которых присутствуют слова из разных языков.

К носителям тюркского языка относятся более 160 млн.человек, существуют десятки разновидностей языков и диалектов. До сих пор идут споры о происхождении тюркских языков. В основе письменности до революции и некоторое время после была использована система на основе латиницы, позже все письменности были переделаны или основаны на основе кириллицы с добавлением национальных символов. Для каждого языка были введены свои национальные символы в соответствии с фонетикой языка.

Для проверки корректности работы программного определителя якутского языка необходимо провести сравнение с родственными тюркскими языками, в частности с хакасским языком.

Якутский язык (язык саха) относится к тюркской группе языков, но отличается от основной группы наличием пласта монгольских слов и слов неясного происхождения. Количество носителей языка более 450 тыс. человек. Имеется большое количество литературных источников, записей устного творчества, мультимедиа материалов. Издаются национальные газеты на якутском языке, новостные и для школьного возраста, так же издаются журналы для семейного чтения. Существуют Интернет-сайты на якутском языке. В языке встречают заимствованные слова из русского и иностранных языков, некоторые слова имеют несколько вариантов фонетизированного написания.

Хакасский язык относится к хакасско-алтайской группе тюркских языков. Число носителей языка более 40 тыс. Имеются большое количество литературных источников, школьные учебники, газет, мультимедиа материалов. В лексике имеются заимствованные слова из русского, монгольского, арабского и персидского языков.

Между якутским и хакасским языком имеется множество похожих по фонетике слов - «кызыл - кыЪыл - красный», «тун - туун - ночь», «тас - таас -камень».

Для программного определителя якутского языка используются словарное определение [3], с помощью языкового корпуса [4], с помощью би-грамм [5] и с помощью триграмм [6]. Из перечисленных методов наиболее оптимальным является метод триграмм, так он устойчив к ошибкам в тексте. Программная реализация методы была сделана на языке PHP и был реализован метод доступа к сервису через веб-сервер Apache в сети Интернет. Для анализа был сделан изменяемый параметр процент вероятности и количество триграмм применяемых для определения якутского языка.

Метод триграмм

Основы метода триграмм: слово разбивается на перекрывающиеся группы символов по три, так называемые триграммы, то есть получается цепочка символов, как показано на рисунке 1.

Слова из двух символов не анализируются и по ним не ведется статистика, хотя в якутском языке таких слов много: ат, да, бу, ол, ыа, ас, ыт и т.д.

Рис. 1. Разбиение слова на триграммы

Полученные триграммы записываются в базу данных. При обработке словаря словоформ газетного корпуса якутского создается база триграмм с их весовым коэффициентом, которая определяется через частоту применения триграммы. Общее количество словоформ составляет более 350 тыс. единиц, они выбраны из газетного корпуса якутского языка [7,8] размером более 12 млн. словоупотреблений [9]. Из базы словоформ было получено 4669 единиц триграмм, при этом была сделана проверка на наличие нехарактерных словосочетаний, заимствованных и иностранных слов. Все триграммы был сохранены в базе данных из двух полей, наименование триграммы и его частота употребления.

Эксперимент

Для сравнения хакасского и якутского языков были использованы тексты, взятые с сайтов газет на этих языках. Сайты принадлежали газетам «Хабар» на хакасском языке по адресу «кИакаБсЫгут» и газете «Кыым» на якутском языке по адресу «kyym.ru». Для анализа были взяты газетные статьи большого объема, в таблице 1 приведены процент вероятности текста от ко-

личества слов, отнесенных к якутского языку. Газетные новости содержали русские слова, имена собственные, фамилии, топонимы и числовые данные.

Таблица 1

Процент вероятность определения якутского языка от порога триграмм

Язык Порог Всего слов К якутским Вероятность текста

Хакасский 50 % 1039 402 38.69 %

Хакасский 75 % 1039 200 19.25 %

Якутский 50 % 864 806 93.29 %

Якутский 75 % 864 767 88.77 %

Порог определения триграмм в таблице 1 выставляется вручную и определяет количество триграмм в слове, при превышении которого слово считается якутским [10]. В таблице 2 приведены вероятность определения от общего количества триграмм, отнесенных к якутскому языку.

Таблица 2

Процент вероятность определения якутского языка от общего количества триграмм

Язык Всего триграмм Якутские Вероятность текста

Хакасский 5665 2460 43.42 %

Якутский 5342 4888 91.5 %

Как видно из таблицы 2, количество триграмм отнесенных к якутскому языку по вероятности превышает вероятность слов отнесенных к якутскому языку. В итоге приходим к выводу, что надо оперировать именно вероятностью определения слов, а не общего количества триграмм в тексте, хотя второй метод должен работать чуть быстрее и требовать меньше памяти для хранения переменных.

Заключение

Метод триграмм для определения якутского языка корректно разделяет тексты на хакасском и якутском языках, разница между вероятностью определения составляет 40 %, что является достаточным для уверенного определения языка документа. Для более точного определения родственных языков необходимо использовать метод триграмм на основе графов N-грамм, что дает точное определение вероятности связи триграмм в языке.

Список литературы:

1. Гиляревский Р. С., Гривнин В.С. определитель языков мира по письменностям. - М.: Издательство восточной литературы, 1961.

2. Marco Lui, Jey Han Lau and Timothy Baldwin. Automatic Detection and Language Identification of Multilingual Documents // Transactions of the Association for Computational Linguistics. - 2014. - № 2. - Р. 27-40.

3. Леонтьев Н.А. Словарное определение якутского языка в текстовом сообщении // Научная перспектива. - 2014. - № 2 (48). - С. 97-98.

4. Леонтьев Н.А. Идентификация языка текстового сообщения с помощью газетного корпуса якутского языка [Электронный ресурс] // Universum: Технические науки: электрон. научн. журн. - 2014. - № 8 (9). - Режим доступа: http://7universum.com/ru/tech/archive/item/1539 (дата обращения: 21.09.2016).

5. Леонтьев Н.А. Распознавание языка текстовых сообщений с помощью биграмм на материалах якутского языка // Современное состояние естественных и технических наук. - М., 2014. - № 14. - С. 88-91.

6. Леонтьев Н. А. Вопрос выбора словаря триграмм для автоматической идентификации якутского языка [Электронный ресурс] // Современные научные исследования и инновации. - 2014. - № 12. - Режим доступа: http://web. snauka.ru/issues/2014/12/40443 (дата обращения: 21.09.2016).

7. Леонтьев Н.А. Национальный корпус интернет-сайтов газет на якутском языке // Журнал научных и прикладных исследований. - 2014. - Т. 4. -С. 53-54.

8. Leontiev N.A. The newspaper corpus of the yakut language // Proceeding of the International Conference «Turkic Languages Prosessing: TurkLang -2015». - 2015. - Р. 233-235.

9. Леонтьев Н.А. Вопрос о размере машинного корпуса на примере якутского языка // Современные научные исследования и инновации. - 2015. -№ 11 (55). - С. 281-283.

10. Леонтьев Н.А., Протопопова В.Ф. Определение порога вероятности триграмм в программном определителе языка // Современные научные исследования и инновации. - 2016. - № 4 (60). - С. 165-167.

СПОСОБЫ ЗАЩИТЫ ЖЕЛЕЗОБЕТОННЫХ СТРОИТЕЛЬНЫХ КОНСТРУКЦИЙ ОТ КОРРОЗИИ

1 2 © Солдатов А.А. , Кардашова Ю.С. ,

Кошельков С.А.2, Гусев А.С.2

Федеральное государственное автономное образовательное учреждение высшего образования «Северо-Кавказский федеральный университет»,

г. Ставрополь

Рассмотрены основные способы (конструктивные решения) защиты бетонных и железобетонных конструкций от химической коррозии. Определены основные виды химической коррозии.

Ключевые слова коррозия, защита бетона, гидроизоляция.

1 Доцент кафедры «Строительство».

2 Магистр 2 курса.

i Надоели баннеры? Вы всегда можете отключить рекламу.