Научная статья на тему 'Сетевая модель агглютинативной морфологии'

Сетевая модель агглютинативной морфологии Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
139
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАРОТЮРКСКИЙ ЯЗЫК / OLD TURKIC LANGUAGE / ОБРАБОТКА ЕСТЕСТВЕННЫХ ЯЗЫКОВ / NATURAL LANGUAGE PROCESSING / МОРФОЛОГИЯ / MORPHOLOGY / БАШКИРСКИЙ ЯЗЫК / BASHKIR LANGUAGE / ТЕОРИЯ ГРАФОВ / GRAPH THEORY

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гречачин В.А.

Статья посвящена разработке модели агглютинативной морфологии, основанной на теории графов. Теория графов, или метод сетей, является современным подходом в теоретической и прикладной лингвистике. Описаны основные характеристики такой модели. Рассмотрены возможности применения модели для исследовательских и прикладных целей. Представлена реализация модели для современного башкирского языка и для старотюркского. Показана эффективность применения разработанных моделей. Рассмотрена работа морфологического парсера для старотюркского языка, в основу которого легла представленная модель.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NETWORK MODEL OF AGGLUTINATIVE MORPHOLOGY

The article is devoted to the development of the model of agglutinative morphology based on the graph theory. The graph theory or the method of networks is a modern approach in theoretical and applied linguistics. The main characteristics of such a model are described in the article. Possible use of the model for research and application purposes is considered. The implementation of the model for the modern Bashkir language and as well as for the Old Turkic language is presented. The effectiveness of the application of the developed models is shown. The work of the morphological parser for the Old Turkic language is considered based on the presented model.

Текст научной работы на тему «Сетевая модель агглютинативной морфологии»

Список литературы на английском языке / References in English

1. Adamchik V. V. Novyj slovar' inostrannyx slov [New vocabulary of foreigner words] / V. V. Adamchik. - M.: AST Publ., 2005. - 1152 p.

2. Gabdreeva N. V. Inoyazychnaya leksika v russkom yazyke novejshego perioda [Foreigner vocabulary in modern Russian language] / N. V. Gabdreeva, A. V. Ageeva, A. R. Timirgaleeva. - M.: Flinta Nauka Publ., 2013. - 328 p.

3. Gorbachevich K. S. Variantnost' slova i yazykovaya norma [Word variance and language standart] / K. S. Gorbachevich. - L.: Nauka Publ., 1978. - 237 p.

4. Zaxarenko E.N. Novyj slovar' inostrannyx slov [New vocabulary of foreigner words] / E.N. Zaxarenko. - M.: Azbukovnik Publ., 2003. - 784 p.

5. Rubina D. Belaya golubka Kordovy [The white dove of Cordoba] / D. Rubina. - M.: Eksmo Publ., 2009. - 619 p.

6. Rubina D. Poslednij kaban iz lesov Pontevedra [The last wild boar from the forest Pontefedro] / D. Rubina. - M.: Eksmo Publ., 2013. - 255 p.

7. Rubina D. Voskresnaya messa v Toledo [The Sunday messa in Toledo] / D. Rubina. - M.: Eksmo Publ., 2011. - 60 p.

8. Rubina D. Babiy Veter [The women's ving] / D. Rubina. - M.: Eksmo Publ., 2017. - 280 p.

9. Svetlova R. M. Recepciya arabskix prototipov v russkom yazyke. Dokt, Diss. [Reception of Arabic prototypes in Russian language. Doct. Diss.] Kazan, 2012. - 24 p.

10. Sklyarevskaya G. N. Tolkovyj slovar' russkogo yazyka konca XX veka. Yazykovye izmeneniya [Russian dictionary the end of XX cent. Language changing] / G.N. Sklyarevskaya. - L.: Folio-Press Publ., 1998. - 280 p.

11. Shafranskaya E. F. Mifopoe'tika «ime'tnokul'tumogo teksta» v russkoj proze Diny Rubinoj [Mythopoetics of «other ethnocultural text» in Russian prose by D. Rubina ] / E. F. Shafranskaya. - M.: LKI Publ., 2007. - 240 p.

DOI: https://doi.org/10.23670/IRJ.2018.67.132 Гречачин В. А.

ORCID: 0000-0002-1595-0995, аспирант, Башкирский государственный университет

Работа выполнена в рамках поддержанного РФФИ проекта № 17-04-00193 «Исторический корпус башкирского

языка»

СЕТЕВАЯ МОДЕЛЬ АГГЛЮТИНАТИВНОЙ МОРФОЛОГИИ

Аннотация

Статья посвящена разработке модели агглютинативной морфологии, основанной на теории графов. Теория графов, или метод сетей, является современным подходом в теоретической и прикладной лингвистике. Описаны основные характеристики такой модели. Рассмотрены возможности применения модели для исследовательских и прикладных целей. Представлена реализация модели для современного башкирского языка и для старотюркского. Показана эффективность применения разработанных моделей. Рассмотрена работа морфологического парсера для старотюркского языка, в основу которого легла представленная модель.

Ключевые слова: теория графов, морфология, башкирский язык, старотюркский язык, обработка естественных языков.

Grechanin V. A.

ORCID: 0000-0002-1595-0995, Postgraduate Student, Bashkir State University

The work was carried out within the framework of the project supported by the Russian Fund of Federal Property No. 17-0400193 "Historical Corpus of the Bashkir Language " NETWORK MODEL OF AGGLUTINATIVE MORPHOLOGY

Abstract

The article is devoted to the development of the model of agglutinative morphology based on the graph theory. The graph theory or the method of networks is a modern approach in theoretical and applied linguistics. The main characteristics of such a model are described in the article. Possible use of the model for research and application purposes is considered. The implementation of the model for the modern Bashkir language and as well as for the Old Turkic language is presented. The effectiveness of the application of the developed models is shown. The work of the morphological parser for the Old Turkic language is considered based on the presented model.

Keywords: graph theory, morphology, Bashkir language, Old Turkic language, natural language processing.

Работа посвящена приложению теории графов к моделированию агглютинативной морфологии на примере тюркских языков. Графом называется абстрактный математический объект, представляющий собой множество вершин и их сочетаний, которые называют ребрами [3]. В англоязычной терминологии принято использовать термин complex network для обозначения конкретного примера графа [10]. В русскоязычной литературе, посвященной complex networks, используют эквивалентный термин сеть. Таким образом, термины граф, комплексная сеть, сеть можно использовать как взаимозаменяемые.

На сегодняшний день методы автоматической обработки естественных языков уже приобрели популярность (в англоязычной терминологии для обозначения этих методов принято использовать аббревиатуру "natural language processing" - NLP). Сетевая модель агглютинативной морфологии, в частности, для тюркских языков, может быть использована как для разработки инструментов NLP, так и для анализа лингвистических данных. Актуальность исследования и разработки методов NLP (natural language processing) для «малых» языков обусловлена тем, что языки народов России представлены в Интернете и со временем количество текстов на этих языках возрастает, а оставшиеся

тексты «мертвых» языков, которые необходимо сохранить как культурные памятники, лучше всего хранить в электронном и структурированном виде.

Попытки разработать модель агглютинативной морфологии для тюркских языков предпринимались ранее. Например, в [6] автор предложил модель словоизменительной системы. Разработанная автором модель оказалась сложной и не нашла применения, кроме как для автоматического порождения словоформ. В данной работе мы не станем рассматривать все существующие модели агглютинативной морфологии, а рассмотрим только то, что связано с применением теории графов к агглютинативной морфологии. Наиболее близкой по теме оказалась работа [2], где авторы использовали сетевой подход для описания морфологии башкирского языка. Кроме того, авторы проанализировали труды, где обсуждались вопросы, связанные с методами сетей и морфологией, и пришли к выводу, что «к настоящему моменту теоретическая морфология и методика сетей далеки друг от друга» [2, с. 24]. Также авторы рассматривают принципы работы морфологического анализатора (далее парсер) для башкирского языка bashmorph. Отметим, что алгоритм парсера не имеет никакого отношения к методу сетей. Метод сетей авторы применяли для описания морфологии башкирского языка. Им удалось построить сеть, в которой вершинами являлись аффиксы, которые были связаны ребрами. Ребра отражали сочетаемость аффиксов. Источником данных послужил корпус текстов газеты «Йэшлек» («Молодость») за 2007—2014 гг., который включал 5,8 млн словоупотреблений. Перед тем, как построить сеть, авторы произвели морфологический разбор словоформ при помощи парсера bashmorph. Авторам удалось подсчитать количество обнаруженных аффиксов, среднюю частоту сочетаемости пар аффиксов, максимальную длину цепочки аффиксов. Полноту охвата авторами морфологической системы башкирского языка ставит под сомнение тот факт, что bashmorph не учитывает некоторые словообразовательные аффиксы. Например, 'тэбрик' ('приветствие') основа существительного и словообразовательный аффикс глагола -лэ дают 'тэбрик-лэ' ('приветствие'). Кроме того, нами были встречены неверные разборы [4] с однобуквенными аффиксами, например, в слове 'тэбриклэнем' ('я поприветствовал') bashmorph выделяет аффикс залога -н перед показателем лица -ем, что невозможно в башкирском языке. Отметим, что вместе с ошибочным был дан и правильный разбор 'тэбриклэ-не-м', но он не учитывал словообразовательный аффикс.

Для того, чтобы приложить теорию графов к агглютинативной морфологии, рассмотрим ключевые особенности агглютинации. Мы основываемся на том, что в агглютинативных языках преобладает такой способ образования производных и грамматических форм слов, при котором аффиксы присоединяются к корню, сополагаются друг с другом, не изменяясь при этом существенным образом, каждый аффикс имеет только одно грамматическое значение

[7]. Для агглютинативных языков характерно, что аффиксы однозначны (в подавляющем большинстве), в них отсутствуют фузии, таким образом морфемные швы всегда очевидны, последовательность аффиксации в грамматических формах постоянна. Именно последнее является ключевой особенностью агглютинации при построении сети. Причем на вопрос: почему последовательность аффиксации в агглютинативных языках постоянна? -нет однозначного ответа. Строгая последовательность аффиксации может быть объяснена семантической связностью аффиксов со значением слова [9]. Например, аффикс числа больше связан со значением слова, нежели аффикс падежа. В башкирском 'бала-лар-ды' ('детей'), где -лар показатель множественного числа, -§ы - аффикс местно-временного падежа. Можно также предположить, что строгая последовательность аффиксации может быть обусловлена структурами окружающего мира, закономерностью природных процессов, примером может послужить процесс смены дня и ночи, которому сопутствуют определенные события - восход солнца на Востоке, закат на Западе. В этой работе мы не будем рассматривать причины строгой последовательность аффиксации в агглютинативных языках. Положим, что утверждение о постоянстве позиции аффиксов относительно друг друга в словоформе - это аксиома.

Теперь рассмотрим тип и характеристики сети, которые наилучшим образом смогли бы описать агглютинативную морфологию. Прежде всего мы используем ориентированную сеть, то есть в этой сети ребра обладают направленностью, их называют дугами. Таким образом, вершины обладают направленной связью. В этой сети нет изолированных вершин, то есть все вершины соединены дугами.

Мы полагаем, что все аффиксы в агглютинативных языках можно разделить на классы по грамматическому значению. Например, один класс включает возможные аффиксы множественного числа, другой - аффиксы дапекьного падежа. В башкирском языке в один класс попадут -лар, -тар, -дар, -дар и их алломорфы -лэр, -тэр, -дэр, -дэр [1]. В урало-поволжском тюрки (далее старотюркском) фонетических вариантов в этом классе окажется меньше: -лар, -лэр

[8]. После того, как мы определили классы по грамматическому значению, положим, что каждый класс, каждое грамматическое значение - это абстрактные объекты, которые вступают в определенные позиционные отношения между собой. Эти позиционные отношения обусловлены тем, что положение аффиксов относительно друг друга постоянно. Теперь нашей задачей будет соотнести эти положения с теорией графов.

Модель агглютинативной морфологии, которую мы предлагаем, представляет собой сеть, в которой множество вершин - это классы аффиксов с определенными грамматическими значениями и показатели частей речи; дуги отражают позиционные отношения между вершинами. Таким образом, в сетевой модели морфологии башкирского языка есть вершина 'Plural', которая является абстракцией грамматического значения множественного числа, и дуги, представленные парами типа ('Plural', 'Ablative') и ('Possessive', 'Plural'), которые показывают возможное окружение для 'Plural'. То есть в словоформах башкирского языка перед показателем множественного числа может стоять показатель принадлежности, а после - показатель исходного падежа. В сетевой модели количество пар с 'Plural' показывает все возможные варианты совместной встречаемости показателя множественного числа с другими показателями. Также в ней есть вершины, означающие части речи, например, вершина 'NOUN' (существительное), и пары типа ('NOUN', 'Plural'), которые показывают какие показатели могут встречаться после основы определенной части речи. Для каждой вершины есть свой набор пар. Путь в этой модели, то есть набор вершин, соединенных дугами, который начинается вершинами, означающими часть речи, представляет собой модель словоформы.

Рис. 1 - Подграф сетевой модели современного башкирского языка

Представим подграф сетевой модели башкирской морфологии, который включает вершину 'Plural' и вершины, которые имеют общие дуги с 'Plural' (см. рис. 1). Эта сеть показывает позиционные отношения показателя множественного числа с другими показателями, которые могут встречаться в словоформах как перед ним, так и после него. Из сети следует, что показатель принадлежности 'Possessive' может стоять как перед показателем множественного числа, так и после. Большей частью аффиксы множественного числа присоединяются непосредственно к основе слова, например, 'китап-тар-ым' ( 'мои книги '). Существуют случаи, например, в терминах родства, когда аффикс приндалежности стоит перед аффиксом множественного числа - 'азай-ым-дар ' ( 'мои братья ') [1]. Функционирование показателей множественного числа в старотюркском не отличается существенным образом. В современном башкирском отсутствуют некоторые грамматические значения, поэтому, чтобы адаптировать наш подграф для тюрки, нужно добавить показатель комитатива.

Теперь рассмотрим путь (см. рис. 2) в сетях башкирской и старотюркской морфологии. Данный путь есть в обоих сетях и представляет собой некоторую последовательность грамматических показателей, которая следует за основой существительного. Такую последовательность можно встретить, например, в словах 'эш-се-лэр-^еке' (башк. 'принадлежащийрабочим ') и 'ил-че-лэр-неке' (старотюрк. 'принадлежащий послалГ).

D.Agens

Plural

Рис. 2 - Путь в сетевой модели старотюркского языка

Таким образом, нам удалось разработать сетевые морфологические модели башкирского и старотюркского языков. Последняя легла в основу разработанной нами программы морфологического анализа старотюркского языка [11], которая представлена в сети Интернет и доступна по адресу http://oldturkicmorph.herokuapp.com/. В основе программы лежит сеть (см. рис. 3), вершинами которой являются грамматические показатели, которые содержат множество вариантов аффиксов с грамматическими пометами, также вершинами являются и показатели частей речи. Дуги показывают, какие грамматические показатели следуют друг за другом или предшествуют друг другу. Кроме того, программа использует словарь корней с пометами частей речи, а также набор правил для фильтрации возможных разборов вводимой словоформы. Алгоритм разбора словоформы начинается с поиска в вершинах сети возможного аффикса на конце слова, то есть слово разбирается с конца. После обнаружения вершины, которая

содержит возможный аффикс, начинается поиск следующего аффикса в вершинах, к которым ведут дуги предыдущей вершины. Поиск происходит до тех пор, пока не обнаруживается корень из словаря или пока обнаруживаются возможные аффиксы. Если корень из словаря не найден ни в одном из возможных разборов, то программа предсказывает части речи по последнему обнаруженному в цепочке аффиксу. Далее программа фильтрует возможные разборы и строит удобочитаемый вывод. Парсер был использован для статистического исследования лексики М. -А. Чукури. Результаты исследования отражены в работе [5].

В заключении отметим, что сетевая модель агглютинативной морфологии находит свое применения как для разработки инструментов автоматического морфологического анализа, так и для квантитативных исследований. Дальнейшие исследования преимуществ сетевого подхода могут помочь в разработке универсальных инструментов NLP для всех тюркских языков.

Рис. 3 - Сетевая модель морфологии старотюркского языка

Список литературы / References

1. Грамматика современного башкирского литературного языка / Под ред. А. А. Юлдашева. — М.: Наука, 1981. — 495 с.

2. Кирьянов Д. П., Орехов Б. В. СЕТЕВОЙ ПОДХОД К ОПИСАНИЮ БАШКИРСКОЙ МОРФОЛОГИИ / Кирьянов Д. П., Орехов Б. В. // Вестник Приамурского государственного университета им. Шолом-Алейхема, 2015. — № 3(20) — С. 23 - 40.

3. Оре О. Теория графов / О. Оре — М.: Наука, 1968. — 336 с.

4. Программа автоматического анализа башкирской морфологии: тэбриклэнем [Электронный ресурс] / Б. Орехов — URL: http://nevmenandr.net/cgi-bin/bashmorphweb.py (дата обращения: 24.12.2017)

5. Саитбатталов И. Р. Лексика м.-а. Чукури в статистическом освещении / И. Р. Саитбатталов, В. А. Гречачин // Международный научно-исследовательский журнал. — 2016. — № 12 (54) Часть 2. — С. 76—78. — URL: https://research-journal.org/languages/leksika-m-a-chukuri-v-statisticheskom-osveshhenii/ (дата обращения: 24.12.2017)

6. Сиразитдинов З. А. Моделирование грамматики башкирского языка. Словоизменительная система / З. А Сиразитдинов — Уфа: АН РБ, Гилем, 2006. — 160 с.

7. Словарь лингвистических терминов: Изд. 5-е, испр-е и дополн. / Т.В. Жеребило — Назрань: Пилигрим, 2010. — 486 с.

8. Щербак А. Грамматический очерк языка тюркских текстов X-XIII вв. из восточного Туркестана / А. Щербак — Ленинград: АН СССР, 1961. —204 с.

9. Языкознание: От Аристотеля до компьютерной лингвистики / Владимир Алпатов — М. : Альпина нон-фикшн, 2018. — 253 с.

10. L. Zhukov Complex Networks [Электронный ресурс] / Л. Жуков — URL: http://www.leonidzhukov.net/hse/2013/lingnetworks/lectures/lecture1.pdf (дата обращения: 24.12.2017)

11. Oldturkicmorph [Электронный ресурс]: морфологический анализатор старотюркского языка / В. Гречачин — URL: http://oldturkicmorph.herokuapp.com/ (дата обращения: 24.12.2017)

Список литературы на английском языке / References in English

1. Grammatika sovremennogo bashkirskogo literaturnogo yazyika [Modern literary Bashkir language] / Edited by A. A. Yuldashev. — M.: Nauka, 1981. — 495 p. [in Russian]

2. Kiryanov D. P., Orehov B. V. Setevoy podhod k opisaniyu bashkirskoy morfologii [network based approach to the bashkir morphology description] / Kiryanov D. P., Orehov B. V. // Vestnik Priamurskogo gosudarstvennogo universiteta im. Sholom-Alejhema [Bulletin of the Amur state university of Sholom-Aleyhem] — 2015. — # 3(20) — P. 23 - 40. [in Russian]

3. Ore O. Teoriya grafov [Graph theory] / O. Ore — M.: Nauka, 1968. — 336 p. [in Russian]

4. Programma avtomaticheskogo analiza bashkirskoj morfologii: T96pHK^9HeM [Program of automatic analysis of Bashkir morphology: T96pnK®HeM]: [Electronic resource] / B. Orekhov —URL: http://nevmenandr.net/cgi-bin/bashmorphweb.py?t=%D1%82%D3%99%D0%B1%D1%80%D0%B8%D0%BA%D0%BB%D3%99%D0%BD%D0%B5 %D0%BC&mod=disp (accessed 24.12.2017) [in Russian]

5. Saitbattalov I. R. Leksika m.-a. Chukuri v statisticheskom osveshchenii [the vocabulary of m.-a. Chuquri in statistical coverage] / I. R. Saitbattalov, V. A. Grechachin // Mezhdunarodnyj nauchno-issledovatelskij zhurnal [International research journal] — 2016. — № 12 (54) Part 2. — P. 76—78. —URL: https://research-journal.org/languages/leksika-m-a-chukuri-v-statisticheskom-osveshhenii/doi: 10.18454/IRJ.2016.54.016 (accessed 24.12.2017) [in Russian]

6. Sirazitdinov Z. A. Modelirovanie grammatiki bashkirskogo yazyika. Slovoizmenitelnaya Sistema [Modeling of Bashkir grammar. Inflectional system] / Z. A Sirazitdinov — Ufa: AN RB, Gilem, 2006. — 160 p. [in Russian]

7. Slovar lingvisticheskih terminov: Izd. 5-e, ispr-e i dopoln. [Dictionary of linguistic terms. 5th edition, revised and updated] / T.V. Zherebilo — Nazran: Piligrim, 2010. — 486 p. [in Russian]

8. Scherbak A. Grammaticheskij ocherk yazyka tyurkskih tekstov X-XIII vv. iz vostochnogo Turkestana [Grammatical essay of language of turkic texts of X-XIII century from eastern Turkestan] / A. Scherbak — Leningrad: AN SSSR, 1961. — 204 p. [in Russian]

9. Yazyikoznanie: Ot Aristotelya do kompyuternoy lingvistiki [Linguistics: From Aristotle to computational linguistics] / Vladimir Alpatov —M.: Alpina non-fikshn, 2018. — 253 p. [in Russian]

10. L. Zhukov Complex Networks [Electronic resource] / L. Zhukov — URL: http://www.leonidzhukov.net/hse/2013/lingnetworks/lectures/lecture1.pdf (accessed: 24.12.2017)

11. Oldturkicmorph [Electronical resource]: oldturkic morphological analyzer / V. Grechachin — URL: http://oldturkicmorph.herokuapp.com/ (accessed: 24.12.2017) [in Russian]

DOI: https://doi.org/10.23670/IRJ.2018.67.128 Кадимов Р.Г.

ORCID: 0000-0002-8743-8106, доктор филологических наук, Дагестанский государственный педагогический университет «ПРОЕКТ КИТА»: ИНТУИЦИЯ ИЛИ ПРОЕКТИРОВАНИЕ?

Аннотация

Статья посвящена обнаружению связей между определёнными уровнями литературного произведения -фонической организацией текста и художественными образами. Появление целого ряда художественных образов связано со способом организации языкового материала. Иногда для сравнения двух явлений достаточным оказывается звуковое сходство обозначающих эти явления слов. Созданию поэтической семантики способствует звуковой строй национального языка - рождение образности происходит из-за неожиданности связываемых по формальному признаку слов.

Ключевые слова: фоника, паронимия, паронимическая аттракция, художественный образ, сравнение.

Kadimov R.G.

ORCID: 0000-0002-8743-8106, PhD in Philology, Dagestan State Pedagogical University "PROJECT OF THE WHALE": INTUITION OR DESIGN?

Abstract

The article is devoted to the discovery of connections between certain levels of a literary work - the phonetic organization of the text and artistic images. The emergence of a number of artistic images is associated with the way the language material is arranged. Sometimes the sound similarity of the words denoting these phenomena is sufficient to compare the two phenomena. The sound structure of the national language contributes to the creation of poetic semantics - imagery appears due to the unexpectedness of word connections by a formal sign.

Keywords: phonics, paronymy, paronymic attraction, artistic image, comparison.

Ветхий чертёж - неизвестно чей -Первый неудавшийся проект кита.

В. Маяковский

Поскольку литература как вид искусства является вторичным образованием, надстраивающимся над естественным национальным языком, понимание её связано с определёнными сложностями. В этом плане показательно, что иногда даже профессиональные литературоведы в своих рецензиях и критических статьях могут допускать неточности, связанные с непониманием сущности используемых поэтом художественных приёмов. Показателен пример из книги известного литературоведа В.Б. Шкловского «О теории прозы». Один из разделов своей книги учёный называет выразительной строкой из В. Маяковского: «Первый неудачный чертёж кита». Эта строка, действительно, привлекает внимание своей неожиданностью и парадоксальностью образа. Однако Шкловский далее пишет: «Маяковский искал своей возможности понять свои личные отношения. И он написал строки:

i Надоели баннеры? Вы всегда можете отключить рекламу.