Научная статья на тему 'Язык как сложная динамическая система'

Язык как сложная динамическая система Текст научной статьи по специальности «Математика»

CC BY
260
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЯЗЫК / МОРФОЛОГИЯ / СЛОЖНЫЕ СИСТЕМЫ / САМООРГАНИЗОВАННАЯ КРИТИЧНОСТЬ / LANGUAGE / MORPHOLOGY / COMPLEX SYSTEMS / SELF-ORGANIZED CRITICALITY

Аннотация научной статьи по математике, автор научной работы — Черных Герман Анатольевич, Новикова Александра Юрьевна

На примере русского языка экспериментально показано, что на морфологическом уровне язык проявляет свойства сложной динамической системы, находящейся в состоянии самоорганизованной критичности, что позволяет рассматривать язык, как физическую систему с нелокальным характером межобъектного взаимодействия.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Черных Герман Анатольевич, Новикова Александра Юрьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Язык как сложная динамическая система»

aqueous solution at room temperature» «Journal of Photochemistry and Photobiology B: Biology» 1996 V.24 (2-3) pp. 211-216.

13. Шпольский Э.В. «Успехи физических наук» 1960 Т. 71, стр. 215.

14. Шпольский Э.В. «Успехи физических наук» 1959 Т. 68, стр. 51.

15. Смит А. «Прикладная ИК-спектроскопия» М. 1982.

16. Степаньян С.Г., Радченко Е.Д., Шеина Г.Г. и др. «Конформационный анализ 5-замещённых производных урацила» «Биофизика» 1988 Т. 34 вып. 5 стр. 753-758.

17. Тен Г.Н., Нечаев В.В., Панкратов А.Н. и др. «Влияние водородной связи на структуру и колебательные спектры комплементарных пар оснований нуклеиновых кислот. II. Аденин - тимин» «Журнал структурной химии» 2010 Т. 51 № 5 стр. 889-895.

Язык как сложная динамическая система 1 2 Черных Г. А. , Новикова А. Ю.

Черных Герман Анатольевич / Chernykh German Anatolyevich - доцент, кандидат физико-математических наук,

кафедра проблем конвергенции естественных и гуманитарных наук, факультет свободных искусств и наук;

2Новикова Александра Юрьевна / Novikova Aleksandra Yuryevna - магистрант, филологический факультет,

Санкт-Петербургский государственный университет, г. Санкт-Петербург

Аннотация: на примере русского языка экспериментально показано, что на морфологическом уровне язык проявляет свойства сложной динамической системы, находящейся в состоянии самоорганизованной критичности, что позволяет рассматривать язык, как физическую систему с нелокальным характером межобъектного взаимодействия.

Abstract: it is experimentally established that language shows some properties of the complex dynamic systems in a state of self-organized criticality. Research was carried out on the example of Russian texts. It allows considering language as a physical system with a nonlocal nature of inter-object communication.

Ключевые слова: язык, морфология, сложные системы, самоорганизованная критичность.

Keywords: language, morphology, complex systems, self-organized criticality.

Введение.

Сложной системой обычно называют множество, состоящее из достаточно большого количества нелинейным образом взаимодействующих объектов. Если система в целом устойчива, то есть, макроскопические динамические характеристики системы существенно не изменяются со временем, а характер взаимодействия между объектами, составляющими систему, таков, что возможно протекание лавинообразных процессов, способных охватить значительную часть системы на макроскопическом уровне (здесь можно говорить о нелокальном характере взаимодействий), то, как правило, динамический режим системы характеризуется так называемым состоянием самоорганизованной критичности. По-сути, если исходить из требования устойчивости и нелокальности взаимодействий, то сложная система с необходимостью должна находиться в вышеуказанном состоянии.

Самоорганизованная критическая динамика является весьма широко распространенным явлением и проявляется практически везде, где можно говорить о сложных системах. Из примечательных и, на первый взгляд, экзотических случаев

17

уместно упомянуть обнаруженную критическую динамику в эволюции программного кода [1] или музыкальных и речевых звуковых сигналов [2]. Само по себе состояние самоорганизованной критичности также может иметь определенную необычную специфику (см., например, работу [3] о кусочном скейлинге). Критерием нахождения динамической системы в состоянии самоорганизованной критичности является степенной вид функций плотностей вероятностей, построенных по каким-либо динамическим переменным системы.

В настоящей работе текст рассматривается, как совокупность объектов со связями (взаимодействием). Объектами считаются морфологические единицы, а связями - так называемые критерии связанности, - специальные характеристики морфологических единиц, полученные посредством статистической обработки контекста последних, и в определенном смысле, характеризующие уровень связанности конкретного объекта со своим окружением. Причем, в представленном варианте рассматриваются в некотором роде усредненные, а не индивидуальные связи. Причина использования именно морфологических единиц, а не слов, состоит в проблематичности накопления достаточного количества статистических данных на сочетания слов для получения достоверных результатов. На основе численного анализа полученных результатов показано, что статистические распределения имеют четко выраженные степенные участки. Вычислены соответствующие степенные показатели.

Алгоритм получения данных включает следующие ключевые шаги:

- отображение слов текста на морфологические единицы;

- сбор статистики на сочетания морфологических единиц;

- вычисление критериев связанности;

- построение статистических распределений и вычисление степенных показателей.

Морфологические единицы.

Морфологической единицей или морфологическим индексом (морфоиндексом) называется уникальный набор морфологических характеристик слова. Следовательно, разные слова могут иметь один и тот же морфоиндекс. В настоящей работе отображение слов текста на морфоиндексы осуществлялось с использованием открытого морфологического словаря русского языка OpenCorpora [4]. Разумеется, перед этим текст должен быть подвергнут процедуре нормализации (удаление знаков препинания, унификация регистра и пр.) На момент обработки словарь OpenCorpora содержал 5096367 словоформ, разбитых на 389262 леммы. Уникальных словоформ 3183550. При построении морфоиндексов и последующем сборе статистики важным моментом являлось разрешение неоднозначности словоформ, которая может быть, как внутрилеммной, когда, к примеру, слово в разных падежах имеет одну и ту же форму, так и кросслеммной. Пример кросслеммной неоднозначности: слово «десятка» - женский род, именительный падеж; мужской род родительный падеж. Внутрилеммная неоднозначность разрешалась на этапе построения морфоиндексов. Первая встретившаяся в лемме неоднозначная словоформа, получала морфоиндекс на основе своих характеристик, а остальные - посредством объединения собственных характеристик с характеристиками предшествующих в лемме идентичных словоформ. Всего по словарю OpenCorpora построено 7050 морфологических индексов. Разрешение кросслеммной неоднозначности производилось после сбора статистики на сочетания морфоиндексов во время этапа вычисления критериев связанности. Алгоритм довольно сложен в реализации. Описание алгоритма приведено в приложении.

Сбор морфологической статистики.

После процедуры отображения слов текста на морфоиндексы производился подсчет числа сочетаний пар морфологических единиц, отстоящих друг от друга на расстояния, не превышающие заданное количество слов. Важно отметить, что перед вычислением окончательных значений вероятностей сочетаний пар морфоиндексов

18

производилась пороговая фильтрация (удаление сочетаний с низкой вероятностью) и дополнительная нормировка. Для осуществления пороговой фильтрации вычислялось множество предварительных вероятностей сочетаний морфоиндексов. Затем полученное множество сортировалось в порядке возрастания численных значений вероятностей. После чего строился график зависимости логарифма вероятности от логарифма порядкового номера численного значения вероятности в отсортированном множестве. Типичный пример зависимости представлен на рис. 1. Далее по графику определялась примерная граница, разделяющая прямолинейный и непрямолинейный участки, и из множества вероятностей удалялись значения, соответствующие прямолинейному участку. На представленном примере рис. 1 граница раздела проходит примерно на уровне -8. Соответственно, все сочетания пар морфоиндексов с меньшими вероятностями удаляются из множества, их вероятности приравниваются нулю, а остальные вычисляются с новой нормировкой.

В результате, каждой паре слов текста (в рамках заданного радиуса), сопоставлялось число в интервале от 0 до 1, являющееся вероятностью сочетания морфоиндексов, построенных по словам пары. Полученные вероятности могут использоваться для различного рода обработки текста или текстовых графов: коррекции ошибок, синтеза текста и пр. В частности, методика успешно применена в комплексе субтитрирования [5] живой речи с целью коррекции ошибок системы распознавания на стадии рескоринга словных графов.

Критерии морфологической связанности слов.

Каждому слову текста сопоставляется числовая характеристика - критерий его морфологической связанности со своим контекстом. Алгоритм вычисления критерия следующий. Априори фиксируется радиус контекста N - целое число порядка десяти (в настоящей работе использовался радиус равный семи). Для каждой пары слов, образованной словом, для которого вычисляется критерий связанности, и словом, отстоящем от него не более чем на N слов, берется вероятность сочетания соответствующей словам пары морфоиндексов. Далее из 2N полученных вероятностей выбирается максимальная, что и является критерием морфологической связанности. Соседние с исходным словом слова, расположенные в пределах радиуса,

19

но одновременно находящиеся в других предложениях, исключаются из рассмотрения при вычислении максимума.

Результаты вычисления критических индексов.

Применение вышеописанной цепочки процедур отображает текст на числовую последовательность, где каждый элемент характеризует уровень морфологической связанности соответствующего слова текста с его окружением.

По полученным множествам строились функции плотностей вероятности. Все они имели степенную форму вида х-а. Были вычислены соответствующие степенные показатели а - критические индексы. Численные значения а лежали в интервале от 1.4 ± 0.1 до 1.6 ± 0.1. В зависимости от специфики обрабатываемых текстовых баз. Необходимо отметить, что проведено довольно большое количество экспериментов при различных исходных условиях:

- варьировалась текстовая база, используемая для накопления морфологической статистики, как по объему, так и по содержанию (классическая литература, стихи, новости и т.д.);

- варьировалась база, на которой считались критические индексы, причем она могла быть или не быть частью первичной базы для накопления статистики;

- изменялись пороги фильтрации и методы нормировки.

Выводы.

Ключевой результат настоящей работы состоит в выявленном степенном характере функций плотностей вероятностей распределений критериев морфологической связанности слов текста. Откуда следует, что текст в частности, и язык в целом, можно интерпретировать, как сложную систему, находящуюся в состоянии самоорганизованной критичности. Поскольку язык является плодом деятельности головного мозга человека, то вывод не является неожиданным, так как известно, что на определенных уровнях функционирования мозг как раз проявляет динамику самоорганизованной критичности (см., например, [6, 7]).

Отдельно необходимо подчеркнуть специфику численных результатов, касающихся значений критических индексов. Пока остается до конца невыясненным вопрос, можно ли рассматривать язык в целом, как сложную систему в состоянии самоорганизованной критичности, имеющей фиксированный критический индекс, либо значение индекса варьируется в зависимости от специфики текста. Второй вариант более правдоподобен, так как погрешности вычисления критических индексов, например, в рамках одного литературного произведения весомо отличаются в меньшую сторону по сравнению со случаями, когда в одной обрабатываемой базе находятся качественно разные произведения. Если гипотеза подтвердится, то это даст дополнительный макроскопический численный критерий анализа текстов. Таким образом, работа в данном направлении будет продолжаться, что вероятно, вызовет необходимость построения альтернативных способов отображения текстов на числовые ряды. Однако подобные отображения должны сохранять сложносистемный подход к языку.

Приложение. Разрешение кросслеммной неоднозначности.

1. Для обоих слов определяются леммы, в которых они встречаются. В общем случае оба слова будут представлены в нескольких леммах. Имея пару слов A и B, можно получить, что слово A есть в M леммах, а слово B - в N леммах. Таким образом, имеется M * N вариантов сочетаний морфоиндексов.

2. Для каждой конкретной пары лемм проводится локальная нормировка частотностей. Для этого перебираются все возможные сочетания пар слов, входящих в заданные леммы, после чего частотности нормируются на единицу. Таким образом, нормировка зависит от того, какие пары лемм взяты.

3. Из M * N вероятностей выбирается одна. Если в имеющихся M * N вероятностях есть единственное максимальное число, то выбирается оно. Если максимумов больше одного, то необходимо сравнить распределения вероятностей в

20

рамках пар лемм, выбирая то число, которое принадлежит паре лемм с распределением, имеющим наиболее ярко выраженную острую форму.

Последний пункт объясняется тем, что при переборе пар лемм для заданных слов, могут быть отобраны несочетающиеся леммы, которые все равно имеют некие частотности. Подобные частотности, скорее всего, будут распределены так, что форма распределения будет близка к равномерному без выраженных пиков (все вероятности не соответствуют истине). Наоборот, для сочетающихся лемм в распределении должен быть хотя бы один четкий пик, который соответствует морфологически правильному сочетанию слов.

Литература

1. Gorshenev A., Pis’mak Yu. Scaling laws in evolution of large computer programs. Physics of Particles and Nuclei Letters, May 2008. Vol. 5, Issue 3, 201-206.

2. Haro M, Serra J, Corral A, Herrera P. Power-Law Distribution in Encoded MFCC Frames of Speech, Music, and Environmental Sound Signals. In 21st International World Wide Web Conference (WWW 2012): 4th International Workshop on Advances in Music Information Research (AdMIRe 2012), 2012. 895-902.

3. Chernykh G., Pis'mak Y. Piecewise scaling in a model of neural network dynamics. Mathematical Modeling and Computational Science. Vol. 7125 of Lecture Notes in Computer Science. Springer Berlin Heidelberg, 2012. 302-307.

4. Сайт лингвистического корпуса [Электронный ресурс]: OpenCorpora. URL: http://opencorpora.org/dict.php, свободный (20.05.2015).

5. Levin K., Ponomareva I, Bulusheva A, Chernykh G., Medennikov I., Merkin N, Prudnikov A., Tomashenko N.. Automated closed captioning for Russian live broadcasting. Proceedings of Interspeech, 2014. 1438-1442.

6. Chialvo D. R. Emergent complex neural dynamics. Nature Physics, 2010. 6: 744-750.

7. Hesse J., Gross T. Self-organized criticality as a fundamental property of neural systems. Front. Syst. Neurosci, 2014. 8: 166.

Метод последовательных приближений в решении нелинейного интегро-дифференциального уравнения в частных производных

четвертого порядка Акерова Дж. А.

Акерова Джылдыс Абдрамановна / Akerova Dzhyldys Abdramanovna - старший преподаватель, кафедра дифференциальных уравнений, факультет математики, информатики и кибернетики,

Кыргызский национальный университет им. Ж. Баласагына, г. Бишкек, Кыргызская Республика

Аннотация: исследована задача существования и единственности непрерывнодифференцируемого решения начально-краевой задачи Коши для интегро-дифференциального уравнения в частных производных четвертого порядка. Доказательство существования и единственности решения интегро-дифференциального уравнения проводится с помощью метода последовательных приближений.

Abstract: the problem of existence and uniqueness of a continuously differentiable solution of the Cauchy initial-boundary value problem for the fourth order partial integral-differential equation have been researched. Proof of the existence and uniqueness of integro-differential equation solution is carried out by means of successive approximations method.

21

i Надоели баннеры? Вы всегда можете отключить рекламу.