Повышение точности определения морфологических признаков неизвестных слов методом аналогий с помощью нечётких множеств

Гашков Александр Владимирович

Примечания

1 Morris, Ch. W. Writings on the General Theory of Signs. The Hague / Berlin, 1971. P. 218-219.

2 Власян, Г. Р. Прагматический подход к изучению диалогической речи // Вопр. когнитив. лингвистики. Тамбов, 2010. № 2.

3 Грайс, П. Логика и речевое общение // Новое в зарубеж. лингвистике. Вып. 16. Лингвистическая прагматика. М., 1985.

4 Кожухова, И. В. Интеррогативные речевые акты: реализация коммуникативной неимпози-

тивности (на материале английского и русского языков). Челябинск, 2012. С. 37.

5 Нефедова, Л. А. Когнитивно-деятельностный аспект импликативной коммуникации. Челябинск, 2001. С. 19.

6 Лайонз, Дж. Лингвистическая семантика: введение. М., 2003. С. 289.

7 Кожухова, И. В. Интеррогативные речевые акты...

Вестник Челябинского государственного университета. 2014. № 7 (336). Филология. Искусствоведение. Вып. 89. С. 20-23.

А. В. Гашков

ПОВЫШЕНИЕ ТОЧНОСТИ ОПРЕДЕЛЕНИЯ МОРФОЛОГИЧЕСКИХ ПРИЗНАКОВ НЕИЗВЕСТНЫХ СЛОВ МЕТОДОМ АНАЛОГИЙ С ПОМОЩЬЮ НЕЧЕТКИХ МНОЖЕСТВ

Проблема определения морфологических признаков неизвестных слов, то есть таких, которые не содержатся в словаре автоматической системы, пока не имеет удовлетворительного решения. Известные системы определяют морфологические признаки неизвестных слов с точностью менее 30 %, что недостаточно для использования таких систем в полностью автоматическом режиме. Предполагается, что использование метода аналогий в сочетании с нечеткими множествами может улучшить качество анализа. Проведенные эксперименты показали, что точность определения признаков неизвестных слов возросла до 50 %, что автор полагает удовлетворительным результатом.

Ключевые слова: метод аналогий, морфология, неизвестное слово, нечеткое множество, автоматический анализ текста.

Определение признаков слов, которые отсутствуют в словаре автоматической системы анализа текста на естественном языке (неизвестные слова) остается одной из проблем, все еще не имеющих удовлетворительного решения. В настоящее время как в России, так и за рубежом на рынке существуют много коммерческих программ и бесплатных модулей, которые, на наш взгляд, успешно справляются именно с задачами морфологического анализа: определяют начальную форму слова, выдают морфологическую информацию о слове. Все известные нам отечественные системы работают на основе словаря основ, большая часть изученных нами программ (Starling, mystem, RuMor, КМиморфологический анализ, Cir_ morph, Semantarus Morpho/ Семантарус Морфо и др.) работает на основе классической модели

А. А. Зализняка и его грамматического словаря. Программы RuMor, КМиморфологический анализ, Morphology и др. анализируют только известные слова. Неизвестные системе слова анализируют следующие программы: mystem, Starling, RSO Morphology, ThesaurusBrowser и морфологические модули АОТ.

Чтобы оценить существующие программы, мы провели эксперимент. Работа программ расценивалась нами по следующим критериям:

1. Работа с неизвестными словами.

2. Оценка анализа по критерию схожести и полноты.

Отметим, что под схожестью (коэффициент схожести Жаккара) мы понимаем соотношение количества верно определенных словоформ, ложноположительных и ложноотрицательных результатов, а под точностью - соотношение

Повышение точности определения морфологических признаков.

21

количества верно определенных словоформ и ложноположительных результатов.

В ходе подготовки к эксперименту выяснилось, что программа Pymorphy работает на основе алгоритмов АОТ, поэтому их результаты полностью совпадают. Кроме того, мы не смогли найти в публичном доступе следующие программы: Cir_morph, Libmorphrus, RCO Morphology, RDMA_IAI, Semantarus Morpho. Поэтому в нашем эксперименте участвовали следующие программы: АОТ (Pymorphy), Mystem и Polymorph/Полиморф.

В качестве экспериментального материала нами были отобраны 50 словоформ, не входящих в словарь А. А. Зализняка, то есть потенциально неизвестные слова: ухаживанье, капитанша, увлеченья, сожаленье, рисованья, стрелянием, снурке, тюрбо, почтенье, ухаживаньем, автотрофы, актуализма, Антарктиде, аборигенки, аватар, алкаши, анальгетики, андроид, аэроглиссера, аэрофотоснимок, ба-бульки, бандюг, барыге, берегинь, биоэнергетика, близняшками, бутсах, видеодатчик, видеокассетами, выгородка, выгородки, выживание, выщербинами, гидрокостюм, грузовоз, девятиэтажке, диаспор, дизайнера, дизайнеров, дубликаторов, заклятьях, засоней, зауряды, золотинка, именья, кадавр, каталка, каталке, котопес, котопса. Слова отбирались следующим методом: предлагалось случайное слово, которое затем проверялось программой по словарю метода аналогий. Если слово отсутствовало в словаре, то оно добавлялось в тестовый набор. Для определения точности анализа все словоформы анализировались всеми программами, а схожесть и полнота анализа оценивались человеком. Затем для каждого модуля вычислялись схожесть и полнота для анализа неизвестных слов, отраженная в таблице:

Таблица 1

Схожесть и полнота автоматического морфологического анализа неизвестных слов тремя анализаторами

Модуль Схожесть, % Полнота, %

АОТ 19,87 60,00

Mystem 26,69 69,23

Полиморф 18,87 66,37

Ранее нами были получены данные о том, что метод аналогий является более эффективным, чем рассмотренные выше [2]. Метод аналогий базируется на следующем наблюдении:

если в обратном словаре словоформ приписать каждой словоформе ее грамматические признаки (например, признаки части речи, типа словоизменения, рода, числа, падежа, лица и др.), то обнаружится, что многие участки словаря (иногда довольно значительного размера) имеют совершенно одинаковые наборы признаков [1. С. 44]. Поэтому можно предположить, что если для неизвестного слова найти его место в обратном словаре, то его грамматические признаки будут с высокой вероятностью совпадать с признаками слов, находящихся рядом. Специальный словарь, необходимый для работы алгоритма, основанного на методе аналогий, подготавливается следующим образом.

1. Составляется словарь словоформ.

Каждой словоформе приписываются грамматические признаки.

Словарь преобразуется в обратный.

Из словаря исключаются записи о всех идущих подряд словоформах, имеющих одинаковые грамматические признаки, кроме первой и последней.

2. У оставшихся словоформ исключаются начальные совпадающие части, не оказывающие влияния на результаты анализа [1. С. 4445].

Фактически после выполнения последнего шага мы получаем словарь окончаний, в котором, в редких случаях, могут появляться целые слова.

Алгоритм анализа, по Г. Г. Белоногову, следующий.

1. Проверяется, что слово не входит в дополнительный словарь служебных слов (если входит, то морфологическая информация извлекается из этого словаря).

Ищется место слова в сокращенном обратном словаре, слову назначается морфологическая информация той позиции в словаре, которая наиболее полно совпадает с конечными буквами слова.

Очевидно, что при таком поиске неизвестные слова анализируются точно так же, как и известные. Г. Г. Белоногов утверждает, что система анализа, построенная на основе метода аналогий, демонстрирует вероятность правильного анализа (включая известные слова) 99 % [1].

Для проверки качества анализа неизвестных слов методом аналогий мы провели эксперимент. Был подготовлен обратный словарь словоформ, основанный на известном словаре А. А. Зализняка, в который были включены

только словоформы самостоятельных частей речи. Затем из произведения А. Ф. Достоевского «Идиот» были выбраны слова, отсутствующие в обратном словаре и отвечающие следующим требованиям: имена нарицательные, состоящие целиком из кириллических символов (то есть без тире, апострофа и т. п.), в количестве одной тысячи. После определения морфологических признаков методом аналогий полученные признаки были проверены экспертом-человеком. Эксперимент показал следующие результаты для метода аналогий на реальном художественном тексте:

Точность распознавания части речи -71,6 %.

Точность распознавания морфологических признаков - 36,4 %.

Как видим, точность метода недостаточна для того, чтобы использовать его в полностью автоматизированных системах. Тем не менее, по нашим данным, это один из самых точных существующих методов.

Кроме неудовлетворительной для целей автоматического анализа точности, алгоритм имеет следующие недостатки:

- невозможно добавить новые слова в словарь без полной перестройки;

- одиночные слова, имеющие морфологическая признаки, отличающиеся от признаков слов, находящихся рядом, вызывают проблемы с определением признаков новых слов используется медленный дихотомический поиск.

В связи с вышеизложенным существует необходимость совершенствования описанного алгоритма определения морфологических признаков неизвестных слов.

Для повышения точности, а также упрощения дальнейшего использования результатов работы метода аналогий мы используем нечеткие множества. Понятие нечеткое множество («пушистое множество» в буквальном переводе) было введено Л. А. Заде в его работе «Fuzzy Sets» в журнале Information and Control [4. С. 338-353]. Л. А. Заде расширил канторов-ское понятие множества, допустив, что функция принадлежности элемента множеству может принимать не только значения 0 или 1, но и любое значение из интервала [0, 1].

Нечеткое множество определяется следующим способом. Пусть задано множество e], тогда нечетким подмножеством a множества е называется множество пар {(щ, xi)}, где x о e - степень принадлежности элемента xi к множеству a [3. С. 22].

Нечеткие множества позволяют моделировать широкий круг явлений: омонимию, размытость семантического поля и так далее, и сгладить противоречие между естественным языком и его моделью при автоматическом анализе.

Измененный метод работает следующим образом. По заданной графической форме алгоритм ищет в обратном словаре запись, ей соответствующую. Если запись найдена, алгоритм выдает морфологические признаки, ассоциированные с ней, и завершает работу. Если словоформа не найдена в словаре, то алгоритм находит место, в которое должна быть вставлена данная словоформа. Затем алгоритм находит пять ближайших предыдущих и пять последующих записей и сводит информацию о морфологических признаках из найденных десяти записей в одно нечеткое множество. Чем дальше запись от предполагаемого места вставки новой словоформы, тем меньший вклад она вносит в результирующее множество.

Например, пусть нам нужно определить морфологические признаки графемы липосо-мы (человек-эксперт укажет следующие признаки: ед. род., мн. вин. и мн. им. от жен., неод. от липосома). Данная словоформа отсутствует в обратном словаре, поэтому алгоритм помещает ее в обратный словарь таким образом, что соседними записями в обратном словаре окажутся следующие:

сомы; сущ.. муж., им., мн., одуш.; сущ., жен., им., мн., неодуш.; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш. весомы; прил., кратк., полож., мн. невесомы; прил., кратк., полож., мн. идиосомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.

хромосомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.

[предполагаемое место вставки новой словоформы]

АТОМЫ; СУЩ., МУЖ., ИМ., МН., НЕОД.; СУЩ., МУЖ., ВИН., МН., НЕОД.;

гематомы; сущ., жен., им., мн., неод; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неодуш.

анатомы; сущ., муж., им., мн., од. патологоанатомы; сущ., муж., им., мн., од. тератомы; сущ., жен., им., мн., неод.; сущ., жен., род., ед., неод.; сущ., жен., вин., мн., неод.

В результате объединения информации из всех записей мы получаем следующее нечет-

Особенности употребления эмоциональной частицы.

23

кое множество, отсортированное по функции принадлежности:

{сущ., жен., род., ед., неод. / 0,93, сущ., жен., им., мн., неод. / 0,93, сущ., жен., вин., мн., неод. / 0,93, сущ., муж., им., мн., од. / 0,73, прил., кратк., полож., мн. / 0,61, сущ., муж., им., мн., неод. / 0,50, сущ., муж., вин., мн., неод. / 0,50} Как можно видеть, правильные комбинации граммем получили наибольший вес, несмотря на то, что в рассматриваемый участок словаря попали не только существительные мужского рода, но и краткие прилагательные.

Проверка качества анализа неизвестных слов предлагаемым алгоритмом была произведена на тексте Н. В. Гоголя «Мертвые души». Проверка проводилась экспертом-человеком путем случайной выборки двухсот словоупотреблений, не входящих в обратный словарь словоформ. в результате предпринятых изменений схожесть определения Морфологических признаков неизвестных слов возросла с 36 % до 52 %, что можно признать удовлетворительным результатом. Кроме того, выбран-

ный метод записи информации о неизвестном слове позволяет в дальнейшем анализе учесть новую информацию о слове - например, контекст.

Таким образом, метод аналогий является одним из самых точных методов определения морфологических признаков неизвестных слов и имеет потенциал для улучшения, что показано в данной работе.

Список литературы

1. Белоногов, Г. Г. Компьютерная лингвистика и перспективные информационные технологии. М., 2004. 248 с.

2. Гашков, А. В. Оценка эффективности метода аналогий при автоматическом определении морфологических свойств неизвестных слов // Вестн. Челяб. гос. ун-та. 2010. № 7. Филология. Искусствоведение. Вып. 41. С. 27-31.

3. Кофман, А. Введение в теорию нечетких множеств. М., 1982. 432 с.

4. Zadeh, L. A. Fuzzy sets // Information and control. 1965. Vol. 8, n. 3. Р. 338-353.

Вестник Челябинского государственного университета. 2014. № 7 (336). Филология. Искусствоведение. Вып. 89. С. 23-26.

Л. В. Гушкова

ОСОБЕННОСТИ УПОТРЕБЛЕНИЯ ЭМОЦИОНАЛЬНОЙ ЧАСТИЦЫ ЧТО ЗА В ТЕКСТАХ Н. В. ГОГОЛЯ

Рассматривается эмоциональная частица что за и ее значение в произведениях Н. В. Гоголя. Наблюдение и анализ языкового материала позволяет говорить о частице что за как о средстве эмоционально-оценочной интенсификации повествования. Эмоциональность высказывания усиливается благодаря употреблению дополнительных средств акцентирования: интенсива, междометий, восклицательной интонации.

Ключевые слова: категория экспрессивности, эмоциональность, акцентирование, интенсификация.

Давая определение частицам, В. В. Виноградов подчеркивал, что это слова, которые «не имеют вполне самостоятельного реального или материального значения, а вносят главным образом дополнительные оттенки в значения других слов»1. Таким образом, на синтаксическом уровне частицы могут служить средством формального выражения эмоциональности и экспрессивности. По словам В. И. Шахов-

ского, «эмотивность служит для выражения чувств человека, его отношения, его оценки (одобрение, неодобрение)»2. Экспрессивность высказывания обусловлена интенсивностью проявления признака и эмоционально-оценочным отношением говорящего.

Эмоциональное отношение говорящего в высказывании является проявлением «личной пристрастности человека к миру, имеющей

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гашков Александр Владимирович

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Гашков Александр Владимирович

Improving the identifying quality of morphological properties of unknown word with analogy method and fuzzy sets

Текст научной работы на тему «Повышение точности определения морфологических признаков неизвестных слов методом аналогий с помощью нечётких множеств»