Оценка эффективности метода аналогий при автоматическом определении морфологических свойств неизвестных слов

Гашков Александр Владимирович

Вестник Челябинского государственного университета. 2009. № 7 (188). Филология. Искусствоведение. Вып. 41. С. 27-31.

А. В. Гашков

оценка эффективности метода аналогий при автоматическом определении морфологических свойств неизвестных слов

В статье кратко описывается морфологический анализ методом аналогий и предлагается способ оценки этого метода при определении морфологических свойств неизвестных слов. Экспериментальным путём проводится оценка метода аналогий с помощью предложенного метода.

Ключевые слова: морфология, метод аналогий, морфологические признаки, анализ текста.

Современное прикладное языкознание выделяет несколько различных методов идентификации морфологических признаков слов. Одним из этих методов является метод аналогий. Целью данной статьи является проверка эффективности метода аналогий по оригинальной методике и оценка применимости метода для разных задач.

Подробное описание метода аналогий и его применение для автоматического морфологического анализа слов изложено в работе [2. С. 69-89]. Метод основан на том, что у слов с одинаковыми концевыми сочетаниями букв часто оказываются одинаковые морфологические признаки. Конец слова в данном случае не эквивалентен окончанию и может включать в себя как суффиксы, так и часть корня. Например, слова 'служба, дружба, изба’ обладают следующими морфологическим признаками: имя существительное, именительный падеж, женский род, единственное число. При этом все слова имеют общий конец -ба. Метод аналогии базируется на предположении, что любое слово с концовкой -ба с большой вероятностью будет обладать теми же самыми морфологическими признаками. Для работы алгоритму, основанному на методе аналогий, требуется два словаря: словарь служебных слов и обратный словарь.

В словарь служебных слов включаются предлоги, союзы, местоимения, частицы и короткие слова (слова длиной до пяти букв). Позже Г. Г. Белоногов, Ю. П. Калинин, А. А. Хорошилов добавили в тот же словарь слова, грамматические признаки которых определяются неправильно. В результате объём словаря служебных слов составил около 11 тысяч вхождений [2. С. 78].

Обратный словарь содержит словоформы, отсортированные по концу (сначала по пер-

вой букве с конца, при совпадении - по второй с конца и т. д.), с приписанными каждой словоформе морфологическими признаками.

При разборе слова алгоритм сначала ищет его в словаре служебных слов. Если слово найдено, то морфологическая информация извлекается из словаря служебных слов, поскольку считается, что достоверность этого словаря выше, чем обратного. Если же слово не найдено, то в обратном словаре ищется слово, конец которого максимально совпадает с концом разбираемого слова. Морфологическая информация найденного слова автоматически, «по аналогии», приписывается разбираемому слову. Г. Г. Белоногов, Ю. П. Калинин, А. А. Хорошилов описывают также способ сокращения объёма словаря, примерно в 10 раз, что, однако, не так важно для нашего исследования. Точность работы этой системы авторы оценивают не менее 99 % [2. С. 78].

Недостатком данного метода

А. М. Андреев, Д. В. Березкин и К. В. Симаков справедливо называют необходимость ручного назначения грамматических признаков словам в текстах большого объёма. Поэтому в своей работе, посвященной методу аналогий [1], они предлагают способ автоматического обучения морфологического анализатора. Кроме того, А. М. Андреев, Д. В. Березкин, К. В. Симаков развивают способы группировки слов в кластеры, объединённые не только по грамматической информации, но и по канонической форме.

Обе вышеупомянутые работы, по нашему мнению, имеют следующие недостатки.

1. Для анализа требуется два разнородных словаря, что приводит к появлению двух частей в алгоритме, которые должны быть выполнены последовательно. Невозможность объединения частей алгоритма или их парал-

лельному выполнению увеличивает время работы.

2. Отсутствует статистика по точности определения морфологических признаков полностью неизвестных слов, то есть слов, не входящих в словарь служебных слов и не использованных при построении обратного словаря.

Мы попытаемся оценить предел точности метода аналогий. Сделаем это для двух случаев.

1. Автоматическое определение части речи по обратному словарю.

2. Автоматическое определение всех морфологических признаков по обратному словарю.

В качестве источника для обратного сло-

А. А. Зализняка [3]. Чтобы получить развёрнутый словарь, для каждого вхождения словаря записывается каждая словоформа, которая может быть порождена из исходного слова вместе с грамматической информацией. Все наши дальнейшие рассуждения строятся на предположении, что распределение неизвестных слов, грамматические признаки которых мы пытаемся определить методом аналогий, коррелирует с распределением слов в обратном словаре. Такая корреляция является необходимым условием того, что метод аналогий вообще будет работать.

Рассмотрим отрезок обратного словаря, приведённый в таблице.

варя мы используем развёрнутый словарь

меренга Сущ., жен., неод., ед., им.

шеренга Сущ., жен., неод., ед., им.

стренга Сущ., жен., неод., ед., им.

битенга V Сущ., муж., неод., ед., род.

тюбинга Сущ., муж., неод., ед., род.

слябинга Сущ., муж., неод., ед., род.

свинга Сущ., муж., неод., ед., род.

слединга Сущ., муж., неод., ед., род.

фединга Сущ., муж., неод., ед., род.

инбридинга Сущ., муж., неод., ед., род.

кроссбридинга Сущ., муж., неод., ед., род.

пудинга Сущ., муж., неод., ед., род.

крекинга Сущ., муж., неод., ед., род.

викинга V Сущ., муж., од., ед., род.; сущ., муж., од., ед., вин.

смокинга V Сущ., муж., неод., ед., род.

салинга Сущ., муж., неод., ед., род.

канцелинга Сущ., муж., неод., ед., род.

шиллинга Сущ., муж., неод., ед., род.

эллинга Сущ., муж., неод., ед., род.

стерлинга Сущ., муж., неод., ед., род.

реслинга Сущ., муж., неод., ед., род.

рислинга Сущ., муж., неод., ед., род.

лемминга Сущ., муж., неод., ед., род.

блюминга Сущ., муж., неод., ед., род.

тренинга Сущ., муж., неод., ед., род.

спиннинга Сущ., муж., неод., ед., род.

браунинга Сущ., муж., неод., ед., род.

спунинга Сущ., муж., неод., ед., род.

демпинга Сущ., муж., неод., ед., род.

Для облегчения восприятия галочкой выделены те строки, в которых изменяется хотя бы одна грамматическая характеристика при переходе от одного слова к следующему. Как видим, список слов в примере состоит из нескольких частей, в каждой из которых соседние слова полностью идентичны по их признакам. Назовём такой участок кластером. Кластер может состоять и из одного слова. Обозначим количество слов в словаре как п, а количество кластеров как т. Число а = т/п, равное среднему количеству кластеров на слово, оказывается важной характеристикой словаря, что показано ниже. Заметим также, что количество кластеров зависит от критериев, по которым мы сравниваем слова. В приведённом примере 4 кластера. Рассмотрим пример определения морфологических признаков словоформы, изначально не вошедшей в словарь. В качестве примера возьмём словоформу ‘боулинга’ (род. ед. от ‘боулинг’). Она попадает между ‘рислинга’ и ‘лемминга’. Таким образом, морфологические признаки, определённые методом аналогий для ‘боулинга’ будут: существительное, мужской род, неодушевлённое, единственное число, родительный падеж.

Какие предположения мы можем сделать, исходя только из доступного обратного словаря? Предположим, что неизвестное слово попадает в случайное место словаря. Возможно два случая: рассматриваемое слово попадёт между двумя словами с одинаковыми грамматическими характеристиками (внутрь кластера), во втором - между словами с разными признаками. В первом случае мы считаем, что такое слово однозначно имеет те же характеристики (что, однако, не гарантированно). В противном случае мы не можем решить, каковы его грамматические признаки. Мы можем считать, что во втором случае точность определения будет 50 % и вероятность неправильного определения составляет в этом случае а/2. Пока мы не учитывали возможность того, что слово, попав между двумя одинаковыми по признакам словам, будет иметь, тем не менее, отличные от них признаки. Мы можем предположить, что вероятность такого события равна а. Таким образом, общая вероятность ошибки будет не меньше 1 - (1 - 0,5а) (1 - а).

Для обратного словаря словоформ, построенного на основе словаря А. А. Зализняка объёмом примерно 1,5 миллионов вхождений,

а = 0,05 (примерно 20 слов в кластере в среднем) при сравнении слов только по признаку ‘часть речи’. Таким образом, ожидаемая точность 5 < (1 - 0,025) (1 - 0,05) = 0,926.

При сравнении соседних слов по всей совокупности морфологических признаков количество кластеров на слово а = 0,20, соответственно, вероятность точного определения 5 < (1 - 0,1) (1 - 0,2) = 0,72. Эта оценка является верхней границей точности метода.

Нижнюю границу точности определяем исходя из следующих соображений: если бы метод определял принадлежность слова (или словоформы) к одной из групп признаков случайным образом, то вероятность точного определения признаков была бы обратно пропорциональна количеству групп. При определении только части речи мы имеем 6 групп

- существительное, прилагательное, глагол, причастие, деепричастие и наречие. То есть точность не должна быть меньше 16,7 %. В случае определения всех морфологических признаков количество групп 646, а точность не меньше 0,15 %.

Для проверки высказанного предположения мы провели эксперимент. В качестве учителя и эксперта выступал обратный словарь словоформ на основе словаря А. А. Зализняка. Для обучения использовалась случайная выборка словоформ различного объёма. Чтобы результаты можно было воспроизвести, мы использовали заранее заданную последовательность случайных чисел. Соответственно, вторая часть словаря использовалась как тестовый набор и как эксперт. Размер обучающей выборки начинался со 100 слов и, увеличиваясь в два раза с каждым шагом, возрастал до 25600. Мы не использовали выборку более 20 % от словаря, чтобы избежать интерференции между обучающей и экспертной частями. Тестирование проводилось по двум градациям точности определения грамматических признаков. В первом случае мы требовали, чтобы только часть речи, определённая методом аналогий, совпадала со словарной. Во втором

- полного совпадения всех грамматических признаков, за исключением переходности для глаголов. Причём в случае омонимичных словоформ было достаточно совпадения любой из омонимичных форм.

Графики иллюстрируют зависимость точности определения признаков (в процентах) от объёма обучающей выборки.

Точность определения всех признаков

Точность определения части речи

Таким образом, точность определения части речи неизвестного слова по результатам эксперимента - не менее 93 %, точность определения всех морфологических признаков - не менее 71 %, при условии полной корреляции текста со словарём А. А. Зализняка, то есть реальные тексты должны давать меньший процент правильного определения.

Для проверки гипотезы мы провели другой эксперимент. В качестве учителя выступал полный словарь словоформ на основе словаря А. А. Зализняка, в качестве эксперта

- человек, исследуемый материал - «Война и мир» Л. Н. Толстого, том I. Сначала весь текст был разбит на слова, которые были сведены в алфавитный список без повторений, затем из списка были удалены:

1. Имена собственные.

2. Сокращения.

3. Местоимения, предлоги, союзы, числительные, междометия и частицы (поскольку мы считаем, что такие слова достаточно немногочисленны для того, чтобы полностью их перечислить в словаре служебных слов).

4. Все словоформы, имеющие в своём составе хотя бы один не кириллический символ либо цифру.

После окончательного формирования списка из него случайным образом было выбрано 1000 слов, которые были использованы для проверки точности метода аналогий. Правильность определения характеристик контролировал эксперт-человек. Эксперимент показал следующие результаты для метода аналогий, обученного на полном словаре словоформ на основе словаря А. А. Зализняка и реальном художественном тексте:

• Точность распознавания части речи -71,8 %.

• Точность распознавания морфологических признаков (кроме переходности для глагола) - 36,2 %.

Проведённые эксперименты показали, что метод аналогий даёт удовлетворительные результаты при определении части речи неизвестного слова и значительно лучшие, чем случайная выбор свойств из всех возможных их комбинаций, результаты при определении

всех морфологических характеристик неизвестного слова. Однако в случае определения всех морфологических признаков слова метод не может быть использован как самостоятельный способ.

Список литературы

1. Андреев, А. М. Обучение морфологического анализатора на большой электронной коллекции текстовых документов / А. М. Андреев, Д. В. Березкин, К. В. Симаков ; НПЦ «ИНТЕЛТЕК ПЛЮС».

2. Белоногов, Г. Г. Компьютерная лингвистика и перспективные информационные технологии : теория и практика построения систем автоматической обработки текстовой информации / Г. Г. Белоногов, Ю. П. Калинин, А. А. Хорошилов. М. : Рус. мир, 2004. 246 с.

3. Зализняк, А. А. Грамматический словарь русского языка (словоизменение). 2-е изд. М. : Рус. яз., 1980.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гашков Александр Владимирович

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Гашков Александр Владимирович

Текст научной работы на тему «Оценка эффективности метода аналогий при автоматическом определении морфологических свойств неизвестных слов»