Научная статья на тему 'Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска'

Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска Текст научной статьи по специальности «Математика»

CC BY
394
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЙ ПОИСК / ВОПРОСНО-ОТВЕТНЫЙ ПОИСК / ВОПРОСНООТВЕТНЫЕ СИСТЕМЫ / ПРОВЕРКА ОТВЕТОВ / ВАЛИДАЦИЯ ОТВЕТОВ / КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / INFORMATION RETRIEVAL / QUESTION ANSWERING / ANSWER VALIDATION / QUESTION-ANSWERING SYSTEMS / CHECKING ANSWER / COMPUTATIONAL LINGUISTICS / NATURAL LANGUAGE PROCESSING

Аннотация научной статьи по математике, автор научной работы — Соловьев А. А.

Рассмотрена подзадача валидации ответов в задаче вопросно-ответного поиска. Традиционными метриками качества на семинарах TAC-RTE и CLEF-AVE являются аккуратность (accuracy) и F -мера. По результатам участия в семинаре РОМИП-2010 отмечено, что число ложных ответов-гипотез, которые должен отклонить модуль валидации ответов, часто значительно превышает число верных ответов. Предложена новая метрика — взвешенная погрешность, которая чаще штрафует систему за ошибки первого рода (пользователю показан неверный ответ — falsepositive), чем за ошибки второго рода (правильный ответ отвергнут и пользователю не показан — falsenegative). В отличие от F -меры она также поощряет систему за верно отфильтрованный ответ (truenegative).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Соловьев А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

WEIGHTED ERROR — NEW METRICS FOR ESTIMATING QUALITY OF ANSWER VALIDATION IN THE PROBLEM OF QUESTION-ANSWERING RETRIEVAL

The answer validation subproblem is considered in a problem of question answering retrieval. Traditional quality metrics at the TAC-RTE and CLEF-AVE seminars are accuracy and F-measure. From results of participation in ROMIP-2010 seminar, it is noted that a number of false answer-hypotheses that must be declined by the answer validation module frequently exceeds substantially the true answer number. A novel metrics—weighted error is proposed which penalizes the system for the first-kind errors (false positive errors, when an incorrect answer is shown to the user) more frequently than for the second-kind errors (false negative errors, when a correct answer is rejected and not shown to the user). Unlike the F-measure, it also rewards the system for the properly rejected (true negative) answer.

Текст научной работы на тему «Взвешенная погрешность — новая метрика для оценки качества валидации ответов в задаче вопросно-ответного поиска»

ИНФОРМАТИКА И ВЫЧИСЛИТЕЛЬНАЯ

ТЕХНИКА

УДК 025.4.036+004.912

ВЗВЕШЕННАЯ ПОГРЕШНОСТЬ - НОВАЯ МЕТРИКА ДЛЯ ОЦЕНКИ КАЧЕСТВА ВАЛИДАЦИИ ОТВЕТОВ В ЗАДАЧЕ ВОПРОСНО-ОТВЕТНОГО ПОИСКА

А.А. Соловьев

МГТУ им. Н.Э. Баумана, Москва e-mail: a-soloviev@mail.ru

Рассмотрена под задача валидации ответов в задаче вопросно-ответного поиска. Традиционными метриками качества на семинарах TAC-RTE и CLEF-AVE являются аккуратность (accuracy) и F-мера. По результатам участия в семинаре РОМИП-2010 отмечено, что число ложных ответов-гипотез, которые должен отклонить модуль валидации ответов, часто значительно превышает число верных ответов. Предложена новая метрика — взвешенная погрешность, которая чаще штрафует систему за ошибки первого рода (пользователю показан неверный ответ — falsepositive), чем за ошибки второго рода (правильный ответ отвергнут и пользователю не показан — falsenegative). В отличие от F-меры она также поощряет систему за верно отфильтрованный ответ (truenegative).

Ключевые слова: информационный поиск, вопросно-ответный поиск, вопросно-ответные системы, проверка ответов, валидация ответов, компьютерная лингвистика, обработка естественного языка.

WEIGHTED ERROR - NEW METRICS FOR ESTIMATING QUALITY OF ANSWER VALIDATION IN THE PROBLEM OF QUESTION-ANSWERING RETRIEVAL

A.A. Solovyev

Bauman Moscow State Technical University, Moscow e-mail: a-soloviev@mail.ru

The answer validation subproblem is considered in a problem ofquestion answering retrieval. Traditional quality metrics at the TAC-RTE and CLEF-AVE seminars are accuracy and F-measure. From results of participation in ROMIP-2010 seminar, it is noted that a number of false answer-hypotheses that must be declined by the answer validation module frequently exceeds substantially the true answer number. A novel metrics—weighted error is proposed which penalizes the system for the first-kind errors (false positive errors, when an incorrect answer is shown to the user) more frequently than for the second-kind errors (false negative errors, when a correct answer is rejected and not shown to the user). Unlike the F-measure, it also rewards the system for the properly rejected (true negative) answer.

Keywords: information retrieval, question answering, answer validation, question-answering systems, checking answer, answer validation, computational linguistics, natural language processing.

Программные системы вопросно-ответного поиска, или просто вопросно-ответные системы (англ. QuestionAnsweringSystems) - это

вид информационно-поисковых систем, способных обрабатывать введенный пользователем вопрос на естественном языке и выдавать осмысленный ответ. В отличие от задачи классического поиска по ключевым словам, в которой результатом является перечень документов, содержащих ответ на вопрос, в задаче вопросно-ответного поиска — это краткий и лаконичный ответ, сформированный системой в результате анализа разнообразных источников данных. Примером такого источника может служить некоторая коллекция полнотекстовых документов (множество страниц глобальной сети Интернет), а ответ составляется из фрагмента наиболее релевантного документа коллекции.

Обзор существующих методов валидации ответов, описание разрабатываемого метода параллельного обхода графов и формулировка задачи экспериментального исследования этих методов были приведены в работе [1]. В настоящей статье рассмотрены существующие подходы к экспериментальной оценке качества вопросно-ответных систем, в частности модуля валидации ответов. Обоснован выбор новой метрики для выполнения экспериментов, заявленных в работе [1].

Оценка вопросно-ответной системы в целом. Для оценки вопросно-ответной системы в целом применяются следующие метрики:

• Mean reciprocal rank [2];

• Confidence weighted score [3];

• Аккуратность [4];

• NIL-точность и NIL-полнота [3];

• c@1 [5].

Оценить валидацию ответа при таком подходе можно, сравнивая прогоны системы в разных конфигурациях:

• с отключенным модулем валидации;

• с тривиальной реализацией модуля (например, на модели мешка слов);

• с вырожденной реализацией (отклонять все ответы);

• с реализацией методов, предложенных другими авторами;

• с предлагаемой реализацией, но c разными параметрами.

Сравнивая результаты этих прогонов можно оценить вклад предлагаемой реализации модуля валидации ответов в качество вопросно-ответной системы в целом.

Важным требованием к методу оценки системы в целом является возможность учета варианта "нет ответа". Чтобы вычислить такие метрики, как NIL-точность и NIL-полнота, необходимо знать, есть ли вообще в данной коллекции документов ответ на каждый тестовый вопрос. Обычно такая информация добывается методом общего котла: если хоть одна из тестируемых систем дала правильный ответ

на вопрос (т.е. отмеченный асессорами как правильный), то ответ на вопрос существует.

Таким образом, если оцениваемая система дает неверный ответ на вопрос, для которого не существует ответа, значит у нее низкая NIL-полнота. Если система не дает ответ на вопрос, для которого какая-то другая система успешно нашла ответ, значит у нее низкая NIL-точность.

Процедура оценки вопросно-ответной системы очень трудоемка, так как требует работы нескольких асессоров, оценивающих результаты множества прогонов. Обычно такую оценку проводят в рамках ежегодных кампаний TREC, CLEF, TAC, РОМИП.

В работе [6] опубликованы результаты участия автора в семинаре по оценке методов информационного поиска РОМИП. Организаторы семинара отметили низкую эффективность кампании (дорожки вопросно-ответного поиска в 2010 г.) — значительные усилия асессоров были потрачены, чтобы констатировать тот факт, что тестовые вопросы слабо соответствовали предложенной участникам коллекции документов. Так, только для 60 заданий из 246 асессоры предполагали, что документ с ответом существует в коллекции.

К сожалению, метрики вопросно-ответной дорожки, предоставленные организаторами, не позволяли адекватно сравнить прогоны, так как никак не поощряли вариант "нет ответа", хотя это должен быть самый распространенный правильный ответ. Были представлены следующие метрики:

• на сколько запросов был подан хоть один вариант ответа;

• число запросов у которых есть хотя бы один ответ с оценкой good;

• число запросов, у которых есть хотя бы один ответ с оценками good, long или partial;

• число запросов, у которых есть хотя бы один длинный ответ (фрагмент) с оценкой good;

• число запросов, у которых есть хотя бы один длинный ответ (фрагмент) с оценками good или partial.

Чтобы исправить этот недочет, были предложены две метрики на основе категорий вопросов, представленных в табл. 1:

ошибка E — отношение числа неправильно принятых решений к общему числу решений,

b + c + d

E =-;

a + b + c + d + e

полнота R — отношение числа вопросов с правильными ответами к общему числу вопросов, имеющих ответ в коллекции,

a

R =

a + b + d

Таблица 1

Предложенные категории ответов системы для заданий РОМИП 2010 (не являются официальными метриками РОМИП)

Эталон

Прогон Ответ на вопрос Правильного

есть в коллекции ответа на вопрос в коллекции нет

Система дала хотя бы один правильный a 0

ответ на вопрос

Система дала один или несколько отве- b c

тов на вопрос, но все неправильные

Система не дала ни одного ответа на d e

вопрос

Результаты эксперимента РОМИП показали, что применение предложенного метода валидации ответов позволило снизить уровень ошибок Е с 59 до 26% при снижении полноты Я с 8 до 5 %.

После участия в РОМИП было принято решение построить тестовую коллекцию вопросов и ответов на основе заданий РОМИП, но используя другой источник текстов — поисковую выдачу Яндекса. Наличие такой коллекции с положительными и отрицательными примерами ответов позволяет выполнять воспроизводимые эксперименты для задачи валидации ответов, но не для оценки вопросно-ответной системы в целом.

Валидация ответов как задача бинарной классификации. Предлагаемый способ оценки валидации ответов основан на традиционном подходе к оценке в задаче классификации. Рассмотрим задачу валидации как задачу бинарной классификации: тройку (вопрос, ответ, сниппет) требуется отнести к одному из двух классов — верный ответ (правильность ответа на вопрос следует из предоставленного сниппе-та) или неверный.

В табл.2 приведены четыре возможных исхода решения задачи классификации.

Таблица 2

Категории результата бинарной классификации ответов

Наблюдаемый результат Ожидаемый результат

Верный ответ Неверный ответ

Верный ответ tp (true-positive) fp (false-positive, ошибка первого рода)

Неверный ответ fn (false-negative, ошибка второго рода) tn (true-negative)

На основе этой таблицы определяются традиционные метрики качества классификации:

Ьр + Ьп

Accuracy =

tp + tn + fp + fn'

Error =-+ fn—— = 1 — Accuracy;

tp + tn + fp + fn

Precision =-; Recall = P '

Fß =

tp + fp tp + f n

(1 + ß2)Precision • Recall (1 + ß2)tp

P2Precision + Recall (1 + в2) tp + в2 • fn + fp'

где коэффициент в £ [0; может рассматриваться как относительная степень важности показателей полноты и точности. При в =1/2 точность вдвое важнее полноты, при в = 2 полнота вдвое важнее точности.

В случае задачи валидации ответов показатель точности является более важным, чем показатель полноты: задача вопросно-ответного поиска разбивалась на две крупные фазы — генерацию гипотез-ответов и проверку гипотез-ответов. Для первой фазы важным показателем качества являлась полнота, для второй — точность [5].

Если рассмотреть модуль валидации как фильтр неверных ответов, то задачей этого фильтра является уменьшение числа ошибок первого рода (fp), может быть даже в ущерб сокращению ошибок второго рода (fn). Чтобы правильно сбалансировать эти два показателя, разложим погрешность (Error) на сумму двух составляющих, соответствующих ошибкам первого и второго рода:

Error =-fp + f-— = Error i + Errorii;

tp + tn + fp + fn

fp fn

Err or i =---—, Erroru =

Ьр + Ьп + fp + fn Ьр + Ьп + fp + fn

Чтобы подчеркнуть важность ошибок первого рода для задачи валидации, можно определить взвешенную погрешность, в которой ошибки первого и второго рода будут иметь разные веса:

а • fP + fn

Р _ а + 1 а • 1'Р + 1'п

Еа = --— •

Ьр + Ьп + а • ^ + ^ (а + 1) • (Ьр + Ьп) + а • + ^

а+1

здесь коэффициент а Е [0; имеет тот же смысл, что и в в

^-мере — относительная степень важности ошибок первого и второго рода. При а = 1/2 ошибки второго рода вдвое важнее (менее

желательны) ошибок первого рода, при а = 2 ошибки первого рода вдвое важнее ошибок второго рода.

Главным отличием предложенной взвешенной погрешности Еа от F-меры является учет вклада true-negative — числа правильно отсеянных ответов. При tn ^ max(tp, fn, fp), т.е. когда коллекция состоит в основном из отрицательных примеров и фильтр срабатывает правильно, F-мера не меняется, в то время как показатель погрешности стремится к нулю.

Отметим, что тестовая коллекция для валидации ответов действительно должна состоять из преимущественно отрицательных примеров, так как в реальной вопросно-ответной системе на этапе генерации гипотез порождается множество ложных ответов и малое число правильных.

Результаты экспериментов. Предложенный показатель Еа=2,0 предлагается для сравнения разных алгоритмов валидации ответов[1]. Но так как этот показатель не является общепринятым и вводится впервые, то для каждого эксперимента будем также указывать традиционный показатель F^=0,5. В табл.3 представлены результаты экспериментальных прогонов различных алгоритмов валида-ции ответов, основанных на представлении текста в виде деревьев синтактико-семантических зависимостей. Синтаксико-семантический разбор предложений выполнен с помощью библиотеки AOT.Seman.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 3

Результаты прогонов различных реализаций модуля валидации ответов

Алгоритм валидации fn tn tp f'P Accuracy Fo,5 E2,0

Отклонять все ответы 35,8 64,2 0 0 65 0 15,19

Допускать все ответы 0 0 35,8 64,2 35 40 55,37

Пересечение множеств слов [7] 20,3 43,9 18,1 17,7 62 48 23,87

Пересечение множеств связей [7] 31,8 59,2 6,1 2,9 68 43 14,75

Совмещение вершин деревьев [8] 19,6 50,0 15,9 14,5 66 51 19,70

Расстояние редактирования [9] 32,3 60,4 3,3 4,0 64 26 17,44

Параллельный обход графов [1,6] 25,6 61,5 10,0 2,9 71 57 12,80

Сопоставление сказуемых [10] 25,9 60,7 9,7 3,7 70 54 13,64

Примечание. Значения метрик указаны в процентах. Лссигасу/Е — большее значение лучше. Е — меньшее значение лучше.

Из табл. 3 следует, что определение лучших прогонов по метрикам ^о.5 и Е2.о согласуется. Однако метрика Е2.о делает конкурентоспособным тривиальный алгоритм "Отклонять все ответы", что позволяет провести нижнюю границу качества (0,1519 для нашей тестовой коллекции), за которую алгоритмы не должны заходить. Так, алгоритмы "Расстояния редактирования" и "Совмещения вершин деревьев" показывают результаты хуже, чем этот тривиальный алгоритм; ^-мера не позволяет выполнять такое сравнение.

Выводы. По результатам участия в кампании РОМИП 2010, было принято решение исследовать подзадачу валидации ответа как задачу бинарной классификации. Была предложена новая метрика — взвешенная погрешность Еа, в отличие от традиционной F-меры учитывающая исходы true-negative, являющиеся важной категорией ответов для задачи валидации ответов. При использовании тестовой коллекции вопросов и ответов, состоящей из большого числа негативных примеров, метрика Еа позволяет сравнивать алгоритмы с тривиальным прогоном "Отклонять все ответы".

СПИСОК ЛИТЕРАТУРЫ

1. Соловьев А. А. Алгоритмы валидации ответов в задаче вопросно-ответного поиска // Вестник Воронежского гос. ун-та. Сер.: Системный анализ и информационные технологии. - 2011. - № 2. - C. 181-188.

2. Voorhees E. The TREC-8 question answering track report // In Proc. of the Eighth Text REtrieval Conference (TREC 8). - 1999. - P. 77-82.

3.Voorhees E. M. Overview of the TREC 2002 question answering track // In Proc. of the Eleventh Text Retrieval Conference (TREC 2002). - P. 57-67.

4. V o o r h e e s E. M. Overview of the TREC 2004 question answering track // In Proc. of The Thirteenth Text Retrieval Conference (TREC 2004).

5. P e с a s А., Hovy E., Forner P., Rodrigo A., Sutcliffe R., Forascu C. and Sporleder C. Overview of QA4MRE at CLEF 2011: Question answering for machine reading evaluation // Working Notes for the CLEF 2011 Workshop. -2011.

6. Соловьев А. А. Кто виноват и где собака зарыта? Метод валидации ответов на основе неточного сравнения семантических графов в вопросно-ответной системе // Российский семинар по оценке методов информационного поиска: Тр. РОМИП 2010. (Казань, 15 октября 2010г.).

7. Wang, Neumann. Using recognizing textual entailment as a core engine for answer validation // Working Notes for the CLEF 2008 Workshop. - 2008.

8. M a r s i E., KrahmerE., Bosma W.E., T h e u n e M. Normalized alignment of dependency trees for detecting textual entailment // Second PASCAL Recognising Textual Entailment Challenge. - 10-12 April 2006. - Venice, Italy.

9. PunyakanokV., Roth D. and Yih W. Natural language interface via dependency tree mapping: An application to question answering // AI and Math. -January, 2004.

10. S c h l a e f e r N. A semantic approach to question answering. Saarbrücken 2007.

Статья поступила в редакцию 22.11.2012

Александр Александрович Соловьeв — программист научно-технической библиотеки МГТУ им. Н.Э. Баумана, инженер-конструктор ООО "Аплана международные проекты". Автор шести научных работ в области информационного поиска.

A.A. Soloviev — programmer of the scientific and technical library of the Bauman Moscow State Technical University, engineer-designer of OOO APLANA International Projects. Author of 6 publications in the field of data retrieval.

i Надоели баннеры? Вы всегда можете отключить рекламу.