Научная статья на тему 'КЛАССИФИКАЦИЯ И ПРИНЦИПЫ ПОСТРОЕНИЯ СИСТЕМ ВОПРОСНО-ОТВЕТНОГО ПОИСКА'

КЛАССИФИКАЦИЯ И ПРИНЦИПЫ ПОСТРОЕНИЯ СИСТЕМ ВОПРОСНО-ОТВЕТНОГО ПОИСКА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
755
95
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРЯМАЯ ВОПРОСНО-ОТВЕТНАЯ СИСТЕМА / КЛАССИФИКАЦИЯ / ДОМЕН ЗНАНИЙ / ТИПЫ ВОПРОСОВ / ИНВЕРТИРОВАННАЯ ВОПРОСНО-ОТВЕТНАЯ СИСТЕМА / ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ / DIRECT QUESTION ANSWERING SYSTEMS / CLASSIFICATION / KNOWLEDGE DOMAIN / TYPE OF QUESTIONS / INVERTED QUESTION ANSWERING SYSTEMS / EDUCATIONAL TECHNOLOGIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Черноморова Татьяна Семеновна, Воробьев Сергей Петрович

На анализе неоднозначности естественного языка основана разработка вопросно-ответных систем, способных обрабатывать введенный пользователем вопрос на естественном языке и выдавать осмысленный ответ. В отличие от задачи классического поиска по ключевым словам, в которой результатом является перечень документов, в задаче вопросно-ответного поиска результат - это краткий и лаконичный ответ, сформированный системой в результате анализа разнообразных источников данных. В обзорной статье перечислены и рассмотрены основные подходы и принципы построения вопросно-ответных систем: метапоисковая система, система поиска по аннотированному тексту, экспертная система, система поиска в коллекциях вопросов и ответов. Одним из первых подходов к вопросно-ответным системам можно назвать систему BASEBALL начала 60-х годов прошлого века, так как появилась возможность задавать вопросы к системе на естественном языке, но базой знаний служила обычная структурированная база данных. Таким образом, можно считать ее системой естественного ввода. Все ранние вопросно-ответные системы столкнулись с проблемой отсутствия BigData - большого объема оцифрованных фактов и правил. Реально работающие экспертные системы получались только в ограниченном домене знаний. Поэтому для качественного обсуждения вопросно-ответных систем предлагается классифицировать их в рамках следующих измерений: типы поддерживаемых вопросов, типы поддерживаемых ответов, источник информации, техника вывода вопроса или ответа по источнику информации, ограниченность домена знаний, методики оценки качества, направление - кто задает вопрос: пользователь или система. Направление - это измерение, предлагаемое для классификации вопросно-ответных систем впервые в настоящей статье . Оно определяет ведущего вопросно-ответный диалог в паре - человек-компьютер. Прямая вопросно-ответная система подразумевает, что вопросы задает человек, а машина отвечает. Инвертированная система предполагает, что компьютер является ведущим этого диалога. На сегодняшний день одной из самых развитых и известных прямых вопросно-ответных систем является система на суперкомпьютере IBM Watson . В последнее десятилетие наблюдается активное развитие образовательных технологий в сети Интернет ( EduTech) . При помощи накопленного объема данных об успешных или тупиковых путях прохождения пользователем по оцифрованным материалам курса можно сформировать для каждого из них адаптивный обучающий курс, позволяющий максимизировать коэффициент готовности обучающегося. На практике обучение сталкивается с высоким порогом входа со стороны автора курса - преподавателя. Ему необходимо не только перерабатывать структуру своих классических курсов, дробя на меньшие блоки, но и добавлять в паузы между блоками оригинальные вопросники и элементы геймификации обучения. Инвертированные вопросно-ответные системы с открытым доменом знаний диалогового типа имеют большую перспективу в решении задачи генерации оригинальных вопросников, ведении простого диалога по адаптивному графу вопросов и внесении элементов геймификации для улучшения восприятия и усвоения материала лекций.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Черноморова Татьяна Семеновна, Воробьев Сергей Петрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATION AND PRINCIPLES OF BUILDING QUESTION-ANSWER SEARCH SYSTEMS

The analysis of the ambiguity of the natural language is based on the development of Question Answering Systems that can process a user-entered question in a natural language and give a meaningful answer. Unlike the classical keyword search task, in which the result is a list of documents, in the question-answer search task, the result is a short and concise answer generated by the system as a result of analysis of various data sources. The review article lists and considers the main approaches and principles for constructing question-answer systems: a meta-search system, an annotated text search system, an expert system, a search system in question and answer collections. One of the first approaches to Question Answering Systems can be called the BASEBALL system of the early 60s of the last century, since it became possible to ask questions to the system in a natural language, but the knowledge base was a regular structured database. Thus, it can be considered its natural input system. All early Question Answering Systems were faced with the problem of the lack of BigData - a large amount of digitized facts and rules. Really working expert systems were obtained only in a limited domain of knowledge. Therefore, for a qualitative discussion of Question Answering Systems, it is proposed to classify them in the following dimensions: types of supported questions, types of supported answers, source of information, technique for outputting a question or answer by source of information, limited domain of knowledge, quality assessment methods, direction - who asks the question: user or system. Direction is a dimension proposed for the classification of Question Answering Systems for the first time in this article. It defines the lead question-answer dialogue in a pair - a man-computer. A direct question-answer system implies that a person asks questions and the machine answers. An inverted system assumes that the computer is leading this dialogue. Today, one of the most developed and well-known direct Question Answering Systems is the question and answer system on the IBM Watson supercomputer. In the last decade, there has been an active development of educational technologies on the Internet (EduTech). Using the accumulated amount of data on successful or dead-end paths by the user on digitized course materials, it is possible to form an adaptive training course for each of them, which allows to maximize the student’s readiness coefficient. In practice, training is faced with a high threshold of entry by the author of the course, the teacher. He needs not only to restructure the structure of his classical courses, breaking up into smaller blocks, but also to add original questionnaires and elements of gamification of instruction to the pauses between blocks. Inverted Question Answering Systems with an open dialog domain of knowledge have a great prospect in solving the problem of generating original questionnaires, conducting a simple dialogue on an adaptive question graph and introducing gamification elements to improve the perception and assimilation of lecture material.

Текст научной работы на тему «КЛАССИФИКАЦИЯ И ПРИНЦИПЫ ПОСТРОЕНИЯ СИСТЕМ ВОПРОСНО-ОТВЕТНОГО ПОИСКА»

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

ТЕХНИЧЕСКИЕ НА УКИ / TECHNICAL SCIENCES

УДК 004.5 https://doi.org/10.33619/2414-2948/57/12

КЛАССИФИКАЦИЯ И ПРИНЦИПЫ ПОСТРОЕНИЯ СИСТЕМ ВОПРОСНО-ОТВЕТНОГО ПОИСКА

©Черноморова Т. С., Южно-Российский государственный политехнический университет

(НПИ) им. М.И. Платова, г. Новочеркасск, Россия, tatyana.chernomorova@gmail.com ©Воробьев С. П., канд. техн. наук, Южно-Российский государственный политехнический университет (НПИ) им. М.И. Платова, г. Новочеркасск, Россия,

vsp1999@yandex.ru

CLASSIFICATION AND PRINCIPLES OF BUILDING QUESTION-ANSWER SEARCH SYSTEMS

©Chernomorova T., Platov South-Russian State Polytechnic University (NPI),

Novocherkassk, Russia, tatyana.chernomorova@gmail.com ©Vorobyev S., Ph.D., Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia, vsp1999@yandex.ru

Аннотация. На анализе неоднозначности естественного языка основана разработка вопросно-ответных систем, способных обрабатывать введенный пользователем вопрос на естественном языке и выдавать осмысленный ответ. В отличие от задачи классического поиска по ключевым словам, в которой результатом является перечень документов, в задаче вопросно-ответного поиска результат — это краткий и лаконичный ответ, сформированный системой в результате анализа разнообразных источников данных. В обзорной статье перечислены и рассмотрены основные подходы и принципы построения вопросно-ответных систем: метапоисковая система, система поиска по аннотированному тексту, экспертная система, система поиска в коллекциях вопросов и ответов. Одним из первых подходов к вопросно-ответным системам можно назвать систему BASEBALL начала 60-х годов прошлого века, так как появилась возможность задавать вопросы к системе на естественном языке, но базой знаний служила обычная структурированная база данных. Таким образом, можно считать ее системой естественного ввода. Все ранние вопросно-ответные системы столкнулись с проблемой отсутствия BigData — большого объема оцифрованных фактов и правил. Реально работающие экспертные системы получались только в ограниченном домене знаний. Поэтому для качественного обсуждения вопросно-ответных систем предлагается классифицировать их в рамках следующих измерений: типы поддерживаемых вопросов, типы поддерживаемых ответов, источник информации, техника вывода вопроса или ответа по источнику информации, ограниченность домена знаний, методики оценки качества, направление — кто задает вопрос: пользователь или система. Направление — это измерение, предлагаемое для классификации вопросно-ответных систем впервые в настоящей статье. Оно определяет ведущего вопросно-ответный диалог в паре — человек-компьютер. Прямая вопросно-ответная система подразумевает, что вопросы задает человек, а машина отвечает. Инвертированная система предполагает, что компьютер является ведущим этого диалога. На сегодняшний день одной из самых развитых и известных прямых вопросно-ответных систем является система на суперкомпьютере IBM Watson. В последнее десятилетие наблюдается активное развитие образовательных технологий в сети Интернет (EduTech). При помощи накопленного объема

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

данных об успешных или тупиковых путях прохождения пользователем по оцифрованным материалам курса можно сформировать для каждого из них адаптивный обучающий курс, позволяющий максимизировать коэффициент готовности обучающегося. На практике обучение сталкивается с высоким порогом входа со стороны автора курса — преподавателя. Ему необходимо не только перерабатывать структуру своих классических курсов, дробя на меньшие блоки, но и добавлять в паузы между блоками оригинальные вопросники и элементы геймификации обучения. Инвертированные вопросно-ответные системы с открытым доменом знаний диалогового типа имеют большую перспективу в решении задачи генерации оригинальных вопросников, ведении простого диалога по адаптивному графу вопросов и внесении элементов геймификации для улучшения восприятия и усвоения материала лекций.

Abstract. The analysis of the ambiguity of the natural language is based on the development of Question Answering Systems that can process a user-entered question in a natural language and give a meaningful answer. Unlike the classical keyword search task, in which the result is a list of documents, in the question-answer search task, the result is a short and concise answer generated by the system as a result of analysis of various data sources. The review article lists and considers the main approaches and principles for constructing question-answer systems: a meta-search system, an annotated text search system, an expert system, a search system in question and answer collections. One of the first approaches to Question Answering Systems can be called the BASEBALL system of the early 60s of the last century, since it became possible to ask questions to the system in a natural language, but the knowledge base was a regular structured database. Thus, it can be considered its natural input system. All early Question Answering Systems were faced with the problem of the lack of BigData — a large amount of digitized facts and rules. Really working expert systems were obtained only in a limited domain of knowledge. Therefore, for a qualitative discussion of Question Answering Systems, it is proposed to classify them in the following dimensions: types of supported questions, types of supported answers, source of information, technique for outputting a question or answer by source of information, limited domain of knowledge, quality assessment methods, direction — who asks the question: user or system. Direction is a dimension proposed for the classification of Question Answering Systems for the first time in this article. It defines the lead question-answer dialogue in a pair — a man-computer. A direct question-answer system implies that a person asks questions and the machine answers. An inverted system assumes that the computer is leading this dialogue. Today, one of the most developed and well-known direct Question Answering Systems is the question and answer system on the IBM Watson supercomputer. In the last decade, there has been an active development of educational technologies on the Internet (EduTech). Using the accumulated amount of data on successful or dead-end paths by the user on digitized course materials, it is possible to form an adaptive training course for each of them, which allows to maximize the student's readiness coefficient. In practice, training is faced with a high threshold of entry by the author of the course, the teacher. He needs not only to restructure the structure of his classical courses, breaking up into smaller blocks, but also to add original questionnaires and elements of gamification of instruction to the pauses between blocks. Inverted Question Answering Systems with an open dialog domain of knowledge have a great prospect in solving the problem of generating original questionnaires, conducting a simple dialogue on an adaptive question graph and introducing gamification elements to improve the perception and assimilation of lecture material.

Ключевые слова: прямая вопросно-ответная система, классификация, домен знаний, типы вопросов, инвертированная вопросно-ответная система, образовательные технологии.

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

Keywords: direct Question Answering Systems, classification, knowledge domain, type of questions, inverted Question Answering Systems, educational technologies.

Введение

Одно из шести направлений научных исследований искусственного интеллекта — это обработка текстов на естественном языке [1]. На анализе неоднозначности естественного языка основана разработка вопросно-ответных систем (от англ. Question Answering Systems), — это вид информационно-поисковых систем, способных обрабатывать введенный пользователем вопрос на естественном языке и выдавать осмысленный ответ. В отличие от задачи классического поиска по ключевым словам, в которой результатом является перечень документов, содержащих ответ на вопрос, в задаче вопросно-ответного поиска результат — это краткий и лаконичный ответ, сформированный системой в результате анализа разнообразных источников данных. Примером таких источников может служить некоторая коллекция полнотекстовых документов (множество страниц глобальной сети Internet), а ответ составлен из фрагментов наиболее релевантного документа коллекции.

Благодаря недавним академическим работам [2-3], многие исследователи начали осознавать проблему и согласились с тем, что ее решение кроется в форме нового подхода, основанного на понимании естественного языка и рассуждений в среде, которая базируется на знаниях — "Natural Language Understanding and Reasoning for Intelligence " (NaLURI). Важным фактором является включение в систему ответа на вопросы таких требовательных функций, которые не только позволяют отвечать на широкий круг вопросов и получать ответ лучшего качества, но и влиять на время ответа.

Традиционно в работах по вопросно-ответному поиску приводится следующая классификация методов или систем по используемому математическому аппарату [2-3]: -логические формы и логический вывод; -графы зависимостей слов в предложениях;

-статистический подход и машинное обучение классификаторов; -логические онтологии для анализа отдельных слов текста и др.

Основные подходы и принципы построения вопросно-ответных систем. Большинство исследователей ориентируются на некоторую типовую архитектуру вопросно-ответной системы, в которой выделяются четыре подзадачи: анализ вопроса, поиск, извлечение потенциальных ответов и валидация ответов. Существуют различные подходы и принципы построения вопросно-ответных систем, но основными являются следующие: -метапоисковая система; -система поиска по аннотированному тексту; -экспертная система;

-система поиска в коллекциях вопросов и ответов.

Метапоисковая система. В качестве источника данных такая система использует классическую поисковую систему, то есть использует неструктурированные данные, которые делятся на две группы: традиционные неструктурированные документальные и неструктурированные семантические. Система анализирует вопрос пользователя на естественном языке с целью выделить следующее [4]: -предположение о семантическом классе ответа;

-фокус вопроса (вопросительные слова: кто, где, в каком, когда, сколько и др.); -опора вопроса - остальные члены вопросительного предложения, которые описывают уникальные свойства искомого объекта.

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

Метапоисковая система обычно формулирует запрос по ключевым словам, входящим в опору вопроса. Результаты поиска обрабатываются компонентами автоматической обработки текста, то есть выделяются все именованные сущности, соответствующие искомому семантическому классу: персоны, географические названия, линейные размеры, названия организаций и др. Далее синтаксический и семантический разбор позволяют выбрать из всех найденных сущностей наиболее подходящие [5].

Достоинства такой системы заключаются в отсутствии необходимости хранить огромный массив информации (для поиска в Интернете) и гибкости — система может использовать любые доступные инструменты для анализа фрагментов (поиск по ключевым словам, контекстный поиск, полнотекстовый поиск), представлять фрагменты в виде графов.

Недостатки — высокая вычислительная нагрузка в момент обработки вопроса, связанная с выполнением лингвистических задач.

Поиск по аннотированному тексту. Такие системы имеют в своем составе поисковый индекс документов в отличие от метапоисковых. Работают такие системы также с неструктурированными данными. Элементами индекса являются не отдельные слова текста, а объекты детального лингвистического анализа: именованные сущности [5], элементарные синтаксические связки (пары грамматически связанных слов и др.), предикативно-аргументные структуры предложения [6]. Построение индекса происходит с привлечением компьютерной лингвистики, а именно: каждый новый документ проходит автоматическую обработку на естественном языке, размечаются объекты вопросно-ответной системы, затем они добавляются в индекс.

Достоинства — меньшая вычислительная нагрузка в момент обработки вопроса в реальном времени благодаря специализированному индексу.

Недостатки — невысокая гибкость, так как на этапе построения индекса выбирается определенная модель представления текста, и любые изменения требуют перестроения индекса. В связи с этим потребность в значительно больших вычислительных ресурсах в целом для реализации системы.

Экспертная система. В начале 70-х годов прошлого века начинает активно развиваться подход отделения системы работы с правилами — системы вывода и системы хранения самих правил. Теперь информация хранится не в форме данных, а форме знаний — набора простых правил и фактов. А система вывода при помощи объединения знаний из разных правил может получать новую информацию, не хранящуюся в базе знаний системы непосредственно. Подобная концепция получила название Knowledge Programming, а системы, которые придерживаются подобного подхода, называют экспертными система

Основными компонентами экспертной системы являются: база фактов, база правил, база автоматически сгенерированных знаний и машина вывода. Современная форма накопления предметного знания представляется как база данных, отображающая ситуационную модель релевантной сферы, то есть профессиональной сферы, для которой предназначена конкретная экспертная система. Экспертная система оперирует не только данными, но и понятийными знаниями, выраженными на естественном языке. Предметное знание - это совокупность сведений о качественных и количественных характеристиках конкретных объектов.

База фактов — это структурированная база данных, которая может быть построена автоматически в результате анализа коллекции документов. Этот процесс аналогичен построению аннотированного индекса. Однако он происходит на более детальном уровне обработки естественного текста: извлекаются не синтаксические или поверхностно-семантические конструкции, а факты (фреймы). База правил — формализованные процедуры

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

установления различных типов связей между ними. Основными типами связей являются: иерархические, определяемые отношениями структуризации, и семантические связи, задаваемые функциональными и каузальными отношениями. Под каузальными связями будем понимать простые отношения причинности, на основе которых можно с некоторой уверенностью считать, что какое-то свойство есть результат действия другого свойства [7]. Функциональные отношения содержат процедурную информацию, позволяющую вычислить одни информационные единицы на основе других, хранящихся в базе фактов. Результатом является база знаний, позиционируемая как семантическая сеть.

Экспертная система может понимать вопрос пользователя на естественном языке, но только используя его сленг. Так, например, одна из первых экспертная система MYCIN, разработанная для медицинской диагностики в области лечения заражения крови и менингитных инфекций, возникшая также в 70-х годах прошлого века, состояла в общей сложности из 430 правил, разработанных с помощью группы сотрудников по инфекционным заболеваниям Стэнфордского университета, кроме того выявлено порядка 40-50 слов и словосочетаний медицинского сленга [8]. Как оказалось, именно таким набором слов и словосочетаний пользуются врачи в своей практике в этой конкретной предметной области. Это позволило «подогреть» интерес к этой системе у пользователей.

Неотъемлемым элементом экспертных систем также является некоторая управляющая структура, которая определяет — какое из правил должно быть проверено следующим. Часто его называют интерпретатором правил или машиной вывода.

Преимущества вопросно-ответных систем, спроектированных на основе экспертных систем — это высокая скорость работы и достоверность результатов, возможность машинного обучения, способность к адаптации.

Недостатки — сильная зависимость от структуры фактов (фреймов), трудоемкость построения базы фактов, необходимость выбирать только авторитетные исходные тексты для извлечения информации об окружающем мире, однако, эти факты могут противоречить друг другу, и система должна учитывать это.

Поиск в коллекции вопросов и ответов. В социальных системах вопросно-ответного поиска (collaborative question answering) одни пользователи отвечают на вопросы других. Пользователь открывает страницу Web-сайта и формулирует вопрос. Система ищет похожие вопросы в коллекции вопросов и ответов и выдает найденный раздел, где обсуждается вопрос. Если подобный вопрос не существует, создается новый раздел для обсуждения вопроса. На этот вопрос отвечают желающие, а автору приходят уведомления по мере появления ответов. Данные в такой системе представлены в виде коллекции вопросов с ответами, которая может пополняться другими пользователями или даже автоматически.

В этой системе необходим модуль извлечения вопросов и ответов из коллекции документов. Вопросно-ответная система непрерывно сканирует все страницы Интернета, анализируя тексты на естественном языке и формулируя возможные вопросы по этому тексту [5]. Кроме того, модуль позволяет поднимать или понижать рейтинг автоматически сгенерированной пары «вопрос-ответ».

Разработчики немецкой системы LogAnswer [9] предлагают такой подход — система работает как программный робот, который обходит известные вопросно-ответные сайты и пытается отвечать на вопросы автоматически, как обычный участник обсуждений.

Преимущества — возможность развернутых ответов, проверка достоверности ответов другими пользователями, низкие вычислительные затраты на поиск ответа в коллекции.

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

Недостатки — необходимость мотивации пользователей как для пополнения коллекции, так и для оценивания ответов, особенно порожденных автоматически, трудоемкость автоматического порождения коллекции, необходимость объемного хранилища.

Тенденция развития вопросно-ответных систем. Одним из первых подходов к вопросно-ответным системам можно назвать систему BASEBALL [10] начала 60-х годов прошлого века. Отличительной особенностью, позволяющей считать ее первой вопросно-ответной, являлась возможность задавать вопросы к системе на естественном языке, но базой знаний служила обычная структурированная база данных. Таким образом, можно считать ее системой естественного ввода. В рамках этой архитектурной концепции следом за BASEBALL появились LUNAR [11] и LIFER [12]. Первая помогает геологам работать с базой химических анализов лунной породы, вторая также предоставляет интерфейс естественного языка к базе кораблей Военно-морского флота США.

Все ранние вопросно-ответные системы столкнулись с проблемой отсутствия BigData, — большого объема оцифрованных фактов и правил. Фактически создатели пытались сделать систему вывода, которая из ограниченного набора правил базы знаний смогла бы вывести концепции сложности высших порядков. Пользователи увидели, что набора правил, которые они задают в базу знаний, недостаточно для получения системы, помогающей в принятии решений. Реально работающие экспертные системы получались только в ограниченном домене знаний.

С ростом популярности сети Интернет растет количество оцифрованных неструктурированных данных, и акцент в вопросно-ответных системах смещается с задачи наполнения базы знаний в сторону задачи поиска правильного ответа, уже существующего в массе данных. А создание алгоритма PageRank [13] в Google — это тот самый небольшой шаг по учету признака связанности различных частей информации в сети, который переводит поисковые системы из роли обычных индексаторов сайтов интернета в вопросно-ответные системы. Вывод ответа через правила стал больше не нужен, так как ответ на вопрос писали сами пользователи интернета вопросно-ответной системе в лице поисковика. Базой знаний новой системы стал весь объем данных Интернета, а поисковик стал системой вывода. В основу правил вывода легли эвристики о структуре Интернета и методах взаимодействия в нем людей.

Огромный объем оцифрованных текстов стал обучающей выборкой сам по себе для задач анализа естественного языка, что позволило создавать качественные интерфейсы ввода и управления на естественном языке. Новый класс систем, цифровые помощники которых активно развиваются в последнее время, сочетает в себе гибридные функции. Основа взаимодействия с помощником — это ввод на естественном языке, который классифицируется в зависимости от содержимого или в вопросно-ответную задачу («Сири, какова высота Эвереста»), или в задачу управления устройством при помощи команд естественного языка («Сири, поставь таймер на 15 минут»).

Развитие вопросно-ответных систем шло на протяжении всего периода существования современных информационных технологий, и для решения вопросно-ответной задачи было создано много систем, обладающих разными свойствами и архитектурами. Поэтому для качественно обсуждения и классификации вопросно-ответных систем необходимо сформулировать концептуальный фреймворк классификации, представленный на Рисунке.

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

Оценка качества Рисунок. Концептуальный фреймворк классификации.

Предлагается классифицировать вопросно-ответные системы в рамках следующих измерений: типы поддерживаемых вопросов, типы поддерживаемых ответов, источник информации, техника вывода вопроса или ответа по источнику информации, ограниченность домена знаний, методики оценки качества, направление — кто задает вопрос: пользователь или система.

1) ВОПРОС — на какие вопросы система может давать ответы;

2) ОТВЕТ — какого рода ответы может давать система;

3) ТЕХНИКА ВЫВОДА — техника получения ответов (извлечение пассажей с ответами из текстов, извлечение фактов или генерация ответов на естественном языке);

4) ИСТОЧНИК ИНФОРМАЦИИ — структурированная или неструктурированная информация;

5) ДОМЕН ЗНАНИИ — открытая область знаний;

6) ОЦЕНКА КАЧЕСТВА — способ оценки качества;

7) НАПРАВЛЕНИЕ — кто задает вопрос: человек или компьютер.

Различные типы вопросов создают разный уровень проблем. Тип вопросов, поддерживаемых вопросно-ответной системой, может быть использован для определения сложности системы. Вопросы могут быть сформулированы пятью способами [14], а именно: -фактические вопросы (например, «Где Куала Лумпур? »);

-вопросы, требующие простых рассуждений (например, «Почему произошла авария?»; -составные вопросы (например, «Каковы ежедневные действия жертвы за неделю до того, как он был убит?»);

-вопросы на основе диалога (например, «Кто является обвиняемым в этом случае?»); -спекулятивные вопросы (например, «Является ли идея повышения цены топлива оправданной? »).

В отличие от вопросов, для ответов нет определений того, что включает в себя точный ответ. Ясно, что ответ должен быть правильным, чтобы быть полезным, но это все еще оставляет много возможностей для разных систем отвечать на одни и те же вопросы по-разному и с разной полезностью. Тем не менее, из техники получения ответов, можно с большой долей успеха предсказать — какова будет структура ответа.

Системы, использующие неструктурированные тексты в качестве источников информации, для ответа, например, обычно возвращают краткую выдержку из текста в качестве ответов. Один из главных вопросов, интересующих создателей таких систем, — какой длины должен быть возвращенным ответ, чтобы не быть слишком коротким и не потерять часть ответа, но и не слишком длинным, содержащим лишнюю информацию.

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

Техника получения ответов и источники информации тесно связаны. Зачастую используемая техника тесно связана с типом используемого источника информации. Если источник информации — свободный текст, тогда метод, скорее всего, будет основан на техниках информационного поиска. С другой стороны, если источником информации является база знаний или база данных, то подход будет либо на основе логики, либо на каком-либо ограниченном языке, поддерживаемым базой знаний или базой данных.

Домен знаний — это один из элементов, который определяет фокус или направление вопросно-ответной системы. Методы ответов на вопросы в открытом домене, основаны на вероятностных мерах и имеют более широкий диапазон источников информации. В отличие от систем, работающих в открытом домене знаний, весьма вероятно, что в системах, сфокусированных на конкретном домене знаний (экспертные системы), методы более логичны и обоснованы, потому что поиск ответов на вопрос происходит в относительно ограниченных источниках информации определенных областей. Домен-ориентированная система имеет преимущество по умолчанию перед открытой системой и может использовать более богатые подходы в понимании естественного языка, по причине знания аксиоматики домена знания и онтологий. Продвинутые рассуждения, такие как предоставление объяснения ответов и обобщение вопросов очень тяжелы в системах с открытым доменом. Системам ответов на вопросы с открытым доменом нужно иметь дело с вопросами почти обо всем, и очень трудно полагаться на онтологию информации из-за отсутствия широких и в то же время детальных мировых знаний. С другой стороны, преимущество систем с открытым доменом в том, что они имеют гораздо больше данных для извлечения ответов и знаний об устройстве языка из статистик.

Элемент способы оценки качества, может быть довольно субъективным, особенно когда речь идет о различных типах систем естественного языка в разных областях. Легко оценивать качество ответов системы, в которой есть четко определенные ответы, однако, для большинства вопросов естественного языка не существует единого правильного ответа. Пожалуй, только вопросно-ответные системы, основанные на простом понимании естественного языка и техниках информационного поиска, которые имеют размеченные датасеты для тестирования, могут достаточно хорошо ориентироваться на метриках точности и полноты. Эти метрики могут быть выбраны в качестве критериев оценки вопросно-ответных систем.

Направление — это измерение, предлагаемое для классификации вопросно-ответных систем впервые. Оно определяет ведущего вопросно-ответный диалог в паре — человек-компьютер. Прямая вопросно-ответная система подразумевает, что вопросы задает человек, а машина отвечает. Инвертированная вопросно-ответная система предполагает, что компьютер является ведущим этого диалога.

Пример построения прямой вопросно-ответной системы с открытым доменом, отвечающей на фактические вопросы. Большинство существующих в настоящее время реализаций вопросно-ответных систем ориентировано на один из самых распространенных языков мира — английский. На сегодняшний день одной из самых развитых и известных вопросно-ответных систем является вопросно-ответная система, созданная группой разработчиков фирмы IBM (руководитель группы — David Ferrucci) на суперкомпьютере IBM Watson [15]. В 2011 году Watson принял участие в телепередаче «Jeopardy !» (аналог российской телепередачи «Своя игра»), обыграв двух лучших игроков «Jeopardy!». Во время игры система имела доступ к информации (в том числе к полному тексту Википедии) объемом в 4 терабайта и 3000 процессоров, чтобы успешно конкурировать с людьми. Это наиболее гибкая вопросно-

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

ответная система, которая использует полный арсенал современных методов для решения задачи.

На первом этапе работы Watson происходит анализ вопросительного предложения: выделяется фокус вопроса, вопрос классифицируется в соответствии с внутренней классификацией Watson. После этого происходит декомпозиция вопроса: при необходимости вопрос разбивается на несколько более простых. Затем системой генерируются гипотезы — фразы из корпуса текстов, которые с некоторой вероятностью могут содержать ответ на заданный пользователем вопрос. Этот корпус состоит из множества всевозможных структурированных и неструктурированных знаний, таких как: учебники, новости, научные статьи и, в том числе, текст Википедии, DBpedia и др. После того, как Watson сгенерировал множество гипотез, часть их отсеивается с помощью «мягкого фильтра», который оставляет только 100 гипотез, наиболее релевантных вопросу.

На следующем этапе происходит оценка каждой оставшейся гипотезы на релевантность вопросу. Для этого в системе используются так называемые «доказательства»: в базах знаний ищутся предложения, которые подтвердят гипотезу. Гипотеза встраивается в структуру вопроса и осуществляется поиск полученного предложения в базах. Каждая гипотеза получает набор оценок, показывающих насколько конкретная гипотеза соответствует тому или иному доказательству. Каждой такой оценке с помощью статистической модели ставится в соответствие некий коэффициент важности данного доказательства для ответа на вопрос. Впоследствии этот коэффициент будет использоваться для подсчета уверенности системы в финальном ответе.

На последнем этапе с помощью машинного обучения, организованного на корпусе вопросов с известными ответами, происходит выбор единственного ответа, который предоставляется пользователю с коэффициентом, обозначающим степень уверенности машины в правильности ответа.

Перспективы развития инвертированных вопросно-ответных систем с открытым доменом знаний. В последнее десятилетие наблюдается активное развитие образовательных технологий в сети Интернет (EduTech). Проекты Coursera и Edx ориентированы на оцифровку академического материала, то есть задача обучения решается через масштабирование предоставления доступа к обучающим материалам при помощи сети Интернет — EduTech 1.0. За последние несколько лет произошел переход от накопленных в цифровом формате данных некоторого критического порога к новому этапу развития EduTech, а именно: принимается во внимание психологическая составляющая процесса обучения. Определяется и оптимизируется траектория индивидуального обучения каждого конкретного пользователя в зависимости от его целей, базы предыдущих знаний и предрасположенности к восприятию и анализу информации. При помощи накопленного объема данных об успешных или тупиковых путях прохождения пользователем по оцифрованным материалам курса можно сформировать для каждого из них адаптивный обучающий курс, позволяющий максимизировать коэффициент готовности обучающегося. Если модель роста EduTech 1.0 была экстенсивной, то есть качество обучения выпускников достигалось увеличением охвата пользовательской аудитории, то в EduTech 2.0 модель роста интенсивная. Метрикой оптимизации является скорость и качество обучения каждого конкретного, вовлеченного в онлайн-процесс, пользователя.

Весь лекционный материал, предназначенный на 50 минутную академическую лекцию, разбивается на небольшие блоки (секции) по 12-20 минут с последующим обсуждением и прохождением небольшого вопросника после каждого блока. Такой подход показывает значительное увеличение усвоения материала [15]. Эффективность подобных подходов

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

известна, но на практике обучение сталкивается с высоким порогом входа со стороны автора курса — преподавателя. Ему необходимо не только перерабатывать структуру своих классических курсов, дробя на меньшие блоки, но и добавлять в паузы между блоками оригинальные вопросники и элементы геймификации (включение игровых элементов) обучения.

Заключение

Учитывая все вышеизложенное, инвертированные вопросно-ответные системы с открытым доменом знаний диалогового типа имеют большую перспективу в решении задачи генерации оригинальных вопросников, ведении простого диалога по адаптивному графу вопросов и внесении элементов геймификации для улучшения восприятия и усвоения материала лекций. Вопросно-ответные системы с вышеперечисленными свойствами имеют высокую актуальность и требуют дальнейшего развития и исследования как самих систем, так и моделей усвоения учебных дисциплин в рамках EduTech 2.0.

Список литературы:

1. Рассел С. Искусственный интеллект. Современный подход. М.: ИД Вильямс, 2006. 1407 с.

2. Prager J. M. Open-Domain Question-Answering // Found. Trends Inf. Retr. 2006. V. 1. №2. P. 91-231. https://doi.org/10.1561/1500000001

3. Kolomiyets O., Moens M. F. A survey on question answering technology from an information retrieval perspective // Information Sciences. 2011. V. 181. №24. P. 5412-5434. https://doi.org/10.1016/j.ins.2011.07.047

4. Соловьев А. А., Пескова О. В. Построение вопросно-ответной системы для русского языка: модуль анализа вопросов // Новые информационные технологии в автоматизированных системах: материалы 13-го научно-практического семинара. М., 2010. C. 41-49.

5. Harabagiu S., Hickl A., Lehmann J., Moldovan D. Experiments with interactive question-answering // Proceedings of the 43rd annual meeting of the association for computational linguistics (ACL'05). 2005. P. 205-214. https://doi.org/10.3115/1219840.1219866

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Schlaefer N. A semantic approach to question answering. AV Akademikerverlag, 2012.

7. Котов А. А. Особенности каузального мышления у экспертов и новичков. https://clck.ru/QEwmq

8. Нейлор К. Как построить свою экспертную систему. М.: Энергоатомиздат, 1991. 286 с.

9. Dong T., Furbach U., Glöckner I., Pelzer B. A natural language question answering system as a participant in human Q&A portals // Twenty-Second International Joint Conference on Artificial Intelligence. 2011.

10. Green Jr, B. F., Wolf A. K., Chomsky C., Laughery K. Baseball: an automatic question-answerer // Papers presented at the May 9-11, 1961, western joint IRE-AIEE-ACM computer conference. 1961. P. 219-224. https://doi.org/10.1145/1460690.1460714

11. Hendrix G. G., Sacerdoti E. D., Sagalowicz D., Slocum J. Developing a natural language interface to complex data //ACM Transactions on Database Systems (TODS). 1978. V. 3. №2. P. 105147. https://doi.org/10.1145/320251.320253

12. Brin S., Page L. The anatomy of a large-scale hypertextual web search engine. 1998.

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

13. Moldovan D., Surdeanu M. On the role of information retrieval and information extraction in question answering systems // International Summer School on Information Extraction. Berlin, Heidelberg: Springer, 2002. P. 129-147. https://doi.org/10.1007/978-3-540-45092-4_6

14. Ferrucci D., Brown E., Chu-Carroll J., Fan J., Gondek D., Kalyanpur A. A., ... Schlaefer N. Building Watson: An overview of the DeepQA project // AI magazine. 2010. V. 31. №3. P. 59-79. https://doi.org/10.1609/aimag.v31i3.2303

15. Rao S. P., DiCarlo S. E. Peer instruction improves performance on quizzes // Advances in physiology education. 2000. T. 24. №1. P. 51-55. https://doi.org/10.1152/advances.2000.24.L51

References:

1. Rassel, S. (2006). Iskusstvennyi intellekt. Sovremennyi podkhod. Moscow. (in Russian).

2. Prager, J. M. (2006). Open-Domain Question-Answering. Found. Trends Inf. Retr., 1(2), 91231. https://doi.org/10.1561/1500000001

3. Kolomiyets, O., & Moens, M. F. (2011). A survey on question answering technology from an information retrieval perspective. Information Sciences, 181(24), 5412-5434. https://doi.org/10.10167j.ins.2011.07.047

4. Soloviev, A. A., Peskova, O. V. (2010). Postroenie voprosno-otvetnoi sistemy dlya russkogo yazyka: modul' analiza voprosov. In Novye informatsionnye tekhnologii v avtomatizirovannykh sistemakh: materialy 13-go nauchno-prakticheskogo seminara, Moscow, 41-49. (in Russian).

5. Harabagiu, S., Hickl, A., Lehmann, J., & Moldovan, D. (2005, June). Experiments with interactive question-answering. In: Proceedings of the 43rd annual meeting of the association for computational linguistics (ACL'05), 205-214. https://doi.org/10.3115/1219840.1219866

6. Schlaefer, N. (2012). A semantic approach to question answering. AV Akademikerverlag.

7. Kotov, A. A. Osobennosti kauzal'nogo myshleniya u ekspertov i novichkov. (in Russian). https://clck.ru/QEwmq

8. Neilor, K. (1991). Kak postroit' svoyu ekspertnuyu sistemu. Moscow. (in Russian).

9. Dong, T., Furbach, U., Glöckner, I., & Pelzer, B. (2011, June). A natural language question answering system as a participant in human Q&A portals. In Twenty-Second International Joint Conference on Artificial Intelligence.

10. Green Jr, B. F., Wolf, A. K., Chomsky, C., & Laughery, K. (1961, May). Baseball: an automatic question-answerer. In: Papers presented at the May 9-11, 1961, western joint IRE-AIEE-ACMcomputer conference, 219-224. https://doi.org/10.1145/1460690.1460714

11. Hendrix, G. G., Sacerdoti, E. D., Sagalowicz, D., & Slocum, J. (1978). Developing a natural language interface to complex data. ACM Transactions on Database Systems (TODS), 3(2), 105-147. https://doi.org/10.1145/320251.320253

12. Brin, S., & Page, L. (1998). The anatomy of a large-scale hypertextual web search engine.

13. Moldovan, D., & Surdeanu, M. (2002, July). On the role of information retrieval and information extraction in question answering systems. In: International Summer School on Information Extraction. Berlin, Heidelberg, Springer, 129-147. https://doi.org/10.1007/978-3-540-45092-4_6

14. Ferrucci, D., Brown, E., Chu-Carroll, J., Fan, J., Gondek, D., Kalyanpur, A. A., ..., & Schlaefer, N. (2010). Building Watson: An overview of the DeepQA project. AI magazine, 31(3), 5979. https://doi.org/10.1609/aimag.v31i3.2303

Бюллетень науки и практики / Bulletin of Science and Practice Т. 6. №8. 2020

https://www.bulletennauki.com https://doi.org/10.33619/2414-2948/57

15. Rao, S. P., & DiCarlo, S. E. (2000). Peer instruction improves performance on quizzes. Advances in physiology education, 24(1), 51-55. https://doi.org/10.n52/advances.2000.24.L51

Работа поступила Принята к публикации

в редакцию 12.07.2020 г. 17.07.2020 г.

Ссылка для цитирования:

Черноморова Т. С., Воробьев С. П. Классификация и принципы построения систем вопросно-ответного поиска // Бюллетень науки и практики. 2020. Т. 6. №8. С. 145-156. https://doi.org/10.33619/2414-2948/57/12

Cite as (APA):

Chernomorova, T., & Vorobyev, S. (2020). Classification and Principles of Building Question-Answer Search Systems. Bulletin of Science and Practice, 6(8), 145-156. (in Russian). https://doi.org/10.33619/2414-2948/57/12

i Надоели баннеры? Вы всегда можете отключить рекламу.