УДК 004.89
Рыбак К.В.
студент кафедры цифровых технологий и кибербезопасности Астраханский государственный университет (Россия, г. Астрахань)
Кошкаров А.В.
к.т.н., доцент кафедры цифровых технологий и кибербезопасности Астраханский государственный университет (Россия, г. Астрахань)
ОБЗОР СОВРЕМЕННОГО СОСТОЯНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ ВОПРОСНО-ОТВЕТНЫХ СИСТЕМ
Аннотация: в данной статье рассматриваются существующие вопросно-ответные системы, виды вопросно-ответных систем, их преимущества и недостатки. Приведен сравнительный анализ разных систем в зависимости от предметной области.
Ключевые слова: вопросно-ответная система, чат-бот, нейронная сеть.
Объем информации, получаемой по запросам в популярных поисковых системах, требует от пользователя просмотра больших объемов текстовой информации и, в большинстве случаев, превышает возможности восприятия человеком за ограниченное время. Для решения данной проблемы могут использованы автоматизированные и неавтоматизированные вопросно-ответные подходы.
Автоматизированные системы применяются для поиска ответов пользователям по широкому кругу вопросов на естественном языке. Важным отличием вопросно-ответных систем от поисковых можно считать то, что полученные ответы, также, как и вопросы, должны быть представлены на
естественном языке и содержать в себе только информацию, являющуюся ответом на поставленный вопрос.
В общем случае задача построения вопросно-ответной системы включает в себя создание механизма сбора данных, построение собственной базы данных, и разработку интерфейса выдачи результата.
Существуют два основных вида вопросно-ответных систем -узкоспециализированные и общие.
Узкоспециализированные (или closed-domain) направлены на ответы на вопросы по конкретным предметным областям, например, медицина, юриспруденция.
Общие (или open-domain) направлены на ответы на вопросы по любым областям знаний [1].
Как правило, общие системы показывают более слабые результаты, поэтому на практике чаще всего создаются специализированные системы.
Для оценки качества работы вопросно-ответной системы, базирующейся на разных альтернативах, проводятся экспериментальные исследования. В целях решения поставленной задачи можно использовать специализированный набор тестов РОМИП, включающий в себя около трехсот вопросов на русском языке о некоторых фактах вместе с готовыми ответами, покрывающими всевозможные альтернативы.
На данный момент в мире наиболее развиты методы обработки английского. Поэтому большая часть существующих вопросно-ответных систем работает с английским языком. Из англоязычных систем можно выделить набор наиболее известных: START [2]; Answers.com [3];
Система START является первой QA-системой на естественном языке. Она была запущена в конце 1993 года. Система отвечает на вопросы, предварительно распределяя их по категориям: наука и справочная информация; искусство; география; история и культура.
Для обработки текста используются лексические и синтаксические признаки (Синонимы, инверсии, притяжательные прилагательные), для расширения запросов используется словарь WordNet.
START использует два подхода при поиске ответов: аннотация знаний и интеллектуальное извлечение знаний. Аннотация знаний используется, если существует проверенный источник, где может быть найдена необходимая информация. Если информацию не найти в проверенных источниках, используется «интеллектуальное» извлечение знаний. В этом случае результат разбора вопроса пользователя используется для составления поискового запроса, который переадресуется поисковой системе. По полученному набору страниц проводиться голосование. Кандидаты комбинируются с учетом веса каждого кандидата. В результате генерируется окончательный ответ.
Система Answers.com совмещает автоматический поиск ответа и получение ответа от другого человека. В случае автоматического получения результата система генерирует ответы по определенному признаку, термину или персоне. Генерация выполняется на базе заданных шаблонов вопросов и ответов к ним. Получение ответа от эксперта основано на том, что каждый пользователь может выступать как в роли эксперта, так и в роли задающего вопросы.
Из вопросно-ответных систем, работающих с русским языком, можно выделить систему Exactus [4] и DeepPavlov [5].
В Exactus поиск результатов на запросы пользователей выполняется на основе результатов поисковых систем (Google, Яндекс, Bing, Yahoo). Полученные результаты анализируются посредством лингвистических инструментов Exactus и наиболее релевантные документы выдаются пользователю.
DeepPavlov — это библиотека искусственного интеллекта с открытым исходным кодом, построенная на TensorFlow и Keras. Он предназначен для разработки готовых чат-ботов и сложных разговорных систем, НЛП и
исследование диалоговых систем. Одной из задач извлечения информации является задача распознавания именованных сущностей (NER).
Задача NER — выделение в тексте последовательностей слов, являющихся именованными сущностями, и классификация выделенных именованных сущностей. Примерами таких классов являются имена людей, названий организаций, географических названий, прочие типы имен собственных, а также выражения специального вида, такие, как обозначения моментов времени, дат, денежные суммы и процентные выражения.
СПИСОК ЛИТЕРАТУРЫ:
Разработка вопросно-ответной системы с использованием машинного обучения
/А.М. Науменко, С.Д. Шелудько, Р.Ю. Юлдашев, Н.О. Хлебницкий. //
Международный научный журнал молодой ученый. - 2017. - с. 36-39.
START [Электронный ресурс]: официальный сайт START. - Режим доступа:
http://start.csail.mit.edu/index.php (Дата обращения: 11.05.2020).
Answers.com - the most trusted place for answering life's questions. Answers
Corporation. [Электронный ресурс]: официальный сайт Answers. - Режим
доступа: http://www.answers.com/ (Дата обращения: 11.05.2020).
Exactus Интеллектуальный метапоиск в Интернете. ИСА РАН. [Электронный
ресурс]: официальный сайт Exactus. - Режим доступа: http://exactus.ru/ (Дата
обращения: 13.05.2020).
Библиотека DeepPavlov документация [Электронный ресурс] - URL: http://docs.deeppavlov.ai/en/master/components/spelling_correction.html (дата обращения: 15.05.2020).