Научная статья на тему 'Поиск ответов на вопросы в сети Интернет'

Поиск ответов на вопросы в сети Интернет Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
200
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВОПРОС / ОТВЕТ / ТЕРНАРНОЕ ВЫРАЖЕНИЕ / СУЩЕСТВИТЕЛЬНОЕ / ГЛАГОЛ / QUESTION / TERNARY EXPRESSION / NOUN / VERB / ANSWER

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Симанков Владимир Сергеевич, Толкачев Демид Максимович

В статье приведены методические положения по поиску ответов на вопросы в сети Интернет и показана практическая эффективность предложенного подхода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FINDING ANSWERS TO QUESTIONS ON THE INTERNET

The paper presents methodical aspects to finding answers to questions on the Internet and shows the practical effectiveness of the proposed approach.

Текст научной работы на тему «Поиск ответов на вопросы в сети Интернет»

ПОИСК ОТВЕТОВ НА ВОПРОСЫ В СЕТИ ИНТЕРНЕТ

Симанков Владимир Сергеевич

д-р. техн. наук, профессор, Кубанский государственный технологический университет, профессор кафедры Компьютерных технологий и информационной безопасности, РФ, г. Краснодар

E-mail: vs@simankov.ru Толкачев Демид Максимович аспирант кафедры Компьютерных технологий и информационной безопасности, Кубанский государственный технологический университет, РФ,

г. Краснодар E-mail: Gendalf373@rambler.ru

FINDING ANSWERS TO QUESTIONS ON THE INTERNET

Vladimir Simankov

doctor of Technical Sciences, Professor, Kuban State Technological University,

Professor of Computer Technology and Information Security department, Russia,

Krasnodar Demid Tolkachev

postgraduate student of Computer Technology and Information Security department,

Kuban State Technological University, Russia, Krasnodar

АННОТАЦИЯ

В статье приведены методические положения по поиску ответов на вопросы в сети Интернет и показана практическая эффективность предложенного подхода.

ABSTRACT

The paper presents methodical aspects to finding answers to questions on the Internet and shows the practical effectiveness of the proposed approach.

Ключевые слова: вопрос; ответ; тернарное выражение; существительное; глагол.

Keywords: question; answer; ternary expression; noun, verb.

Автоматическое получение кратких и конкретных ответов на вопросы пользователя является актуальным направлением развития информационных технологий. Для решения этой задачи в качестве источника данных и знаний целесообразно использовать сеть Интернет. Тогда вопрос становится

эквивалентен запросу к поисковой системе в сети Интернет, а ответы будут содержаться в текстах найденных веб-страниц.

Для обработки вопроса и генерации ответа из текстового массива обычно используются четыре вида анализа: графематический, морфологический, синтаксический и семантический [1].

Предложим подход к поиску ответов на вопросы, в той или иной степени использующий все основные виды анализа и основанный на принципах работы системы START [4]. Относительно видов анализа его можно представить так:

• Графематический анализ — выделение слов и устойчивых словосочетаний.

• Морфологический анализ — определение характеристик слов и выделение словарных основ.

• Синтаксический анализ — сопоставление структуры вопросительного предложения со структурой ответа. Использование шаблонов совместно с результатами морфологического анализа (тернарные выражения + S-правила + Лексикон).

• Семантический анализ — учёт синонимичных и гипонимических замен (WordNet).

Рассмотрим подробнее синтаксический анализ.

В словаре, подобном Лексикону, создаётся набор абстрактных S-правил, по которым могут строиться тернарные выражения — выражения вида <объект отношение субъект>. В качестве объектов/субъектов одних тернарных выражений могут выступать другие. И вопрос, и каждое из анализируемых предложений разбивается на тернарные выражения с помощью результатов морфологического анализа и специального парсера. Далее по тернарным выражениям вопроса и соответствующим им абстрактным S-правилам формируется шаблон, на соответствие которому проверяются предложения, потенциально содержащие ответ. Шаблон представляет собой набор элементов, каждый из которых может быть одним или несколькими тернарными выражениями. Если набор тернарных выражений предложения совпадает с

одним из элементов шаблона, то считается, что в предложении с высокой долей вероятности содержится ответ.

Тернарные выражения вопроса формируются в соответствии с рядом синтаксических правил. Их использование зависит от вида вопросительного предложения. Достаточно полная классификация вопросительных предложений дана в [2].

Если вопрос не содержит вопросительных слов и определённых частиц, он считается общим вопросом первого типа. В этом случае используется синтаксическое правило, утверждающее, что структура такого вопроса соответствует утвердительному предложению. В нём осуществляется поиск существительных и глаголов, первое найденное существительное считается подлежащим, первый следующий за ним глагол — сказуемым. Они составляют объект и отношение главного тернарного выражения вопроса Тта;п. Если после подлежащего глагола нет, сказуемое отсутствует, и тогда ищется первое существительное, а если их нет — прилагательное, которые будут считаться субъектом, а в качестве отношения будет выступать подразумеваемый глагол «является». Если после сказуемого в вопросе идёт инфинитив, он считается субъектом Ттащ, иначе субъектом считается первое следующее за сказуемым существительное, если их нет — наречие. Если после сказуемого нет ничего, Тта;п является неполным. Если же в Тта;п содержится только объект, поиск ответов прекращается. Если в Тта;п попали не все слова вопроса, после его формирования происходит генерация второстепенных тернарных выражений. Объект, отношение и субъект Тта;п проверяются на наличие вокруг них прилагательных, существительных и наречий. При этом существительные соотносятся с прилагательными, причастиями и другими существительными, глаголы - с деепричастиями и наречиями, инфинитив — с существительными, деепричастиями и наречиями, сами наречия в проверке не участвуют. Происходит образование тернарных выражений вида: <существительное является прилагательное>, <существительное является причастие>, <существительное соотносится с существительное>, <глагол как

деепричастие>, <глагол каким образом наречие>, <инфинитив соотносится с существительное>, <инфинитив как деепричастие>, <инфинитив каким образом наречие>. И при формировании Тта;п, и в этом процессе необходим учёт однородных членов предложения. Например, вопрос «Сверхзвуковой истребитель летает быстро и красиво?» преобразуется к двум тернарным выражениям:

• Ттащ — <истребитель летает (быстро и красиво)>;

• второстепенному — <истребитель является сверхзвуковой>.

Если после описанной процедуры в вопросе по-прежнему остались слова, не включённые в тернарные выражения, осуществляется дополнительный анализ. Он заключается в поиске глаголов, не включённых в Тта;п. Если они найдены, вокруг них образуются дополнительные тернарные выражения по принципу Ттащ, т. е. глаголы будут являться отношениями в формируемых тернарных выражениях, а объекты и субъекты будут искаться среди ещё не включённых в другие тернарные выражения существительных, инфинитивов и наречий. Вокруг дополнительных тернарных выражений также формируются второстепенные. На этом процесс прекращается.

Следует заметить, что предложенный подход не гарантирует включение всех слов произвольного общего вопроса первого типа в тернарные выражения. Однако вероятность нахождения ответов, в точности соответствующих большому числу нюансов, крайне мала, поэтому более глубокий анализ вряд ли имеет существенную практическую ценность.

Если вопрос содержит определённые частицы, он считается общим вопросом второго типа. При этом частицы «разве», «неужели» и «ужели» могут быть проигнорированы, и тогда вопрос автоматически становится общим вопросом первого типа. Если же в вопросе используется частица «ли», ситуация несколько меняется. Предполагается, что в этом случае сказуемое идёт перед подлежащим, соответственно, это необходимо учитывать при формировании Тта;п. Однако возможны и случаи, когда порядок слов продолжает соответствовать утвердительному предложению. Поэтому имеет смысл

проверять слово, идущее перед частицей «ли»: если это глагол — порядок слов обратный, если существительное — прямой. Отдельного разбора требуют вопросы, начинающиеся с «нужно ли» и тому подобного. В них, как правило, пропущено подлежащее, а после «ли» идёт инфинитив, поэтому Тта;п примет вид: <[дополнение] инфинитив (нужно, следует и пр.)>.

В остальном при формировании тернарных выражений общих вопросов второго типа следует придерживаться уже обозначенных принципов.

Если вопрос начинается с одного из вопросительных слов, он является специальным вопросом некоторого вида. Порядок подлежащего и сказуемого в специальных вопросах достаточно нечёткий, поэтому нужно анализировать начало вопроса на предмет обнаружения порядка следования существительных и глаголов. Разберём отличия при формировании тернарных выражений специальных вопросов от общих.

Вопросительное слово «кто» подразумевает наличие существительного в именительном падеже. Тта;п принимает вид <кто глагол [дополнение]>, где вместо «кто» должно стоять существительное в именительном падеже, причём любое, не фигурирующее в самом вопросе. Т. е. про объект Тта;п известны лишь некоторые сведения.

Вопросительное слово «что» несколько сложнее: если после него идёт глагол, оно подразумевает существительное в именительном или винительном падежах, если же инфинитив — то подразумевает инфинитив или глагол. Тта;п принимает вид: <существительное (глагол или инфинитив) что>.

Вопросительные слова какой, каков и который влияют не на Тта;п, а на второстепенное тернарное выражение, связанное с объектом Тта;п: <объект Тта;п является (какой, каков, который)>. На месте этих вопросительных слов должно быть прилагательное.

Вопросительное слово «чей» также влияет на второстепенное тернарное выражение, но ему могут соответствовать одушевлённые существительные или образованные от них прилагательные. Формируется тернарное выражение: <объект Тта(п является чей>.

Вопросительные слова «где», «куда» и «откуда» предполагают наличие существительного. Тта;п примет вид <существительное глагол (где, куда, откуда)>.

Вопросительное слово «когда» может подразумевать как наличие существительного, так и наречия, но они должны быть связаны с понятием времени. Тта;п примет вид <существительное глагол когда>.

Вопросительные слова «зачем», «отчего» и «почему» предполагают не столько какую-либо часть речи, сколько наличие специальных слов, служащих маркерами ответа: «чтобы», «дабы», «ибо», «поскольку», «так как», «потому что», «по причине», «вследствие» и т. д. Отсюда следует, что в этом случае нужно предусмотреть специальный механизм проверки, не укладывающийся в рамки тернарных выражений.

Вопросительное слово «как» предполагает наличие наречия, деепричастия или существительного в предложном падеже. Тта;п примет вид <существительное глагол как>.

Вопросительное слово «сколько» предполагает наличие числительного. Тта;п примет вид <существительное глагол сколько>.

К отдельной категории можно отнести вопросы типа определение. Такие вопросы могут состоять из одного слова (определения), с необязательной прибавкой к этому слову « — это» в конце, или же начинаться со слов «что такое», «кто такой» «что есть» и пр. Тта;п для вопросов типа определение можно сформировать так: <определение «определительный глагол» существительное>, где под «определительным глаголом» подразумевается конструкция « — это» или один из глаголов типа «есть», «является», «представляет» и пр. Второстепенные тернарные выражения вопросу данного типа, как правило, не нужны.

Поиск ответа представляет собой процедуру нахождения в предложениях текста тернарных выражений вопроса. При этом если какое-либо предложение содержит полный перечень тернарных выражений вопроса, то оно является

ответом, а аналогичными ответами могут считаться только другие предложения, также содержащие все эти тернарные выражения.

При отсутствии специальной базы знаний и с учётом слабой степени формализованности русского языка частой будет ситуация, когда не найдётся ни одного полного соответствия шаблона и тернарных выражений предложения, хотя предложение и будет содержать ответ. Поэтому следует модифицировать методику, используемую в системе START, и определять относительную степень соответствия предложения шаблону. В случае отсутствия полного соответствия вводится критерий минимально допустимого соответствия: предложение, потенциально содержащее ответ, должно в достаточной степени соответствовать Tmain вопроса. Под достаточной степенью понимается такое соответствие, когда по крайней мере один из однородных членов объекта, отношения и субъекта Tmain вопроса есть и в предложении. В рассмотренном примере с истребителем ответом будет считаться предложение: «Истребитель летает быстро». Все предложения, потенциально содержащие ответ, ранжируются по степени соответствия тернарным выражениям вопроса, и в качестве ответа выбираются те, которые имеют максимальную степень соответствия.

Семантический анализ целесообразно применять в качестве аналога словаря WordNet. Проверка предложений по шаблонам будет учитывать случаи, когда в предложении содержатся синонимы или гипонимы слов из вопроса. Это существенно повысит вероятность нахождения ответа.

Проведём практическую проверку предложенного подхода к поиску ответов на вопросы, используя следующий метод:

• вопрос отправляется поисковой системе Яндекс и выделяются ссылки на источники;

• осуществляется генерация проблемно-ориентированных авторефератов [3] по тексту источников;

• генерируется общий автореферат из полученных с использованием разработанной нами методики, основанной на анализе степени подобия текстов;

• в тексте общего автореферата производится поиск ответов предложенным подходом.

Осуществим поиск ответа на простой вопрос «Где обитает лиса?» описанным выше методом. Были получены следующие ответы:

1. Достаточно сказать, что лисицы заселяют, хотя и с разной плотностью, все ландшафтно-географические зоны, начиная с тундры и субарктических лесов и вплоть до степи и пустынь, включая горные массивы во всех климатических зонах. При этом лисица водится не только в дикой природе, но и в культурных ландшафтах, а также на окраинах городов, в том числе больших (таких как Киев и Варшава; в Лондоне лисицы весьма обычны на окраинах, а иногда появляются и в центральной части города).

2. Лисица обитает почти на всей территории Европы, Азии, Северной Америки, даже на севере Африки, акклиматизирована в Австралии; двадцать видов лисиц населяют множество зон.

Из ответа 1) видно, что он не мог быть получен без использования словаря синонимов и гипонимов, поскольку вместо «лиса» в источниках фигурирует «лисица», а вместо «обитает» — «заселяют» и «водится». Чёткое сравнение предложений с шаблоном также не могло дать подобный ответ, поскольку вопрос содержит только одно тернарное выражение (без учёта синонимов и гипонимов): <лиса обитает где>, тогда как выбранные ответы куда сложнее.

Следует заметить, что система START на аналогичный вопрос «Where do foxes live?» («Где живут лисы?») сгенерировала следующий ответ: «Average life span (in years): 14» («Средняя продолжительность жизни (в годах): 14»), т. е. фактически ответила на вопрос «Сколько лет живут лисы?». Таким образом, START не всегда правильно интерпретирует специальные вопросы.

В результате проведённого исследования можно сделать следующие выводы:

• Теоретические исследования показали, что введение проблемно-ориентированного автореферирования как средства обработки текста даёт возможность более точно формировать ответы на вопросы.

• С использованием и адаптацией принципов, заложенных в англоязычную систему START, разработаны методические положения автоматического поиска ответов на вопросы на русском языке.

• Разработанные методические положения обладают практической эффективностью и могут использоваться в вопросно-ответных системах.

Список литературы:

1. Ким К.Х., А.П. Савинов. Синтаксический анализатор для вопросно-ответной системы. Известия Томского политехнического университета, — Т. 315. — № 5, — 2009. — с. 133—138.

2. Мозговой Максим Владимирович. Машинный семантический анализ русского языка и его применения. Диссертация на соискание ученой степени кандидата физико-математических наук. Санкт-Петербург, 2006.

— 116 с.

3. Симанков В.С., Толкачев Д.М. Проблемно-ориентированное автореферирование как инструмент поиска данных и знаний. Наука вчера, сегодня, завтра / Сб. ст. по материалам XIV междунар. науч.-практ. конф. № 7 (14). Новосибирск: Изд. «СибАК», 2014. — с. 31—35.

4. START, Natural Language Question Answering System [Электронный ресурс]

— Режим доступа. — URL: http : //start.csail .mit .edu/index.php (дата обращения 20.08.2014).

i Надоели баннеры? Вы всегда можете отключить рекламу.