Научная статья на тему 'Нейросетевой метод семантического вероятностного вывода в задаче улучшения релевантности результатов поискового запроса'

Нейросетевой метод семантического вероятностного вывода в задаче улучшения релевантности результатов поискового запроса Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
208
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЙ ПОИСК / НЕЙРОННЫЕ СЕТИ / ИНДУКТИВНАЯ ЛОГИКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Калимолдаев Максат Нурадилович, Пак Александр Александрович, Нарынов Сергазы Сакенович

Алгоритмы информационного поиска нацелены на получении наиболее релевантной выдачи документов по текстовому запросу. В большинстве прикладных семантических информационных систем пользователь для подготовки выборки документов производит итеративное уточнение параметров поискового запроса с целью улучшения релевантности документов для дальнейшего семантического анализа. Формирование качественного запроса из-за омонимической неоднозначности, большого разнообразия контекстов, значительной синонимичности слов и фраз является нетривиальной задачей. В языках поисковых запросов реализована грамматика логики высказываний. В данной статье предложен алгоритм уточнения поискового запроса, его подход основан на индуктивно-логическом выводе с использованием ручной бинарной классификации результатов первичной выдачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Калимолдаев Максат Нурадилович, Пак Александр Александрович, Нарынов Сергазы Сакенович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Нейросетевой метод семантического вероятностного вывода в задаче улучшения релевантности результатов поискового запроса»

82

Проблемы информатики. 2014- И® 3

НЕЙРОСЕТЕВОЙ МЕТОД СЕМАНТИЧЕСКОГО ВЕРОЯТНОСТНОГО ВЫВОДА В ЗАДАЧЕ УЛУЧШЕНИЯ РЕЛЕВАНТНОСТИ РЕЗУЛЬТАТОВ ПОИСКОВОГО ЗАПРОСА

М.Н. Калимолдаев, А. А. Пак*, С. С. Нарынов*

Институт проблем информатики и управления \I()i 1 РК, Республика Казахстан, 050010, Алма-Ата, * ТОО Alem Research, Республика Казахстан, 050010, Алма-Ата

УДК 004.8.032.26

Алгоритмы информационного поиска нацелены на получении наиболее релевантной выдачи документов по текстовому запросу. В большинстве прикладных семантических информационных систем пользователь для подготовки выборки документов производит итеративное уточнение параметров поискового запроса с целью улучшения релевантности документов для дальнейшего семантического анализа. Формирование качественного запроса из-за омонимической неоднозначности, большого разнообразия контекстов, значительной синонимичности слов и фраз является нетривиальной задачей. В языках поисковых запросов реализована грамматика логики высказываний. В данной статье предложен алгоритм уточнения поискового запроса, его подход основан на индуктивно-логическом выводе с использованием ручной бинарной классификации результатов первичной выдачи.

Ключевые слова: информационный поиск, нейронные сети, индуктивная логика.

The algorithms of information retrieval are aimed at getting the most relative documents' issue by the text query. In the majority of applied semantical informational systems an user itterativelv makes the correction of search query parameters in order to improve the documents' relevance for further semantical processing. The construction of qualitive query is not simple task due to homonvmic ambiguity, the big contextual variety, the significant synonymy of words and phrases. In the languages of search queries the first-order logic is used. In the paper the algorithm of search query correction is proposed. The main idea of the algorithm is based on inductive logical deduction and manual binary labeling of initial results of documents' issue.

Key words: natural language processing, neural networks, logical deduction.

Введение. Область исследования информационного поиска (ИП) широко освещена в русскоязычной и зарубежной литературе, о чем свидетельствуют многочисленные монографии и статьи. Термин „информационный поиск" был предложен Кельвином Муэр-сом в 1948 г. в его докторской диссертации, опубликован и употребляется в литературе с 1950 г. [1]. Центральным понятием ИП является характеристика релевантности — явно заданная величина, характеризующая пару документ-запрос, другими словами, насколько документ отвечает условиям запроса. Традиционно в моделях оценки релевантности используется статистический подход, который уже развивается более 30 лет. Наиболее значимыми трудами в данной области являются [2], [3], [4], [5], [6], [7], [8]. Первоначально область применения данных алгоритмов была ограничена библиотечным делом для наиболее быстрого и качественного поиска научной литературы. Широкое распространение ИП получил с появлением Интернета.

Калим,олдаев М.Н., Пак A.A., Нары,нов С. С.

83

Важной частью ИП являются алгоритмы полнотекстового поиска. Существует целое семейство функций для формирования результирующей выборки по текстовому запросу. Во многих прикладных системах реализован алгоритм ВМ25 [9], [10], Рассмотрим его подробнее, ВМ25 — это семейство поисковых функций на неупорядоченном множестве слов, так называемом „мешке слов", и множестве документов. Алгоритм оценивает каждый документ из набора на основе частот встречаемости слов запроса, без учета близости между словами. Одна из распространенных форм этой функции описана ниже. Пусть дан запрос Q. содержащий слова q\...qn. тогда функция ВМ25 дает следующую оценку релевантности документа D запросу Q:

ti /(9f,B)+i;(l-f) + 6JgL)

где f(qi, D) — частота слова ^ в документе D (следует отметить, что частоту слова можно также рассчитывать относительно группы документов, объеденных некоторым общим свойством), \D\ есть длина документа, < \D\ > — средняя длина документа, к и b свободные коэффициенты.

Таким образом, оценка релевантности документа D подечитываетея на основе частот встречаемости каждого слова qi. причем в топ выдачи попадают документы с более спецп-ализироваными, характерными словами. Информация, определенная в работе Шеннона, в контексте информационного поиска трудно измерима [11], Оценки эффективности поисковой функции могут быть выполнены на основе двух характеристик, а именно точности и полноты, соответственно, точность определим следующим образом:

р_ | Drei П Dretr | . .

in i '

| -L^retr |

где Drei ~ множество релевантных документов в выдаче, а Dretr — множество документов, найденных системой. Следует отметить, что приведенная выше оценка является не единственной, к примеру, она не учитывает порядок выдачи или степень релевантности того или иного документа.

Вероятностный семантический вывод. Принцип семантического вероятностного вывода заключается в обнаружении максимально специфичных условных связей между n-граммами и документами. Информация, подаваемая на вход метода, кодируется одноместными предикатами Pj(a) <=> (Xi(a) = x^j), где Xi(a) — информация, а Xij — ее значения на текущем объекте а, он представляет собой текст и метаинформацию документа, Вывод происходит замыканием относительно бинарных операторов А, V логики высказываний. Предикаты Pj(a) и Pj(a) являются литералами (атомарными высказываниями или их отрицаниями), которые будем обозначать как а, ß, 7,... G L. где L — множество всех литералов в словаре — l,...,n;j — 1,...,щ [12], В процессе семантического вероятностного вывода алгоритм обнаруживает множество R правил (условных связей) вида:

R = (cKi А ... А ак => ß),ai, ...,ak,ß е L, (3)

где а.\...., ак — входные предикаты, кодирующие вхождение п-грамм в текст. Правила характеризуются оценкой условной вероятности, которая вычисляется следующим образом.

84 Средства и системы обработки и анализа, данных

Подсчитаем число случаев п(а1,..., ак, /3), когда произошло событие < о^,..., ак, /3 > — одновременное срабатывание < а>1,...,а>к >, иными словами, при /3,-1 /3. Далее подсчитаем случаи п+(ск1,..., ак, /3) и п~(а I, /3), раздельно при /3,-1/3. Тогда оценка условной вероятности правила (1) равна:

/о, Л ч (п+(аь ..., ак, /3) - п~(аь ..., с^, /3))

МР/аь а*,) =-7-7"-^ дчч-• (4)

Алгоритм стремится максимизировать эту оценку. Правило = (а\,..., => 7) будем называть более общим, чем правило Я2 = (с^, <хк2 =-> 7)> обозначим это как >~ тогда и только тогда, когда {а\,..., а\у\ С ..., к1 < к2, и не менее общим если к1 < к2. Очевидно, что Яг У Я2 => Яг Ь Я2 и Ях >~ Я2 => Дх Ь где 1_ _ д0ка3уем0СТЬ в исчислении высказываний. Таким образом, не менее общие (и более общие) высказывания логически сильнее. Кроме того, более общие правила проще, так как содержат меньшее число литералов в посылке правила [13].

Вероятностным законом будем называть такое правило Я, которое нельзя логически усилить, не уменьшив его условную вероятность, т.е. если Я1 У- Я, то Я') < ц(Я), Вероятностные законы — это наиболее общие, простые и логически сильные правила среди правил, имеющих не более высокую условную вероятность. Обозначим множество всех вероятностных законов через РЬ. Отношение вероятностного вывода Я\ Ц Я2, Я2 £ РЬ определим как одновременное выполнение двух неравенств Я1 У Я2ш ^(Яг) < ¡¿(Я?)- Если оба неравенства строгие, то отношение вероятносного вывода будем называть строгим отношением вероятностного вывода Дх □ Я2 <=> Я\ >- Я2 и [¿(Яг) < ц{Я2).

Семантическим вероятностным выводом будем называть максимальную (которую нельзя продолжить) последовательность вероятностных законов, находящихся в отношении строгого вероятностного вывода С Я2 С ... С Як. Последний вероятностный закон Як в этом выводе будет называться максимально специфичным. Показано, что классификация по максимально специфическим правилам непротиворечива [13].

Алгоритм уточнения запроса. Уточнение запроса выполняется на основании ручной классификации первичной выдачи документов пользователем. Естественно предположить, что человек выполнит построение уточняющего запроса более качественно после изучения выборки документов, В данном случае алгоритм дает преимущество во времени построения запроса, основываясь на том предположении, что психофизическое восприятие подсветки ключевых слов в документе позволит быстрее определить релевантность документа, нежели совершить два действия, а именно определить релевантность и выделить стоп-слова. На рис, 1 представлена блок-схема алгоритма уточнения. Точкой входа в алгоритм является выдача документов первичного запроса. Вторым шагом алгоритма является классификация документов пользователем, а именно указываются те документы, наподобие которых нужно исключить из выдачи. На основе этого шага генерируется предикат /3. Далее проводятся нормализация и взвешивание слов следующим образом, производятся стеммннг и фильтрация стоп-слов, к которым относятся союзы, предлоги, междометия. Далее подечитываетея частота внутри класса документов, для которых выполняется /3, обозначим /(/3) и /(-1/З), Из набора термов исключаются все слова, для

которых < 3, На основании полученной выборки формируется Ь, которое может

(/Ьр)) " "

быть дополнено литералами метаинформации документа, к примеру, иг1-ом или датой публикации. После чего к полученному множеству литералов и документов применяется

Калилюлдавв M. H., Пак A. A., Нарьтов С. С.

85

1

Классификация текстов

Разделение на характерные и нехарактерные слова

Генерация выходного предиката

Рис. 1. Блок-схема алгоритма улучшения релевантности поиска

описанная выше процедура семантического вероятностного вывода. На выходе алгоритм возвращает несколько рекомендуемых наборов стоп-слов. Алгоритм был протестирован па выборке текстов, собранных из Интернета, объем составляет 2317 текстов. В качестве первичного запроса использовалось слово „замок". Цолыо было выделить тексты, посвященные теме „замков", и отфильтровать тексты про „замки". Результирующий запрос выглядит следующим образом: „замок — (новые король расположен Рейтинг)". Уточненный запрос повысил точность с Р с 51,6% до 91,6%. Фраза „(новые король расположен Рейтинг)" означает стон-слова, т.е. в выдаче должны быть документы, в которых обязательно отсутствуют указанные снова.

Выводы. Таким образом, описанная выше модель является алгоритмом обучения с учителем, выявляет наиболее вероятные закономерности в данных в удобной дня человека форме, а именно па языке логики высказываний. В применении к задаче уточнения поискового запроса метод показан быструю сходимость и практическую значимость. Метод внедрен и проходит апробацию в информационно-аналитической системе AlemSemanties,

Список литературы

1. MOOERS С. The theory of digital handling of non-numerical information and its implications to machine economics /7 Proc. of the meeting of the Assoc. for Сотр. Machinery at Rutgers University. 1950. New .Jersey.

86

Средства, и системы обработки и анализа, данных

2. Maron М. Е., Kuhns J. L. On relevance, probabilistic indexing and information retrieval // Journ. of the ACM. 1960. V. 7, N. 3. P. 216-244.

3. Robertson S. E. and Sparck Jones K. Relevance weighting of search terms // Journ. of the American Soc. for Information Science. 1977. V. 27. N. 3. P. 129-146.

4. Robertson S. E. and Walker S. Some Simple Effective Approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval // Proc. of the 17th Annual Intern. ACM SIGIR Conf. on Research and Development in Information Retrieval. 1994. P. 232-241.

5. Robertson S. E., Zaragoza H. and Taylor M. Simple BM25 extension to multiple weighted fields // Proc. of the 2004 ACM CIKM Intern. Conf. on Inf. and Knowledge Management. 2004. P 4249.

6.Jones K.S., Walker S., Robertson S.E. A probabilistic model of information retrieval: development and comparative experiments // Inf. Process. Manage. N. 36(6). 2000. P. 779-808.

7. Jones K.S., Walker S., Robertson S.E. A probabilistic model of information retrieval: development and comparative experiments. Part 2 // Inf. Process. Manage. N. 36(6). 2000. P. 809840.

8. Rijsbergen C.J. Information Retrieval. Second Edition. London: Butterworths, 1979.

9. Robertson S.E., Zaragoza H. The probabilistic relevance framework: BM25 and beyond //Foundation and Trends in information retrieval. 2009. V. 3. N. 4. P. 333-389.

10. Class BM25Similaritv [электронный ресурс]. Режим доступа: http://lucene.apache.org/

core 1_(I_() core/org/apache/lucene/search/similarities/BM25Similaritv.html. (Дата обращения:

29.08.2014).

11. Shannon С.Е., Weaver W. The Mathematical Theory of Communication. Urbana: University of Illinois Press, 1964.

12. E. E. Vityaev. Knowledge extraction from data. Computer Knowledge Model of cognitive process. Novosibirsk, 2006. P. 293.

13. Демин А. В., Витяев E. E. Логическая модель адаптивной системы управления // Нейроинформатика (электрон, журн.). 2008. Т. 3, № 1. С. 79-107.

Калим,олдаев Максат, Нурадилович, — д-р физ.-мат. наук, проф., ген. дир., зав. лаб. математического моделирования и кибернетики Института проблем информатики и управления МОИ РК, тел.: +7 (727) 272-37-11, e-mail: [email protected] Пак Александр Александрович — канд. техн. наук, ст. преп., рук. от,д. науч. разраб. ТОО Акт Research, Республика Казахстан, тел.: +7 (701) 752-92-85, e-mail: [email protected] Нары,нов Сергазы Сакенович, — канд. техн. наук, ст. преп., ген. дир. ТОО Alem Research, Республика Казахстан, тел.: +7 (701) 723-01-62, e-mail: [email protected]

Дата, поступления — 01.09.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.