Научная статья на тему 'Проблемы и перспективы информационного поиска'

Проблемы и перспективы информационного поиска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1884
195
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Проблемы и перспективы информационного поиска»

ной зависимости и номер вершины V,, последней вычисляющей необходимое для значение переменной.

Введение вектора расстояний Я для дуг графа позволит также легко выяснить тип циклического участка и возможность его распараллеливания. Так, например, при определении типа цикла важно выявить зависимость между итерациями. Если итерации информационно независимые, т.е. цикл относится к типу ООРАЯ, то вектор Я данного цикла должны иметь г5 = 0, где ь является уровнем вложенности данного цикла. В этом случае цикл поддаётся векторизации произвольными группами итераций.

По завершению всех указанных преобразований программы формируется граф алгоритма 0=(У,Р), каждой вершине V, которого ставится в соответствие группа параметров: V; =[N[,11Д(У|),0(У;),Р;,С(] где 14, - номер вершины в

графе; ^ - время её выполнения; 1(У; ),0(У;) - множества входных и выходных переменных; Р; - тройка параметров (Рц,Р|25Р1зХ С] - вектор значений переменных цикла. Множеству дуг Р соответствует множество векторов расстояний

Основная идея создания многоплатформенного транслятора - универсальность. Универсальность такого подхода заключается в том, что одна и та же задача, написанная на языке из используемого подмножества языков, имеет одно и то же представление на внутреннем языке транслятора. Последнее возможно, если представление исходной программы во внутренней форме транслятора близко к математическому алгоритму задачи, что в действительности имеет место. Другими словами, предлагаемый транслятор обеспечивает перевод с исходного языка в форму математического алгоритма. Это позволяет, используя полученный алгоритм, автоматически перевести его в программу, представленную на базовом языке любой платформы.

УДК 681.658

А.Г. Цукерт

ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ ИНФОРМАЦИОННОГО ПОИСКА

Автоматизация информационного поиска стала объективной необходимостью, обусловленной накоплением огромных фондов информации различного вида и потребностью в сокращении затрат времени на поиск нужной информации. Первые автоматизированные информационно-поисковые системы работали преимущественно с информацией фактического характера, например, характеристиками объектов и их связей. Со временем появилась возможность обрабатывать текстовые документы на естественном языке и другие форматы представления данных.

В настоящее время актуальность задач поиска и извлечения информации связана в первую очередь с растущим объемом текстовых баз данных. Появление и рост численности полнотекстовых баз данных, представляющих собой электронные аналоги печатных изданий и документов, является одним из современных факторов, сильно воздействующих на сферу информационного поиска. Г1о оценкам специалистов неструктурированные текстовые данные будут доминирующим типом информации, загружаемой в различного рода хранилища в режиме ONLINE (электронная почта и Internet, электронная коммерция, электронный документооборот - вот лишь некоторые области, где уже сегодня ощущается особая роль компьютерного анализа полнотекстовых документов) [1]. В связи с ростом размеров электронных документов сегодня уже недостаточно искать нужную информацию только по названиям и кратким описаниям; на первый план выходит проблема внутритекстового поиска документов.

В зависимости от характера информационных ресурсов, которыми оперируют автоматизированные информационно-поисковые системы, различают два крупных их класса - документальные и фактографические. Документальные ин-формационно-поисковые системы (ДИПС) служат для работы с документами на естественном языке - монографиями, публикациями в периодике, текстами законодательных актов. Они обеспечивают их смысловой анализ при неполном, приближенном представлении смысла.

Основной функцией любой ДИПС является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощью главной операции ДИПС -проведения информационного поиска. Под информационным поиском понимают процесс отыскания в информационном хранилище документов, соответствующих поступившему информационному запросу. В отличие от фактографических информационно-поисковых систем, которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате проведения информационного поиска предоставляют потребителю совокупность документов, смысловое содержание которых соответствует его запросу.

В теории ДИПС введены два фундаментальных понятия: релевантность и пертинентность. Релевантность характеризует степень соответствия содержания документа, найденного в результате информационного поиска, информационному запросу в том виде, в каком он сформулирован. Документы, содержание которых отвечает запросу потребителя, называются релевантными. Степень же соответствия содержания найденного документа информационной потребности потребителя характеризуется понятием пертинентности.

Автоматизация процесса информационного поиска потребовала формализации основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образов документов (ПОД) [2]. Для записи ПП и ПОД применяются специальные информаци-онно-поисковые языки (ИПЯ). В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. Решение о выдаче или невыдаче

документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между ПОД и ПП. Такой набор правил называют критерием выдачи документов или критерием смыслового соответствия (КСС), который базируется на понятии формальной релевантности.

Поисковый образ документа может состоять из одной лексической единицы информационно-поискового языка (одноаспектное индексирование) или нескольких лексических единиц (многоаспектное индексирование). При использовании многоаспектного индексирования строятся сложные ПОД.

Пусть имеется множество документов В, в котором производится информационный поиск

0 = {<3],<32,<3з,...,(1г1}, где (1Ь й2, - отдельные документы, а также множество терминов Т, пред-

ставляющее собой лексический состав ИПЯ

Т = {1],12,1з,...Дт},

где 12, 13,..,Дт - лексические единицы ИПЯ. При многоаспектном индексировании каждому 1-му документу однозначно соответствует некоторый набор лексических единиц из Т, образующих поисковый образ данного документа. Иначе говоря, элементы множества О отображены во множестве Т, то есть

П| —> ПОД = ■

Очевидно, что любая лексическая единица ИПЯ (1) может входить в несколько ПОД, а во множестве О может содержаться несколько документов, имеющих одинаковое отображение в Т. В последнее время широкое распространение получил подход, основанный на расширении используемого в индексировании дескрипторного языка до так называемого полнотекстового индекса. В этом случае каждый поступающий в базу данных документ преобразуется в нормализованный (средствами морфологического анализа) список использованных в нем слов, из которого затем удаляются так называемые стоп-слова. Оставшийся лексический материал сводится в лексикографический упорядоченный список, в ряде случаев дополненный частотами встречаемости в тексте соответствующих лексических единиц.

Большинство реальных ДИПС являются информационно-поисковыми системами дескрипторного типа, работу которых можно свести к следующей схеме [1]:

* помещаемые в базу данных документы индексируются лексическими единицами некоторого дескрипторного языка (например, ключевыми словами), в результате чего образуется поисковый образ документа;

* поступающий информационный запрос также индексируется индексами дескрипторного языка, в результате чего образуется поисковое предписание;

* поиск документов, релевантных запросу, осуществляется путем сравнения ПОД и ПП, в соответствии с некоторым критерием смыслового соответствия.

Методы и алгоритмы поиска информации, реализованные в конкретной ДИПС, базируются на модели информационного поиска, лежащей в ее основе. Любая модель поиска документальной информации характеризуется четырьмя основными параметрами [2]:

• представлением документов и запросов (способ построения ПОД и

ПП);

• критерием смыслового соответствия (критерием выдачи документов);

• методами ранжирования результатов запроса;

• механизмами обратной связи, обеспечивающими оценку релевантности документов пользователем (модификация запросов и представления документов).

В настоящее время широко используются следующие модели информационного поиска:

• булева модель;

• множественная модель;

• модель нечетких множеств;

• пространственно-векторные модели.

В булевой модели документы представляются с помощью набора терминов, каждый из которых рассматривается как булева переменная. Присвоение терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций конъюнкции, дизъюнкции и отрицания. Мерой соответствия запроса документу служит значение статуса выборки, которое равно либо 1, если для данного документа вычисление выражения запроса дает True, либо О-в противном случае. Все документы со значением статуса выборки равным I считаются релевантными запросу. Булева модель проста в реализации и применяется во многих коммерческих системах. Она позволяет пользователям вводить в свои запросы произвольные сложные выражения. Однако эффективность поиска обычно невысока, к тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые значения статуса выборки, а терминам нельзя присвоить весовые коэффициенты.

Множественная модель информационного поиска представляет документы и запросы как подмножества множества терминов Т. Критерии смыслового соответствия, формулируемые в терминах теории множеств, по смыслу похожи на КСС булевой модели, но пользователь не имеет возможности строить сложные информационные запросы, а просто включает ряд терминов в поисковое предписание. В качестве критерия смыслового соответствия используются критерии на совпадение, на включение, на пересечение. Критерии смыслового соответствия, формулируемые в терминах теории множеств, широко используются в реальных ДИПС как в качестве основных, так и в качестве дополнительных средств для уточнения условий поиска.

Модель нечетких множеств основывается на теории нечетких множеств, допускающей (в отличие от обычной теории множеств) частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопре-

делены таким образом, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели. В отличие от булевой модели модель нечетких множеств позволяет вводить для терминов весовые коэффициенты, которые являются функциями принадлежности терминов к ПОД или ПП.

На этапе оценки соответствия документа запросу возникает необходимость в оценке степени близости двух подмножеств, представляющих ПОД и ПП одного и того же множества терминов Т. Для такой оценки в ряде случаев удобно оперировать векторными представлениями этих подмножеств, то есть векторами, находящимися во взаимно-однозначиом соответствии с этими подмножествами. Пространственно-векторные модели основаны на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из т нормализованных векторов терминов, где т - количество терминов базы данных. К пространственно-векторным моделям относится, например, матричная модель информационного поиска [4]. В матричной модели для оценки степени близости двух т-мерных векторов, один из которых представляет пользовательский запрос, а другой - некоторый документ, по величине их скалярного произведения судят о степени релевантности данного документа пользовательскому запросу. Матричная модель также допускает присвоение терминам весовых коэффициентов. Достоинство матричной модели в ее простоте. В то же время приходится жертвовать выразительностью спецификации запроса, присущей булевой алгебре. Кроме того, некоторыми специалистами ставится под сомнение правомочность и корректность использования всех моделей, где используется матричное произведение.

Доработкой матричной модели информационного поиска является корреляционная модель [3], которая основывается на том, что векторы, представляющие ПОД и ПП, можно рассматривать как многомерные случайные величины и, следовательно, для оценки их степени близости можно использовать значение коэффициента линейной корреляции между этими векторами, которое и принимается в качестве критерия смыслового соответствия.

Недостатком использования всех выше рассмотренных моделей является тот факт, что выразительные средства дескрипторных языков слишком бедны для адекватного представления содержащихся в естественно-языковых текстах понятий. Практика показала, что дескрипторный механизм индексирования не учитывает возможные смысловые связи, возникающие при описании отдельных предметных областей и, следовательно, не дает достаточно эффективных средств управления одновременно полнотой и точностью поиска. Еще одной проблемой, характерной для современных информационно-поисковых систем, является отсутствие эффективных средств управления размером множества документов, отбираемых системой как ответ на запрос. Количество документов, включенных в ответ, может значительно изменяться при изменении всего лишь одного индекса в запросе.

Таким образом, автоматический поиск текстовой информации пока нельзя признать высокоэффективным. Но было бы неверно сделать вывод, что сам прин-

цип информационного поиска ш ключевым словам и дескрипторам, который положен в основу современных ДИПС, вообще неэффективен. Во-первых, мы пока не можем предложить взамен более эффективного принципа. Во-вторых, этот принцип в определенных областях позволяет получать вполне приемлемые результаты.

Тем не менее, сегодня необходима разработка существенно новых принципов информационного поиска но полным текстам документов, основанных на результатах исследования механизмов человеческого мышления, на использовании баз знаний и опыта, накопленного при разработке и эксплуатации экспертных систем, систем машинного перевода и других интеллектуальных информационных систем. В связи с этим не прекращаются попытки разработать модель информационного поиска, основанную на экспертных знаниях. Наличие экспертной системы как бы снимает задачу построения оптимальной информационнопоисковой системы, что на практике пока не удается сделать. Вместо этого ставится задача использования тех поисковых средств, из имеющихся в системе, которые наилучшим образом соответствуют конкретной поисковой ситуации.

Разработка модели информационного поиска, основанной на знаниях, имеет ряд особенностей. Дело в том, что фундаментальная трудность интеллектуализации поисковых задач состоит в том, что представление эксперта о задачах и качестве поиска могут существенно отличаться от осознания этих задач пользователем. В связи с указанной трудностью, отдельной проблемой является извлечение знаний у эксперта для формирования базы знаний, которая будет использоваться в процессе принятия решения о релевантности или о нерелевантности документов запросу пользователя. Очевидно, что часть знаний, необходимых для реализации информационного поиска, может быть получена без участия эксперта - непосредственно из различных словарей по русскому языку и других пособий. Но также очевидно, что кроме этого необходимо использовать знания, «специфичные» для некоторой предметной области, на которую будет ориентирована ДИПС и которые могут быть сформулированы только экспертом.

Использование экспертных знаний возможно на самых разных этапах создания и функционирования ДИПС. Одним из таких этапов является, например, автоматическое индексирование документов. Автоматическое индексирование документов может основываться на однословных или многословных составных терминах (фразах). Однословные термины не идеальны для индексирования, поскольку смысл вне контекста нередко бывает неоднозначным. Термины-фразы более осмыслены. Для генерации фраз может использоваться как синтаксический анализ, так и ряд эвристических алгоритмов, для разработки которых требуется привлечение эксперта. В ходе автоматического индексирования системой выделяются термины - основы фразы и другие, связанные с ними термины, которые находятся в одном предложении или на некотором расстоянии от основ фразы. Как терминам-основам фразы, так и связанным терминам могут назначаться веса. С целью установления правильной связи между основами фраз и связанными с этими основами терминами правила присвоения весовых коэффициентов также формируются с участием эксперта.

Экспертные знания могут использоваться также и при синтаксическом анализе документов. Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре (базе). Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном языке и собственно алгоритма синтаксического анализа. Источником грамматических знаний являются данные, полученные в результате предварительного морфологического анализа, а также различные таблицы, основу которых составляют списки лексических единиц с указанием для каждой из них всех возможных вариантов связей с другими лексическими единицами (то есть потенциальных связей). Для составления таких таблиц и необходимо привлечение эксперта. Кроме того, желательно участие эксперта при составлении различных вспомогательных словарей для предметной области, в которых фиксируются такие отношения между терминами, как род-вид, часть-целое и др.

Отдельный интерес представляет автоматическое рубрицирование - отнесение вновь поступающих в систему документов к тем или иным тематическим категориям. С этой целью каждое понятие предметной области должно описываться экспертом, в результате чего формируется определение понятия (каркас), которое объединяет в себе набор характерных для этого понятия слов и фраз, и, возможно, расстояние между ними. Также фразам могут быть назначены экспертные веса, показывающие, насколько каждая фраза характерна для данного понятия. Решение о принадлежности документа к конкретной рубрике принимается на основе правил рубрицирования, которые также заранее формулируются экспертом с использованием языка правил.

Вот лишь некоторые основные направления в области информационного поиска, по которым ведутся работы в настоящее время. В разрабатываемых моделях информационного поиска могут использоваться также самые различные алгоритмы, уже хорошо зарекомендовавшие себя в других областях науки и техники. Ведутся исследования с целью разработки моделей информационного поиска, в основе которых лежат эволюционные вычисления и генетические алгоритмы, теория искусственных нейронных сетей, теория нечетких множеств, различные методы машинного обучения и другие интеллектуальные методы и алгоритмы. Активные исследования в области информационного поиска позволяют надеяться, что в ближайшее время произойдет существенное повышение качества поиска информации в полнотекстовых базах данных, что немаловажно в обществе, где информация с каждым днем становится ценным продуктом и основным товаром.

ЛИТЕРАТУРА

1. Забежайло М.И. К проблеме автоматического понимания полнотекстовых документов в информационном поиске //' Теория и системы управления, 1998. № 5. С. 167-176.

2. Корнеев В.В., Гареев А.Ф, Васютин С.В.,. Райх В.В Базы данных. Интеллектуальная обработка информации. М.: Нолидж, 2000. 352 с., ил.

3. Цукерт А.Г. Корреляционный метод поиска документов, релевантных заданной теме // Компьютерные технологии в инженерной и управленческой деятельности. Материалы Всероссийской научно-технической конференции с международным участием. 2000. С. 393 396.

4. Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики. М.: Российск. гос. гуманит. ун-т, 1997. 168 с.

УДК 658

А.В. Аграновский, Д.А.Леднов, С.А.Репалов, П.М.Сулима

СЕГМЕНТАЦИЯ И ПОСТРОЕНИЕ СТРУКТУРЫ СЛОВА ПЕРВОГО ПОРЯДКА ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ

На всем множестве разнообразных задач обработки речи исследователи неизбежно сталкиваются с проблемой сегментации речи и с необходимостью построить такое представление слова, которое было бы инвариантным относительно длительности произношения слова. Здесь будет рассмотрена операция сегментации и сделана попытка построить инвариантную структуру слова в приложении к задаче распознавания речи.

Пусть, акустические параметры речи наблюдаются тремя устройствами. Первое из устройств за время наблюдения определяет амплитуду огибающей. Второе устройство за это же время наблюдения определяет частоту основного тона. Третье устройство следит за спектральными составляющими речи. Каждое из устройств отображает свои данные в своем пространстве наблюдений. Данные в каждом пространстве наблюдения являются случайными величинами, а процесс, их порождающий, - марковским процессом. Распределение плотности вероятности марковского процесса р(1,г) прогнозируется уравнением Колмогорова первого порядка для пространств наблюдений основного тона и огибающей

^■ + и(1,2)^ + ^-ЪЦ,г)^=0, сЛ дг 2 022

где а(1,г), Ь^.г) - функции, определяющие динамику математического ожидания и

дисперсии, с начальным условием вида

1 (20-г’)21

Ри=т=:—7г=ехР1-

Т I— г 1 О ( >

Ьол/2я [ 2Ьо ] где принято, что значение первого измерения 2о является средним начального нормального распределения.

Для пространства наблюдений спектральных состояний плотность распределения прогнозируется уравнением Колмогорова п-го порядка, порядок уравнения зависит от числа максимумов в полученном спектральном представлении. Если в прогнозируемом распределении вероятности измеренное новое значение величины в пространстве наблюдений имеет вероятность ниже некоторого порогового значения, то выдвигается гипотеза, что в слове произошло изменение фонемы. Гипотеза становится решением в том случае, если, по крайней мере, в двух пространствах наблюдений она выдвигается синхронно. Таким образом, слово разбивается на последовательность интервалов моментами, в которые были при-

i Надоели баннеры? Вы всегда можете отключить рекламу.