Научная статья на тему 'Обзор методов информационного поиска'

Обзор методов информационного поиска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3828
838
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЙ ПОИСК / INFORMATION SEARCH / КЛАССИЧЕСКИЕ АЛГОРИТМЫ ПОИСКА / CLASSICAL ALGORITHMS OF RESEARCH / МОДЕЛИ ПОИСКА / RESEARCH METHODS / SEARCHING MODELS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Урвачева В.А.

Приводится краткий обзор современных методов и алгоритмов поиса. В обзор также включены классические алгоритмы, которые положены в основы современных методов поиска. В частности, освещаются алгоритмы Рабина-Карпа, Кнута-Морриса-Пратта, Бойера-Мура. Помимо того рассматриваются модели булева поиска, векторная модель, вероятностная модель информационного поиска.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A brief review of modern methods and algorithms of searching informationis given here. The review also includes classical algorithms which are the basis of modern research methods. Particularly, it highlights the algorithms made by Rabin-Karp, Knuth-Morris-Pratt and Boyer-Moore. Besides, the searching model of Boolev, the vector model and the probabilistic model of information search are consideredhere.

Текст научной работы на тему «Обзор методов информационного поиска»

информационным системам "IS-ГГП". Научное издание в 4-х т. - М.: Физматлит, 2011. - Т. 3. - С. 285291.

6. Иванова, Г. С. Основы программирования: учебник для вузов.М.: МГТУ имени Н.Э. Баумана. 2001. - С. 319.

7. Гладков, Л. А., Гладкова, Н. В., Скубриева, Е. С. Решение задачи трехмерной упаковки разногабаритных объектов с использованием бионических методов / Л. А. Гладков, Н. В. Гладкова, Е. С. Скубриева // Известия ЮФУ. Технические науки. Тематический выпуск "Интеллектуальные САПР". - Таганрог: Изд-во ТТИ ЮФУ. - 2012. - Т. 144. № 7. - С. 35-41.

8. Гладков, Л. А., Курейчик, В. В., Курейчик, В. М. Генетические алгоритмы / Л. А. Гладков, В. В. Курейчик, В. М. Курейчик / под ред. В. М. Курейчика. - 2-е изд. - М.: Физматлит, 2006. - 320 с.

УДК 615.035.4

В.А. Урвачева ОБЗОР МЕТОДОВ ИНФОРМАЦИОННОГО ПОИСКА

Аннотация. Приводится краткий обзор современных методов и алгоритмов поиса. В обзор также включены классические алгоритмы, которые положены в основы современных методов поиска. В частности, освещаются алгоритмы Рабина-Карпа, Кнута-Морриса-Пратта, Бойера-Мура. Помимо того рассматриваются модели булева поиска, векторная модель, вероятностная модель информационного поиска.

Ключевые слова: информационный поиск, классические алгоритмы поиска, модели поиска.

V.A. Urvacheva

REVIEW OF THE METHODS OF INFORMATION RETRIEVAL

Absrtact. A brief review of modern methods and algorithms of searching informationis given here. The review also includes classical algorithms which are the basis of modern research methods. Particularly, it highlights the algorithms made by Rabin-Karp, Knuth-Morris-Pratt and Boyer-Moore. Besides, the searching model of Boolev, the vector model and the probabilistic model of information search are consi-deredhere.

Key words: information search, classical algorithms of research, research methods, searching models.

Актуальность проблемы.

Проблема поиска и сбора информации является одной из важнейших задач информатики. Компьютерные методы информационного поиска - активно развивающаяся, актуальная в научном и практическом аспекте тема современных публикаций. Развитие компьютерной техники влечет существенный рост объема информации, представляемой в электронном виде, влияние этого процесса на современные информационные технологии, включая поиск, отмечается в большинстве публикаций в периодических изданиях [1, 2]. Приобрели актуальность вопросы, связанные с проблемой поиска информации на электронных носителях, функция поиска значительно упрощает пользователям навигацию в неограниченном множестве массивов документов [3, 4], хранящихся на Web-серверах, включая электронные библиотеки [5, 6]. В частности функция поиска данных строкового типа существенно облегчает редактирование документов и поиск требуемой информации. В настоящее время функция поиска является составляющей многих программных продуктов, редакторов языков программирования. Актуальны задачи поиска объектов, хранящихся в оцифрованном виде по нескольким признакам одновременно, однако поиск изображений сводится к поиску в тексте по названию изображения [7]. Отметим, что с этой целью можно предложить поиск изображений по фрагментом без текстовой надписи [8].

Можно выделить следующие классические разновидности поиска: поиск в массиве записей [7, 8, 9], поиск подстроки в строке или поиск по образцу [8, 9, 10], алгоритмы информационного поиска [11, 12, 13, 14], алгоритмы поисковой системы [9, 11, 13, 15, 16].

I. Классические схемы поиска в массиве записей. В классических методах поиск рассматривается как нахождение данных, удовлетворяющих определенному свойству. В [7, 8, 9] предполагается, что информация содержится в записях, которые представляют собой массив данных в программе, и каждая запись содержит поле, которое называется ключом. Записи идут в массиве последовательно, номера записей в списке идут от 1 до N — полного числа записей. Массив записей может быть неотсортированным или отсортированным по значению ключевого

поля. В неотсортированном массиве порядок записей случаен, в отсортированном они идут в порядке возрастания ключа. При этом известные схемы поиска [7, 8] реализуют поиск только однотипных данных, в этих схемах поиск ведется только по одному ключу (признаку поиска). В [7] предложена следующая классификация методов поиска. 1. Внутренний и внешний поиск с разделением используемых сортировок. 2. Статические и динамические методы поиска. При статическом поиске массив значений не меняется во время работы алгоритма. Во время динамического поиска массив может перестраиваться или изменять размерность. 3. Методы, основанные на сравнении ключей и на цифровых свойствах ключей. 4. Методы, использующие истинные ключи и преобразованные ключи.

Простейший поиск записи в неотсортированном массиве сводится к просмотру всего списка до того, как запись будет найдена. Этот алгоритм не всегда эффективен, однако работает на произвольном списке.

Линейный поиск [7, 8,9, 17] заключается в простом последовательном просмотре всех элементов массива и сравнении с эталоном (ключом) X. Эта процедура выдает либо значение индекса для найденного элемента массива, либо нулевое значение, когда требуемый элемент не найден. При прямом последовательном поиске в среднем проверяются п/2 элементов. В лучшем случае будет проверяться один элемент, в худшем - n элементов. Если данные не отсортированы, то линейный поиск является единственно возможным.

Классические способы поиска в отсортированном массиве: а) бинарный поиск; б) поиск по «дереву Фибоначчи»; в) интерполяционный поиск.

Бинарный поиск [7, 8, 9, 17] сравнивает эталон (ключ) с элементом в середине массива и в зависимости от результата сравнения (больше или меньше) дальнейший поиск проводится в левой или в правой половине массива:

L:=0; R:=N; f:= false;Repeat m:=(L+R) div 2; if a[m]=x then f:=true;If a[m]<X then L:=m+1 else r:=m; Writeln (m, L,R);Until (L>=R) or(f); If f then write ('найденэлементна', m, 'месте') else write ('такого элемента в массиве нет');

Например, поиск в массиве (1, 5, 12, 17, 21, 25, 32, 42, 45, 47, 51, 54, 57, 65, 78, 94) числа 51 можно проиллюстрировать следующим образом.

5

1 2 7 1 5 2 2 5 7 1 4 7 5 8 4]

5

2 7 1 5 2 2 45 7 1 4 7 5 8 4]

5

2 7 1 5 2 2 45 7 1] 4 г 7 5 8 4

2 7 1 5 2 2 5 7 51] [ 4 7 5 8 4

Сначала делается проверка среднего элемента, которым является число 42. Этот элемент меньше 51, поиск будет продолжен во второй половине массива (45, 47, 51, 54, 57, 65, 78, 94), иначе бы проверялась первая половина. Процесс продолжается, пока искомый элемент не будет найден. Число сравнений в худшем случае log n, в лучшем случае - 1. Алгоритм представим бинарным деревом [7]:

Рис. 1 Бинарное дерево, соответствующее бинарному поиску (Ы = 16)

Поиск по «дереву Фибоначчи». В дереве Фибоначчи [7, 18] числа в дочерних узлах отличаются от числа в родительском узле на одну и ту же величину, а именно на число Фибоначчи.

Суть метода в том, что в ходе сравнения искомого значения с очередным значением в массиве новая зона поиска не делится пополам, как в бинарном поиске, а происходит смещение от предыдущего значения, с которым сравнивали, в нужную сторону на число Фибоначчи.

Рис. 2 Дерево Фибоначчи порядка 6

Этот способ считается более эффективным, чем предыдущий, потому что метод Фибоначчи включает в себя только такие арифметические операции, как сложение и вычитание: нет необходимости в делении, тем самым экономится процессорное время.

Интерполяционный поиск [10, 18, 19]. Если известно, что K лежит между Kl и К , то

следующую пробу делаем на расстоянии {и — / )(K — Kl ^/{Ки — Kl) от / , предполагая, что

ключи являются числами, возрастающими приблизительно в арифметической прогрессии. Интерполяционный поиск асимптотически предпочтительнее бинарного, так как один шаг бинарного

поиска уменьшает количество записей, среди которых находится искомая, с П до п/ 2, а один шаг

интерполяционного поиска с п до V п . Интерполяционный поиск требует в среднем около log2 log2 N шагов. Скорость интерполяционного метода начинает существенно превышать скорость метода половинного деления при больших значениях N.

Кроме перечисленных можно также назвать метод цифрового поиска, который вместо непосредственного сравнения ключей использует их представление в виде последовательности цифр и букв - поиск по дереву [7]. Еще одна группа методов поиска позволяет произвести над ключом

К арифметические вычисления и получить функцию f {К), указывающую адрес в таблице, где

хранится К и ассоциированная с ним информация. В идеале для задач поиска хеш-адрес должен быть уникальным, чтобы за одно обращение получить доступ к элементу, характеризуемому заданным ключом [7].

В рамках работы будет изложен метод поиска по нескольким ключам одновременно с учетом их взаимного расположения.

II. Классические схемы поиска подстроки в строках. Среди известных методов поиска подстроки можно выделить те методы, когда ключ является составным объектом [8], например, массив символов, называемый строкой или словом. Для того чтобы установить факт вхождения подстроки в строку, необходимо убедиться, что все символы сравниваемых строк соответственно равны один другому. Поиск подстроки в тексте - важный элемент текстовых редакторов.

Алгоритм последовательного поиска в тексте [8, 7, 20, 21]. Идея метода заключается в следующем: проверяется, совпадают ли т символов текста (начиная с выбранного) с символами строки. Стандартный алгоритм начинается со сравнения первого символа текста с первым символом подстроки. Если они совпадают, то происходит переход ко второму символу текста и подстроки. При совпадении сравниваются следующие символы. Так продолжается до тех пор, пока не окажется, что подстрока целиком совпала с отрезком текста, или пока не встретились несовпадающие символы. В первом случае задача решена, во втором - указатель текущего положения в тексте перемещается на один символ и сравнение начинается заново. Время работы алгоритма оценивается как 0((п-т+1)т) [8].

Алгоритм Рабина-Карпа [8]. В алгоритме предлагается поставить в соответствие каждой строке некоторое уникальное число и вместо сравнения строк сравнивать числа. Недостаток метода в том, что искомая строка может быть длинной и строк в тексте может быть много. Так как в каждой строке нужно сопоставить уникальное число, то чисел должно быть много, числа будут большими и работать с ними будет неудобно. Проблема больших чисел может быть решена, если производить все арифметические действия по модулю какого-то простого числа (брать остаток от деления на это число). В этом случае находится не число, характеризующее строку, а его остаток от деления на простое число. Число ставится в соответствие не одной строке, а целому классу, но

так как классов много (столько, сколько различных остатков от деления на это простое число), то дополнительная проверка производится редко. Алгоритм реализует следующая программа:

ProgramRabinKarpSearch; Vart,s: string; i,j,n,m,v,w6 k: longint; const P: longint = 7919; D: longint = 256; Begin writeln('введитетекст'); readln(t); writeln('введите искомый текст');readln(s); n:= length(t);m:= length(s); v:=0; w:=0; for i:=1 to m do begin v:=(v*D+ord(S[i])) mod P; w:=(w*D+ord(T[i])) mod P; end; k:=1; for i:=1 to m-1 do k:=k*D mod P; for i:=m+1 to n+1 do begin if w=v then begin j:=0; while (j<m) and (S[j+1]=T[i-m+j]) do j:=j+1; ifj=mthenwriteln('Образец входит в текст с 'Д-ш,'-ого символа'); end; if i<=n then w:=(d*(w+P-(ord(T[i-m])*k mod P))+ord(T[i])) mod P; end; End.

Время работы O

/ тпл

m + n + -

P

, так что сложность алгоритма почти линейная.

V 1 У

Алгоритм Кнута-Морриса-Пратта [8, 10] (далее КМП) основывается на том, что после частичного совпадения начальной части образа с соответствующими символами образ сдвигается на все пройденное расстояние, так как меньший сдвиг не может привести к полному совпадению. Алгоритм КМП иллюстрирует пример, приведенный на рис. 3. Выполняется поиск слова format в заданном тексте.

текст 1 2

3

4

5

6 7

шаг

шаг

шаг

шаг

шаг

шаг

шаг

шаг

n

Рис. 3 Алгоритм Кнута - Морриса - Пратта

Алгоритм КМП работает со сложностью 0{п + т) на любом тексте.

Алгоритм Бойера-Мура [27, 28] считается более быстрым среди алгоритмов, предназначенных для поиска подстроки в строке. Отличием алгоритма БМ от алгоритма КМП является то, что для поиска выполняется сравнение символов с конца образа, а не с начала. На первом шаге строится таблица смещений для искомого образца. Совмещая начало строки и образца, выполняется проверка с последнего символа образца. Если последний символ образца и соответствующий ему при наложении символ строки не совпадают, образец сдвигается относительно строки на величину, полученную из таблицы смещений, и снова проводится сравнение, начиная с последнего символа образца. Если же символы совпадают, производится сравнение предпоследнего символа образца и т. д. Если все символы образца совпали с наложенными символами строки, значит, найдена подстрока и поиск окончен. Если же какой-то (не последний) символ образца не совпадает с соответствующим символом строки, то сдвигается образец на один символ вправо и снова начинается проверка с последнего символа. Весь алгоритм выполняется до тех пор, пока либо не будет найдено вхождение искомого образца, либо не будет достигнут конец строки. Величина сдвига в случае несовпадения последнего символа вычисляется следующим образом: сдвиг образца должен быть минимальным, таким, чтобы не пропустить вхождение образца в строке. Если данный символ строки встречается в образце, то образец смещается таким образом, чтобы символ строки совпал с самым правым вхождением этого символа в образце. Если образец вообще не содержит это-

го символа, то образец сдвигается на величину, равную его длине, так что первый символ образца накладывается на следующий за проверявшимся символом строки. Величина смещения для каждого символа образца зависит только от порядка символов в образце, поэтому смещения удобно вычислить заранее и хранить в виде одномерного массива, где каждому символу алфавита соответствует смещение относительно последнего символа образца. Алгоритм иллюстрируется следующим примером.

текст 1 2

3

4

5

6

шаг шаг шаг шаг шаг шаг

Рис. 4 Алгоритм Бойера-Мура

Число сравнений алгоритма O{n + гм), где Г - число вхождений.

III. Алгоритмы информационного поиска. Информационный поиск текстов - одна из самых востребованных задач обработки текстов [22]. Центральная проблема - помочь пользователю найти ту информацию, в которой он заинтересован [23]. Задача поиска состоит в определении по запросу пользователя множества текстов из некоторой фиксированной базы, релевантных запросу. Запрос представляется набором ключевых слов. Основным вопросом при этом является определение релевантностей текстов запросу и сортировки документов по этим значениям [11]. Классическая задача информационного поиска, с которой началось развитие этой области, - это поиск документов, удовлетворяющих запросу в рамках некоторой статической (на момент выполнения поиска) коллекции документов. Эта задача решается в рамках большинства современных справочных систем, включая Windows. [14]. Модели информационного поиска делятся на три класса [14, 24]:

1) Теоретико-множественные модели, опирающиеся на аппарат теории множеств. Классический пример - булева модель. В рамках этой модели документы и запросы представляются в виде множеств термов. 2) Вероятностные модели, опирающиеся на теорию вероятностей. В качестве оценки релевантности документа запросу пользователя используется вероятность того, что пользователь признает документ истинно релевантным. 3) Алгебраические модели, в которых документы и запросы описываются в виде векторов в многомерном пространстве; аппарат опирается на алгебраические методы, которые широко применяются в современных информационно-поисковых системах.

Булев поиск опирается на использование инвертированного индекса ключевых слов, то есть таблицы, в которой для каждого ключевого слова перечисляются все документы, где оно встречается [25]. Главным достоинством этого алгоритма является возможность связывания слов запроса логическими операциями и получения в результате объединения множеств документов, содержащих искомые слова. К недостаткам следует отнести невозможность определения релевантности запросу полученной выборки документов. При поиске из инвертированного индекса извлекаются списки документов, соответствующие каждому слову запроса. Над полученными множествами проводятся операции, соответствующие логическим операциям, связывающим слова запроса, в результате чего образуется список найденных документов. Как правило, данный алгоритм используется совместно с другими алгоритмами.

Векторная модель является классическим представителем класса алгебраических моделей, реализована в 1968 г. Джерардом Солтоном в поисковой системе SMART (Salton'sMagicalAutomaticRetrieverofText). Сокращенное обозначение TF*IDF - синоним наиболее распространенной современной векторной модели [26], основанной на математическом аппарате геометрии, в которой индексируемые текстовые ресурсы и запросы пользователей рассматриваются как векторы в пространстве слов, а релевантность - как расстояние между ними [12]. Векторные модели, в отличие от булевых, позволяют ранжировать результирующее множество документов запроса. В векторной модели каждому документу ставится в соответствие вектор

Dt — {wa, W i 2,..., W in }, где Wj - вес j -го ключевого слова в i -м документе, обычно вычис-

1 N

ляемый по формуле нормированного представления TF*IDF Wj — a j log— , где a — частота

J J d j j

появления j -го ключевого слова в i -м документе; dj - количество документов, в которых встречается j -е ключевое слово; N - общее количество рассматриваемых документов. Аналогично для запроса Q вводится вектор Q — {qx, q2,..., qn }, где qj — 1, если j -е ключевое слово присутствует в запросе Q, иначе qj — 0 . Мера схожести документа D t и запроса Q вычисляется как косинус угла между соответствующими векторами r(Dj, Q) — (D , Q)/(||Dj.|| • ||Q||), где

(Di, Q) - скалярное произведение, || Di ||, || Q || - нормы векторов.

Вероятностная модель информационного поиска основана на теории вероятности и использует статистические показатели, характеризующие вероятность соответствия проиндексированных текстовых ресурсов запросу пользователя. Преимущество в том, что модель располагает документы в порядке убывания «вероятности оказаться релевантным». На практике эти модели не получили большого распространения. В рамках моделей вычисляется условная вероятность события, что документ соответствует данному запросу, то есть P(d | q) P (документ D релевантен| запрос Q) [22, 24]. Для расчета используется формула Байеса и то, что вероятность P(q) постоянна на протяжении всего поиска. Таким образом, P(d | q) — aP(d)P(q | d) , a — const. В

качестве факторов, влияющих на безусловную релевантность документа P(d), можно рассматривать его размер, источник, дату публикации. Вероятность запроса q при условии релевантности документа d зависит главным образом от веса ключевых слов запроса в документе d . Для ее расчета обычно принимают гипотезу независимости слов документа и запроса, что приводит к

следующей формуле релевантностей: R(d | q) — log P(d) + ^ log P(Wkd) , где P(wk | d)

к

- вероятность появления k -го слова запроса в документе d .

В реальных поисковых системах, как правило, используется комбинация рассмотренных методов. При этом булев поиск используется для выделения из всего массива тех документов, которые содержат все слова запроса. Для определения релевантности документов и сортировки полученной выборки используются алгоритмы векторного и вероятностного поиска. Булева составляющая индексирования, сильно ускоряющая процесс поиска, - неотъемлемая часть поисковых систем, что говорит о необходимости создания и поддержки инвертированного индекса.

Итак, в статье была рассмотрен один из важнейших вопросов информатики, а именно вопрос решения проблемы поиска и сбора информации. Компьютерные методы информационного поиска - активно развивающаяся, актуальная в научном и практическом аспекте тема современных публикаций. Решение вопроса, связанного с проблемой поиска информации на электронных носителях, упрощение навигации в неограниченном множестве массивов документов, хранящихся на Web-серверах, включая электронные библиотеки и т.д. Решение актуальной задачи поиска объектов, хранящихся в оцифрованном виде по нескольким признакам одновременно, однако поиск изображений сводится к поиску в тексте по названию изображения. В частности, были рассмотрены алгоритмы Рабина-Карпа, Кнута-Морриса-Пратта,Бойера-Мура. Помимо того - модели булева поиска, векторная модель,вероятностная модель информационного поиска.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Dumi A.I. Computers & Automation. 1956. 5, 12, P. 6-9.

2. Peterson U.U. IBM J.Research& Development. 1957. 1. P. 130-146.

3. But E.D. Information and Control. 1958. 1. P. 159-164.

4. Duglas A.C. Comp.J. 1959. 2. P. 1-9.

5. Ajverson K.E. A Programming Language. New York: Wiley, 1962. P. 133-158.

6. BuhholxcB. IBM Systems J.. 1963. 2. P. 86-111.

7. Кнут, Д. Искусство программирования. Т.З. Сортировка и поиск. - М.: Вильямс, 2000. - 844 с.; Вирт Н. Алгоритмы и структуры данных. - М.: Мир, 1989. - 360 с.

8. Вирт, Н. Алгоритмы и структуры данных. - М.: Мир, 1989. - 360 с.

9. Макконнелл, Дж. Анализ алгоритмов. Вводный курс. - М.: Техносфера, 2002. - 304 с.

10. Кантор, И. Поиск. Строки и последовательности. Точный подстроки в строке. http://algolist. manual.ru/ search/esearch/.

11. Аграновский, А.В., Арутюнян, Р.Э. Алгоритмы поиска и рубрикации текстовых документов // Телекоммуникации. - 2003/ - № 9. - С. 2-7.

12. Захаров, Д.Е., Разработка интеллектуальной нейросетевой поисковой системы «Нейропоиск», тезисы молодежной научно-технической конференции «Наукоемкие технологии и интеллектуальные системы -

2002. С. 32-38.

13. Толстобров ,А.А., Хромых, В.Г. Полнотекстовый поиск в электронных библиотеках // Четвертая Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Дубна, 15-17 октября 2002 г. Объединенный институт ядерных исследований, 2002.

14. Некрестьянов, И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет - СПб., 2000. - 80 с.

15. J. Zobel, A. Moffat, K. Ramamohanarao. Inverted files versus signature files for text indexing. - Collaborative Information Technology Research Institute. - Departments of Computer Science, RMIT and The University of Melbourne, Australia, feb 1995, Technical report No TR-95-5.

16. Озкарахан Э., Машины баз данных и управление базами данных. - М.: Мир, 1989. - 696 с.

17. Бондарев, В.М. Основы программирования. - Ростов-на-Дону: Феникс, 1997. - 384 с.

18. Воробьев, Н.Н. Числа Фибоначчи. Популярные лекции по математике. - М.: Наука, 1969.

19. АльсведеР., Вегенер И. Задачи поиска. - М.: Мир, 1982.

20. Sunday D.M. A very fast substring search algorithm // Communications of the ACM. - 1990ю - Vol. 33. - №. 8. - P. 132-42.

21. Gonnet G.H., Baeza-Yates R. Handbook of Algorithms and Data Structures in Pascal and C . Chapter 7. Text algorithms. (2nd edition). - Wokingham UK: Addison-Wesley, 1991. - P. 251-88.

22. Аграновский, А.В., Арутюнян Р.Э., Хади Р.А. Современные аспекты проблемы поиска в текстовых базах данных // Телекоммуникации. 2003. - - № 3.С. 25-30.

23. Salton G. and McGill. M. J. Introduction to modern Information Retrieval // McGraw-Hill Computer Science Series. NewYork: McGraw-Hill, 1983.

24. Аграновский, А.В., Арутюнян, Р.Э. Способы индексации и поиска документов в интернет-порталах // Труды X Всероссийской научно-методической конференция «Телематика-2003». Санкт-Петербург. -

2003. - т. 1. - С. 204-206.

25. Salton G., Fox E., Wu H. Extended Boolean information retrieval. - Cornell University, 1982.

26. Karen Sparck Jones. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. - 1972.

27. Пилкбауэр, К. Обучение примерно похожим алгоритмам // SP, NY., 1992.

28. Ахо, А.В. Алгоритмы для поиска подобных строк. - Amsterdam: ESP, 1990.

УДК 681. 3.06

А.А. Штинова

ИНТЕРПОЛЯЦИОННАЯ ОБРАБОТКА ДАННЫХ ДЛЯ ИНФОРМАЦИОННЫХ СИСТЕМ

Аннотация. В статье обсуждается организация математической обработки дискретных данных на основе кусочной интерполяции по Ньютону. При этом на каждом подынтервале реализуется перевод интерполяционного полинома в форму алгебраического полинома с числовыми коэффициентами. Рассматриваются графики дискретно заданных функций, интерполируемых полиномами в алгебраической форме, которые склеиваются на границах подынтервалов равными узловыми значениями. Интерполяция в предложенной форме обеспечивает непрерывность, кроме того, непрерывную дифференцируемость всюду, кроме границ подынтервалов. На этой основе выполняется визуализация массивов спутниковых координат криволинейных контуров объектов с учетом нормалей и касательных.

Ключевые слова: интерполяционный полином, дискретные данные, координаты спутниковых наблюдений, визуализация массивов координат.

A.A. Shtinova

INTERPOLATION PROCESSINGDATA INFORMATION SYSTEMS

Abstract. The article discusses the organization of mathematical processing of digital data based on piecewise interpolation Newton. At each subinterval realized translation interpolation polynomial in the form of an algebraic polynomial with numerical coefficients. We consider the discrete graphics defined functions interpolating polynomials in algebraic form, which are glued on the borders of equal sub-intervals nodal values. Interpolation in the proposed form provides continuity, moreover, continuously differentiable everywhere except at the borders of subintervals. On this basis, renders sets of satellite coordinates curvilinear contours of objects based on normals and tangents.

i Надоели баннеры? Вы всегда можете отключить рекламу.