Научная статья на тему 'Векторная модель анализа данных'

Векторная модель анализа данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
350
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОИСКОВЫЕ СИСТЕМЫ / ВЕКТОРНАЯ МОДЕЛЬ / АНАЛИЗ ДАННЫХ / SEARCH ENGINES / VECTOR MODEL / DATA ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Прохорович Г.А., Перанцева А.В., Брезицкая В.В., Туева Е.В., Петросян М.О.

В настоящее время при создании и совершенствовании систем поиска информации используются различные модели анализа данных. Приведено описание классической алгебраической модели анализа данных векторной модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Прохорович Г.А., Перанцева А.В., Брезицкая В.В., Туева Е.В., Петросян М.О.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

VECTOR MODEL OF DATA ANALYSIS

Currently, when creating and improving information retrieval systems, various models of data analysis are used. A description of the classical algebraic model of data analysis a vector model is given.

Текст научной работы на тему «Векторная модель анализа данных»

Математические методы моделирования, управления и анализа данных

УДК 512.642

ВЕКТОРНАЯ МОДЕЛЬ АНАЛИЗА ДАННЫХ

Г. А. Прохорович, А. В. Перанцева, В. В. Брезицкая, Е. В. Туева, М. О. Петросян

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: sid_ga@mail.ru

В настоящее время при создании и совершенствовании систем поиска информации используются различные модели анализа данных. Приведено описание классической алгебраической модели анализа данных - векторной модели.

Ключевые слова: поисковые системы, векторная модель, анализ данных.

VECTOR MODEL OF DATA ANALYSIS G. A. Prohorovich, A. V. Perantseva, V. V. Brezitskaya, E. V. Tueva, M. O. Petrosyan

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: sid_ga@mail.ru

Currently, when creating and improving information retrieval systems, various models of data analysis are used. A description of the classical algebraic model of data analysis - a vector model is given.

Keywords: search engines, vector model, data analysis.

Многие из известных информационно-поисковых систем базируются на векторно-пространственной модели описания данных (Vector Space Model), предложенной Г. Солтоном в 1975 г. и впервые примененной в системе SMART. Данная модель является классической алгебраической. В рамках этой модели документ описывается вектором в евклидовом пространстве, в котором каждому терму, использующемуся в документе, ставится в соответствие его весовое значение, определяемое на основе статистической информации о его появлении, как в отдельном документе, так и во всем документальном массиве. Описание запроса, соответствующего необходимой пользователю тематике, также представляет собой вектор в том же евклидовом пространстве термов. Для оценки релевантности запроса и документа используется скалярное произведение соответствующих векторов запроса и документа [1].

В рамках этой модели каждому ключевому терму t в документе dj соответствует некоторый неотрицательный вес Wj.

Каждому запросу q, который представляет собой также множество термов, не соединенных между собой никакими логическими операторами, также соответствует вектор весовых значений wiq.

Таким образом, каждый документ и запрос могут быть представлены в виде n -мерного вектора, где n -общее количество термов в словаре модели.

Графически векторная модель представлена на рисунке.

В соответствии с рассматриваемой моделью, релевантность документа dj к запросу q, которые как рассматриваются как информационные векторы

^ =(Щу,Щу,) и Ч = (,Щд) ОДенива-ется как их скалярное произведение. При этом вес отдельных термов можно вычислять разными способами [2-4].

Графическое представление векторной модели

Одним из самых распространенных является TF-IDF, согласно которому веса щ вычисляются по следующей формуле:

m,,

wii=-

ъ

■ log

N

(1)

где ту - количество появлений терма и в документе

п

^ тку - общее число слов в данном документе;

kj

k=1

k=1

Решетневские чтения. 2017

N - общее число документов в массиве; п - количество документов, в которых встречается

Весовые значения wiq вычисляются по формуле:

w. =

iq

1, если i-й терм присутствует в запросеq; 0, если i-й терм не присутствует в запросеq.

Релевантность для данной модели поиска представлена как скалярное произведение векторов документа и запроса, которое соответствует косинусу угла между векторами:

/ \ d ■ q

rel ydj, q) = -.—--

z

\dj\ ■ lql

Z (Wj)2 JZ (Wiq)

(2)

Векторно-пространственная модель представления данных обеспечивает системам, построенным на ее основе, такие возможности, как:

- обработку запросов без ограничений их длины;

- простоту реализации режима поиска подобных документов (каждый документ может рассматриваться как запрос);

- сохранение результатов поиска с возможностью выполнения уточняющего поиска.

Вместе с тем в векторно-пространственной модели не предусмотрено использование логических операций в запросах, что существенно ограничивает ее применимость.

мационю-шисковыми системами / И. В. Ковалев [и др.] // Вестник СибГАУ. 2013. № 1 (47). С. 48-52.

2. Модели и методы оптимизации сбора и обработки информации / Н. А. Распопин [и др.] // Вестник СибГАУ. 2012. № 2 (42). С. 69-72.

3. Зеленков П. В., Прохорович Г. А. Модифицированный алгоритм HITS // Вестник СибГАУ. 2011. Вып. 2 (35). С. 17-20.

4. Processing information system for highly specialized information in corporate networks / P. V. Zelenkov, V. V. Brezitskaya, G. A. Prohorovic [и др.] // IOP Conference Series: Materials Science and Engineering. 2016. Vol. 155, Number 1.

References

1. Sistema poiska i obrabotki multilingvisticheskih tekstov, integrirovannaya s informachionno-poiskovumi sistemami / I. Kovalev [et al.] // Vestnik SibSAU. 2013. No. 1 (47). Р. 48-52.

2. Modeli i algoritmu optimizacii sbora i obrabotki informachii / N. Raspopin [et al.] // Vestnik SibSAU. 2012. No. 2 (42), Р. 69-72.

3. Zelenkov P. V., Prohorovich G. A. Modificiro-vannyj algoritm HITS // Vestnik SibSAU. 2011. Vol. 2 (35). Р. 17-20.

4. Processing information system for highly specialized information in corporate networks / P. V. Zelenkov, V. V. Brezitskaya, G. A. Prohorovic [et al.] // IOP Conference Series: Materials Science and Engineering. 2016. Vol. 155, Number 1.

Библиографические ссылки

1. Система поиска, анализа и обработки мульти-лингвистических текстов, интегрированная с инфор-

© Прохорович Г. А., Перанцева А. В., Брезицкая В. В., Туева Е. В., Петросян М. О., 2017

i=1

i Надоели баннеры? Вы всегда можете отключить рекламу.