УДК 519.878
АНАЛИЗ КОЛЛЕКЦИИ ДАННЫХ ПОСРЕДСТВОМ ЛОГИКО-МНОЖЕСТВЕННОГО ГИСТОГРАММНОГО ПРЕДСТАВЛЕНИЯ
С.Ю. Папулин, аспирант (Московский государственный технический университет им. Н. Э. Баумана, ул. 2-я Бауманская, 5, г. Москва, 105005, Россия, papulin@yambler.ru)
Рассматриваются вопросы анализа коллекции данных с использованием логико-множественного гистограммного представления. Этот вид представления данных основан на применении гистограммы и особого математического аппарата, позволяющего реализовать элементные запросы в виде высказываний с множественными и логическими операциями. Результатом анализа является количественный показатель присутствия некоторого элементного состава, определенного в запросе. Кроме того, возможно использование данных-образцов в качестве запроса для определения схожести с анализируемыми данными. В этом случае результатом является количественный показатель схожести. Что касается коллекции, то она определена в виде списка однотипных данных (например, текстовых документов, изображений, видео или др.), которые состоят из элементов универсального множества, а каждому элементу коллекции ставится в соответствие его гистограммное представление. В настоящей работе приводятся два подхода к анализу коллекции данных посредством логико-множественного представления, которые базируются на поэлементном анализе данных. В качестве результата анализа коллекции определены список количественных значений присутствия при элементном запросе и значения схожести при данных-образцах, которые в процессе отображения пользователю в случае необходимости могут быть упорядочены по убыванию или возрастанию.
Ключевые слова: анализ данных, коллекция данных, гистограммное представление, логико-гистограммное представление, логико-множественное гистограммное представление, элементное высказывание, гистограммное высказывание.
ANALYSIS OF DATA COLLECTION USING LOGIC-SET HISTOGRAM REPRESENTATION Papulin S.Yu., Postgraduate Student (Bauman Moscow State Technical University, 2ndBaumanskaya St., 5, Moscow, 105005, Russian Federation papulin@rambler.ru)
Abstract. The article provides information about analysis of a data collection using logic-set histogram representation. This type of representation is based on using a histogram and a special mathematical system that allows implementing user queries as statements with logic and set operations. A result of the analysis is a quantitative value of presence of elements (designated in a query) in a data. Moreover, it's possible to use a sample query to find quantitative values of similarity to an analyzed data. A collection is defined as a list of one-type data (for example, textual documents, images, video or others), which is made up of a universal set elements. Each element of a collection matches with its histogram representation. The paper considers paper two approaches of analysis of data collection using the logic-set histogram representation. Both of them are built on element-by-element analysis. As a result of analysis of a data collection, the author defines a list of quantitative values of presence for element queries and values of similarity for sample queries that can be arranged in an order convenient to a computer user.
Keywords: data analysis, data collection, histogram representation, logic-histogram representation, logic-set histogram representation, element statement, histogram statement.
В мире высокотехнологичных электронных устройств особое значение приобрели средства анализа цифровых данных. На физическом уровне данные представляют собой всего лишь набор нулей и единиц. Поэтому для обработки и анализа важным является их более высокоуровневая форма, когда данные имеют вид, например, набора символов, слов, пикселей, регионов, звуков и др. Для описания этих единиц в данных используются представления (или репрезентации). Наиболее известными моделями представления данных являются множественная, логическая, вероятностная, c использованием нечетких множеств и нечеткой логики, семантические и фреймовые сети [1].
Выделим одну из наиболее простых форм представления - гистограмму. Ее основным назначением при обработке и анализе является количественное описание присутствующих в данных единиц. Другими словами, гистограммное представление - это форма описания, каждый элемент которой соотносится с элементом из множества
единиц данных, а значение указывает на их количество в конкретных данных.
В общем виде логико-множественная гисто-граммная модель представления предназначена для анализа данных по их гистограммным представлениям, который осуществляется за счет оценивания количественных значений присутствия элементов в данных с использованием высказываний, состоящих из наименований элементов данных, а также множественных и логических связок [2].
В случае анализа коллекции данных (множества однотипных данных, например, текстовых документов, изображений, видео или др.) по запросу на предмет количественного оценивания элементов коллекции используются методы поиска информации, самыми известными из которых являются булевый, векторный и вероятностный [3, 4].
Основной целью данной работы является общее математическое описание логико-множественного гистограммного представления для ана-
лиза коллекции данных. Следует также отметить, что в работе [5] приведен частный случай применения обозначенного представления для поиска изображений по содержанию с использованием текстового запроса.
Гистограммное представление
Коллекция состоит из элементов, которые в свою очередь являются данными. В частности, можно выделить коллекции текстовых документов, изображений, аудиозаписей, видео и др. Введем универсальное множество и, из элементов которого состоят все данные в коллекции. Например, для коллекции текстовых документов универсальное множество есть словарь термов (слов).
Элементы гистограммного представления соотнесем с элементами множества и. При этом значения гистограммных элементов будут указывать на количественные показатели элементов из и в данных (например их количество). Нормализованное гистограммное представление элементов коллекции определим следующим образом:
Н=((Н(1), ..., Н(М)) | 0<Н(/)<1, 1</<М,
м
Щ)еП, £Н(,) = 1), (1)
1=1
где / указывает на элемент из и; М - количество элементов гистограммы.
Кроме того, выражение (1) можно записать в виде несущего множества элементов:
НМ=(Н | Н=иН(х)/ х„ 0<Н(х,)<1, х,е и,
м1
£ Н (х,. ) = 1), (2)
1=1
где и - знак, обозначающий объединение элементов; М1 - количество элементов универсального множества, для которых Н(х/)>0.
Для упрощения изложения материала будем использовать первую форму записи (1) в виде упорядоченной последовательности значений.
Логико-множественное гистограммное представление
В общем виде такое представление является совокупностью методов представления и анализа данных и их элементов. При этом в качестве представления используется гистограмма вида (1) или (2). Основная же цель анализа заключается в определении количественных показателей присутствия указанного в запросе пользователя элементного состава. При этом запрос имеет вид высказывания, состоящего из элементов и операций-связок. Обозначенную модель представления в упрощенном виде можно определить через набор основных компонентов следующим образом:
Ч((и, Е33, Орв, Бе), № БГн(Е°), БН, %)), (3) где Е3 - множество элементов данных, составленных из элементов универсального множества,
Е°={Е\Еси}; ОрЕ - множество возможных операций между элементами данных, ОрЕ={^>, п, л, V, V, \. |: Н - алгебра гистограммного представления [2]:
Н=(Н°, 0Рн={и, п, л, V, V, "}, Сд={0, 1}>,(4) где и, гч, л, V, V, \ - бинарные операции «объединение», «пересечение», «и», «или», «исключающее или», «кроме»; - - унарная операция вычитания-отрицания; 0, 1 - константы (0 - гистограмма, значения всех элементов которой равны нулю; 1=И^), 0, 1еИ°; И3 - множество гисто-граммных представлений элементов Е3 в контексте гистограммы данных Н:
Н°={(Н(1), ..., Н(М)) 10<Н(/)<Н¥(/), 1</<М,
м
£ Н (,) < 1}. (5)
,=1
Для перевода элементов множества Е3 в элементы множества
Н3
используется функция БЕНЕ3), которая имеет следующий вид:
£РнЕ)=((Н(1), ., Н(М)) | И(1)=МП(Н(1),
НЕ(/)))еИ3, (6)
где Н(г)=1, если /-й элемент из и принадлежит Е; ИЕ(1)=0 - иначе.
В качестве запроса пользователя используется элементное высказывание, состоящее из элементов множества Е3 и операций ОрЕ, которые в данном случае соответствуют ОрН:
5Е=ВысказываниеЕ(Еь ..., ЕЬ), (7)
где Е/еЕ3; Ь - количество элементов высказывания.
Для вычисления количественного показателя присутствия вначале необходимо элементное высказывание перевести в гистограммное посредством использования выражения (6), а операциям из ОрЕ сопоставить соответствующие из ОрН. В работе [2] даны определения операциям из ОрН на множестве И3. Гистограммное высказывание записывается следующим образом:
БН=ВысказываниеН(И1, ., НЬ)=Не И3. (8)
Значение гистограммного высказывания есть некоторый элемент Н из множества И3. В результате количественный показатель присутствия определяется по выражению м
н = Н= £ Н (,) . (9)
,=1
При этом, чем больше значение ЕБН, тем больше содержание данных соответствует запросу.
В итоге можно выделить две группы компонентов, как показано в выражении (3): первая группа включает компоненты, не зависящие от гистограммного представления данных Н1; вторая группа содержит компоненты, которые определяются с учетом значений элементов Н и являются определяющими при анализе конкретных данных.
Кроме того, возможно использование других данных в качестве запроса, которые представляются в виде гистограммы и сравниваются с
Щ1. Результатом сравнения является количественный показатель схожести между данными, вычисляемый, например, следующим образом:
м . .
= £ шт (Н*е (/), Н" (/)). (10)
/=1
В этом случае реализуется классический вариант определения схожести по пересечению гистограмм в методах поиска информации. При этом подразумевается, что, чем выше значение схожести, тем больше похожи данные.
Анализ коллекции данных с использованием множественно-логического гистограммного представления
Приведенное ранее математическое описание логико-множественного гистограммного представления относится к анализу одного элемента коллекции по запросу. При этом выходным значением является количественный показатель присутствия.
Для анализа коллекции по запросу рассмотрим вариант, когда она обрабатывается поэлементно без использования методов структурирования данных в коллекции. В этом случае можно выделить два подхода. Во-первых, все данные коллекции представим как один элемент и определим для него ненормализованное гистограммное представление Н", а для каждого элемента коллекции - гистограмму Н"р (1</<^о), которую можно записать следующим образом:
Н"р =((Щ(1), ..., Щ(М)) | 0<Щ(/)<1, 1</'<М,
— - м
Щ(0= Н",р (I) / Н" (0, £ н (0 < 1), (11)
1=1
где Н" (1) - количество элемента из множества и в коллекции данных; Н"•р (1) - количество элемента из множества и ву-м элементе коллекции.
Особенностью данного подхода является возможность учета вклада отдельных данных в общую коллекцию. В то же время из-за этого осложнено использование данных-образцов в качестве запроса. Кроме того, если изменяется элементный состав коллекции, то необходимо заново пересчитывать все гистограммы данных. Поэтому приведенный подход больше подходит для статичной коллекции.
Второй подход не требует введения обобщающей гистограммы коллекции, а данные представляются просто в виде гистограмм (1). Это означает, что можно свободно использовать анализ по данным-образцам, а также изменять состав коллекции без необходимости пересчета значений гистограмм данных коллекции.
Обозначим коллекцию данных с учетом использования гистограммного представления для ее элементов следующим образом:
CD ={(d,, HN |1 < i < Nd )} , (12)
где di - i-й элемент коллекции (например текстовый документ); HN - нормализованное гисто-граммное представление вида (1) или (11) i-го элемента коллекции (например вектор частоты термов i-го текстового документа); ND - количество элементов в коллекции.
Пусть определен некоторый запрос пользователя. Тогда вне зависимости от подхода для каждого элемента коллекции необходимо вычислить его количественный показатель присутствия, используя выражения (4) -(9). Множество этих значений запишем следующим образом:
={(d, X,i|1 < i < Nd )}, (13)
где ( - количественное значение гистограм-
много высказывания (количественный показатель присутствия) i-го элемента коллекции CD.
Аналогично формируется список значений схожести при запросе-образце с использованием выражения (10) во втором подходе. Для обеспечения анализа по образцу в первом подходе необходимо нормализовать значения гистограмм HNP.
В результате данными из коллекции можно манипулировать в соответствии с их количественными значениями присутствия или схожести. В частности, данные могут быть упорядочены по убыванию или возрастанию. В этом случае реализуется достаточно простое средство поиска информации.
Таким образом, анализ коллекции данных посредством логико-множественной гистограммной модели представления данных может быть осуществлен с использованием запроса в виде элементного высказывания или образца данных. При этом для каждого элемента коллекции в случае с элементным запросом определяется количественный показатель присутствия элементного состава, а при запросе-образце вычисляется значение показателя схожести данных. В результате элементы коллекции могут быть упорядочены в соответствии со значениями этих показателей. бедует подчеркнуть, что при совместном использовании множественных и логических операций в запросах (высказываниях) существуют некоторые ограничения. Поэтому в общем случае следует руководствоваться правилом: сначала выполняются множественные операции (и их аналоги), затем логические.
Литература
1. Матвеев М.Г., Свиридов А.С., Алейникова Н.А. Модели и методы искусственного интеллекта. Применение в экономике: учеб. пособие. М.: Финансы и статистика; ИНФРА-М, 2008. 448 с.
2. Папулин С.Ю. Свойства бинарных операций логико-гистограммного представления данных // Наукоемкие технологии и интеллектуальные системы-2013: 15-я молодежная меж-
дунар. науч.-технич. конф. М.: МГТУ им. Н.Э. Баумана, 2013. Т. 1. С. 118-124; URL: http://www.iu4.ru/2013_ts/02_tom01.pdf (дата обращения: 15.12.2013).
3. Manning C. D., Raghavan P., Schutze H. An Introduction to Information Retrieval Cambridge Univ. Press Cambridge, England, 2009, 544 p.; URL: http://nlp.stanford.edu/IR-book/pdf/ir-bookonlinereading.pdf (дата обращения: 15.12.2013).
4. Hiemstra D. Using language models for information retrieval. PhD Thesis, Centre for Telematics and Information Technology, Univ. of Twente, the Netherlands, 2001, 164 p.; URL: http://wwwhome.cs.utwente.nl/~hiemstra/papers/thesis.pdf (дата обращения: 15.12.2013).
5. Папулин С.Ю. Способ поиска изображений по содержанию на основе логико-гистограммного представления признака цвета с применением текстового запроса пользователя // Итоги диссертационного исследования: Матер. IV Всерос. конкурса молодых ученых. М.: РАН, 2012. Т. 3. С. 95-106.
References
1. Matveev M.G., Sviridov A.S., Aleynikova N.A. Modeli i metody iskusstvennogo intellekta. Primenenie v ekonomike [Models and methods of an artificial intelligence. Application in economics].
Moscow, Finansy i statistika Publ., INFRA-M, 2008, 448 p.
2. Papulin S.Yu. 15 Molodezhnaya mezhdunar. nauchno-texnicheskaya konf. "Naukoyomnkie tekhnologii i intellektualnye sistemy 2013" [15th Youth int. science and tech. conf. "Hi-Tech and intelligent systems"]. Moscow, Bauman Moscow State Technical Univ. Publ., 2013, vol. 1, pp. 118-124. Available at: http:// www.iu4.ru/2013_ts/02_tom01.pdf (accessed 15 December 2013).
3. Manning C.D., Raghavan P., Schutze H. An introduction to information retrieval. Cambridge University Press, Cambridge, England, 2009, 544 p. Available at: http://nlp.stanford.edu/IR-book/ pdf/irbookonlinereading.pdf (accessed 15 December 2013).
4. Hiemstra D. Using language models for information retrieval. PhD thesis, Centre for Telematics and Information Technology, University of Twente Publ., the Netherlands, 2001, 164 p. Available at: http://wwwhome.cs.utwente.nl/~hiemstra/papers/the-sis.pdf (accessed 15 December 2013).
5. Papulin S.Yu. A method of image retrieval by content based on logic-histogram representation of colorimetric quantity using text query. Itogi dissertacionnogo issledovaniya. Materialy IV Vseross. konkursa molodykh uchenykh [Results of a thesis research. Proc. of 4th All-Russian contest of young researchers]. Moscow, RAN Publ., 2012, vol. 3, pp. 95-106.