Научная статья на тему 'Применение метода латентно-семантического анализа для автоматической рубрикации документов'

Применение метода латентно-семантического анализа для автоматической рубрикации документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
540
248
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗГРАНИЧЕНИЕ ДОСТУПА / АВТОМАТИЧЕСКАЯ РУБРИКАЦИЯ ДОКУМЕНТОВ / СИСТЕМА ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА / МЕТОД ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА / КОСИНУСОИДАЛЬНАЯ МЕРА БЛИЗОСТИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хомоненко А.Д., Краснов С.А.

Рассматривается применение метода латентно-семантического анализа для автоматической рубрикации документов по множеству заданных тематических рубрик в системах электронного документооборота с целью тематического разграничения доступа к ним. Показывается, как метод латентно-семантического анализа повышает точность разделения двух различных групп документов. Рассматривается решение задачи подбора оптимального значения ранга k, применяемого при использовании метода латентно-семантического анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хомоненко А.Д., Краснов С.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Application of the Method of Latent Semantic Analysis for Automatic Categorization of Do cuments

The authors consider the application of the method of latent semantic analysis for automatic categorization of documents by the great number of preset thematic headings in the systems of electronic document circulation aimed at thematic differentiating the access to them. It is shown how the method of latent semantic analysis improves the accuracy of the separation of two different groups of documents. The solution of the problem of selecting the optimum value of rank k used in the method of latent semantic analysis is considered.

Текст научной работы на тему «Применение метода латентно-семантического анализа для автоматической рубрикации документов»

124

Информатика и технологии информатики

УДК 004.912+002.513.5

А. Д. Хомоненко

Петербургский государственный университет путей и сообщений

С. А. Краснов

Военно-космическая академия им. А. Ф. Можайского

ПРИМЕНЕНИЕ МЕТОДА ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА ДЛЯ АВТОМАТИЧЕСКОЙ РУБРИКАЦИИ ДОКУМЕНТОВ

Рассматривается применение метода латентно-семантического анализа для автоматической рубрикации документов по множеству заданных тематических рубрик в системах электронного документооборота с целью тематического разграничения доступа к ним. Показывается, как метод латентно-семантического анализа повышает точность разделения двух различных групп документов. Рассматривается решение задачи подбора оптимального значения ранга k, применяемого при использовании метода латентно-семантического анализа.

разграничение доступа, автоматическая рубрикация документов, система электронного документооборота, метод латентно-семантического анализа, косинусоидальная мера близости.

Введение

Целью данной статьи является выработка подхода к решению задачи тематического разграничения доступа (ТРД) в системе электронного документооборота (СЭД) на основе автоматической рубрикации документов (АРД) по заданным тематическим рубрикам [1]. Для этого предлагается использовать метод латентно-семантического анализа (ЛСА).

В СЭД актуально решение задач защиты передаваемой и обрабатываемой информации. В частности, применительно к информационно-телекоммуникационным сетям высших учебных заведений и предприятий, к числу таких задач относится АРД с целью ТРД к ним. Решение этой задачи должно обеспечить доступ любого должностного лица к требуемой информации в рамках его полномочий.

Решение задачи АРД связано с разработкой методов семантического анализа и автоматического разделения поступающей информации (автоматическая рубрикация документов) по заданным тематическим рубрикам. Поэтому актуальной задачей является АРД из разных источников.

Большинство методов АРД основываются на использовании пространственновекторной модели описания документов (Vector Space Model) - классической модели классификации документов. В ней документ описывается вектором, в котором каждому используемому слову (терму) ставится в соответствие его значимость (вес) внутри документа. Вес терма основывается на статистическом подсчете встречаемости термов в рамках этого и, возможно, других документов. Описание тематики также представляется векторами, для оценки соответствия документа и тематики используется скалярное

2012/2

Proceedings of Petersburg Transport University

Информатика и технологии информатики

125

произведение векторов описания тематики и вектора документа (косинусоидальная мера близости).

В последние годы в рамках решения задач организации доступа к информации, в том числе в области АРД, все чаще используются методы, позволяющие наиболее точно решать задачи такого типа [2], [3].

Одним из перспективных направлений АРД является применение метода ЛСА [4] для выявления структуры семантических взаимосвязей между словами (термами, терминами, словосочетаниями) на основе статистического анализа большой группы документов. При этом возможно автоматически отличать различные смысловые взаимосвязи одного и того же слова в зависимости от контекста.

Выявление структуры семантических взаимосвязей между словами при использовании метода ЛСА происходит автоматически и не требует ручного составления словарей.

1 Постановка задачи

Допустим, в вузе используется СЭД, в которой постоянно циркулируют потоки документов с разнообразной текстовой информацией, в том числе конфиденциальной. В связи с этим встает необходимость ее четкого структурирования согласно ранее определенным тематическим рубрикам (ТР) для дальнейшего ТРД к ней.

Это позволяет конечным пользователям получить доступ к информации при ее поиске в рамках полномочий. Но в связи с тем, что текстовая информация может содержать термы, несущие разную смысловую нагрузку, синонимы, омонимы и т. д., встает необходимость применения оптимальных алгоритмов отнесения вновь поступившей информации к заранее определенным тематическим рубрикам. Это позволяет снизить вероятность ошибочного попадания документов в несоответствующие тематические рубрики. Попадание документов, содержащих конфиденциальную информацию, в

несоответствующие тематические рубрики может привести к тому, что доступ к информации получат пользователи, не имеющие прав на ознакомление с ней.

Метод ЛСА позволяет автоматически проанализировать содержимое текстовой информации, содержащейся в документах, и выявлять скрытые семантические (смысловые) связи между документами. Для решения поставленной задачи необходимо подобрать оптимальное значение ранга k для получения более точных результатов.

Рассмотрим множество документов D, разделенное на две различные группы документов d - da5 и db - dM (табл. 1). В группе d - da5 речь идет об указах председателя Правительства Российской Федерации. В группе d - db4 речь идет о федеральных законах. Слова, выделенные курсивом и полужирным, являются ключевыми (табл. 1).

Построим матрицу «термы на документы», которая показывает соответствие термов документам (табл. 2). В ячейках матрицы указывается, сколько раз данный терм встречается в документах, при условии, что терм должен повториться минимум в двух документах.

В пустых ячейках подразумевается «0». Полученная матрица представляет собой пространственно-векторную модель представления текстовой информации и одновременно входные данные для метода ЛСА.

2 Метод латентно-семантического анализа

Для проведения эксперимента воспользуемся методом ЛСА, который основан на сингулярном разложении матрицы с понижением ранга [4], [5]. Он предназначен для извлечения контекстно-зависимых значений слов при помощи статистической обработки больших наборов текстовых данных [4],

[6]. Метод используется при поиске и индексации информации [7], а также в задачах фильтрации [8].

Метод ЛСА позволяет выявить взаимосвязь слов по их контекстам, следовательно,

ISSN 1815-588Х. Известия ПГУПС

2012/2

126

Информатика и технологии информатики

ТАБЛИЦА 1. Множество документов

Группа dal - daS_________________________________________________________________

1. Указ Председателя Правительства Российской Федерации от 26 августа 2010 г. № 1110,

г. Москва, «Об установлении ежемесячной надбавки за важность выполняемых задач специалистам по физической подготовке».

2. Указ Председателя Правительства Российской Федерации от 30 сентября 2010 г. № 1280,

г. Москва, «О предоставлении госслужащим жилых помещений по договору социального найма и служебных помещений».

3. Указ Председателя Правительства от 26 августа 2010 г. № 1115, г. Москва, «Об изменении ежемесячной надбавки госслужащим, проходящим военную службу по контракту, за квалификационный уровень физической подготовленности, выполнение (изменение) разрядов по военноприкладным видам спорта и наличие званий по любому виду». Согласно нормативным актам.

4. Указ Председателя Правительства Российской Федерации от 24 апреля 2010 г. № 100, г. Москва, «Об утверждении Инструкции об условиях и порядке приема в учреждения высшего профессионального образования».

5. Указ Председателя Правительства Российской Федерации от 29 марта 2010 г. № 299,

г. Москва, «О порядке проведения в Правительстве Российской Федерации под руководством председателя антикоррупционной экспертизы нормативных правовых актов».

Группа dbi - db4

1. В Государственной думе разработан Федеральный закон «О подготовке изменений для внесения в Федеральный закон “О внесении в федеральный бюджет на 2010 год и на плановый период обеспечения госслужащих”».

2. Разработан Федеральный конституционный закон «О подготовке внесения изменений в Федеральный конституционный закон “О Конституционном суде Российской Федерации” по вопросам госслужащих». В соответствии с нормативно-правовыми актами.

3. В Государственной думе разработан Федеральный закон «О подготовке положений для внесения в статьи 14 и 15 Федерального закона «О политических партиях госслужащих и их правах в конституционном суде».

4. В Государственной думе разработан Федеральный закон «О проведении Международного общественного форума “Роль народной дипломатии в развитии международного гуманитарного физического сотрудничества и права госслужащих”».

можно воспользоваться методом ЛСА для выявления взаимосвязей между текстовыми документами по наборам их частотных характеристик.

Проведем сингулярное разложение исходной матрицы А «термы на документы» (воспользуемся встроенными функциями среды MathCAD). В результате получаем три матрицы - U, S и V. Результат разложения запишем в виде произведения:

A = USV.

Далее требуется понизить ранг к исходной матрицы. Исходная матрица содержит так называемые «шумы» (например, случайное совпадение внутренних характеристик у двух документов). Понижение ранга позволяет уменьшить влияние «шумов». Оно позволяет также уменьшить трудоемкость и время обработки исходной матрицы, что

2012/2

Proceedings of Petersburg Transport University

Информатика и технологии информатики

127

ТАБЛИЦА 2. Матрица соответствия «термы на документы»

D

№ Термы d . a! d2 d 3 a3 d4 a4 d 5 a5 db! db2 db3 db4

1 Указ 1 1 1 1 1

2 Председатель 1 1 1 1 2

3 Правительство 1 1 1 1 2

4 Российская 1 1 1 2 1

5 Федерация 1 1 1 2 1

6 Москва 1 1 1 1 1

7 Ежемесячная 1 1

8 Надбавка 1 1

9 Физическая 1 1 1

10 Подготовка 1 1 1 1 1

11 Госслужащий 1 1 1 1 1 1

12 Права 1 1 1

13 Акт 1 1

14 Нормативный 1 1

15 Государственная 1 1 1

16 Дума 1 1 1

17 Разработан 1 1 1 1

18 Федеральный 3 2 2 1

19 Закон 2 2 2 1

20 Внесение 1 1 1

21 Изменения 2 1

22 Конституция 3 1

23 Суд 1 1 1

целесообразно для очень больших матриц. Однако чрезмерное понижение ранга исходной матрицы может привести к потере значимой информации, и в результате мы можем получить неудовлетворительные взаимосвязи между объектами.

Понижение ранга приводит к сокращению числа столбцов и строк в составляющих матрицах U, S и V. В результате получаем сокращенные матрицы Uk, Sk и Vk. Результат понижения ранга запишем в виде произведения:

* = UkSkVk.

При понижении ранга встает вопрос, какое оптимальное значение k выбрать для получения более точных результатов.

3 Подбор оптимального значения ранга

Если все диагональные элементы матрицы S упорядочены по убыванию, то наи-

ISSN 1815-588Х. Известия ПГУПС

2012/2

128

Информатика и технологии информатики

большие к из них могут быть оставлены без изменений, в то время как все остальные элементы заменены нулевыми значениями. Произведение полученных матриц даст матрицу X, ранг которой равен к и которая является аппроксимацией исходной матрицы А. Для решения поставленной задачи

зададим значение к вручную. Рассмотрим на примере три разных значения ранга: к = = 2, 3, 4. В результате получим три результирующие матрицы X X X3 с учетом заданных значений к (рис. 1).

В каждой результирующей матрице путем вычисления косинусоидальной меры

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а) б)

D

№ 4, da2 4s i, daS 4j d.. dt3 4.

1 0.89 Q.76 1,05 0.76 1.3 -0,04 -0.01 0.04 0.1

2 1.13 0.97 1.34 0.97 1.66 -0.07 -0.03 0.03 0.13

3 1.13 0.97 1.34 0.97 1,66 -0.07 -0,03 0,03 0.13

4 1.13 0.97 1.34 0.97 1,66 -0.07 -0,03 0.03 0.13

5 1.13 0.97 1.34 0.97 1,66 -0,07 -0.03 0.03 0.13

6 0.39 0.76 1.05 0.76 1.3 -0.04 -0,01 0.04 0.1

7 0.36 0.31 0.43 0.31 0.53 0.01 0.03 0.04 0.05

3 0.36 0.31 0.43 0.31 0,53 0.01 0,03 0.04 0.05

9 0.38 0.33 0.46 0.32 0.5S 0.09 0.1 0.11 0.07

10 0.38 0.31 0.49 0.26 0,47 1.02 1,03 0.97 0.27

11 0.33 0.31 0.48 0.28 0.49 0,74 0.76 0.72 0,21

12 0.23 0.23 0.34 0.22 0,37 0.36 0,37 0.36 0.11

13 0.24 0.21 0.29 0.21 0.36 -0.03 -0,02 -0.01 0.02

14 0.34 0.29 0.4 0.29 0.5 -0.01 0,01 0.02 0.04

15 0.04 0.02 0.07 -0.02 -0,01 0.74 0,74 0.68 0.17

16 0.04 0.02 0,07 -0.02 -0.01 0,74 0.74 0.68 0,17

17 0.04 0.02 0.09 -0.03 -0.03 1.08 1.08 1 0.24

18 0.04 0 0.13 -0.09 -0.11 2.01 2.01 1.35 0.45

19 0.04 -0 0.14 -0.11 -0,14 2.35 2,35 2.17 0.52

20 0.02 0 0.06 -0.05 -0.06 1.03 1.03 0.95 0.23

21 0.39 0.34 0.47 0.34 0.57 0.03 0,04 0.06 0.06

22 0.02 0 0.06 -0.04 -0.06 1 1 0.93 0.22

23 0.02 0 0.06 -0.04 -0,06 1 1 0.93 0.22

в)

0

№ d„i d„7 d„3 d,* das 4. db2 is

1 0.89 0.76 1,07 0,76 1.28 -0.08 0.07 -0 0,06

2 1.12 0.97 1,32 0,97 1.67 -0.05 -0.08 0.06 0.16

3 1.12 0.97 1.32 0.97 1.67 -0.05 -0.08 0.06 0.16

4 1.12 0.97 1.32 0.97 1.67 -0.05 -0.08 0.06 0.16

5 1.12 0.97 1.32 0.97 1.67 -0.05 -0.08 0.06 0.16

6 0.89 0.76 1,07 0.76 1.28 -0.08 0.07 -0 0.06

7 0.38 0.31 0.48 0.31 0.48 -0.07 0.22 -0.06 -0.06

8 0,38 0.31 0,48 0,31 0.48 -0.07 0.22 -0.06 -0,06

9 0.37 0.33 0.43 0.32 0.58 0.13 0.01 0.16 0.12

10 0.4 0.31 0.55 0.27 0.42 0.92 1.25 0.86 0.15

11 0.39 0.31 0.51 0.28 0.46 0.69 0.87 0.66 0.15

12 0,21 0.23 0,15 0,21 0.55 0.66 -0.32 0.72 0.49

13 0.23 0.21 0.25 0.21 0.39 0.03 -0.15 0.06 0.1

14 0,35 0.29 0.44 0.29 0.46 -0.07 0.16 -0.06 -0,04

15 -0,04 0.01 -0,15 -0,03 0.18 1.08 -0.05 1.09 0,59

16 -0,04 0.01 -0,15 -0,03 0.18 1.08 -0.05 1.09 0,59

17 0.02 0.02 0,02 -0.03 0.03 1.19 0.82 1.13 0.38

18 0,05 0 0,14 -0,09 -0.12 1.99 2.06 1.83 0,42

19 0.03 -0 0,09 -0.11 -G.l 2.43 2.17 2.26 0,62

20 0,17 0.01 0.5 -0,03 -0.45 0.35 2.61 0.13 -0,63

21 0.42 0.34 0,55 0.34 G.5 -0,1 0.33 -0.09 -0.1

22 0,02 □ 0,07 -0,04 -0.06 0.99 1.03 0.91 0,21

23 0,02 0 0.07 -0,04 -0.06 0.99 1.03 0.91 0.21

D

№ 4. da2 das 4, is 4, d„3 4j dt*

1 0,9 0.76 1.1 0,76 1.26 -0,03 0,06 0 0.03

2 1,01 1.04 0,97 1,06 1,95 -0,03 0 0.03 0.01

3 1.01 1.04 0.97 1.06 1.95 -0.03 0 0.03 0.01

4 1.01 1.04 0.97 1,06 1.95 -0.03 0 0,03 0.01

5 1.01 1.04 0.97 1.06 1.95 -0.03 0 0.03 0.01

6 0,9 0,76 1.1 0.76 1,26 -0,03 0,06 0 0.08

7 0,53 0,18 1.11 0,16 -0,02 -0.11 0,07 •0 0.22

8 0,53 0.18 1.11 0.16 -0,02 -0,11 0.07 -0 0.22

9 0.63 0.16 1.26 0.12 -0,09 0.03 -0,19 0,24 0.43

10 0,57 0.21 1,08 0.14 -0 0,89 1.12 0.9 0.38

11 0,55 0.21 1.03 0,16 0,05 0,66 0,75 0.7 0.37

12 0.17 0.25 0.02 0.24 0.65 0.67 -0.28 0.7 0.43

13 0.11 0-29 -013 0.3 0-7 0.05 -0.06 0.03 -0-07

14 0,47 0.22 0.81 0.21 0.17 -0.1 0.07 -0,02 0.12

15 0.03 -0.03 0.07 -0.08 0.01 1,06 -0.1 1.11 0.69

16 0,03 -0.03 0.07 -0.08 0,01 1.06 -0.1 1.11 0.69

17 0,05 -0 0,12 -0,06 -0,05 1,19 0,79 1.14 0.43

18 -0.02 0.04 -0.06 -0.04 0.04 2 2.11 1.81 0.33

19 -0.05 0.04 -0,14 -0,06 0,09 2.44 2,23 2.24 0.52

20 0.06 0.08 0.15 0.06 -0.17 0.37 2.7 0.1 -0.78

21 0,72 0,15 1.5 0,11 -0,26 -0,16 0,1 -0,01 0.31

22 -0.01 0.02 -0.03 -0.02 0.02 1 1.05 0,9 0.16

23 -0,01 0.02 -0,03 -0.02 0,02 1 1,05 0.9 0.16

Рис. 1. Результирующие матрицы: а -X б -X в - X3

2012/2

Proceedings of Petersburg Transport University

Информатика и технологии информатики

129

близости определим, как распределятся документы двух различных групп. Для оценки соответствия документов группам будем рассматривать максимальные полученные значения, вычисленные при помощи коси -нусоидальной меры близости.

Проанализировав полученные результаты, можно утверждать, что наилучшие значения по разделению двух различных групп получены при ранге k = 2 (табл. 2, 3, 4).

Для наглядности полученные значения, указывающие на разделение документов по разным группам, выделены разным начертанием. Значения для документов группы da набраны курсивом. Значения для документов группы db - полужирным начертанием. Значения для пересечения документов из разных групп - прямым шрифтом. Ячейки таблицы, дополнительно выделенные подчеркиванием, указывают на противоречия.

При всех значениях k имеется сходство среди документов одной группы, но можно заметить, что сходство между документами d- d,„ в табл. 1 и 2 оказывается большим в табл. 1 при k = 2. При рассмотрении таблицы 2, где k = 3, видим, что документ db4 имеет сходство с документом da, что противоречит начальным условиям, указывающим на то, что документ db4 должен относиться к документам группы db.

В табл. 3 при k = 4 имеется более существенное расхождение. Это можно увидеть, проанализировав схожесть документов d -db4, da3 - db4, db2 - db4. Другими словами, при вычислении косинусоидальной меры близости максимальное значение элементов между указанными выше векторами (документами), начинает изменяться в худшую сторону для заданных начальных условий. Таким образом, можно сказать, что документ d становится больше похожим на

b4

документы dal, da3, а документ db3 - на da2, da4, d5, что недопустимо.

В табл. 2 и 3 сходство между документами одной группы не ярко выражено, и алгоритм сопоставления документов может выдать неверное значение. Это приведет либо к пересечению (документ попадает в группу

da и db) распределения документов разных тематических рубрик, либо к попаданию документов, принадлежащих к группе db, согласно заданным начальным условиям, в группу da, состоящую из документов другого типа. Это указывает на недостатки метода. На основании изложенного можно сделать ввод о том, что наилучший результат получен при значении ранга k = 2 (см. табл. 1), так как ни один документ при АРД не выходит за рамки определенных групп. Это также подтверждают трехмерные столбчатые диаграммы, представленные на рис. 2. На рис. 2, а для наглядности выделены различные группы документов, показано различие документов противоположных групп. Все остальные диаграммы, приведенные в статье, соответствуют указанным выделениям.

Результирующая матрица Xх при k = 2 имеет оптимальные значения для разделения документов различных групп, полученных с помощью вычисления косинусоидальной меры близости между документами, и подтверждает гипотезу о необходимости правильно задавать ранг при использовании метода ЛСА.

Подобрав правильное значение ранга k для метода ЛСА, мы решили задачу ТРД в СЭД на основе АРД по заданным тематическим рубрикам и повысили защищенность документов, содержащих конфиденциальную информацию.

Заключение

В задачах, связанных с АРД, содержащих конфиденциальную информацию, необходимо точно определять значения ранга k. В случаях с небольшим количеством тематических рубрик можно подобрать оптимальное значение ранга вручную, что позволяет исключить попадание документов, содержащих конфиденциальную информацию, в несоответствующие тематические рубрики. Это свидетельствует о возможности применения метода ЛСА для решения задачи ТРД в СЭД государственных учебных учреждений.

ISSN 1815-588Х. Известия ПГУПС

2012/2

130

Информатика и технологии информатики

ТАБЛИЦА 3. Значения соответствия документов матрицы Xх при k = 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

d, 1 d 2 a2 d 3 a3 d 4 4 d 5 a5 dbi db2 db3 db4 b4

d 1 a1 6.665 9.276 6.623 11.315 0.748 1.078 1.363 1.152

d 2 a2 7.943 5.697 9.728 0.359 0.642 0.908 0.926

d 3 a3 7.864 13.448 1.536 1.929 2.219 1.515

d4 a4 9.731 -0.393 -0.11 0.212 0.756

da5 -0.348 0.135 0.66 1.362

dbi 16.662 15.406 3.746

db2 15.443 3.71

db3 3.551

db4

ТАБЛИЦА 4. Значения соответствия документов матрицы X при k = 3

d f 1 d 2 2 d 3 3 d 4 4 d 5 db1 db2 db3 d b4

d f 1 6.667 9.392 6.628 11.21 0.565 1.501 1.143 0.922

d 2 2 7.95 5.697 9.722 0.348 0.667 0.895 0.912

d 3 3 7.881 13.132 0.985 3.201 1.559 0.826

d 4 4 9.716 -0.419 -0.048 0.181 0.722

d 5 0.148 -1.013 1.256 1.984

db1 14.665 16.442 4,83

db2 13.048 1.287

db3 4,85

d4

ТАБЛИЦА 5. Значения соответствия документов матрицы X 3 при k = 4

d . 1 d 2 2 d 3 3 d 4 4 d 5 d b1 d b2 d b3 d b4

d f 1 6.409 10.662 6.323 10.191 0.487 1.191 1.258 1.473

d 2 2 7.128 5.895 10.381 0.398 0.868 0.821 0.555

d 3 3 6.908 9.885 0.737 2.214 1.924 2.582

d 4 10.497 -0.36 0.189 0.093 0.3

d5 5 0.348 -0.221 0.963 0.575

db1 14.725 16.42 4.722

db2 12.959 0.859

db3 5.008

db4

2012/2

Proceedings of Petersburg Transport University

Информатика и технологии информатики

131

а)

Косинусоидальна мера близости документов группы

dbi - dw

Косинусоидальная мера близости документов группы

dal-da5

косинусоидальная мера близости документов противоположных труп

Рис. 2. Распределение документов при k = 2 (а), k = 3 (б), k = 4 (в)

В дальнейшем целесообразно рассмотреть определение оптимального значения ранга при использовании метода ЛСА для больших коллекций документов и подтвердить достоверность результатов при экспериментах с малыми коллекциями документов. В перспективе предусматривается использование в качестве координат векторов целых многословных понятий вместо отдельных термов.

Библиографический список

1. Автоматическая рубрикация текстов : методы и проблемы / М. С. Агеев, Б. В. Добров, Н. В. Лукашевич // Учебные записки Казанского государственного университета. Физико-математические науки. - Т. 150, кн. 4. - 2008. -

С.25-40.

2. Document classification using multiword features / R. Papka and J. Allan In G. Gardarin, J. French, N. Pissinou, K. Makki and L. Bouganim // Proceedings of the A CM International Conference on Information and Knowledge Management (CIKM-98). -N. Y., Nov. ACM Press, 1998. - PP. 124-131.

3. An Introduction to Information Retrieval Draft / Christopher D. Manning, Prabhakar Ragha-van, Hinrich Schutze // Online edition. Cambridge University Press. - 2009. - 544 p.

4. Discourse Processes / T. Landauer, P. Foltz and D. Laham // Volume 25, chapter «An introduction to Latent Semantic Analysys», 1998. - PP. 259284.

5. Автоматическое тематическое рубрицирование сообщений средств массовой информации на основе применения технологии нейронных сетей / А. Ф. Гареев, А. В. Дягилева,

С. Л. Киселев // Информационные технологии. -1999. - № 5. - С. 26-33.

ISSN 1815-588Х. Известия ПГУПС

2012/2

132

Информатика и технологии информатики

6. Автоматическая классификация документов на основе латентно-семантического анализа / И. Е. Кураленок, И. С. Некрестьянов // ТРУды Первой Всероссийской научно-методической конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - СПб., 1999. - C. 89-96.

7. Latent semantic indexing / S. Dumais // TREC-3 report. In Proc. of the Third Text REtrieval Conference, 1995. - PP. 219-230.

8. Using latent semantic indexing for information filtering / P. Foltz // In ACM Conference on Office Information Systems (COIS), 1990. -PP, 40-47.

УДК 681.3

В. В. Яковлев, В. А. Ходаковский, В. А. Кудряшов

Петербургский государственный университет путей сообщения

МОДЕЛИРОВАНИЕ АРИФМЕТИЧЕСКОГО КОДЕКА В СРЕДЕ MATHCAD

Широко известны методы оптимального кодирования и оптимальные коды, например коды Шеннона - Фано, Хаффмена и др. Вместе с тем в последние годы в различных системах передачи данных стало широко применяться арифметическое кодирование.

Предпринята попытка рассмотрения простого кодека и моделирование его алгоритмов в среде MathCAD.

кодер, декодер, кодек, кодирование, оптимальное кодирование.

Введение

Одной из основных характеристик эффективности метода кодирования является среднее число битов, которое используется для передачи одного символа сообщения. Если используемый алфавит включает 256 символов, то при равномерном кодировании каждый символ требует для передачи 8 битов. Если используются неравномерные оптимальные коды, то количество битов, необходимых для его передачи, стараются сделать обратно пропорциональным вероятности, с которой данный символ встречается в сообщении, тогда частые символы

будут иметь короткие кодовые комбинации. Оптимальные коды, подобные кодам Шеннона - Фано и Хаффмена [2] позволяют использовать до одного бита на символ сообщения, но для получения такого показателя необходимо иметь таблицу вероятностей символов используемого алфавита, а сами вероятности должны быть кратны степеням двойки: 1/2, 1/4, 1/8 и т. д. На рис. 1 приведен график эффективности оптимального кодирования и кодирования по Хаффмену.

Из рисунка видно, что при кодировании по Хаффмену и при передаче всего двух символов (например, «0» и «1»), следующих

2012/2

Proceedings of Petersburg Transport University

i Надоели баннеры? Вы всегда можете отключить рекламу.