УДК 681.325.65
Ха Ти Чунг РАЗРАБОТКА МОДЕЛЕЙ ПРЕДСТАВЛЕНИЯ ДОКУМЕНТОВ И КЛАССИФИКАТОРА НА ОСНОВЕ НЕЧЕТКОЙ ЛОГИКИ
Введение. В последнее время колоссально возрастает объем цифровых изданий и документов в хранилищах разных информационных систем (в локальных сетях, в электронных библиотеках, электронных каталогах и т.д.). Актуальным стал вопрос организации и поиска документов в этих системах. Ограниченные возможности инструментариев для навигации и поиска существенно сокращают возможность получать наиболее актуальную и полную информацию по конкретной тематике. Как следствие, это делает немалую часть данных бесполезной, либо возвращает неполное представление о проблеме, поскольку для получения нужной информации требуется большие трудозатраты пользователей на непосредственный анализ информации по интересующей теме.
Автоматизированная рубрикация (классификация) документов является одним из способов повышения эффективности поиска и доступа к информации. Под данной задачей понимается автоматическое отнесение (физически и/или логически) документов к одной или нескольким тематикам (рубрикам) из конечного мно-.
, -
. ,
задаче дополняется проблема определения семантических признаков естественного языка. Более того, при решении реальной задачи, например, при классификации документов различных форматов (условно разделены на группы: графических -
, , .) -кают и другие проблемы. Например, такие как проблемы работы с логической организацией и форматом представления документов.
[2] , -ского преобразования форматов можно привести эти документы полностью или частично к текстовому формату. Таким образом, имеется возможность применения методов текстовой классификации для решения задачи рубрикации документов. С этой целью для решения задачи рубрикации документов в данной работе описывается модель представления документов различных форматов, также формулируется модель классификатора на основе нечеткой логики. Модели основываются на гипотезе о том, что встречающиеся информационные единицы (слова, словосоче-, ( )), зависят от тематики документа [3].
Краткий обзор моделей представления документов. Первые модели представления документов были разработаны в конце 1950-х годов. В то время дорогостоящая память и низкое быстродействие компьютеров не позволяли обрабатывать большие объемы информации. Удобно представить документ в виде множества слов. Данная модель исторически получила название модель “bag of words’’. С развитием технологических и аппаратных средств были разработаны более сложные модели на основе классической модели “bag of words’’. Многие исследователи пытались включить в эти модели как характеристики термов и отношений между ними, так и другие признаки естественного языка. Наиболее распространенные моде, -
вании описания текста как нормированного вектора термов (обычно просто слов) в евклидовом пространстве термов. Более сложные модели, разработанные за последнее время, учитывали, в той или иной степени, различные признаки документов, а также спецификации конкретных задач. К этим признакам можно отнести:
1. Слова, находящиеся в определенных полях по стандартизованным шаб-
.
2. Статистика слов в тексте документа.
3. Взаимное положение слов в тексте, связанность и последовательность
.
4. Оформление и местоположение слов.
5. Парадигматическое, ассоциативное отношение между словами (такие как отношение синонимии, антонимии, полисемии, омонимии, отношение род-вид, и др.).
6. Взаимные связности между документами по разным критериям. Формулировка задачи рубрикации документов. Пусть на некотором этапе
для интересующей предметной области знания было создано конечное множество тематик (рубрик) и требуется согласно этим тематикам расклассифицировать документы. Эту задачу решает текстовый классификатор.
Введем следующие определения.
Моделью текстового классификатора Ъ называется пятерка:
Z= (, С, Н, I, Ф), (1)
где В = {/1,---,} - множество документов (не обязательно конечное); С = {,..., еы} - множество классов-рубрик, где N - число классов;
Н = {(с,,сI и3е1•••N} - иерархия классов-рубрик. В паре (с,, с.) рубрика с, является родительской (более общей) ПО отношению К рубрике С3 ; I = {1 (с), , = 1...N} - множество описаний (образов) классов. Описание каждого класса I (с,) представляет собой множество признаков рубрик с,. Данное множество может формироваться автоматически в процессе обучения и/или задаваться экспертным путём; Ф = {у.,} - функция рубрикации. Здесь 1., неотрицательное
число, приписанное каждой паре (1., с{ )е В X С и обозначающее степень принадлежности документа dj классу ci, Ограничим это число интервалом 0 < ц < 1.
Обычно для построения функции рубрикации используют метод обучения классификатора на некоторой выборке документов ВШск ={^,-..,dщ |}е В .
При этом в обучающей выборке заранее известно ¡1^ значение для каждой пары (1., с1 )е Щ1есск X С. В обучающую выборку для каждой тематики собирают только
такие документы, для которых 1, > 1, где 10 - некоторое наперед заданное по, ,
с, . -
ным, и он применяется ко всему множеству документов Б.
Разработка модели представления документа. Модель представления документа должна позволять: уменьшить потери информации (что позволяет повы-
); ;
сократить трудозатраты и время разработки на реализацию классификатора на .
Очевидно, что каждый документ, в независимости от вида логической организации и физического формата, можно представить в виде основного текста, который описывает его семантическую сущность и некоторую дополнительную ин-
,
составления и оформления такого рода документов. Например, книги кроме основного текста содержат оглавления, аннотации, список трудов и т.д. Свои требования предъявляются к оформлению журнальных статей, научно-технических отчетов и т.п.
Исходя из этого, введем следующую формальную модель документа. Пусть каждый документ представляет собой четверку:
d] ={, M), Td, t; }, (2)
:
1. Mj - группа атрибутов внешнего описания. Эти атрибуты не всегда содержаться в тексте документа. Например, сюда можно отнести:
a) информацию об источнике (автор, издательство, URI, URL и т.д.);
b) информацию о времени создания и модификации документа;
c) информацию о формате и размере документа;
d) и т.д.
Очень часто такие характеристики, как название документа, имя автора, рассматривается отдельно от текста документа. Также значения некоторых из атрибутов можно получить непосредственно из дескриптора файла до.
2. M 2; - , -
та, но не из «тела» документа (текста документа). Можно обозначить некоторые из функциональных областей: название документа, ISBN, УДК, , .
3. Td - термы, полученные из анализа текста документа. Разумеется, не все
термы из текста документа, а только те, которые удовлетворяют некоторым условиям при анализе. Именно термам, находящимся в этих областях, нужно присвоить высокие коэффициенты. Они используются при оценке . , области концентрируют важную информацию о тематике документа.
Множество Td следует разбить на два подмножества Wj1 и O;d : Wj1 -подмножество термов (слов и словосочетаний); Od подмножество прочих ( , , , -плексов и др.).
4. Tj - термы, вводящиеся пользователями для корректировки тематики до-
.
Описание тематик. Каждое описание I(с,) для тематики с, может представлять собой двойку:
I (c, ) = {,и,c}, (3)
где Тгс - множество термов, приписанных к рубрике на шаге ее составления или
обучения классификатора; Ц7 - множество вводящихся термов пользователями -
специалистами по предметной области или полученных в результате экспертного .
Подход к задаче классификации, основанный на нечеткой логике. Учитывая выше предложенную модель классификатора, для каждого терма tk из документов можно вычислить степень его принадлежности 1(к, с, )к каждой с, из тематик, ,с1 )е[0,1]. Функция 1(к,с1) вычисляется следующим образом:
1(к, с) = а1 • I(к, с) + а2 • 1(Ч, с) • К(к, с), (4)
где 1 (, с) - итоговая функция от статистических характеристик терма tk (место появления в тексте - в группе М. или Т1, частотные характеристики, например, ТШГОР [5], длина текста документа и др.);
Ь(к, с1) итоговая функция от взаимоотношений tk с другими термами в описании ci. В частном случае, пусть Р(к | с1) - вероятность того, что терм tk принадлежит рубрике ci, согласно [6] определяется на этапе обучения на основе обучающего множества Щ(еаск, следующим образом:
1 + ,1. Р(с, 11.)
d j eDteach
где e(tk, dj )=1 если tk e dj, иначе e(tk, dj )= 0, пусть:
\Dteach\
здесь |cj - количество документов из обучающей выборки, приписанных рубрике С , пусть величина P(tk )= ^S^k Т, где N(tk) - количество появления tk в обу-
Z и
de Dteach
.
Тогда согласно [4, 7] значение L(tk, ct) можно считать:
L(tk, с )=MI (tk,с,) = log
P(tk1 с) P(tk PC)
(6)
где К(к, с) - авторитетность терма tk е Т для класса с,. Экспертным путем можно задавать или определять ранг термов, которые должны присутствовать в тематике с,; а1, а2 коэффициенты для регулирования влияния компонентов на результат вычисления а < 0.5, а2 < 0.5.
Аналогично, функцию принадлежности терма tk документу dj - ß(tk, d;) можно вычислить следующей формулой:
ß(tk, dj )=ß1 • f (tk, d; )+ß2 • L(tk, dd )-R(tk, dd ) . (7)
, d j c,
виде нечетких множеств:
1 (c, )={(/^(tk, c V tk )} tke c, (8)
dj = {(tk, dj )tk)} }k e d;.
Для уменьшения их размерности предлагается использовать а-уровень [1] этих множеств, т.е:
1 (c, )={(ß(tk, c, )/tk )} tke c, ,ß(tk, c, )^a,° ^ a<(9)
Значение /Iji для каждой пары (d;., c, )e D X C вычисляет следующей фор:
X Z К & ß°mr
<10)
Функция рубрикации Ф при этом представляет собой нечеткое соответствие:
Ф=К (c,, dj V(c,, dj )]l(c,, dj)e C x D. (11)
Из выше изложенной постановки, суть задачи заключается в определении нечеткого соответствия Ф = {U;,}, 0 < Цц < 1, которое присваивается каждому из
входных документов - нечеткое множество термов, некоторое числовое значение - .
, -тов состоит из следующих этапов:
1. , -мов по модели (2). Эта операция для каждого документа происходит один раз на этапе распознавания и индексирования.
2. -тик-классов (3).
3. Определяются значения ß, (c,, d;) по (4-11) и строится соответствие Ф .
4.
путем или повторным обучением.
В заключение можно сделать вывод о том, что предложенная в данной работе модель классификатора позволяет реализовать на практике систему классификации документов различных форматов. Предложенная модель представления документа позволяет гибко описать научно-электронные издания, что характерно для электронных ресурсов разных библиотечно-информационных систем. Повышение точности метода достигается на пути замены слов устойчивыми синтаксическими группами. Анализ зависимости f (tk, c) и связи L(tk , c), а также способ задания
ранговой степени R(tk, c) для каждого из выбранных термов является предметом
отдельного исследования и будет освещен автором в отдельной работе.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Блюмин С.Л., Шуйкова КА., Сараев П.В., Черпаков КВ. Нечеткая логика: алгебраические основы и приложения: Монография. - Липецк: ЛЭГИ, 2002. - 113 с.
2. Ха Т.Ч., Юрчук СМ. Создание текстовой выборки на основе электронного архива данных лаборатории ELDIC для исследования задач автоматической обработки текстов на естественном языке // Труды Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов Таганрог: "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки". - Таганрог: Изд-во ТТИ ЮФУ, 2008. - С. 82-86.
3. Igor Kuralenok, Vladimir Dobrynin, Igor Nekrestyanov, Mikhail Bessonov, and Ahmed Patel. Distributed search in topic-oriented document collections. In Proc. of World Multiconference on Systematics, Cybernetics and Informatics (SCI'99), volume 4, pp. 377-383, Orlando, Florida, USA, August 1999.
4. Dumais S.T., Platt J., Heckerman D., Sahami M. Inductive learning algorithms and representations for text categorization. In Proceedings of CIKM-98, 7th ACM International Conference on Information and Knowledge Management (Bethesda, MD, 1998), 148-155.
5. Haris Z. Mathematical Structures of Language. Interscience Publishers John Wiley & Sons, New York. - 1968, 80. - 230 p.
6. McCallum A., Nigam K. A Comparison of Event Models for Naive Bayes Text Classification. In AAAI/ICML-98 Workshop on Learning for Text Categorization, 1998. p. 41-48.
7. Sebastiani F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, 34(1): 1-47, 2002.
УДК 517.714.3
Г.В. Уралев КОНЦЕПТУАЛЬНАЯ СПЕЦИФИКАЦИЯ НЕКОТОРЫХ ЗАДАЧ ИНФОРМАТИКИ*
Введение. Здесь под задачей информатики мы понимаем задачу, решение которой достигается с помощью программ, использующих экспертное знание. Важным этапом в разработке таких программ является концептуальная спецификация структуры этого знания, в частности, знания предметной области и методов решения задачи. Концептуальная спецификация состоит в идентификации соответствующих понятий предметной области, связей между ними, схем, правил, процедур и т.п.
Часто концептуальная спецификация выполняется на неформальном уровне. Но тенденция такова, что все чаще используются формальные языки для концепту,
приложений, допускающие формальную интерпретацию и, следовательно, машин.
моделированием [1]. Формализмы концептуальной спецификации называются концептуальными языками или языками концептуального моделирования [2]).
Одним из важных требований, предъявляемых к концептуальным языкам, является их когнитивная адекватность, т.е. близость их конструкций к тем, какие ис, .
*
Работа выполнена при финансовой поддержке РФФИ (грант № 08-01-00465). 144