ВИКОРИСТАННЯ КОНЦЕПЦії СЕМАНТИЧНОГО ПОЛЯ У ВЕКТОРНіЙ МОДЕЛі ТЕКСТОВИХ ДОКУМЕНТіВ

Павлишенко Б.М.

В po6omi розглянута теоретико-множинна модель семантичних полiв в масивах текстових даних. Проаналiзовано утворення семантичних nолiв на осно-вi лексемних видношень. Показана ефективтсть вико-ристання концепци семантичних полiв у векторнш моделi текстових даних

Ключовi слова: ттелектуальний аналiз текстiв,

модель векторного простору

□-□

В работе рассмотрена теоретико-множественная модель семантических полей в массивах текстовых данных. Проанализированы образования семантических полей на основе лексемных отношений. Показана эффективность использования концепции семантических полей в векторной модели текстовых данных

Ключевые слова: интеллектуальный анализ текстов, модель векторного пространства

□-□

The theoretical set model of semantic fields in text arrays was considered in this work. The forming of semantic fields on the base of lexeme relations was analyzed. The effectiveness of the use of semantic fields in the vector model of text data was shown

Keywords: text mining, vector space model

УДК 519.765:519.767:004.89

ВИКОРИСТАННЯ КОНЦЕПЦИ СЕМАНТИЧНОГО ПОЛЯ У ВЕКТОРН1Й МОДЕЛ1 ТЕКСТОВИХ ДОКУМЕНТ1В

Б.М. Павлишенко

Кандидат фiзико-математичних наук, доцент Факультет електронки Львiвський нацюнальний уыверистет iменi 1вана Франка вул. Драгоманова, 50, м. Львiв, 79005 E-mail: pavlsh@yahoo.com

Вступ

В сучасних алгоритмах аналiзу тексив часто ви-користовують модель векторного простору. Основна щея ще! моделi полягае у представленш кожного текстового документа у виглядi вектора у деякому векторному просторi [1,2]. Вважають, що точки, яю е близью мiж собою в цьому просторi вщображають семантично близью документи i навпаки - семан-тично близью документи вщображаються близь-кими точками у фазовому простора Деякий запит на пошук докуменшв також можна розглядати як точку у векторному просторi документiв. Результат такого запиту можна представити як список доку-меншв вiдсортованих в порядку зростання вщсташ вiд точки запиту до точок, яю представляють до-кументи.

Одним iз застосувань векторно! моделi е ав-томатизоване отримання формалiзованих знань. Бшьшшть пошукових машин використовують век-торну модель у сво!х алгоритмах для визначення подiбностi мiж запитами та документами. В основi використання векторно! моделi лежить статистична гшотеза, яка полягае в тому, що статистичш характеристики використання слiв вiдображають тi поняття, якi люди мають на увазi в цих текстах [2]. Одним iз методiв представлення масиву документiв у векторному просторi е органiзацiя векторiв до-кументiв у виглядi матрицi текстових частот типу лексеми-документи. Рядки таких матриць вщповь дають лексемам, а стовпщ е векторами вiдповiдних докуменпв. В аналiзi текстiв розглядають гшотезу мультимножини лексем, яка полягае в тому, що мож-на розрахувати вiдповiднiсть документiв до запиту представляючи документ та запит як мультимножи-

ну лексем. Сукупшсть частот рядка частотно! матри-цi представляе образ деяко! лексеми i характеризуе !! використання в масивi тексив. Сукупнiсть частот стовпця визначае образ деякого документа. Под-iбнiсть мiж документами та запитами можна аналь зувати представляючи запит як псевдо-документ та розглядаючи вектори рядкiв матрицi лексеми-до-кументи [2].

Аналiзуючи подiбнiсть мiж векторами-рядками матриц можна визначити подiбнiсть мiж лексемами докуменив. В аналiзi подiбностi лексем заметь текстових документiв також розглядають !х складовi - фрази, речення, параграфи, розд^и.

Розглянемо ряд гшотез, якi лежать в основi векторно! моделi текстiв [2]. Статистична семантична гшотеза припускае, що статистичш характеристики вживання лексем можуть бути використаш для визначення змшту сказаного. Якщо деяю частини тексту мають подiбнi вектори в частотних матрицях тодi цi частини мають подiбнi значення. Гiпотеза су-купностi лексем говорить про те, що частоти лексем в документ вщображають зв'язок мiж документом та запитом. Якщо документ та псевдодокумент мають подiбнi стовцi в частотнiй матрищ, тодi вони мають подiбнi значення.

Дистрибутивна гшотеза припускае, що лексеми, яю зустрiчаються в подiбних контекстах мають под-iбнi значення. Якщо лексеми мають подiбнi вектори-рядки в частотнш матрицi, тодi вони мають подiбнi значення. Розширена дистрибутивна гшотеза говорить, що лексеми, в яких зустрiчаються подiбнi пари лексем мають подiбнi значення. Якщо контексти мають подiбнi вектори-рядки в частотнш матрищ лексемна_пара-контекст значить вони вщображають подiбнi значення. Гiпотеза латентних вщношень при-

пускае, що пари лексем, якi зустрiчаються в подiб-них лексемних шаблонах, мають подiбнi семантичнi зв'язки. Якщо лексемнi пари мають подiбнi вектори-рядки в частотнiй матрицi лексемна_пара-шаблон, тодi вони мають подiбнi семантичш зв'язки.

Однак, векторна модель текстових докуменив мае ряд проблемних мшць. Зокрема, аналiз всiх лексем текстового словника приводить до значного об-сягу обчислень внаслщок великого розмiру матрицi лексеми-документи. Крiм того, текстовi документи та псевдо-документи можуть бути близькими у простор^ базис якого утворений лексемними групами. Такими групами можуть бути, зокрема, семантичш поля. Шд семантичним полем розумжть таку мно-жину лексем, яю об'еднанi певним спiльним по-няттям [3,4]. Прикладом семантичних полiв може бути поле руху, поле комушкацп, поле сприйняття та шшь

Постановка задачi

Розглянемо теоретико-множинну концепщю се-мантичного поля. Проаналiзуeмо утворення семантичних полiв як сегменпв семантичного розбиття лексемного словника. Розглянемо формування лексемного складу на основi лексемних вщношень в текстових масивах. Проаналiзуeмо використання теоретико-множинно'! моделi семантичних полiв у векторному представленш текстових документiв.

як вiдображення множини лексем на множину семантичних полiв. Семантичну класифжащю розглянемо як деяку сукупшсть вiдображень лексем на множину дшсних чисел. Можливу квантифь кацiю лексемних вiдображень можна пов'язати iз частотами лексем в текстових об'ектах. Розглянемо утворення семантичного поля на основi вщношення еквiвалентностi. Нехай iснуе деяке бiнарне вщно-шення

с Wх W (4)

Розглянемо деяку квантитативну ознаку лек-семи xsk(wi), яка юльюсно характеризуе лексемнi вiдношення заданого типу у множит аналiзова-них текстових об'екив. Наприклад, це може бути частота появи лексеми wi в заданому лексемному шаблонi.

Пов'яжемо iз ознакою xk(wi) бiнарне вiдношен-

ня

БЬ = { (wi,wj)|xk(wi) = x■k(wj) } (5)

Можна показати, що вщношення е рефлексив-ним, тобто

(wi,wi)еБ^, Vwi eW, (6)

симетричним, тобто

(wi,wj)еБ^ ^(wj,wi)еБ^, Vwi,wj eW (7)

Теоретико-множинна концепцiя семантичного поля i транзитивним, тобто

Розглянемо утворення поняття «семантичне поле» в проце« аналiзу текстових даних. Нехай шнуе деякий словник лексем, якi зустрiчаються в аналiзо-ваних текстових масивах. Опишемо цей словник як впорядковану множину

W = { Wi|i = 1,2...,NW}, (1)

де Nw - кiлькiсть лексем в словнику. Введемо множину семантичних полiв

Б = { Б^к = 1,2...,NS} , (2)

де N - кiлькiсть семантичних полiв. Семантичш ознаки лексем будемо характеризувати вщображен-ням

Uws: W^Б, Wi ^8к, i = 1,2...,^;к = 1,2...,NS (3)

Тобто у вщповщшсть кожнi лексемi ставлять деякий елемент множини Б. Множина значень Б може мати рiзну природу, наприклад це може бути множина назв деяких семантичних клаив. Шкала семантичних ознак е номшальною, якщо лексеми набувають деяких назв iз множини Б. Номшальна шкала володiе класиф^ацшним потенцiалом, коли за допомогою вiдображення (3) можна утворити групування елеменив множини W, яю мають сшль-нi назви iз множини Б. В загальному, класиф^ащю лексем за семантичними полями будемо розглядати

(wi,wj)eSb>(wj,wl)eS^ ^(wj,wl)eS^, Vwi,wj,wl eW (8)

Рефлексивне, симетричне i транзитивне вщношен-ня називають еквiвалентнiстю [5]. Еквiвалентнiсть

cb

Sk повнiсттю характеризуе породжуючи иого ознаку xk(wi) i Дае можлившть визначити множину лексем, якi не розрiняють за цiею ознакою:

Sk = { Wi|(Wi,Wj)eSk } (9)

Якщо Sk е деяким семантичним вщношенням, тодi неспiвпадаючi множини Sk утворюють розбиття лексемного словника W на семантичш класи

SSc ={ Sk|k = 1,2...,NS}. (10)

Бшарне вiдношення Sjb може також породжуватись деяким лопчним висловлюванням Q(wi,wj)

Sb = { (Wi,Wj)|Q(Wi,Wj) = true } (11)

де Q(wi,Wj) описуе деяку умову, наприклад одно-часне використання в текстових шаблонах задано!

структури. Умова породження бшарного вщношення

b

Sk може також описуватись деяким правилом постановки в заданш схемi формально'! граматики. Таке правило може бути сформована деяким регулярним виразом.

Розглянемо рангову ознаку xks(wi), яка утворюе бiнарне вiдношення

Эк ={ К^)|хкЮ<х^) }

(12) МЬс = { | = 1,1 е^, j е Т^ }

(16)

Можна показати, що таке бiнарне вщношення е рефлексивне, транзитивне та лшшне. Такi вщно-шення називають лшшними квазiпорядками [5]. Квазiпорядок ЭкЬ породжуе рангову шкалу семан-тичного поля Эк . У випадку формування семан-тичного поля за допомогою рангових ознак можна визначити внутршню структуру поля, для яко! можна сформувати внутршнш частковий порядок вид^ивши структурнi групи всерединi семантич-ного поля. Такими групами можуть бути, напри-клад, частотне ядро семантичного поля, основна частотна область, перифершна частотна область. Для кожно! iз цих груп можна визначити умови для семантично! ознаки, за якою лексеми всерединi цих груп не розрiзняються.

Вiдношення еквiвалентностi та квазiпорядку виз-начають номшальш та ранговi семантичнi шкали для лексемного складу словника текстових масивiв на основi лексемних вiдношень елеменив рiзних класiв семантичного розбиття.

В семантичному розбит словника можна вия-вити вщповщш структурнi зв'язки. Семантичним розбиттям iз структурою назвемо пару (SW,Zstг), де - е розбиття лексемного словника на вщповщш семантичнi класи. Вщношення

Zstг с {l,2,....NSc}х{1,2,....^с} ,

Враховуючи (14)-(16) семантичний сегмент можна визначити, наприклад, так

Эк ={ е(4 и Т^)}

(17)

Виходячи iз наведеного аналiзу семантичним полем назвемо сегмент, який утворюеться семантич-ними класами об'еднаними бшарним кластером в структурному вiдношеннi семантичного розбиття лексемного словника текстових масивiв. Отже, за допомогою пари (Э"^^) , яка описуе розбиття словника на семантичш класи iз структурою, можна задавати семантичш поля лексемного словника.

Векторна модель текстових докуменив

Основним методом формування множини лексем семантичного поля е експертний лексикографiчний аналiз. Розглянемо можливiсть формування семантичного поля на основi лексемних вщношень в текстових масивах. Сукупшсть текстових документiв опишемо такою множиною

D = { ^ = 0,1,2...,^ },

(18)

(13)

е вщношенням вiдповiдних звязкiв мiж семан-тичними класами, де Nsc - юльюсть семантичних класiв розбиття. Умова (У) еZstг означае, що шнуе звязок мiж лексемами семантичних класiв та . Вiдношення Zstг можна представити за допомогою булево! матрищ М"'г = {т^'г} вважаючи, що т^г =1 тодi, коли (У)еZstг. Аналiзуючи матрицю М"'г можна виявити сегменти розбиття, тобто групи клаив, якi пов'язаш мiж собою за допомогою розбиття Zstг . Пiд сегментом розбиття розумжть деяку множину утворену об'еднанням клаив розбиття. Здiйснюючи перестановку рядов та стовп-цiв ще! матрицi можна виявити пiдматрицi, яю заповненi одиницями. 1ндекси стовпцiв та рядов будуть описувати iндекси семантичних клаив, якi можна вiднести до единого сшльного сегменту. Такi шдматрищ формують бiнарнi кластери, тобто групи рядив та стовпщв, об'еднаних сшльними властивостями. В цьому випадку елементи матри-цi, якi вiдповiдають цим рядкам та стовпцям рiвнi одиницi. Визначимо бшарний кластер в структурному вщношенш Zstг . Нехай XZtr е множина рядкiв матрицi Zstг , а Ys^г - множина стовпщв. Матрицю Zstг позначимо так

де N - кiлькiсть документiв. Пiд документом з j=0, будемо вважати документ з нейтральним текстом, який вщповщае лшгвостатистичш нормi. Документ dj з множини текстових докуменив D можна представити як упорядковану множину слiв, порядок елеменив яко! вiдповiдае порядку слiв у цьому документ

Т = { Ч11 = и..^}

(19)

Упорядкований за алфавитом словник текстового документа dj розглянемо як мультимножину над множиною словника "

= { е^,1 = 1,2...,^}

(20)

wd в

ка " в множину лексем текстового документа dj, яку можна визначити як

n;wd=1 и^х

1=1

[1ДЦ= Wi

де ^^^ Ч„ d

10, wJj Ф wi

(21) (22)

Zstг (Xstг,Ystг) .

Шдмножини I2 с X2 Т2 с Yz

istг — ^^г > J stг —

(14)

(15)

утворюють тдматрицю МЬс = (^Т^) , яка описуе бшарний кластер за рядками та стовпцями тдматрицю якщо виконуеться умова

Вщображення лексемного складу словника " на множину семантичних полiв Э (3) задамо таблицею, яка визначаеться експертним лексикографiчним ана-лiзом [3,4]. Лексемний склад семантичного поля sk визначимо як

"к = ] Wi|Wi ^W>Sk,i = 1,2...,^

(23)

N

Множину o6pa3iB ввдображення Uws розглянемо як мультимножину над множиною семантичних полiв S

В матрицi Mwd роль ознаки ввдграе текстова частота лексеми. Введемо вектор

Sf = { nk(sk)|k = 1,2...,NS}

(24) Vw = (pWd-PWd-...-PNdwj)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

nk = X fs(w,>sk)>

Де fs(w,,sk) =

1, w, e Wks o,w, gW,

Введемо мультимножину образiв вiдображення Uw семантичних полiв для окремого документа dj

Sd = { nkd(Sk)|k = 1,2...,NS}

n

4=I «v,) l=1

де fs(tij,Sk) = ] lj k s lj k [0,tij£WkS

(36)

де nk - юльюсть лексем словника W, якi ввдносять до семантичного поля sk:

(25)

(26)

Такий вектор вщображае документ dj в ^^рно-му просторi текстових докуменпв. Сукупнiсть зна-чень pkd утворюють iншу матрицю ознака-документ, у якш ознаками виступають частоти семантичних полiв у документах:

(37)

m=(pkd

Вектор

Vs=(psd,p2d,...,pNdsj)

(38)

(27)

де nkj - юльюсть лексем семантичного поля sk в лексемному складi документа dj Nj

,sd = „ Ч (28)

(29)

вщображае документ dj в №^рному просторi текстових документiв. Використання векторного представлення (38) дае можлившть пошуку подiбних документiв та псевдодокуменпв у векторному простору iз базисом, утвореним частотними характеристиками семантичних полiв. Цей базис мае суттево меншу розмiрнiсть у порiвняннi iз базисом, утворе-ним частотними характеристиками лексем словника текстових масивiв. Це дае можливiсть зменшити юльюсть необхiдних обчислень в алгоритмах аналь зу текстiв.

Введемо оператор вщображення лексемного словника W на множину квантитативних ознак в масивi докуменпв

Утворення семантичних полiв на ochobï лексемних вщношень

Uwd:w,^pwd, i = 1,2,...,Nw,j = 1,2...,Nd

(30)

У загальному випадку величина р" може мати довiльне походження квантитативно! характеристики. У подальшому будемо розглядати цю величину як текстову частоту лексеми у текстовому документ dj , яка визначаеться такою функщональною залеж-нiстю

nwd

pwd =

Pij Nt .

(31)

Аналогiчно введемо оператор вщображення семантичного складу Sd текстового документа dj на множи-ну квантитативних ознак:

Usd : s, ^ Pkd,k = 1,2,...Ns,j = 1,2...Nd

(32)

Величина рк? визначае структурну частоту лексем семантичного поля зк у текстовому документ dj . Виз-начимо рЦ? за такою формулою

pkd=Е p;wdfs(w,,Sk),

де fs(wi,sk) =

1, w, e Wk 0, w, g W,

Сукупнiсть значень утворюе матрицю типу

ознака-документ

Mwd=(pwd )Nw:

Розглянемо можливiсть утворення семантичних полiв на основi дистрибутивно! гшотези та гiпотези латентних вщношень. Визначимо множину Wksc де-яких базових лексем, яю будуть виконувати роль ядра, яке утворюе семантичне поле на основi деякого перетворення. Вмшт семантичного поля буде утво-рюватись лексемами, якi мають задане вщношення до лексем множини W,c . Такi вiдношення можуть бути, наприклад, зумовлеш утворенням лексемних пар в текси лексем семантичного поля iз лексемами заданого ядра, або приналежшстю лексеми семантичного поля i лексеми полеутворюючого ядра до стльних логiчних сегментiв текстiв. Такими лопч-ними сегментами можуть бути, наприклад, речення, абзаци, роздiли. Розглянемо спочатку утворення семантичних полiв на основi лексемних пар. Розгля-немо текст як ланцюжок лексем

T=у2.л

(39)

(33)

(34)

Вважаемо, що множина лексем в текстi е впо-рядкована за номером лексеми в тексть Розглянемо деяке вщношення

If с W х W

(40)

Пара належить вщношенню 1к, якщо пер-

ша лексема належить до полеутворюючого ядра Wksc , а друга лексема утворюе iз нею пару лексемного сполучення в тексту тобто виконуеться умова

е1к, якщо еТ^ еТ,ш1 eW1Sc,wi Wj. (41)

N

Необхщно врахувати, що у великих текстових ма-сивах можуть 3ycTpi4aracb деяк лексемнi пари, якi не вщображають стiйких семантичних зв'язкiв. Тому необхщно визначити додаткову умову, за допомогою яко! можна було б вилучати таю пари i3 розгляду. Аналопчно до теорп частих множин [6,7], де роз-глядаеться поняття шдтримки частих множин, розглянемо поняття шдтримки лексемних сполучень. Шдтримкою лексемного сполучення для лексеми Wj будемо вважати вiдношення кiлькостi лексемних сполучень ще! лексеми iз лексемами полеутворюю-чого ядра до загально! юлькоси появ цiеï лексеми в аналiзованомy текстовому масивi

n((w,,wj) е Ik)

SuPP(wj) =-7j-

j n(wj)

(42)

До подальшого розгляду будемо брати лексеми для яких величина шдтримки Supp(Wj) буде пере-вищувати деяке наперед задане число

Supp(Wj ) > Suppm

(43)

Враховуючи (41)-(43), семантичне поле можна виз-начити як

Sk = { wj| 3w, eWkc, (wi,wj) eIsk,Supp(wj)> Suppmln } (44)

Аналогiчно можна визначити семантичне поле на основi умови спiльноï появи лексеми iз множини поле-утворюючого ядра та лексеми семантичного поля в де-якому заданому лопчному сегментi тексту, наприклад реченш. Розглянемо текст як впорядковану множину лопчних сегментiв

T = { gl,g2,...gNg } .

(45)

В цьому випадку семантичне поле можна розгляда-ти як таку множину

Sk = { Wjl 3 Wi 3 gm еT, (wi,wj) еgm, Suppsg(Wj) > Suppmin }

Пiдримка Suppsg(Wj) мае аналогiчний змiст до шдтримки лексемних сполучень (43), заметь юль-костi лексемних сполучень в текси розглядаеться кiлькiсть логiчних текстових сегменив. Розглянyтi лексемнi вiдношення можуть бути узагальнеш для випадку лексемних вщношень у складному текстовому шаблон iз заданою множиною додаткових умов.

Висновки

Розглянута теоретико-множинна концепщя семантичних полiв в масивах текстових даних. Семантичш класи утворюються як вщношення еквiвалент-ностi. Семантичне поле визначаеться як сегмент, який утворюеться семантичними класами, об'ед-наними бшарним кластером в структурному вщно-шенш семантичного розбиття лексемного словника текстових масивiв. Розглянуто вщношення, яке описуе розбиття словника на семантичш класи iз структурою, яка визначае семантичш поля лексемного словника. Проаналiзовано утворення семантичних полiв на основi лексемних вщношень, зокрема, таких як сполучення в текси лексем семантичного поля та лексем полеутворюючо! множини. Використання концепцп семантичнш полiв е ефективним у вектор-нш моделi текстових докyментiв внаслiдок зменшен-ня розмiрностi фазового простору представлення докуменпв.

Це дае можливiсть зменшити кiлькiсть необхщ-них обчислень в алгоритмах аналiзy текстових да-них.

В подальших дослiдженнях розглянемо використання моделi семантичних полiв у векторному представленш текстових докyментiв в алгоритмах штелектуального аналiзy, зокрема, в алгоритмах кластеризацп, пошуку асоцiативних зв'язкiв, та ана-лiзi частих лексемних множин. Щкавим, на нашу думку, е також розгляд моделi семантичних полiв у рамках теорп аналiзy формальних понять (46) в текстових масивах.

Лиература

1. Брасегян А.А. Анализ данных и процессов: учеб. Пособие / А.А.Брасегян, М.С.Куприянов, И.И.Холод, М.Д.Тесс, С.И.Елиза-ров.-СПб.:БХВ-Петербург,2009.-512с.:ил.

2. Pantel P. From Frequency to Meaning: Vector Space Models of Semantics / Patrick Pantel, Peter D. Turney // Journal of Artificial Intelligence Research.-2010.-vol.37.-pp.141-188.

3. Левицкий В.В. Экспериментальные методы в семасиологии/ В.В. Левицкий, И.А. Стернин. - Воронеж: Изд-во ВГУ, 1989. - 192с.

4. Вердиева З.Н. Семантические поля в соверменном английском языке./ З.Н. Вердиева - М.: Высшая школа, 1986. - 120с.

5. Миркин Б.Г. Анализ качественных признаков и структур. / Б.Г. Миркин. - М.: Статистика, 1980. - 319с., ил.

6. Agrawal R. Fast algorithm for mining association rules/ R. Agrawal, R. Srikant// Proc. 1994 Int. Conf. Very Large Data Bases (VL-DB'94), pages 487-499, Santiago, Chile, Sept. 1994.

7. Mannila H. Efficient algorithms for discovering association rules / H.Mannila, H.Toivonen, and A.J.Verkamo // Proc. AAAI'94 Workshop Knowledge Discovery in Databases (KDD'94), pages 181-192, Seattle, WA, July, 1994.

ВИКОРИСТАННЯ КОНЦЕПЦії СЕМАНТИЧНОГО ПОЛЯ У ВЕКТОРНіЙ МОДЕЛі ТЕКСТОВИХ ДОКУМЕНТіВ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Павлишенко Б.М.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Павлишенко Б.М.

The use of semantic fields concept in the vector model of text documents

Текст научной работы на тему «ВИКОРИСТАННЯ КОНЦЕПЦії СЕМАНТИЧНОГО ПОЛЯ У ВЕКТОРНіЙ МОДЕЛі ТЕКСТОВИХ ДОКУМЕНТіВ»