Научная статья на тему 'ФОРМИРОВАНИЕ N-ГРАММНОЙ ТЕМАТИЧЕСКОЙ МОДЕЛИ ТЕКСТА'

ФОРМИРОВАНИЕ N-ГРАММНОЙ ТЕМАТИЧЕСКОЙ МОДЕЛИ ТЕКСТА Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
44
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / N-ГРАММНАЯ МОДЕЛЬ ТЕКСТА / РЕКУРРЕНТНАЯ ПРОЦЕДУРА ВЫЧИСЛЕНИЯ ВЕСОВЫХ ХАРАКТЕРИСТИК ТЕМ / ИЕРАРХИЧЕСКАЯ ТЕМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА / THEMATIC MODELLING / N-GRAM TEXT MODEL / RECURRENCE PROCEDURE FOR THEME WEIGHT CHARACTERISTIC CALCULATION / HIERARCHICAL THEMATIC TEXT STRUCTURE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Харламов Александр Александрович

Современные средства автоматического смыслового анализа текстов в основном делают акцент на тематическом анализе текстов, который основан преимущественно на использовании механизмов латентно-семантического анализа, вероятностного латентно-семантического анализа и скрытого распределения Дирихле. Тематический анализ, в свою очередь, базируется на монограммной модели текста, то есть на предположении, что порядок слов в тексте не играет роли в анализе частоты их встречаемости в тексте (так называемый «мешок слов»). Использование n-граммной модели текста для тематического моделирования не только улучшает лингвистическую интерпретируемость результатов анализа, но и позволяет выявлять иерархическую тематическую структуру анализируемого текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Харламов Александр Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF N-GRAM THEMATIC TEXT MODEL

Current automatical semantic text analysis tools now accent on thematic text analysis, which is generally based on Latent Semantic Analysis, Probabilistic Latent Semantic Analysis and Latent Dirichlet Allocation mechanisms. But thematical analysis, in turn, is based on unigram text model, i.e. hypothesis that the order of words in text has no importance in the word frequency appearance in the text (so cold «bag of words»). An n-gram text model applience in thematic modelling not only improve analysis results linguistic interpretation, but also allow recomstruct a hierarchical thematic structure of analyzed text.

Текст научной работы на тему «ФОРМИРОВАНИЕ N-ГРАММНОЙ ТЕМАТИЧЕСКОЙ МОДЕЛИ ТЕКСТА»

Формирование л-граммной тематической модели текста

А.А. Харламов

Институт высшей нервной деятельности и нейрофизиологии РАН, г. Москва

Современные средства автоматического смыслового анализа текстов в основном делают акцент на тематическом анализе текстов, который основан преимущественно на использовании механизмов латентно-семантического анализа, вероятностного латентно-семантического анализа и скрытого распределения Дирихле [1]. Тематический анализ, в свою очередь, базируется на монограммной модели текста, то есть на предположении, что порядок слов в тексте не играет роли в анализе частоты их встречаемости в тексте (так называемый «мешок слов»). Использование п-граммной модели текста для тематического моделирования не только улучшает лингвистическую интерпретируемость результатов анализа, но и позволяет выявлять иерархическую тематическую структуру анализируемого текста.

• тематическое моделирование • п-граммная модель текста

• рекуррентная процедура вычисления весовых характеристик тем

• иерархическая тематическая структура текста

ВВЕДЕНИЕ

Современные средства автоматического смыслового анализа текстов в основном делают акцент на тематическом анализе текстов, который основан преимущественно на использовании механизмов латентно-семантического анализа, вероятностного латентно-семантического анализа и скрытого распределения Дирихле [1]. Упомянутые подходы, в свою очередь, базируются на монограммной модели текста, то есть на предположении, что порядок слов в тексте не играет роли в их тематической структуре (так называемый «мешок слов»).

Модели, основанные на латентно-семантическом анализе, вероятностном латентно-семантическом анализе и скрытом распределении Дирихле, позволяют выявить скрытые в структуре текста ключевые слова - темы - и показать связь текстовых единиц (предложений, абзацев, и целых текстов в корпусе) и встречающихся в них слов путем выявления связей слов с темами и сопоставления этих тем с текстовыми единицами.

Модель, основанная на латентно-семантическом анализе. Для

выявления структурных связей между текстовыми единицами и составляющими их словами используется метод латентно-семантического анализа (Latent Semantic Analysis, LSA) [2]. Латентно-семантический анализ основан на линейной алгебре и является способом снижения размерности матрицы с помощью одного из матричных разложений. Он работает с векторным представлением текстовых единиц типа «мешок слов». Таким образом, текст или корпус текстов как набор текстовых единиц (предложений - d) представляется в виде числовой матрицы, строки которой соответствуют словам (w), входящим в текст (корпус текстов), а столбцы -

3

текстовым единицам (предложениям - д). Введение так называемых скрытых тем (г) с помощью диагональной матрицы Е, диагональные элементы которой соответствуют весам тем, объединение слов текста с этими темами с помощью матрицы и отображения пространства слов в пространство тем, и представление текстовых единиц (предложений) в пространстве этих тем, с помощью матрицы V представления текстовыхединиц в пространстве тем, позволяет произведение этих матриц Р = иXVт подвергнуть матричному разложению, в результате которого и выявляются скрытые темы (весовы е характеристики диагональных элементов диагональной матрицы тем Е). Число тем задается заранее.

Модель, основанная на вероятностном латентно-семантическом анализе. Вероятностная тематическая модель (Probabilistic Latent Semantic Analysis, pLSA) похожа на предыдущий класс моделей, основанных на латентно-семантическом анализе [3]. Отличие между ними заключается в способе построения модели. По сравнению с обычным латентно-семантическим анализом, вероятностный латентно-семантический анализ основан на предположении, что упомянутые соответствия (слов текста и тем, тем и текстовых единиц) описываются вероятностями их появления. Вероятностная модель появления пары (текстовая единица, слово) может быть записана в виде:

Щ w) = Y.l_lP(tn)P(d\zn)P(W]\tn)

Для нахождения параметров модели с так же, как и в LSA, заранее фиксированным числом тем k используется EM-алгоритм (Expectation Maximization) - итерационная процедура вычисления скрытых переменных путем максимизации функции правдоподобия. При этом оцениваются следующие величины:

• P(tn): вероятность появления темы n тексте;

• P(di, tn): вероятность того, что случайно выбранное предложение d соотносится с темой tn;

• P(w], tn): вероятность того, что слово w] в тексте связано с темой tn.

Полученные вероятности в матричной форме представляются следующими матрицами:

• матрицей U элементы которой u соответствуют условным вероятностям P(W]\t); „ ^

• матрицей Vэлементы которой v. соответствуют условным вероятностям

• диагональной матрицей Е, диагональные элементы которой 6. соответствуют вероятностям P(t).

Тогда тематическая модель может быть записана в матричном виде, как и в латентно-семантическом анализе: P = UlVt.

Скрытое распределение Дирихле. Скрытое распределение Дирихле (Latent Dirichlet Allocation, LDA), является дальнейшим развитием вероятностного латентно-семантического анализа [4]. В этом подходе терминология та же, но вводится дополнительно модель языка (или хотя бы корпуса текстов -модель предметной области) 0, которая определяется семейством непрерывных многомерных вероятностных распределений параметризованных вектором а неотрицательных вещественных чисел Dir(a):

1Щ.Р)

p(0\a) -

Пк=1Г(а)

Qlai-

Qlk-1, к 7

где Г - гамма-функция, а также вводится внешняя по отношению к распределению Дирихле матрица в размерности к * V, столбцы которой соответствуют темам текста (корпуса текстов), зафиксированным, как и в двух предыдущих моделях по количеству (к штук), а строки - словам словаря модели языка (или, по крайней мере, словаря модели предметной области). Оценка параметров а и в модели производится также на основе ЕМ-алгоритма, но, в отличие от двух вышеописанных моделей, эта оценка не может быть осуществлена аналитически, но только через вариационную ЕМ-процедуру.

В отличие от двух первых типов моделей, которые позволяют выявлять тематическую структуру только текстов, которые входили в обучающую выборку, по которой производилось формирование моделей, скрытое распределение Дирихле позволяет выявлять тематическую структуру любого текста. С другой стороны, у него есть существенный недостаток - отсутствие убедительных лингвистических обоснований. Предположение, что все распределения 0с сС е В, где В - множество предложений текста, порождаются распределением Дирихле, да ещё и одним и тем же, кажется весьма произвольным. То же можно сказать и о порождении множества распределений а, для всех тем I е Т, где Т- множество тем [5].

Монограммная модель текста. Все три типа тематических моделей рассматриваются исключительно в рамках монограммной модели. Монограммная модель основана на предположении, что каждое слово появляется в тексте независимо от остальных слов. „-граммные модели рассматриваются редко и то в связи с использованием некоторых эмпирик частного характера (включение биграмм-словосочетаний в монограммную модель), которые не масштабируются на более общие случаи [6]. Монограммная модель в этих подходах используется исключительно из-за большой сложности тематических моделей, которая и так зашкаливает в случае использовании распределения Дирихле.

Если вероятности появления слов в любой позиции строки слов независимы и одинаково распределены, то вероятность появления строки равно произведению вероятностей появления слов:

■■■ = ■■■ р(У)-

Это, в частности, значит, что любые перестановки слов строки w1 ■ ■■ имеют одну и ту же вероятность. Что заведомо неверно.

В случае использования монограммной модели, обозначив через С(м>) = ■■■ число вхождений строки w = w1 ■■■ м> в некую генеральную совокупность всех текстов рассматриваемого языка, можно определить вероятностьр(н>) появления строки слов w = ■■■ wm в тексте, оценка которой равна отношению С

к общему числу экземпляров всех встреченных в совокупности строк длины „:

рм=^ ■

В частности, для монограмм, то есть отдельных слов:

С(^)

p(w')

где wi - слово словаря V числитель - количество вхождений wt в генеральную совокупность, а сумма в знаменателе - просто общее число слов в ней.

п-граммная модель текста. Если нет достоверного априорного

знания о равенстве распределений слов в разных позициях строки, следует попытаться ввести контекстную привязку - через условные вероятности [7]. Поэтому перейдем к „-граммной, а точнее, к «односторонней» „-граммной модели, а именно принятой при

использовании „-грамм «правосторонней» модели, в которой вероятность очередного слова строки задается в зависимости от предшествующих ему („-!) слов, что записывается как■■■ w ). Тогда:

рЫ, ■■■ w м ) = рЫ^, ■■■ w ,)рЫ, ■■■ w Д

* 4 1 „-1 „' * 4 „ 1 „-1'1 4 1 „-!'

В терминах вероятности «быть справа» имеем:

р(м>1 ■■■ = рС^ ■■■ ^р^п-^ ■■■ ^ ■■■ р^^М^Х

или: п

рСУ, ■■■ w ) = (ПP(W

к=1

Введя фиктивный символ «начало» и договорившись, что р^^^ = р^) Р^^^) = р^) можно переписать:

РК ... w> Пр^^! - wk-i) k=1

Оценкой вероятности п-граммы служит частота ее встречаемости:

СС^^ ■■■ wi_1w)

Р^^х-п ■■■ wl-l) - № №■■■ wl-l) = —■

Так, для биграммной модели оценкой вероятности биграммы является частота ее появления в тексте:

Щ^) = = -щт

1. Использование и-граммной модели для выявления тематики текста

Использование „-граммной модели текста в тематическом моделировании позволяет корректно интерпретировать его результаты с лингвистической точки зрения. Для этого введем иное представление о темах текста, по сравнению с используемым в описанных во введении подходах.

Так, в биграммной модели будем считать темами те «вторые» (в биграмме: первое слово - второе слово) слова наибольшего ранга, которые связаны с наибольшим числом «первых» слов. В триграммной модели темами будем считать те «третьи» слова (вторые «вторые») наибольшего ранга, которые связаны с наибольшим числом «вторых» слов, имеющих наибольший ранг в терминах биграммной модели. И так до „-го порядка модели. Тогда в „-граммной модели темами будем считать те «„-е» слова наибольшего ранга, которые связаны с наибольшим числом «(„-Х)-х» слов („-1)-граммной модели. Таким образом, автоматически формируются тематические деревья, в которых главными темами текста являются темы „-го уровня („-е слова) наибольшего ранга, их подтемами являются темы („-1)-го уровня ((„-1)-е слова), их подподтемами - темы („-2)-го уровня, и т.д.

Начнем с рассмотрения тем первого уровня (биграммной модели текста). Для этого сначала рассмотрим понятие семантической сети, которое делает прозрачным применение „-граммных моделей текста.

1.1. Семантическая сеть

Последующие построения будут более понятны, если использовать не традиционную терминологию: «текст», «биграммы», «триграммы», а понятия, связанные с однородной семантической сетью, описывающей упомянутый текст, которая строится как множество пар «первое слово - второе слово»,

где вторая пара стыкуется с первой парой через общее слово. Для этого опишем более формально ассоциативную (однородную семантическую) сеть N [8].

Определение 1. Под семантической сетью N понимается множество

несимметричных пар событий {<с с.>}, где с. и с. - события, связанные между собой отношением ассоциативности (совместной встречаемости в некоторой ситуации): {<сс >}

Применительно к содержанию статьи этими событиями являются слова текста. Следующие друг за другом пары слов текста и составляют однородную семантическую (ассоциативную) сеть. ¡В данном случае отношение ассоциативности несимметрично: <сс> Ф <сс>.

Определение 2. Семантическая сеть, описанная таким образом, может быть представлена как множество так называемых звездочек {<с.{с.}>}:

N = {2} = {<сДс.}>}.

Определение 3. Имея в виду, что события с. и с. есть слова w . и wj, под

звездочкой понимается конструкция, включающая главное слово

w., связанное с множеством слов-ассоциантов которые являются семантическими признаками главного слова, отстоящими от главного слова в сети на одну связь. Связи направлены от главного слова к словам-ассоциантам.

1.2. Биграммная модель

Если мы будем рассматривать появление последователльности из двух слов в тексте, получим биграммную модель. Для каждого второго слова w. строки из двух слов (w, w) первое слово строки w. («слева-направо») является темой: w . = t1. (индекс «2» - поскольку биграммная модель). Объединим все пары слов с одинаковыми темами в звездочки. В этом случае вершина сети, соответствующая слову w. = t.2, является корневой вершиной одного из тематических деревьев (в данном случае - звездочек). Так как вероятность появления строки из двух слов (правосторонняя модель) в тексте p(w., wj) = p(w \w)p(w ) , вероятность появления темы w. = 12 в биграммной модели есть сумма вероятностей появления пар с одинаковым первым словом (вероятность появления звездоч ки): .

Ji Ji

p(t) -p(w 2) - 2pw wj) - T.piw.typiw 1),

где j. - число слов w. (ассоциантов w. звездочки), связанных с первым словом w А вероятность p(w.1) - это исходные вероятности распределения слов в тексте. Введем условное понятие «темы» p(w.') = t 2 для монограммного распределения. И так для каждого второго слова w. первое слово пары w. («слева-направо») является темой: w. = tf:

Ji ' ' Ji pit,2) -p(w2) -j22p(wi, w) - jElp(wj\wi)p(ti1).

Для того чтобы общая полученная сумма вероятностей P(tf) была равна единице: 2nN_1P(tn2) = 1, где n - число тем, необходимо нормировать полученные для каждой темы 1суммы. В общем случае число тем совпадает с числом всех слов текста T=W, но обычно выбирают лишь несколько главных тем: T< W.

8

Нормирование осуществляется на сум му по всем темам Л1,

№ =: ^

1p(w\w ) )p(t t')

(2)

Здесьв формуле (1) означает вероятность появления отдельного слова (то есть - вероятность из монограммной модели). Ар- вероятность появления звездочки из биграммной модели. Причем, главное слово звездочки в терминах биграммной модели является темой для ее ближайших ассоциан-тов - семантических признаков - «вторых» слов.

1.3. Триграммная модель текста

Рассмотрим теперь не последовательности длиной в два слова, а последова-телльноси длиной в три слова в тексте, то есть триграммную модель текста.

p(wwjwk) = Р^^ wwj)p(wwj) = Р^^ w :w:)p(wJ\ ww)p(w),

Тогда вероятность появления строки из первых двух слов в строке из трех слов можно получить, как и в (1) суммированием по третьему слову:

К

P(wwj) = KE P(w WjWk)

к=\ ± 4 1 J к

и вероятность появления первого слова в строке из трех слов можно получить суммированием по второму слову:

Л К

p(ww) = ЕЕ Р^р w),

1 Г j-1 К=1 1 ]

Тогдарвычисляется в соответствие с выражением (1) в рамках биграммной модели, р= р(ф, а вероятность появления второго слова пары в зависимости от появления первого слова пары в тексте одна и та же, независимо от граммности модели текста, как следует из сетевого представления текста (взаимосвязанные пары слов остаются теми же):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

pit,3) =

E^p(w\tl)p(tl)

(3)

где Г2 и tf обозначают, соответственно, темы в соответствие с биграммной и три-граммной моделями, а число тем, как и ранее, может соответствовать числу слов в тексте Т = Р, но обычно ограничивается волевым решением до Т < Р. К корневым вершинам tf крепятся через «вторые» слова-вершины t'2 звездочки звездочки биграммной модели

^={<t!{t:)>}■

1.4. Четырехграммная и более граммные модели

Та же процедура, примененная для анализа четырехграммной модели, приведет к получению следующего множества корневых вершин, к которым прикрепятся все графы (тематические структуры), полученные на этапе анализа триграммной модели. То есть мы можем вычислить веса тематических вершин семантической сети текста с учетом их зависимости в последовательности из четырех слов.

То же будет и для „-граммной модели. Хотя надо заметить, что, начиная с некоторого „, процесс сойдется, так как зависимость слов, как правило, в модели языка сказывается не далее, чем на длине простого предложения.

Определение 4. Звездочка, в которой главным словом является тема „-граммной модели t¡„, а второстепенными словами (ближайшими ассоциантами) являются темы („-1)-граммной модели к которой

присоединены звездочки, в которых главными словами являются соответствующие темы tl"A (я-1)-граммной модели, а второстепенными словами - темы t¡"'2 (я-2)-граммной модели, к которым, в свою очередь, таким же образом присоединены соответствующие звездочки моделей более низкого уровня, называется тематическим деревом. И здесь на каждом уровне тематического дерева число тем, как и ранее, может соответствовать числу слов в тексте Т = IV, но обычно ограничивается волевым решением до Р < W.

1.5. Итеративная процедура перевзвешивания

Другими словами, мы имеем итеративную процедуру перевзвешивания, которая позволяет найти значения вероятностей появления тем Л" (в случае использования я-граммной модели) в тексте.

p(t2) = ^

p(t3) =

2 ==i2jn=ip(wj\w)p(t1) 2l^1p(wj\w)p(t-)

2 ]=i2jhp(w^w)p(t2) 2^1p(w.\w )p(t n-1)

2 ^p^w^r1)

где р^1) = р^2) и р^^) - одинаковая для всех шагов итерации вероятность появления последующего слова текста при условии появления предыдущего слова.

1.6. Предварительная подготовка текста

Понятие «ключевого понятия» может изменяться в зависимости от постановки задачи тематического моделирования, а также от языка текстов, средней длины текстов, принадлежности корпуса текстов к предметной области [5]. Для удобства анализа и с целью получения более устойчивого анализа, из текстов до собственно тематического анализа обычно удаляют слова, заведомо не несущие смысла: стоп-слова, рабочие слова и слова обще-употребимые [9]. Далее будем полагать, что словарь ключевых понятий W, полученный в результате предварительной подготовки текста, может содержать как отдельные слова, так и устойчивые словосочетания либо в форме леммы, либо в виде корневой основы, или их последовательности.

Более устойчивая тематическая модель может быть построена, если объединить вершины сети, относящиеся к одной словоформе (не различать формы одного и того же слова) [10]. Это упростит словарь, сделает статистику более робастной, а также уменьшит вычислительные затраты на формирование и использование модели и упростит интерпретацию результатов. Для этого надо воспользоваться либо лемматизацией - приведением каждого слова в тексте к его нормальной форме, либо стеммингом - приведением слова к корневой основе.

Другим способом улучшить и упростить тематический анализ является введение специальных словарей-фильтров стоп-слов, рабочих и общеупотребимых слов, наличие которых в тексте не улучшает восприятия смысла текста.

Слова, встречающиеся во многих текстах различной тематики, в некоторых тематических моделях выносятся в отдельный компонент модели языка [11].

При обработке специальных текстов можно наряду с выявлением статистики появления отдельных слов выявлять статистику для устойчивых словосочетаний. Заметим, что в состав устойчивых словосочетаний могут входить отбрасываемые в случае обработки одиночных слов стоп-слова.

Тематический анализ текста с использованием п-граммной модели текста и сетевого его представления позволяет не только выявлять основные темы текста, но и иерархическую структуру тематического дерева (тематических деревьев): основную тему, зависимые от нее подтемы, зависящие от подтем подподтемы, и так далее.

Таким образом можно формировать Р-матрицу для последующего вычисления распределения Дирихле. Выявлять темы высокого ранга на одном из высоких уровней моделей, и удалять из матрицы Р^.^) столбцы, которые не соответствуют этим выбранным темам. Оставшаяся часть матрицы и будет искомой матрицей В = Р^^).

Приведенный анализ выявляет тематическую структуру текста с использованием только информации о близости в контексте длины п слов словаря текста (ассоциативной связи). Обычно в лингвистических подходах к анализу текстов для анализа используют не только ассоциативный тип связи.

Если для оценки вероятностей тем формировать сети не из пар, а из троек, в состав которых помимо пары слов входит их связь (и других, помимо ассоциативного, типов), характеризующая их отношение в тексте, можно увеличить точность анализа, но при этом потерять в устойчивости анализа. Однако это выходит за рамки текущего исследования.

Работа была выполнена в рамках НИР «Исследование механизма ассоциативных связей в речемыслительной деятельности человека методом нейросетевого моделирования при анализе текстовой информации» (при финансовой поддержке Российского фонда фундаментальных исследований, Грант 14-06-00363).

1. Коршунов Антон, Гомзин Андрей. Тематическое моделирование текстов на

естественном языке Труды Института системного программирования РАН, том 23, 2012, стр. 215-244.

2. Berry M.W., Dumais S.T., O'Brien G.W. Using linear algebra for intelligent

information retrieval // SIAM Review. 1995. 37, N 4. 573-595.

3. Hofmann T. Probabilistic latent semantic indexing // Proc. of the 22nd Annual

International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1999. 50-57.

4. Blei D., Ng A., Jordan M. Latent Dirichlet allocation // Journal of Machine Learning

Research. 2003. 3. 993-1022.

5. Воронцов К.В. Вероятностные тематические модели (курс лекций). http://

www.machinelearning.ru/

6. Нокель М.А. Метод учета структуры биграмм в тематических моделях. Вест-

ник ВГУ, Серия: Системный анализ и информационные технологии, 2014, № 4. - С. 89-97.

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА

10

7.

А.А. Харламов Формирование л-граммной тематической модели текста

8. Бузикашвили Н.Е., Самойлов Д.В., Крылова Г.А. N-граммы в лингвистике // Сбор- ник: Методы и средства работы с документами. М.: Диториал УРРС. 2000. 376 с. С. 91-130.

9. Харламов А.А., Ермоленко Т.В. Нейросетевая среда (нейроморфная ассоциативная память) для преодоления информационной сложности. Поиск смысла в слабоструктурированных массивах информации. Часть II. Обработка информации в гиппокампе. Модель мира / Информационные технологии, N 12, 2015. - Стр. 883—889.

10. Харламов А.А. Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантические представления на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания. Информационные технологии, N 2, 1998.

11. Харламов А.А. Нейросетевая технология представления и обработки информации (естественное представление знаний). — М.: Радиотехника, 2006. — 89 с.

12. ChengXiang Zhai Statistical Methods for Mining Big Text Data. http://www. cs.illinois.edu/homes/czhai

СВЕДЕНИЯ ОБ АВТОРЕ

А.А. Харламов

Доктор технических наук, старший научный сотрудник Института высшей нервной деятельности и нейрофизиологии РАН, проф. каф. Прикладной и экспериментальной лингвистики Московского государственного лингвистического университета, проф. департамента Программной инженерии Высшей школы экономики. Научные интересы: физиология сенсорных систем, семантические представления, в том числе, многомодальные, распознавание речи, распознавание изображений, анализ текстов.

A.A. Kharlamov

Institute of Higher Nervous Activity and Neurophysiology of RAS, Moscow

DEVELOPMENT OF N-GRAM THEMATIC TEXT MODEL

Current automatical semantic text analysis tools now accent on thematic text analysis, which is generally based on Latent Semantic Analysis, Probabilistic Latent Semantic Analysis and Latent Dirichlet Allocation mechanisms [1]. But thematical analysis, in turn, is based on unigram text model, i.e. hypothesis that the order of words in text has no importance in the word frequency appearance in the text (so cold «bag of words»). An n-gram text model applience in thematic modelling not only improve analysis results linguistic interpretation, but also allow recomstruct a hierarchical thematic structure of analyzed text.

• thematic modelling • n-gram text model • recurrence procedure for theme weight characteristic calculation • hierarchical thematic text structure

REFERENCES

1. Korshunov Anton, Gomzin Andrey. Tematicheskoye modelirovanie textov na estestvennom yazyke. // Trudy Instituta sistemnogo programmirovaniya RAN, tom 23, 2012, Str. 215-244. 11

ЛшШ* ItPF^r уд А.А. Харламов Формирование л-граммной тематической модели текста

12 2. Berry M.W., Dumais S.T., O'Brien G.W. Using linear algebra for intelligent information retrieval // SIAM Review. 1995. 37, N 4. 573-595. 3. Hofmann T. Probabilistic latent semantic indexing // Proc. of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1999. 50-57. 4. Blei D., Ng A, Jordan M. Latent Dirichlet allocation // Journal of Machine Learning Research. 2003. 3. 993-1022. 5. Vorontsov K.V. Veroyatnostnye tematicheskiye modeli (kurs lektsyi). http://www. machinelearning.ru/ 6. Nokel M.A. Metod uchyota struktury bigram v tematicheskikh modelyakh. Vestnik VGU, Seriya: Systemny analiz I informatsionniye tekhnologii, 2014, N 4, - Str. 89-97. 7. Buzikashvily N.E., Samoylov D.V., Krylova G.A. N-grammy v lingvistike. // Sbornik: Metody i sredstva raboty s dokumentami. - M.: Editotial URRS. 2000. 376 s. - Str. 91-130. 8. Kharlamov A.A., Yermolenko T.V. Neurosetevaya sreda (neuromorphnaya associativnaya pamyat') dlya preodoleniya informatsionnoy sloshnosty. Poisk smysla v slabostructurirovannykh massivakh informatsii. Chast' II. Obrabotka informatsii v gippokampe. Model' mira. // Informatsionnye tekhnologii, N 12, 2015. - Str. 883-889. 9. Kharlamov A.A., Ermakov A.E., Kuznetsov D.M. Tekhnologiya obrabotky textovoy informatsii s oporoy na semanticheskiye predstavleniya na osnove ierarkhicheskikh struktur iz dinamicheskikh neqronnikh setey, upravlyaemikh meskhanizmom vnimaniya. // Informatsionnye tekhnologii, N 2, 1998. 10. Kharlamov A.A. Neurosetevaya tekhnologiya predstavleniya I obrabotki informatsii (estestvennoye predstavlenie znaniy). - M.: "Radiotekhnika", 2006. - 89 s. 11. ChengXiang Zhai Statistical Methods for Mining Big Text Data. http://www.cs.illinois. edu/homes/czhai

i Надоели баннеры? Вы всегда можете отключить рекламу.