22
Анализ текстов с использованием искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов (часть 2)
Харламов А. А., доктор технических наук, старший научный сотрудник Института высшей нервной деятельности и нейрофизиологии РАН, профессор кафедры прикладной и экспериментальной лингвистики МГЛУ, профессор департамента программной инженерии ВШЭ, профессор кафедры интеллектуальных информационных систем и технологии Московского физико-технического института, Москва, [email protected]
Анализ смысла (содержания) текстов — достаточно непростой и редкий пример приложений из предметной области анализа текстов. Иерархия процессов анализа оцифрованных текстов от нижнего — графематического — уровня до верхнего — уровня допустимой сочетаемости корневых основ — семантического является естественной иерархией обработки текстовой информации в сознании человека. В работе представлены два уровня обработки из этой иерархии — лексический и семантический. Описано приложение — программная система для смыслового анализа текстов TextAnalyst, реализующее обработку двух уровней и формирующее семантическую сеть текста как результат такой обработки. Представлены примеры анализа, использующие подход для анализа текстов.
• анализ смысла текста • искусственные нейронные сети на основе нейроподобных элементов с временной суммацией сигналов • программа для смыслового анализа текстов • результаты анализа
2. АНАЛИЗ ПИСЬМЕННОГО ТЕКСТА КАК ИЗОБРАЖЕНИЯ
Текст можно рассматривать как изображение, алгоритм обработки которого в сознании человека выглядит примерно следующим образом. В процессе обучения чтению человек последовательно обучается
распознаванию символов алфавита, слов, предложений. В процессе обучения человек постепенно переходит от распознавания фрагментов отдельного символа алфавита языка — элементов словаря первого уровня к его восприятию как целого — элемента словаря второго уровня , в его сознании формируется словарь символов алфавита — словарь графематического уровня. Далее он научается использовать символы алфавита в их последовательности в слове. В его сознании формируется словарь флективных структур слова — элементов словаря третьего уровня — словарь морфемного уровня. Далее он научается использовать флективные структуры в их последовательности в слове вместе с корневыми основами. В его сознании формируется словарь корневых основ слова — словарь лексемного уровня. После достижения определенных навыков восприятия слов человек начинает воспринимать слова как единый символ с опорой на корневую основу.
После этого формируется еще два уровня словарей: формируется словарь флективных структур синтаксических групп — элементов словаря пятого уровня , который обеспечивает правильное использование формы текста — словарь синтаксического уровня, а далее, на семантическом уровне, словарь допустимой попарной сочетаемости корневых основ — словарь семантического уровня .
После завершения процесса восприятия слов как целых символов начинается обучение восприятию слов как символов в их последовательности в предложении: человек начинает воспринимать предложение как единое целое.
2.1. Структурный анализ цифрового текста
В минимальной конфигурации структурный анализ оцифрованного текста сводится к формированию вместо словарей шести уровней словарей только двух уровней: словаря (1) корневых основ слов {В, }4 и словаря (2) пар корневых основ
слов {В }б.
В отличие от изображений текстов, оцифрованные тексты обладают сравнительно малой вариативностью (по крайней мере на уровне словаря корневых основ, который соответствует уровню объектов в анализе изображений). Поэтому число слоев искусственной нейронной сети на основе нейроподобных элементов с временной суммацией сигналов, используемых для анализа текстов на уровне слов, не превышает длины самого длинного слова [9, 13], например равно 20.
В отличие от изображений, тексты линейны: механизм выявления точек наибольшей информативности перестает быть актуальным — элементы словаря корневых основ просто следуют в тексте друг за другом. Отношение между словами (корневыми основами слов) текста сводятся в простейшем случае к отношениям ассоциативности между ними. То есть предложения текста, а следовательно, и весь текст сводятся к перечислению пар смежных слов (первое - второе, второе - третье и т. д.).
Словарь уровня корневых основ формируется сравнительно просто: подсчетом частоты встречаемости корневых основ в тексте. Поэтому рассмотрим более подробно лишь формирование словаря семантического уровня.
23
ikiii..
ж
_
Харламов А. А.
Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов
с временной суммацией сигналов (часть 2)
24
2.1.1. Словарь семантического уровня
Словарь семантического уровня |В(. } формируется как словарь попарной сочетаемости корневых основ слов: как множество несимметричных пар событий <ср] > , где с. и с] — корневые основы — события, связанные между собой отношением ассоциативности (совместной встречаемости в предложении текста).
Таким образом, текст сводится к перечню корневых основ слов и пар корневых основ слов, которые (виртуально) соответствуют однородной семантической сети. То есть на верхних уровнях анализа текста можно перейти к манипулированию семантическими сетями.
2.1.2. Семантическая сеть текста
Словарь самого верхнего уровня — словарь попарной сочетаемости корневых основ в тексте (словарь ограничений на сочетаемость). Словарь семантического уровня является виртуальной однородной (ассоциативной) направленной семантической сетью. Действительно, если мы соберем из пар слов (точнее, корневых основ слов) цепочки, то получим цепочки с зацикливаниями и ветвлениями. Однако такая частотная сеть (где известна частота встречаемости отдельных слов в тексте, а также попарная встречаемость слов в предложениях текста) является лишь исходной основой для получения собственно семантической сети. Для пересчета частот встречаемости в смысловой вес используется переранжирование сети с помощью итеративной процедуры, аналогичной алгоритму сети Хопфилда [19].
Направленная однородная семантическая сеть N — это граф, вершины которого соответствуют корневым основам слов словаря {В. }4 корневых
основ слов анализируемого текста (корпуса текстов, языка в целом), а дуги — ассоциативной связи — попарной сочетаемости корневых основ слов в предложениях текста.
Определение 1. Под семантической сетью N понимается множество направленных пар событий {<сс >} , где с1 и с} — события, связанные
между собой отношением ассоциативности (совместной встречаемости в предложениях текста):
N = {<сс >}. (11)
В данном случае отношение ассоциативности несимметрично:
< сс >^< сс >.
Определение 2. Весом образа события с1 в сети является значение счетчика появления событий во входном тексте.
2.1.3. Шаблон ситуации, включающий шаблон предложения
Механизм восприятия отдельного слова и механизм восприятия отдельного предложения очень сильно отличаются. До уровня слова языка формирование словарей разных уровней (символов алфавита, флективных
морфем, корневых основ, устойчивых словосочетаний) осуществляется в колонках коры полушарий большого мозга в процессе структурного анализа. Восприятие отдельных предложений (фраз) опирается на формируемые в ламелях гиппокам-па шаблоны ситуаций [9, 13], в состав которых в доминантном гиппокампе входят и представления предложений текста (в том числе в форме записанного предложения) [9, 13, 17]. Шаблоны ситуаций представлены в ламелях гиппокампа в едином для всех ламелей по длине гиппокампа поле СА3 — ассоциативной памяти Хопфил-да [19].
В их формировании наряду с механизмами формирования словарей образов событий различной частоты встречаемости, а также выявления связей между этими образами во входной информации очень важно вычисление рангов вершин семантической сети, для чего необходим механизм переранжирования их весовых характеристик.
2.1.4. Переранжирование вершин сети
Представление о составе корневых основ слов в текстах языка и их связности — это качественное представление о содержании текста. Анализ содержания текста должен предполагать возможность количественной оценки как рангов вершин этой сети, так и характеристик связей.
Так, при формировании сети на основе большого корпуса текстов получаются корректные весовые характеристики вершин-понятий: частота их встречаемости приближается к их смысловому весу. При анализе малых по объему текстов частота встречаемости уже не характеризует важности понятия. В этом случае для выявления рангов вершин весовые характеристики понятий ассоциативной сети переранжируются посредством итеративной процедуры, аналогичной алгоритму сети Хопфилда [19], что позволяет перейти от частотного портрета текста к ассоциативной сети ключевых понятий текста:
w (t+1)= Ew (t )w,
(12)
здесь №, (0) = ; №у = 2у / 21; и а(Е) = 1/ (1+е кЕ) — функция, нормирующая на среднее значение энергии всех вершин сети Е ,
где — частота встречаемости /-го слова в тексте,
1Ц — частота совместной встречаемости /-го иу-го слов в фрагментах текста.
В результате такого переранжирования меняются первоначальные весовые характеристики слов. Слова, которые в сети связаны с большим числом слов с большим весом, в том числе через промежуточные слова, в результате такой процедуры повышают свой вес, вес остальных слов равномерно уменьшается. Полученная числовая характеристика слов — их смысловой вес — характеризует степень их важности в тексте.
3. АЛГОРИТМ
В отличие от изображений — двумерных образов трехмерных объектов, текст — одномерная последовательность элементов языка. Язык представляет собой иерархию
25
ifclulm.......
'Ijiffrr
Харламов А. А.
Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов
с временной суммацией сигналов (часть 2)
уровней, представленную уровнеобразующими элементами от графем (уровень элементов алфавита) до пар корневых основ (уровень представления их допустимой сочетаемости — семантики).
Для простоты (игнорируя подробности формы, морфологию и синтаксис) можно разбить эту иерархию на два уровня: на первом уровне представлены сочетания символов алфавита в словах (корневых основах слов), а на втором уровне — сочетания пар корневых основ.
В процессе обработки конкретного текста (корпуса текстов) эти словари заполнятся: первый — корневыми основами слов, а второй — парами корневых основ. Эти последние нам понадобятся для формирования однородной семантической сети.
Для формирования словарей уровнеобразующих единиц языка этих двух уровней (корневых основ и пар корневых основ) нам понадобятся нейронные сети на основе нейроподобных элементов с временной сумма-цией сигналов (в отличие от традиционно используемых в различных нейросетевых парадигмах, в том числе и в сверточных сетях — нейронов с пространственной суммацией), чтобы отражать связи элементов нижнего уровня в элементах верхнего уровня.
Для анализа текстовых последовательностей будут использоваться искусственные нейронные сети на основе небинарных нейронов с временной суммацией сигналов. Небинарные нейроны отличаются от описанных выше бинарных нейронов с временной суммацией сигналов (которые удобно использовать для объяснения механизма структурной обработки на пальцах, но нельзя использовать для анализа реальных текстов) наличием обобщенного дендрита, на вход которого поступает кодовая последовательность, состоящая из векторов (рис. 7).
Рис. 7. Небинарный нейроподобный элемент с временной суммацией сигналов, у которого имеется несколько (Ю обобщенных дендритов (регистров сдвига длины п), включающий сумматор и пороговый преобразователь. Помимо дендритов, сумматора и порогового устройства в состав нейрона входит область памяти для записи гетероассоциативной информации, и счетчики, которые считают число совместных появлений адреса нейрона во входной кодовой последовательности и сопутствующей адресу информации.
26
3.1. Небинарный нейрон с временной суммацией сигналов
Небинарный случай, когда на вход поступает недвоичная кодовая последовательность, не отличается по существу от бинарного, только при этом происходит отображение кодовой последовательности не в одномерный единичный гиперкуб (как в бинарном случае), а во все многомерное пространство.
В качестве входной кодовой последовательности используется последовательность ^-значных векторов признаков, элементами которых являются неотрицательные действительные числа. Каждый из которых поступает на свой регистр сдвига.
В этом случае пирамидные нейроны третьего слоя колонки коры моделируются так называемым динамическим ассоциативным запоминающим устройством [9, 13] (далее — ДАЗУ), которое представляет собой множество (рис. 8) параллельно включенных нейроподобных элементов (см. рис. 7), запоминающих в соответствующих счетчиках совместные появления фрагментов длины п входной кодовой последовательности, состоящей из ^-разрядных векторов и сопутствующей информации.
Рис. 8. Динамическое ассоциативное запоминающее устройство как множество
инициированных нейронов
Множество нейроподобных элементов, составляющих ДАЗУ, формируется под входную информацию: появление на входе ДАЗУ значащей информации (п подряд идущих ^-значных векторов признаков) приводит к появлению в ДАЗУ нейроподобного элемента с адресом, соответствующим пх^-элементной матрице, включающей п последовательно идущих ^-значных векторов признаков. В ДАЗУ формируется столько нейроподобных элементов, сколько нужно, чтобы отобразить всю входную кодовую последовательность.
Нейроподобные элементы с временной суммацией входных сигналов, входящие в состав ДАЗУ, моделируют своими адресами вершины (пх^)-мерного сигнального
27
ikiii..
ж
_
Харламов А. А.
Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов
с временной суммацией сигналов (часть 2)
пространства. Рассмотрим формализм обработки информации в таком небинарном ДАЗУ.
Пусть мы имеем (пхк)-мерное сигнальное пространство Нпхк. Для дальнейшего изложения введем некоторые обозначения и определения.
Обозначим через {Л} множество кодовых последовательностей, сформированных сигнальной периферией некоторого (например, речевого) анализатора, элементы которых есть векторы признаков, из которых состоят входные последовательности А = (. ..а_.., а0,а., ...,а!,...), где а! — к-значный вектор признаков, компоненты которого — неотрицательные действительные числа (например, кепстральные коэффициенты в случае анализа речевого сигнала).
Обозначим через {А} — множество траекторий последовательностей, соответствующих множеству входных последовательностей {А}, элементы которых а(. есть точки пространства Япхк, то есть а1 еК1Хк, где а, =(а1_тк+1 а__пхк +2 ...,а(.) — последовательные фрагменты длины п последовательности А к-значных векторов, сдвинутые относительно друг друга на один вектор (за один такт времени) — координаты точек многомерного пространства Нпхк.
Определение 3. Траектория — это последовательность точек а( многомерного пространства Я™к, соответствующих входной кодовой последовательности А.
(13)
Введем преобразование Рпхк:
?пхк :А ® Д,РпХк (А) = А,
где А = (..., а1,...: а1 еЯ"*к),
а А = (..., а_2,а_.,, ...&,.,...) =
= (.••,(а_п*к_., а_п*к,.■ ■ ,а_2), (а_„Хк, а_п*к+.,.,а_1), (а/_пхк+., а,_п*к+2,.,а/), .■■)■
28
Введенное преобразование Ртк, которое формирует траекторию в пхк-мерном сигнальном пространстве, и координаты точек которой задаются п-членными фрагментами исходной входной векторной последовательности А, является основой для структурной обработки информации (так же как и в бинарном случае). Оно обладает свойством ассоциативности обращения к точкам траектории А по п-членному фрагменту последовательности А: любые п векторов исходной последовательности А адресуют нас к соответствующей точке траектории А.
Ассоциативность преобразования (13) позволяет сохранить топологию структуры преобразуемой информации: одинаковые фрагменты входной последовательности преобразуются в один и тот же фрагмент траектории, разные — в разные фрагменты траектории. Поскольку в общем случае входная последовательность А может содержать повторяющиеся п-членные фрагменты, это приводит к возникновению
точек самопересечения траектории (в том числе к повторному прохождению целых фрагментов траектории).
Пусть задана некоторая последовательность J и траектория А е Я.тк , соответствующая последовательности А. Введем функцию M (14), ставящую в соответствие каждой точке траектории А элемент последовательности J:
м (а {ЛЧа {у (14)
Полученную траекторию [А]] будем называть траекторией (так же как и в бинарном случае), обусловленной последовательностью J:
= м(А)'^). (15)
Определение 4. Таким образом, функция M осуществляет запись последовательности J в точках траектории А (в ассоциации с последовательностью А). Назовем эту функцию функцией памяти, последовательность J — информационной или обуславливающей последовательностью, последовательность А — несущей последовательностью, а такой способ записи — гетероассоциативной записью.
Определение 5. Восстановление информационной последовательности J по обусловленной ею траектории [А]^ и несущей последовательности А осуществляется с помощью функции:
«[ А1 = J, (16)
где R назовем функцией считывания. При этом ассоциативное отображение в многомерное пространство несущей последовательности А приводит к прохождению точек соответствующей траектории А, что и позволяет считывать символы последовательности J.
Определение 6. Таким образом, имея несущую последовательность и обусловленную последовательностью J траекторию, с помощью функции (16) можно восстановить исходную информационную последовательность. Такой способ воспроизведения назовем гетероассоциативным воспроизведением.
Пусть А — несущая последовательность. Если в качестве обусловливающей последовательности используется та же последовательность А, то имеем случай самообусловливания. Очевидно, что в этом случае обусловленная последовательность может быть получена следующим образом:
[А|А = M (^ (А),А ), (17)
где А =Рпхк (А).
Определение 7. В случае самообусловливания восстановление информационной последовательности возможно с использованием функции (18):
А]а ) = А. (18)
Такая запись называется автоассоциативной записью, а воспроизведение — автоассоциативным воспроизведением.
29
ikiii..
ж
Харламов А. А.
Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов
с временной суммацией сигналов (часть 2)
Таким образом, использование функций М и R совместно с преобразованием Ртк, обладающим свойством ассоциативного обращения к информации, позволяет реализовать ассоциативную память с возможностью авто- и гетероассоциативной записи/воспроизведения информации и в небинарном случае.
3.1.1. Учет частоты появления траекторий
В отличие от бинарного случая, где частота перехода в точке ветвления учитывается с помощью двух счетчиков, в небинарном случае этот механизм невозможно реализовать: число комбинаций возможных переходов бесконечно, поскольку траектория формируется во всем объеме сигнального пространства. В естественных нейронных сетях этот механизм реализуется на системном уровне с учетом взаимодействия отдельных нейронов в когнитивных сетях, который осуществляется та-ламусом. Этот механизм выходит за рамки настоящей работы, поэтому задача решается простым учетом в каждом отдельном случае комбинации адресного фрагмента и адреса целевой точки (адреса следующего нейрона).
Другими словами, под каждую текущую точку траектории и конкретный текущий переход к следующему адресу выделяется отдельный нейрон, поэтому один-единственный счетчик этого нейрона запоминает строго число повторений этой комбинации. Дилемма наличия нескольких нейронов с одинаковой адресной частью разрешается простым сравнением счетчиков этих нейронов.
Возвращаясь к естественным нейронным сетям, необходимо сказать, что в реальных ситуациях обработки конкретной информации таламус выделяет подсеть, которая относится только к этой конкретной сенсорной входной последовательности, а потому необходимое число нейронов для хранения именно этой информации сравнительно невелико.
Таким образом, так же как и в бинарном случае, механизм памяти (19) представляет собой счетчик, фиксирующий число прохождений заданной точки траектории в заданном направлении С, . Использование счетчиков позволяет определить для заданной точки значение наиболее вероятного перехода. Так же как и количество потребных для запоминания нейронов, количество счетчиков определяется потребностями конкретного запоминаемого массива информации.
Пусть задана несущая последовательность А, а также порожденная этой последовательностью траектория А. Тогда счетчики С-а. для /-й точки траектории А для ^го момента времени вычисляются следующим образом:
М(a(,ai+1) = [ai+1]=Ca( (t)=C% (t-1) + 1|a/+1 e\/s,
(19)
где V5 — множество векторов перехода а1+1 е Я" адресом.
для нейрона с данным
30
При воспроизведении анализируются состояния счетчиков, и текущий символ формируется в зависимости от выполнения условия:
Такой механизм памяти чувствителен к числу прохождений заданной точки в заданном направлении и позволяет характеризовать каждую точку траектории с точки зрения частоты появления во входной информационной последовательности любого повторяющегося фрагмента. Именно он позволяет сформировать словари повторяющихся фрагментов во входной информации, являясь базовым механизмом для структурной обработки.
Введем пороговое преобразование Н с порогом Ь. Тогда суперпозиция функций Н^МРпхк(А) позволит выделить в сигнальном пространстве только такие точки траектории, которые были пройдены не менее Ь раз.
Использование порогового преобразования по обучению (по числу прохождений траектории) позволяет формировать словари повторяющихся во входных кодовых последовательностях фрагментов (уровнеобразующих элементов уровней языка в выбранном нами случае речевого анализа).
3.1.2. Расфокусированное преобразование
Расширением понятия преобразования Рявляется расфокусированное преобразование Р(г) [8, 12], преобразующее каждый п-членный фрагмент векторов последовательности не в точку многомерного пространства, а в множество вершин, лежащих в окрестности указанной точки радиуса г. Исходная последовательность А, таким образом, отображается в трубку радиуса г с осью-траекторией А :
Использование расфокусированного преобразования Р(г) позволяет увеличить надежность воспроизведения, если при обучении была сформирована нерасфокусиро-ванная траектория. При этом, в случае ухода с траектории, в результате зашумле-ния входной информации (например, замены части символов последовательности), среди точек г-й окрестности текущей точки траектории могут содержаться и точки траектории, в которых записана нужная информация. При воспроизведении, на основе этой информации (информации о переходе, содержащейся в счетчиках точек г-й окрестности), а также взятой со своим весом информации о следующем символе входной последовательности, инициировавшей воспроизведение, принимается решение о следующем символе воспроизводимой последовательности. Решение принимается на основе сравнения значений счетчиков для всех точек г-й окрестности.
При этом возможны четыре случая. В первом случае в текущем векторе входная последовательность совпадает с запомненной последовательностью. Воспроизводится запомненная последовательность. Если входная последовательность не совпадает в данном векторе с запомненной, но вес информации о переходе в точках окрестности адресуемой точки превышает вес входной информации, воспроизведение идет по запомненной траектории. Обратная картина: вес входной информации оказывается большим. В этом случае воспроизведение уходит с записанной траектории в пустые области сигнального пространства и прекращается. Воспроизведение
(20)
(21)
31
ikiii..
ж
_
Харламов А. А.
Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов
с временной суммацией сигналов (часть 2)
восстанавливается после того, как в п-разрядном регистре вновь появится п-членный фрагмент последовательности векторов, адресующий к записанной траектории. Это происходит не более чем за (п - 1) тактов. И, наконец, если суммарный вес точек окрестности оказывается равным весу входного вектора, мы имеем случай, когда не можем принять решения на основе записанной информации — решение принимается по информации с верхнего уровня иерархии представлений (см. далее) или по некоторому закону, например случайным образом.
В этом случае воспроизведение осуществляется вместо формулы (20) по формуле:
a+i = R (ft ])={t)) laevrs:aj,
(22)
|/з гэпхк
где Уга — окрестность радиуса г точки а1 е К ■
32
3.2. Формирование семантической сети
Искусственная нейронная сеть в этой системе представлена многослойной структурой из множества параллельно включенных нейронов размерности п = 2, где в первом слое нейроны формируют адрес при обучении, состоящий из символов двух первых букв корневой основы каждого слова, и запоминают они свой индекс, а в каждом последующем слое адрес формируется из индекса предыдущей комбинации и последующей буквы корневой основы этого слова.
3.2.1. Формирование словаря корневых основ
Такая искусственная нейронная сеть имеет несколько слоев (например, 20). В первом слое запоминается двухчленная комбинация символов алфавита, а в последующих слоях запоминается индекс нейрона первого слоя и следующий символ алфавита из анализируемого слова. Помимо этой информации в конкретном нейроне запоминается частота встречаемости этой комбинации в тексте.
Результирующее состояние конкретного нейрона достигается после прекращения изменения его состояния: это значит, что этот нейрон является завершающим в комбинации нейронов, содержащих информацию по конкретной корневой основе. В его памяти хранится частота встречаемости этой корневой основы в тексте.
Аналогичным образом удается отследить наличие в тексте устойчивых словосочетаний. Только в этом случае финальное состояние последнего в цепочке нейрона достигается с последней комбинацией, включающей последний символ алфавита, входящий в это словосочетание.
3.2.2. Формирование словаря пар корневых основ
Для второго уровня — семантического — также можно построить нейронную сеть, но проще просто запоминать пары индексов корневых основ,
чтобы потом построить из них однородную (ассоциативную) семантическую сеть, с которой далее можно осуществлять различные манипуляции, сравнивая тексты по смыслу, классифицируя тексты, кластеризуя тексты на группы, формируя реферат или тематический реферат текста.
3.2.3. Формирование однородной семантической сети
Пары корневых основ из словаря попарной сочетаемости (семантического уровня) виртуально составляют однородную (ассоциативную) направленную семантическую сеть, где есть ветвления и зацикливания.
3.2.3.1. Частотная сеть
И вершины, и дуги первичной сети нормированы: первые — частотой встречаемости корневых основ в тексте, вторые — частотой попарной встречаемости корневых основ в предложениях текста.
Для подсчета ранга вершин сети, соответствующих рангам понятий в тексте, необходимо провести итеративную процедуру перевзвешивания, в результате которой ранги соответствующих вершин становятся зависимыми от их связей с другими вершинами сети. Глубина перевзвешивания (число итераций) выясняется либо вследствие сходимости итеративного процесса, либо задается волевым порядком (например, устанавливается равной 10 — выберем таковым среднее число слов в предложении текста).
3.2.3.2. Переранжирование вершин сети
Переранжирование частоты встречаемости в смысловой вес позволяет реализовать интеллектуальные процедуры над текстами и корпусами текстов: извлекать ключевые слова, реферировать, сравнивать по смыслу, классифицировать, кластеризовать.
п-граммная модель текста. Поскольку для произвольного текста нет достоверного априорного знания о равенстве распределений слов в разных позициях строки, вводится контекстная привязка — через условные вероятности [20]. Для этого переходим к п-граммной, а точнее, к «односторонней» п-граммной модели, а именно принятой при использовании п-грамм «правосторонней» модели, в которой вероятность очередного слова строки задается в зависимости от предшествующих ему (п - 1) слов, что записывается как р№п | W1...W"_1). Тогда:
Р(W1 -Wn-Wn ) = Р(Wn 1 WVWn-1)PК -Wn-l)
В терминах вероятности «быть справа» имеем:
(23)
или
n
(24)
k=1
33
ikiii..
ж
Харламов А. А.
Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов
с временной суммацией сигналов (часть 2)
34
Введя фиктивный символ «начало» и договорившись, что р^., | @р(м.,), можно переписать:
p(wv..wn ) = 1 wv..wk _i),
(25)
Оценкой вероятности п-граммы служит частота ее встречаемости:
I
р К 1 ™ ,-п = Г К 1 ™ ,-п = -
C(wi-n -ww)
C(w-n -w,-l)
Так для биграммной модели оценкой вероятности биграммы является частота ее появления в тексте:
р К | ) = г | )= ' '
C(w,.
Использование п-граммной модели хоть и более корректно при анализе текстов с лингвистической точки зрения, увы, невозможно при п > 3 для текстов нефлективных языков, а для флективных языков п не может превысить 2, так как в мире не существует такого количества текстов соответствующего языка для обучения модели соответствующей граммности [21]. Для русского языка пользуются, например, 2,5-грамм-ными моделями, где пары рассматривают как пары слов, а в тройки включают наряду с парой слов третьим элементом — грамматическую категорию вместо соответствующего слова. Либо используют другие эмпирические натяжки.
Использование частного случая представления текста в виде однородной семантической сети позволяет ввести п-граммность аналитически [22].
Использование сетевой п-граммной модели для выявления тематики
текста
Условно темами будем называть первые слова цепочки слов длины п символов на семантической сети. В случае сошедшегося процесса переранжирования это будут реальные темы текста.
Определение 8. В биграммной модели будем считать темами те «вторые» (в биграмме: первое слово - второе слово) слова наибольшего ранга, которые связаны с наибольшим числом «первых» слов. В триграмм-ной модели темами будем считать те «третьи» слова (вторые «вторые») наибольшего ранга, которые связаны с наибольшим числом «вторых» слов, имеющих наибольший ранг в терминах биграммной модели. И так до п-го порядка модели. Тогда в п-граммной модели темами будем считать те «п-е» слова наибольшего ранга, которые связаны с наибольшим числом «(п - 1)-х» слов (п - 1)-граммной модели. Таким образом, автоматически формируются тематические деревья, в которых главными темами текста являются темы п-го уровня (п-е слова) наибольшего ранга, их подтемами являются темы (п - 1)-го уровня (п - 1)-е слова), их подподтемами — темы (п - 2)-го уровня и т. д.
n
k=1
Начнем с рассмотрения тем первого уровня (биграммной модели текста). Для этого сначала рассмотрим понятие семантической сети, которое делает прозрачным применение сетевых п-граммных моделей текста. Для этого введем еще несколько определений. Определение однородной семантической сети было дано ранее.
Применительно к содержанию статьи событиями c¡ и cj определения семантической сети являются слова wj текста. Следующие друг за другом пары слов (wj,wj) текста и составляют однородную семантическую (ассоциативную) сеть:
N @ {< >}.
В данном случае отношение ассоциативности несимметрично: < >^< wjw >
Определение 9. Семантическая сеть, описанная таким образом, может быть представлена как множество так называемых звездочек { < wj < wj >> }:
N @ } = {< wi < > >}.
Определение 10. Имея в виду, что события wj и wj это слова текста, тогда под звездочкой < wj < wj >> понимается конструкция, включающая главное слово wj, связанное с множеством слов-ассоциантов {wj}, которые являются семантическими признаками главного слова, отстоящими от главного слова в сети на одну связь. Связи направлены от главного слова к словам-ассоциантам.
Биграммная модель. Если мы будем рассматривать последовательности из двух слов в сети текста, получим биграммную модель. Для каждого второго слова wj строки из двух слов \,wj) первое слово строки wj («слева направо») является темой: wj @tf (индекс «2» — поскольку биграммная модель). Объединим все пары слов с одинаковыми темами в звездочки. В этом случае вершина сети, соответствующая слову wl @^ , является корневой вершиной одного из тематических деревьев (в данном случае звездочек). Так как вероятность появления строки из двух слов (правосторонняя модель) в тексте р\ ,wj) = р((м]\)р\), вероятность появления темы @^ в биграммной модели есть сумма вероятностей появления пар с одинаковым первым словом (вероятность появления звездочки):
р ^ )=р )=Тр \ \ )=Тр \ I \ )р(26)
j=1 j=1
где J¡ — число слов Wj в сети (ассоциантов звездочки), связанных с первым словом вероятность р (\1) — это исходные вероятности распределения слов в тексте.
Введем условное понятие «темы» р(\,1)@^ для монограммного распределения. И так для каждого второго слова первое слово пары («слева направо») является темой: @ :
р(^)= р\) = Тр\\) = ТР\ I )р$) , (27)
j=1 j=1
Для того чтобы общая полученная сумма вероятностей Р) была равна единице:
N
ТР (I ) = 1' где п — число тем, необходимо нормировать полученные для каждой
35
n=1
ikiii..
ж
_
Харламов А. А.
Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов
с временной суммацией сигналов (часть 2)
36
темы ^ суммы. В общем случае число тем совпадает с числом всех слов текста Т = W, но обычно выбирают лишь несколько главных тем: Т ^.
Нормирование осуществляется на сумму по всем темам t1:
т 'и р \ | \ )р ? 1)
р (t 2 У
ELE t p Ww )р (t1
(28)
Здесь р) в формуле (27) означает вероятность появления отдельного слова (то есть вероятность из монограммной модели). А р ) — вероятность появления звездочки из биграммной модели. Причем главное слово звездочки в терминах биграммной модели является темой для ее ближайших ассоциантов — семантических признаков — «вторых» слов.
Триграммная модель. Рассмотрим теперь не последовательности длиной в два слова, а последовательности длиной в три слова на сети текста, то есть триграммную модель.
р \ ) = р \ I )р \ \) = р \ I )р \1 \ | )р \ ,).
Тогда вероятность появления строки из первых двух слов в строке из трех слов можно получить, как и в (27), суммированием по третьему слову:
j
p(WWj )=Tp(WWjwk)
и вероятность появления первого слова в строке из трех слов можно получить суммированием по второму слову:
4 К/
p (w, )=EEP (w;
wjwk )■
j=1 k=1
Тогда р^) вычисляется в соответствии с выражением (27) в рамках биграммной модели, р\|)@р), а вероятность появления второго слова пары в зависимости от появления первого слова пары в тексте одна и та же, независимо от граммности модели текста, как следует из сетевого представления текста (взаимосвязанные пары слов остаются теми же):
Т1 р \ 112 )р ? 2
p (t з У
E,=E j=i р bn? )р (t 2
(29)
где ^ и tf обозначают, соответственно, темы в соответствии с биграммной и триграммной моделями, а число тем, как и ранее, может соответствовать числу слов в тексте Т = W, но обычно ограничивается волевым решением до Т< W . К корневым вершинам tf крепятся через «вторые» слова-вершины — звездочки — звездочки биграммной модели.
z2 =
{< 12{t 1} >}■
k=1
Итеративная процедура перевзвешивания. То же будет и для п-граммной модели. Хотя надо заметить, что, начиная с некоторого п, процесс сойдется, так как зависимость слов, как правило, в модели языка сказывается не далее, чем на длине простого предложения. Другими словами, мы имеем итеративную процедуру перевзвешивания, которая позволяет найти значения вероятностей появления тем ^ (в случае использования сетевой п-граммной модели) в тексте.
^I =1'
p (tf) е ;=i p w1 w )р (ti
p (t-3 )=
p (tn)
EI=iE J= 1 p fa К )p (t 1)' E!i p fa l w, )p(tf
E,=iE;=1 p fa i w )p (t; E J=i p fa i w, )p (r
е:=Е^ рК к )р$
где р(^) = р(к2) и р((К] I к,) — одинаковая для всех шагов итерации вероятность появления последующего слова текста при условии появления предыдущего слова.
3.2.3.3. Тематическое дерево
После того как мы построили семантическую сеть из множества пар слов {<юкК] >} (а фактически из звездочек < < >>), после того как мы переранжировали вершины семантической сети (итеративно пересчитали их весовые характеристики), мы можем построить тематическое дерево или для целого текста, или только для некоторого понятия, представленного в тексте, для чего извлечем из сети минимальный древовидный подграф Т.
Для извлечения из семантической сети минимального древовидного подграфа мы выберем пару слов (к 1 к ), у которой главное слово имеет наивысший среди всех пар вес. Присоединим к этой паре все другие пары, у которых главное слово то же, что и у первой пары < < >> . К полученной звездочке присоединим звездочки, у которых главные слова совпадают с второстепенными словами первой звездочки. При этом соблюдаем два условия: 1) если второстепенное слово какой-нибудь пары присоединенной звездочки совпадает с главным словом одной из звездочек уже сформированной части тематического дерева, в этом месте процесс прекращается, и эта пара этой звездочки выбрасывается из рассмотрения; 2) анализируются весовые характеристики второстепенных слов присоединенных пар, и если весовая характеристика какого-либо второстепенного слова какой-либо из присоединенных звездочек оказывается меньше заранее заданного порога Л, эта пара выбрасывается из рассмотрения, и процесс на этой ветви прекращается.
Определение 11. Тематическим деревом Т будем называть множество пар слов семантической сети М, полученных с помощью описанной выше процедуры и удовлетворяющих условиям 1 и 2.
Если корневых вершин оказывается больше одной, мы строим столько тематических деревьев, сколько корневых вершин получилось.
37
1. 2.
3.
4.
5.
6.
7.
8.
9.
10. 11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
:ок использованных источников
Zhang Yikang, Zhang Jian, Wang Qiang, Zhong Zhao DyNet. Dynamic Convolution for Accelerating Convolutional Neural Networks arXiv:2004.10694v1 [cs.CV] Data Set. Kharlamov A., Gordeev D. and Pantiukhin D. Distributional and Network Semantics. Text Analysis Approaches. Neuroinformatics and Semantic Representations. Theory and Applications. Collective Monography. Chapter Four. Cambridge Scholars Publishing. Pp. 83-139. 2020. https://www.cambridgescholars.com/neuroinfor-matics-and-semantic-representations
Solaiman I., Brundage Miles, Clark J., Askell A., Herbert-Voss A., Wu, Radford A. Krueger G., Jong Wook Kim, Kreps S., McCain M. J., Newhouse A., Blazakis J., Mc-Guffie K., Wang J. Release Strategies and the Social Impacts of Language Models, 2019. arXiv:1908. Data Set.
He Kaiming, Zhang Xiangyu, Ren Shaoqing, Sun Jian. Deep Residual Learning for Image Recognition arXiv:1512.03385v1 [cs.CV] 10 Dec 2015.
Suhail M., Mittal A., Siddiquie B., Broaddus C., Eledath J., Medioni G., Sigal L. Energy-Based Learning for Scene Graph Generation arXiv:2103.02221v1 [cs.CV] 3 Mar 2021.
Sanches Almodovar Nuria Cognitive Surveillace Architecture for Scenario Understanding. Thesis doctoral Universidad Politecnica de Madrid 2015. Солдатова, О. П., Гаршин, А. А. Применение сверточной нейронной сети для распознавания рукописных цифр // Компьютерная оптика. — 2010. — Том 34, № 2. — С. 252-259. 2010.
Завалишин, Н. В., Мучник, И. Б. Модель зрительного восприятия и алгоритмы анализа изображений. — М.: Наука, 1974.
Харламов, А. А. Ассоциативная память — среда для формирования пространства знаний. От биологии к приложениям. — Дюссельдорф: Palmarium Academic Publishing, 2017. — 109 с.
Марр, Д. Зрение. Информационный подход к изучению представления и обработки зрительных образов. — М.: Радио и связь, 1987.
Харламов, А. А., Жаркой, Р. М., Волков, В. И., Мацаков, Г. Н. Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств // Информационные технологии. — 1998. — № 5. — С. 27-31.
Ярбус, А. Л. Движение глаз при восприятии сложных объектов // Хрестоматия по ощущению и восприятию. — М., 1975.
Neuroinformatics and Semantic Representations. Theory and Applications. Alexander Kharlamov & Maria Pilgun eds. 317 P. Cambridge Scholars Publishing. 2020. Радченко, А. Н. Моделирование основных механизмов мозга. — Л.: Наука, 1969. Rall, W. Electrophysiology of a dendritic neuron model. Biophys. J., 2. (Suppl.), 1962. Pp. 145-167.
Sholl, D. A. Dendritic organization in the neurons of the visual and motor cortices of the cat. J. Anat., 87, 1953. Pp. 387-406.
Rolls, E. T. Theoretical and Neurophysiological Analysis of the Functions of the Primate Hippocampus in Memory. In: Cold Spring Harbor Symposia on Quantitative Biology, Vol. LV, 1990, Cold Spring Harbor Laboratory Press. Pp. 995-1006. Виноградова, О. С. Гиппокамп и память. — М.: Наука, 1975. — 336 с. Hopfield, J. J. Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci. 79, 1982. Pp. 2554-2558. Бузикашвили, Н. Е., Самойлов, Д. В., Крылова, Г. А. N-граммы в лингвистике // Сборник: Методы и средства работы с документами. — М.: Диториал УРРС. 2000. 376 с. С. 91-130.
38
21. Холоденко, А. Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы. 2002. Т. 6, вып. 1-4. С. 381-394.
22. Харламов, А. А. Формирование л-граммной тематической модели текста// Речевые технологии. - 2016. - С. 15-23.
23. Харламов, А. А. Свидетельство о регистрации программы «Программа для автоматической смысловой обработки текстов на основе нейронных сетей TextAnalyst».
24. Харламов, А. А. Способ автоматизированной семантической индексации текста на естественном языке. Патент на изобретение № 2518946, приоритет от 27 ноября 2012г. Зарегистрировано 11 апреля 2014г.
25. Р-система. Введение в экономический шпионаж. Практикум по экономической разведке в современном российском предпринимательстве. В 2-х книгах. — М.: Изд-во «Хамтек Паблишер», 1997.
26. Харламов, А. А. Нейросетевая технология представления и обработки информации (естественное представление знаний). — М.: Радиотехника, 2006. — 89 с.
27. Голенков, В. В., Гулякина, Н. А. Принципы построения массовой семантической технологии компонентного проектирования интеллектуальных систем. Труды конференции "Open Semantic Technologies for Intelligent Systems" (OSTIS 2012). 2012. Pp. 23-24.
28. Smirnov I., Stankevich M., Kuznetsova Yu., Suvorova M., Larionov D., Nikitina E., Savelov M., and Grigoriev O. TITANIS: A Tool for Intelligent Text Analysis in Social Media. Springer Nature Switzerland AG 2021 S. M. Kovalev et al. (Eds.): RCAI 2021, LNAI 12948, pp. 232-247. 2021.
TEXT ANALYSIS USING ARTIFICIAL NEURAL NETWORKS BASED ON NEURAL-LIKE ELEMENTS WITH TIME SUMMATION OF SIGNALS (PART 2)
Kharlamov A. A., Doctor of Technical Sciences, Senior Researcher Institute of Higher Nervous Activity and Neurophysiology of the Russian Academy of Sciences, Professor of the Department of Applied and Experimental Linguistics of MGLU, Professor of the HSE Department of Software Engineering, Professor of the Department of Intelligent Information Systems and Technology of the Moscow Institute of Physics and Technology, Moscow, [email protected]
Analysis of the meaning (content) of texts is a rather difficult and rare example of applications from the subject area of text analysis. The hierarchy of the processes of analysis of digitized texts from the lower - graphematic - level to the upper -level of permissible compatibility of the root bases - semantic is a natural hierarchy of processing textual information in the human mind. The paper presents two levels of processing from this hierarchy - lexical and semantic. An application is described -a software system for semantic analysis of texts - TextAnalyst, which implements processing of two levels, and forms a semantic network of text as a result of such processing. Examples of analysis using the text analysis approach are presented.
• text meaning analysis • artificial neural networks based on neural-like elements with time summation of signals • program for semantic analysis of texts • analysis results
39