Научная статья на тему 'Анализ текстов с использованием искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов (часть 3)'

Анализ текстов с использованием искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов (часть 3) Текст научной статьи по специальности «Прочие гуманитарные науки»

CC BY
1
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
• анализ смысла текста • искусственные нейронные сети на основе нейроподобных элементов с временной суммацией сигналов • программы для смыслового анализа текстов • результаты анализа / • analysis of text meaning • artificial neural networks based on neuron-like elements with temporal summation of signals • programs for semantic analysis of texts • analysis results

Аннотация научной статьи по прочим гуманитарным наукам, автор научной работы — Харламов А. А.

Анализ смысла (содержания) текстов — достаточно непростой и редкий пример приложений из предметной области «Анализ текстов». Иерархия процессов анализа оцифрованных текстов от нижнего — графематического — уровня до верхнего — уровня допустимой сочетаемости корневых основ — семантического является естественной иерархией обработки текстовой информации в сознании человека. В работе представлены два уровня обработки из этой иерархии — лексический и семантический. Описано приложение — программная система для смыслового анализа текстов — TextAnalyst, реализующее обработку двух уровней и формирующее семантическую сеть текста как результат такой обработки. Представлены примеры анализа, использующие подход для анализа текстов

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TEXT ANALYSIS USING ARTIFICIAL NEURAL NETWORKS BASED ON NEURAL-LIKE ELEMENTS WITH TIME SUMMATION OF SIGNALS (PART 3)

Analysis of the meaning (content) of texts is a rather difficult and rare example of applications from the subject area of text analysis. The hierarchy of processes for analyzing digitized texts from the lower — graphematic — level to the upper — level of acceptable combinability of root bases — semantic level is a natural hierarchy of processing textual information in the human mind. The paper presents two levels of processing from this hierarchy — lexical and semantic. An application — a software system for semantic analysis of texts — TextAnalyst, which realizes the processing of the two levels, and forms a semantic network of the text as a result of such processing, is described. Analysis examples using the approach for text analysis are presented.

Текст научной работы на тему «Анализ текстов с использованием искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов (часть 3)»

Анализ текстов с использованием искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов (часть 3)1

Харламов А. А., доктор технических наук, старший научный сотрудник Института высшей нервной деятельности и нейрофизиологии РАН, профессор кафедры прикладной и экспериментальной лингвистики МГЛУ, профессор департамента программной инженерии ВШЭ, профессор кафедры интеллектуальных информационных систем и технологии Московского физико-технического института, Москва, kharlamov@analyst.ru

Анализ смысла (содержания) текстов — достаточно непростой и редкий пример приложений из предметной области «Анализ текстов». Иерархия процессов анализа оцифрованных текстов от нижнего — графематического — уровня до верхнего — уровня допустимой сочетаемости корневых основ — семантического является естественной иерархией обработки текстовой информации в сознании человека. В работе представлены два уровня обработки из этой иерархии — лексический и семантический. Описано приложение — программная система для смыслового анализа текстов — TextAnalyst, реализующее обработку двух уровней и формирующее семантическую сеть текста как результат такой обработки. Представлены примеры анализа, использующие подход для анализа текстов.

• анализ смысла текста • искусственные нейронные сети на основе нейроподобных элементов с временной суммацией сигналов • программы для смыслового анализа текстов • результаты анализа

4. ПРОГРАММА ДЛЯ АВТОМАТИЧЕСКОГО СМЫСЛОВОГО АНАЛИЗА ТЕКСТОВ TEXTANALYST

С использованием такой архитектуры искусственной нейронной сети на основе нейронов с временной суммацией сигналов, а также процедуры перевзвешивания, была реализована программная система для автоматического смыслового

Начало см.: Речевые технологии. — 2023. — № 1. — С. 87; Речевые технологии. — 2023. — № 2. — С. 22.

анализа текстов TextAnalyst [23]. На основе этой технологии реализовано автоматическое формирование описания семантики (структуры) предметной области текста и реализуются функции организации текстовой базы в гипертекстовую структуру, автоматического реферирования, сравнения и классификации текстов, а также функция смыслового поиска.

4.1. Программная реализация технологии

Система реализована как инструмент для автоматического формирования баз знаний на основе множества естественно-языковых текстов. Ядро системы [24] выполнено как программный компонент (inproc server), соответствующий спецификации Component Object Model (COM) фирмы Microsoft.

Ядро системы реализует следующие функции. Нормализацию грамматических форм слов. Автоматическое выделение базовых понятий текста (слов и словосочетаний) и их отношений с вычислением их (слов и отношений) относительной значимости. Формирование представления семантики текста (множества текстов) в форме семантической сети.

В состав ядра системы, помимо блока первичной обработки, входят следующие блоки (рис. 9): лингвистический процессор, блок выделения понятий текста, блок формирования семантической сети, блок хранения семантической сети.

Рис. 9. Система анализа текстов, где (1) блок первичной обработки, лингвистический (2) и семантический (3) процессоры.

Лингвистический процессор состоит из словарей: (4) слов разделителей, (5) служебных слов, (6) общеупотребимых слов, а также (7) флективных и (8) корневых морфем. Семантически процессор, в свою очередь, содержит: (9) блок отсылок в текст, (10) блок формирования семантической сети, (11) блок хранения семантической сети, (12) блок выделения понятий и (13) блок

управления

4

4.1.1. Блок первичной обработки

Задачами этого блока являются извлечение текста из файла (входного потока данных) и подготовка его к обработке в лингвистическом процессоре. Подготовка текста заключается в очистке его от символов, неизвестных лингвистическому процессору, а также в корректной обработке таких единиц текста, как аббревиатуры, инициалы, заголовки, адреса, номера, даты, указатели времени.

4.1.2. Лингвистический процессор

Лингвистический процессор осуществляет предобработку входного текста (последовательности символов) на основе априорных лингвистических знаний, общих для выбранного языка (в настоящий момент поддерживаются несколько европейских языков, помимо русского и английского), и выполняет следующие функции. Сегментацию предложений текста на основе знаков пунктуации и специальных грамматических слов. Нормализацию слов и словосочетаний — фильтрацию флексий (окончаний) с сохранением только корневых основ. А также фильтрацию в тексте семантически несущественных, вспомогательных слов: удаляются предлоги, числительные и самые общеупотребимые слова с широким значением. И наконец, маркировку общеупотребимых слов.

Сегментация предложений позволяет разбить текст на участки (предложения), которые могут содержать терминологические словосочетания предметной области и избежать выделения неадекватных словосочетаний на стыках предложений.

В результате предобработки семантически близкие слова и словосочетания приводятся к одинаковой форме (нормализуются). Маркировка общеупотребимых слов необходима с целью исключения их выделения как самостоятельных терминов при дальнейшем анализе.

База общих языковых знаний лингвистического процессора содержит словари, по одному для реализации каждой из четырех функций: словарь слов — разделителей предложения, словарь вспомогательных слов, словарь флексий и словарь общеупотребимых слов.

4.1.3. Блок выделения понятий

Блок выделения ключевых понятий предметной области (слов и словосочетаний) создан как программная модель иерархической структуры из искусственных нейронных сетей — динамических ассоциативных запоминающих устройств (ДЗУ) на основе нейроподобных элементов с временной суммацией сигналов, и реализует алгоритм автоматического формирования частотного словаря текста.

Число уровней ДЗУ в иерархической структуре определяет априорно заданную максимально допустимую длину понятия (слова или словосочетания) предметной области и равняется двадцати.

На первом уровне иерархической структуры представлен словарь двухбуквенных специальных слов предметной области — слов, пропущенных через все фильтры лингвистического процессора и не отнесенных к общеупотребимым, а также первых двухбуквенных сочетаний из слов этого словаря. Там же хранятся двухбуквенные

слова общеупотребимой лексики, входящие в устойчивые словосочетания, и их начальные двухбуквенные фрагменты. Второй уровень иерархической структуры представляют ДЗУ, хранящие словари трехбуквенных слов и сочетаний букв из словарей специальных и обще-употребимых слов, встреченных в тексте, в виде индексов элементов соответствующих словарей первого уровня, дополненных одной буквой. На последующих уровнях представление информации полностью однородно — в ДЗУ хранятся индексы элементов хранения более низкого уровня, дополненные одной буквой.

В процессе формирования представления информации в иерархической структуре из ДЗУ подсчитывается частота встречаемости каждого сочетания букв в соответствующих элементах ИНС. Частота слов (сочетаний букв, не имеющих продолжения на следующем уровне) используется для последующего анализа.

Сформированное таким образом представление лексики текста подвергается затем пороговому преобразованию по частоте встречаемости. Порог отражает степень детальности описания текста. В процессе статистического анализа в иерархической структуре ДЗУ выделяются устойчивые термины и терминологические словосочетания, которые служат далее в качестве элементов для построения семантической сети. При этом общеупотребимые слова, а также словосочетания, содержащие только общеупотребимые слова, при анализе не используются.

4.1.4. Блок формирования семантической сети

Блок формирования семантической сети реализован как база данных, в которой представляются семантические связи понятий предметной области. Поскольку типы семантических связей в системе не определяются, такие связи представляют собой только ассоциативные связи.

В качестве критерия для определения наличия семантической связи между парой понятий используется частота их совместной встречаемости в рамках предложений текста. Превышение этой частотой некоторого порога позволяет говорить о наличии между понятиями ассоциативной (семантической) связи, а совместные вхождения понятий в предложения с частотой меньше порога считаются просто случайными.

Элементы семантической (ассоциативной) сети и их связи имеют числовые характеристики, отражающие их относительный вес в данной предметной области — семантический вес. При достаточно представительном множестве текстов, описывающих предметную область, значения частот встречаемости понятий отражают соответствующие семантические (субъективно оцениваемые) веса. Однако для небольших корпусов текстов, в частности при анализе отдельного текста, не все частотные характеристики соответствуют действительным семантическим весам — важности понятий в тексте. Для более точной оценки семантических весов понятий используются веса всех связанных с ними понятий, то есть веса целого семантического сгущения, полученные

6

в процессе переранжирования. В результате такого анализа наибольший вес приобретают понятия, обладающие мощными связями и находящиеся как бы в центре семантических сгущений.

4.2. Основные функции системы TextAnalyst

На основе полученной в результате обработки текста (корпуса текстов) семантической сети реализованы следующие функции обработки текстовой информации: (1) функция формирования гипертекстовой структуры (базы знаний), (2) навигации по базе знаний, (3) формирования тематического дерева, (4) реферирования текста, (5) автоматической кластеризации множества текстов, (6) сравнения текстов (автоматической классификации текстов), и наконец, (7) функция формирования ответа на смысловой зарос пользователя — формирования тематического реферата.

После формирования семантической сети исходный текст, объединенный гиперссылками с семантической сетью, становится гипертекстовой структурой. Семантическая сеть в этом случае оказывается удобным средством навигации по тексту. Она позволяет исследовать основную структуру текста, переходя от понятия к понятию по ассоциативным связям. С помощью гиперссылок пользователь может перейти от любого предложения непосредственно к его контексту в тексте. С этой же целью пользователь может пользоваться минимальным древовидным подграфом семантической сети — тематическим деревом. В нем оказываются иерархически представленными основные и соподчиненные понятия сети, причем понятия нижнего уровня объясняют содержание понятий более высокого уровня. Тематическим деревом также можно пользоваться для навигации по базе знаний, как и семантической сетью — оно напоминает оглавление текста.

Семантическая сеть с числовыми характеристиками ее компонентов — понятий и их связей — позволяет вычислить вес каждого предложения в тексте. Множество предложений текста, выбранных в порядке их появления в тексте, вес которых превысил некоторый пороговый уровень, можно считать рефератом текста.

Семантическая сеть исследуемого текста (или группы текстов) может быть разбита на подсети удалением из нее слабых связей. Каждая такая подсеть группируется вокруг некоторого понятия с максимальным весом в данной подсети. Это понятие обозначает тему части текста или отдельных текстов, которые оказываются сгруппированными в данной подсети. Такая автоматическая кластеризация позволяет разбить множество текстов на рубрики.

Используя числовые характеристики семантической сети, можно сравнивать сети двух текстов с точки зрения вычисления их пересечения (общей части). То есть можно сравнивать степень совпадения текстов по смыслу. Если в качестве одного из текстов берется целая рубрика, то имеется возможность оценить степень принадлежности исходного текста к данной рубрике, то есть автоматически классифицировать тексты.

Система для смыслового анализа текстов позволяет реализовать также смысловой поиск (сформировать тематический реферат). Функция смыслового поиска, основываясь на ассоциативном иерархическом представлении содержания информации

в базе, функциях кластеризации и классификации, осуществляет выборку информации, соответствующей запросу пользователя, и структурирует ее в соответствии с близостью к запросу.

Смысловой поиск, используя ассоциации, способен выдавать пользователю информацию, явно не указанную в тексте запроса, но связанную с ней по смыслу. Использование такого подхода ведет не к увеличению объема выдаваемой пользователю информации, а к ее тщательному отбору и анализу по главному критерию — смысловой близости к запросу.

4.3. Предварительная подготовка текста

Для удобства анализа и с целью получения более устойчивого анализа из текстов, до собственно тематического анализа, обычно удаляют слова, заведомо не несущие смысла: стоп-слова, рабочие слова и слова общеупотребимые. Словарь ключевых понятий, полученный в результате предварительной подготовки текста, может содержать как отдельные слова, так и устойчивые словосочетания либо в форме леммы (либо в виде корневой основы), или их последовательности.

Более устойчивая тематическая модель может быть построена, если объединить вершины сети, относящиеся к одной словоформе (не различать формы одного и того же слова). Это упрощает словарь, делает статистику более робастной, а также уменьшает вычислительные затраты на формирование и использование модели и упрощает интерпретацию результатов.

Той же цели служит и введение специальных словарей — фильтров стоп-слов, рабочих и общеупотребимых слов, наличие которых в тексте не улучшает восприятия смысла текста.

4.4. Сравнение текстов. Классификация текстов

Поскольку далее нам придется выявлять смысл текстов их соотнесением с моделями предметных областей, рассмотрим вопросы сравнения текстов по смыслу и, далее, классификацию текстов. Все, что будет сказано ниже, в равной степени относится как к семантическим сетям и прочим упоминавшимся выше конструкциям в текстах, так и к когнитивным представлениям в многомерном (когнитивном) пространстве (которое моделируется и колонками коры, и ламелями гиппокампа).

Определение 12. Под пересечением семантических сетей понимается сумма пересечений звездочек, включенных в эти сети (считая по главным понятиям).

Определение 13. Под классификацией текста можно понимать отнесение семантической сети текста N к одной из сетей где I = 1.Х (/ — число предметных областей) одной из предметных областей модели мира. Здесь объединение сетей ^N1 соответствует модели мира М1_ тексто-

8

вой модальности. В идеальном случае семантическая сеть текста вкладывается в сеть соответствующей предметной области.

Используя операцию пересечения сетей N1 и М2, мы можем оценивать степень подобия двух сетей М, п N2 (рис. 10) и тем самым сравнивать по смыслу (по структуре) тексты (их модели). Имея модели предметных областей в виде ассоциативных семантических сетей, мы можем классифицировать входные тексты (описывающие их модели) вычислением степени совпадения (вложения) сети входного текста и сетей предметных областей (рис. 11), относя входной текст к той предметной области, у которой степень совпадения сети входного текста с сетью предметной области окажется выше.

Рис. 10. Пересечение N1 N двух сетей N1 и характеризующее степень

их смыслового подобия

Рис. 11. Классификация входного текста путем выявления степени вложенности его семантической сети в одну или несколько семантических сетей классов-рубрик —предметных областей Nv N ... NL

Имея модели предметных областей в виде ассоциативных семантических сетей соответствующих тематических текстовых выборок, мы можем классифицировать входные тексты вычислением степени совпадения (пересечения/вложения) сети Мвх входного текста и сетей предметных областей М!, относя входной текст к той предметной области, у которой степень совпадения его сети с сетью предметной области окажется выше.

4.5. Автоматическое реферирование текстов

В данном случае применен подход к реферированию на основе выбора из текста наиболее информативных фрагментов — предложений. Поскольку в процессе

переранжирования весовых характеристик вершин семантической сети формируются их смысловые веса, они (смысловые веса слов — понятий текста) могут быть использованы для вычисления смысловых весов предложений, в которые эти слова входят, то есть предложения становится возможным ранжировать по их смысловому весу — по степени их важности в тексте. Применение порогового преобразования по значимости предложений в тексте позволяет выбрать нужное число предложений (до 30 % от их числа в тексте).

Технология TextAnalyst [23, 24] была использована в ряде приложений для решения практических задач анализа текстов и квази-текстов (осмысленных последовательностей образов разных модальностей), в том числе: оценки значимости конкретных понятий в тексте (корпусе текстов) — например, ранжирование отдельных параметров при оценке человеческого капитала [13]; оценки значимости текстов (корпусов текстов) в рамках целой предметной области, например оценки продуктивности деятельности отдельных специалистов и целых коллективов [13]; извлечения имплицитной информации из авторских текстов [13]; автоматического создания электронных книг с ассоциативной навигацией [25]; анализа квази-текстовой информации, например анализ генетических цепей [13].

5.1. Инструментарий для информационно-аналитического экспертного оценивания на основе текстов авторов

Автоматизированное информационно-аналитическое экспертное оценивание научной продукции является одним из актуальных направлений анализа текстовых данных большого объема и в настоящий момент далеко от практических решений.

Экспертное оценивание научных публикаций и научной продукции сталкивается с двумя основными трудностями: (1) субъективность экспертной оценки и трудность объединения оценок разных экспертов; и (2) необходимость анализа больших объемов неструктурированной текстовой информации. Обе эти трудности преодолеваются применением технологии автоматического смыслового анализа текстов TextAnalyst. При этом появляется возможность анализировать большие объемы неструктурированной текстовой информации, а возможность анализа различных корпусов текстов на единой основе привносит в анализ элемент объективности.

На основе технологии TextAnalyst был реализован анализ научных текстов, позволяющий выявлять тренды, оценивать ситуации и осуществлять корректную экспертизу этих текстов [13].

При сравнении тематических структур корпусов текстов разных авторов, разных коллективов авторов, разных экспертов между собой, а также

5. ПРИМЕНЕНИЕ

10

с тематической структурой усредненной модели предметной области, полученной анализом объединенной информации от разных авторов, коллективов, экспертов, можно выявить отличия в представлениях о предметной области разных авторов, коллективов, экспертов.

Сравнение состояний модели предметной области — семантической сети — на временной оси позволяет выявить динамику изменения как индивидуальных представлений о предметной области отдельных авторов, коллективов и экспертов, так и объективные изменения модели, характеризующие изменения предметной области.

Инструментом анализа является лексическая маска (набор лексических меток), который контрастирует представление о предметной области, характерное для разных авторов и для разных экспертов. Лексическая маска — это множество маркеров, автоматически выявленных на семантической сети текста, с их весами, ранжированными их рангами в семантической сети.

Перечень лексических маркеров (в составе лексической маски), то есть перечень ключевых понятий текста (полученный автоматически) и скорректированный вручную экспертом, соответствует представлениям эксперта о предметной области. Поэтому семантическая сеть предметной области (или конкретного текста, относящегося к предметной области), отфильтрованная с помощью лексической маски, сформированной экспертом, становится семантическим портретом текста с точки зрения данного эксперта. Сравнение семантических моделей предметных областей разных экспертов дает возможность не только выявить объективные представления о предметной области, но и анализировать частные мнения экспертов о предметной области.

Такая же оценка с помощью лексической маски (усредненной по множеству текстов предметной области) дает интегральную оценку. Выявление разницы, усредненной за некоторый промежуток времени модели предметной области и такой же модели, полученной на основе анализа корпуса текстов публикаций конкретного коллектива, позволяет оценить вклад (продуктивность) коллектива в состояние предметной области.

На основе лексической маски — множества лексических маркеров, соответствующих вершинам сети, отобранных экспертом в данной предметной области, которые характеризуют анализируемый аспект текста на его шкале от «очень хорошо» до «очень плохо», осуществляется анализ тональности текста. Эксперт в полуавтоматическом режиме может назначать ранги терминов лексической маски, отличные от усредненных представлений, полученных автоматически при анализе текстов предметной области.

Так анализ социального стресса сравнительно просто осуществляется с использованием лексической маски, сформированной полуавтоматически экспертом на основе корпуса текстов, характеризующего социальные стрессы, например новостной ленты.

В процессе анализа корпуса текстов с помощью программы TextAnalyst выявляются ранги лексических меток лексической маски в этом корпусе, которые, будучи нормированы их экспертными весами, позволяют оценить степень социального

стресса как значение интегрального (суммарного по всем лексическим меткам, взвешенного экспертными весами и нормированного на число лексических меток) показателя, сформированного на этом корпусе.

5.2. Ранжирование параметров человеческого капитала

с помощью однородной семантической сети корпуса текстов

Задача анализа человеческого капитала в настоящий момент перерастает из задачи управления жизнью отдельного человека в задачу управления целыми странами. Задача анализа человеческого капитала состоит в ранжировании параметров, совокупность которых в терминах конкретной постановки задачи и определяет оценку [13].

Большой объем обрабатываемой в процессе ранжирования информации приводит к необходимости автоматического ранжирования параметров компонентов человеческого капитала под конкретную постановку задачи. Для этого реализуется процесс автоматического формирования смыслового портрета корпуса текстов в виде однородной семантической сети.

Перечень этих параметров формируется экспертами, и в дальнейшем лингвистические метки этих параметров используются для выявления их места (их ранга) в семантических портретах корпусов текстов, описывающих конкретные постановки задач. При этом параметры человеческого капитала выступают лингвистическими метками, входящими в однородную (ассоциативную) семантическую сеть, подготовленную для последующего ранжирования, которая формируется автоматически (независимо от эксперта — следовательно, объективно) на основе корпуса текстов, описывающих предметную область (задачу). В процессе формирования семантической сети текста лингвистические метки параметров компонентов человеческого капитала вместе с другими концептами, представленными в тексте, участвуют в процедуре ранжирования. То есть ранжирование упомянутых параметров осуществляется вместе с другими концептами корпуса текстов, описывающими предметную область. Тем самым выявляется взаимный ранг всех концептов в рамках задачи, описанной в корпусе текстов, представляющих предметную область, и в том числе ранг исследуемых параметров.

Оценка рангов параметров компонентов человеческого капитала в рамках поставленной задачи, с использованием параметров сформированной сети, представлена на примере эксперимента с текстовым материалом предметной области «Благополучие семьи». Для этого: (1) сначала вручную был сформирован исходный корпус текстов по предметной области; далее (2) процесс анализа был реализован автоматически формированием смыслового портрета корпуса текстов в виде однородной семантической сети; и наконец (3), было реализовано оценивание рангов параметров компонентов человеческого капитала в рамках поставленной задачи.

12

После экспертного формирования исходного (минимального) корпуса текстов по заданной предметной области были соотнесены выбранные экспертно параметры человеческого капитала с лингвистическими метками в корпусе текстов, описывающем предметную область. На основе обновленного корпуса текстов вновь была построена семантическая сеть, отранжированные вершины которой, соответствующие лингвистическим меткам параметров человеческого капитала, были сравнены с их рангами предыдущей итерации.

Анализ с использованием функции формирования семантической сети позволил оценить степень важности этих компонентов в предметной области «Человеческий капитал».

5.3. Имплицитная информация в восприятии текста (на примере анализа текстов В. Набокова и И. Бродского)

Представленная технология была использована в психолингвистических исследованиях восприятия текста. Так, было проведено исследование по анализу восприятия и интерпретации авторского текста, а также выявлению в тексте имплицитной информации [13]. Материалом послужили произведения «Другие берега» В. Набокова и «Набережная неисцелимых» И. Бродского. Автобиографические произведения были выбраны для анализа как содержащие личную, важную для внутренней жизни авторов информацию.

Была предложена и подтверждена гипотеза: использование семантической сети (1) позволяет использовать потенциал ассоциативных связей слов в тексте для выявления эксплицитной информации представленной тематической структурой текста, извлеченной из семантической сети; и (2) использование функции ассоциативного поиска позволяет выявить имплицитную информацию в авторском тексте.

В истории русской литературы сформировалось резкое противопоставление художественного перевода и художественного творчества, реализованного на разных языках. Поэтому очень важно творчество двух авторов — В. Набокова и И. Бродского, для которых двуязычие было естественным проявлением их творческой потенции. Творчество В. Набокова, владевшего несколькими языками и создавшего неповторимый, стилистически безукоризненный художественный мир на двух языках, не имеет аналогов в истории мировой литературы. И. Бродский переводил с английского, испанского, польского, сербохорватского, но его собственное творчество представлено только на русском и английском языках, почти равноправных в этих представлениях.

Тематическая структура (полученная с помощью программы TextAnalyst) автобиографического романа «Другие берега» представляет структуру текста и описывает его содержание в виде иерархии связанных тем и подтем, которые отражают основные концепты внутреннего мира автора и соответствуют узлам сети понятий, отражающих эксплицитную сторону его творчества.

Анализ лексических ассоциаций, представленных в семантической сети, дает материал для выявления имплицитной информации, позволяет в определенной степени судить об аксиологической парадигме автора, которую он пытался тщательно скрыть в тексте от внешних наблюдателей. Результаты ассоциативного поиска

подтверждают, насколько болезненным был данный процесс для писателя, что английский язык, Англия имели для Набокова ценность, прежде всего как отражение детства, как элемент счастливого утраченного мира.

Аналогичным образом в автобиографическом эссе И. Бродского «Набережная неисцелимых» можно также провести анализ на разных уровнях семантической глубины и выделить несколько уровней в информации, выраженной эксплицитными средствами (тематическая структура и семантическая сеть), и получить данные для анализа подтекстовой информации с помощью ассоциативного поиска.

Эксплицитные данные, которые выявляются на уровне семантической сети, дали возможность определить объективную информацию, выраженную речевыми средствами: тематическую структуру текста — внешнюю канву повествования и семантическую структуру — смысловую основу текста, сформулированные автором. Имплицитные данные, которые выявляется с помощью ассоциативного поиска, представляют лексические ассоциации, которые свидетельствуют об оценочной парадигме, интенции автора, позволяют делать выводы о подтекстовой информации, коннотативных значениях.

5.4. Электронная книга на базе технологии Тех1Лпа1уз!

Под электронной книгой сейчас понимают и просто текст книги в электронном виде ^-текст), и хорошо структурированную базу данных — электронный учебник. Совершенно ясно, что чтение плоского текста с экрана — дело безнадежное, если этот текст по объему превышает две страницы. Формирование гипертекстовой страницы вручную — дело неблагодарное и недешевое.

Удобство гипертекстовой структуры для представления текста на экране компьютера не вызывает сомнений, по крайней мере по сравнению с плоским текстом. Его расширение автоматическим группированием материала по темам и автоматической же реконструкцией тематической структуры текста делает такое представление удобным для использования. В дополнение к гипертекстовому представлению текста современные вычислительные средства предоставляют возможность его сопровождения другими мультимедийными модальностями — аудио и видео.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Нейросетевая технология для анализа неструктурированных текстов [13] удовлетворяет большинству перечисленных принципов. Функциональность технологии позволяет автоматически сформировать индекс текста в виде перечня основных понятий и связей между ними. Сформировать гипертекстовую структуру, в которой индекс является средством навигации по тексту, автоматически сформировать реферат текста (можно также формировать реферат на заданную тему). И наконец, позволяет кластеризовать множество текстов на рубрики. Технология TextAnalyst может быть использована для формирования базы знаний e-книги.

14

В разное время было издано несколько e-книг с программой TextAnalyst в качестве оболочки [25]. В этом же формате издается электронная версия журнала «Школьные технологии» в Издательском доме «Народное образование».

Первый этап в создании e-книги в оболочке TextAnalyst — это формирование базы знаний, содержимое которой в дальнейшем будет представляться пользователю. Хотя обработка текста книги в оболочке TextAnalyst осуществляется автоматически — автоматически строится гипертекстовая структура текста и средство навигации по ней — тематическое дерево, требуются определенные усилия для приведения тематического дерева к наиболее удобному виду.

Так как исходный текст книги уже разбит на главы, гипертекстовая структура и тематическое дерево формируются для каждой главы в отдельности. Затем автоматически сформированное тематическое дерево корректируется вручную: из него удаляются случайные темы, а грамматические формы слов приводятся к нужному виду. Если не пытаться добавить в структуру e-книги мультимедийной информации, дополнительного дизайна и дополнительного сервиса, можно считать, что после этого e-книга уже готова к использованию.

Подготовленная база готова для просмотра в оболочке TextAnalyst. В левом верхнем окне пользователь выбирает и открывает одну из глав книги. Затем, в том же окне, он может работать с тематическим деревом. Главная тема главы раскрывается содержащимися в ней подтемами. Каждая подтема также раскрывается вниз.

Каждой теме тематического дерева в правом окне ставится в соответствие множество предложений, содержащих данное понятие. Далее, из любого из этих предложений можно перейти непосредственно в текст книги в нижнее окно.

Такая ассоциативная навигация позволяет быстро познакомиться с содержанием книги на заданную глубину. Пороговые настройки позволяют изменять количество визуализируемого материала. При желании пользователь может получить в правом верхнем окне реферат выбранной главы, а воспользовавшись функцией смыслового поиска — получить реферат на заданную тему.

При желании отдельные понятия тематического дерева можно снабдить ссылками на мультимедийные приложения, а также каждую ссылку в текст сопроводить параллельной страницей этой книги в традиционном дизайне.

5.5. Использование однородной семантической сети для классификации результатов генетического анализа

Механизм сравнения семантических сетей текстов может быть использован в задаче диагностики генетических заболеваний путем сравнения сигнальных сетей, полученных на основе анализа биологического материала пациентов с этими заболеваниями [13]. В этом случае сигнальную сеть можно рассматривать как квазитекст. Сигнальные сети разных классов генетических событий (текстов) могут быть использованы для классификации этих текстов. В этом случае концентрации белков, выявленные в процессе эксперимента, используются для вычисления числовых характеристик узлов сети. Выявление степени пересечения семантических сетей текстов позволяет говорить о степени их смыслового подобия. Такие сети

как смысловые портреты заболеваний могут служить для сравнения (и, следовательно, для их классификации).

Предположение о сходстве текстов естественно-языковых и текстов генетических кодов (в дальнейшем будем их называть генетическими квази-текстами) оказывается правомерным при более подробном их сравнении. Семантические сети как смысловые портреты естественно-языковых текстов [26, 13] имеют свою параллель в виде сетей, представляющих некоторые предметные области в генетике (например, определенную патологию). Эта аналогия с генетическими квазитекстами позволяет предположить возможность использования сравнения их сетей для выявления степени подобия между ними — для классификации генетических событий.

В этом случае генетические квази-тексты представлены в виде сигнальных сетей — графов, вершинами которых являются названия некоторых веществ, участвующих в генетических процессах, а дуги указывают на взаимосвязи этих веществ в этих процессах — представлялись в виде пар слов <с(, с>, далее — в виде звездочек <с( <с>>. Поскольку эти «слова» составляют цепочки при описании генетических процессов, результаты генетического эксперимента могут быть представлены в виде перечней пар «слов», каждая из которых имеет свой вес — концентрацию, выявленную в результате эксперимента.

Основой механизма анализа естественно-языковых текстов является переранжирование весовых характеристик слов, результат которого зависит от внутренней структуры текста, представленной в виде семантической сети. Другими словами, необходимо привести исходные данные, полученные в генетическом эксперименте, к виду, близкому к виду естественно-языкового текста. Для этого полученные в генетическом эксперименте пары «слов» собираются в «предложения» — цепочки пар слов, описывающие некоторые генетические процессы, от их начала — появления на входе рецептора, до их конца — достижения мишени. Ну и далее полученные для разных случаев генетического эксперимента такие семантические сети сравниваются между собой с целью выявления степени их пересечения.

Использование данного подхода для сравнения, следовательно, и классификации генетических «текстов» позволяет автоматизировать обработку результатов генетических экспериментов, объем которых в известных хранилищах (например, ЭепеЫе^ очень велик.

Представленные выше механизмы могут быть расширены представлением текста вместо однородной семантической сети — неоднородной семантической сетью. В настоящий момент в опубликованной литературе не представлено механизмов автоматического формирования неоднородных семантических сетей [27]. Тем не менее существуют

6. ПОСЛЕДУЮЩИЕ ШАГИ. НЕОДНОРОДНАЯ СЕМАНТИЧЕСКАЯ СЕТЬ

16

инструменты (зависимые от анализируемого языка) [28], которые позволяют выявить расширенную предикатную структуру отдельных предложений текста (до 85 % от объема текста). Технология TextAnalyst и рассмотренные выше инструменты позволяют подойти к созданию приложений для формирования неоднородных семантических сетей.

Алгоритм автоматического формирования неоднородной семантической сети в этом случае выглядит приблизительно так. По заданному тексту (корпусу текстов) строится однородная семантическая сеть. Затем для каждой пары понятий построенной однородной семантической сети выявляются отношения между этими понятиями в предложениях текста. Столько, сколько предложений содержит конкретную пару понятий. Если анализ нескольких предложений, содержащих конкретную пару понятий, приводит к выявлению одного типа отношений, это учитывается в формировании веса этой пары (веса этого типа отношения в неоднородной семантической сети). Так производится замена ассоциативных связей на другие типы отношений для всех пар понятий однородной семантической сети. Поскольку существующие приложения не позволяют восстановить расширенную предикатную структуру для всех предложений текста, некоторые связи остаются неизменными (ассоциативными).

Формирование неоднородной семантической сети является необходимым условием решения ряда задач анализа текстов. Поэтому автоматизация этого процесса является прогрессом в указанном направлении. Необходимо заметить, что в процессе замены однородной семантической сети ее неоднородным вариантом происходит ухудшение робастных характеристик подхода: сеть расслаивается, а мощность связей уменьшается, то есть ухудшаются интерпретационные свойства сетевого представления.

7. ЗАКЛЮЧЕНИЕ

В работе был рассмотрен вопрос использования подхода глубокого обучения к решению задач автоматического анализа текстовой информации. Представленный подход базируется на понимании процессов обработки информации в сознании человека, в том числе структурной обработки информации в колонках коры полушарий большого мозга, которые моделируются искусственными нейронными сетями на основе нейроподобных элементов с временной суммацией сигналов (на примере обработки языковой информации), а также переранжирования весовых характеристик понятий семантической сети в ламелях гиппокампа. Результатом структурной обработки является иерархия словарей образов событий разных модальностей, словарь верхнего уровня которой (словарь семантического уровня — словарь допустимой попарной сочетаемости образов событий) используется для построения однородной семантической сети, весовые характеристики вершин которой (концептуальных понятий) переранжируются посредством алгоритма, аналогичного алгоритму искусственной нейронной сети Хопфилда. В работе подробно представлена архитектура нейронной сети на основе нейроподобных элементов с временной суммацией сигналов, настроенная на обработку конкретной (текстовой) информации. Представлена архитектура программной системы, предназначенной для обработки текстовой информации, в том числе включающая в свой состав подсистему выявления ключевых понятий текста, а также подсистему формирования семантической сети текста на основе пар ключевых понятий,

18

выявленных в предложениях текста. Предложены алгоритмы реализации системы для автоматического смыслового анализа текстовой информации на примере их реализации московской фирмой МИКРОСИСТЕМЫ в технологии TextAnalyst. Указанная технология реализует функции формирования семантической сети, сравнения текстов по структуре (по смыслу), классификации текстов, автоматического реферирования текстов. Представлены примеры использования указанной технологии в ряде предметных областей, в том числе для: (1) информационно-аналитического экспертного оценивания авторских текстов; (2) ранжирования отдельных характеристик сущего и их комбинаций, представленных в текстах (например, параметров человеческого капитала); (3) выявления имплицитной информации при восприятии текста (на примере анализа текстов В. Набокова и И. Бродского); (4) анализа квази-текстов (например, классификации результатов анализа генетических квази-текстов — сигнальных сетей); (5) создания электронных книг. Наконец, представлены соображения о возможности реализации автоматического построения неоднородных семантических сетей.

Список использованных источников

1. Zhang Yikang, Zhang Jian, Wang Qiang, Zhong Zhao DyNet. Dynamic Convolution for Accelerating Convolutional Neural Networks arXiv:2004.10694v1 [cs.CV] Data Set. Available online: [2004.10694] DyNet: Dynamic Convolution for Accelerating Convolutional Neural Networks (arxiv.org) (accessed on 22 April 2020).

2. Kharlamov A. (2020), Gordeev D. and Pantiukhin D. Distributional and Network Semantics. Text Analysis Approaches. Neuroinformatics and Semantic Representations. Theory and Applications. Collective Monography. Chapter Four. Cambridge Scholars Publishing. Pp. 83-139. https://www.cambridgescholars.com/ neuroinformatics-and-semantic-representations

3. Solaiman Irene, Brundage Miles, Clark Jack, Askell Amanda, Herbert-Voss Ariel, Wu, Alec Radford, Gretchen Krueger, Jong Wook Kim, Sarah Kreps, Miles McCain Jeff, Newhouse Alex, Blazakis Jason, McGuffie Kris, Wang Jasmine. Release Strategies and the Social Impacts of Language Models, 2019. arXiv:1908. Data Set. Available online: [1908.09203] Release Strategies and the Social Impacts of Language Models (arxiv.org) (accessed on 13 Nov 2019).

4. He Kaiming, Zhang Xiangyu, Ren Shaoqing, Sun Jian Deep Residual Learning for Image Recognition arXiv:1512.03385v1 [cs.CV] 10 Dec 2015. Available online: [1512.03385] Deep Residual Learning for Image Recognition (arxiv.org) (accessed on 10 Dec 2015).

5. Suhail Mohammed, Mittal Abhay, Siddiquie Behjat, Broaddus Chris, Eledath Jayan, Medioni Gerard, Sigal Leonid. Energy-Based Learning for Scene Graph Generation arXiv:2103.02221v1 [cs.CV] 3 Mar 2021. Available online: [2103.02221] Energy-Based Learning for Scene Graph Generation (arxiv.org) (accessed on 3 Mar 2021).

6. Sanches Almodovar Nuria. Cognitive Surveillace Architecture for Scenario Understanding. Thesis doctoral Universidad Politecnica de Madrid 2015. Available online: Cognitive surveillance architecture for scenario understanding — Archivo Digital UPM (accessed on 14 Dec 2022).

7. Солдатова, О.П. Применение сверточной нейронной сети для распознавания рукописных цифр / О.П. Солдатова, А.А. Гаршин // Компьютерная оптика, том 34, №2. Стр. 252-259. 2010. Available online: Применение сверточной нейронной сети

для распознавания рукописных цифр — тема научной статьи по компьютерным и информационным наукам читайте бесплатно текст научно-исследовательской работы в электронной библиотеке КиберЛенинка (cyberleninka.ru) (accessed on 2010).

8. Завалишин, Н.В. Модель зрительного восприятия и алгоритмы анализа изображений / Н.В. Завалишин, И.Б. Мучник. — М.: Наука, 1974. Available online: [Модели зрительного восприятия и алгоритмы анализа изображений] Завалишин, Н.В.; Мучник, И.Б. (libex.ru) (accessed on 09 May 2015).

9. Харламов, А.А. Ассоциативная память — среда для формирования пространства знаний. От биологии к приложениям / А.А. Харламов. — Дюссельдорф: Palmarium Academic Publishing, 2017. — 109 с. Available online: Ассоциативная память — среда для формирования пространства знаний: От биологии к приложениям (Russian Edition): Харламов, Александр: 9783639645491: Amazon.com: Books (accessed on 12 April 2017).

10. Марр, Д. Зрение. Информационный подход к изучению представления и обработки зрительных образов / Д. Марр. — М.: Радио и связь, 1987. Available online: Зрение. Информационный подход к изучению представления и обработки зрительных образов. Марр Д. 1987 год. Издательство: М.: Радио и связь. (glavkniga.su) (accessed on 1987).

11. Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств / А.А. Харламов, Р.М. Жаркой, В.И. Волков, Г.Н. Мацаков //Информационные технологии. — N 5, 1998. — С. 27-31. Available online: Журнал «Информационные технологии» (novtex.ru) (accessed on May 1985).

12. Ярбус, А.Л. Движение глаз при восприятии сложных объектов / А.Л. Ярбус // Хрестоматия по ощущению и восприятию.— М., 1975. Available online: Электронный каталог —Ярбус, А.Л. — Движения глаз при восприятии сложных объектов- Absopac (mgppu.ru) (accessed on 1975).

13. Neuroinformatics and Semantic Representations. Theory and Applications. Alexander Kharlamov & Maria Pilgun eds. 317 P. Cambridge Scholars Publishing. 2020. Available online: Neuroinformatics and Semantic Representations: Theory and Applications — Cambridge Scholars Publishing (accessed on 2020).

14. Радченко, А.Н. Моделирование основных механизмов мозга / А.Н. Радченко. — Л.: Наука, 1969. Available online: [Моделирование основных механизмов мозга] Радченко, А.Н. (libex.ru) (accessed on 1968).

15. Rall, W. (1962). Electrophysiology of a dendritic neuron model. Biophys. J., 2. (Suppl.), Pp. 145 — 167. Available online: Electrophysiology of a Dendritic Neuron Model — PMC (nih.gov) (accessed on 1962).

16. Sholl, D.A. (1953). Dendritic organization in the neurons of the visual and motor cortices of the cat. J. Anat., 87,. Pp. 387 — 406. Available online: Dendritic organization in the neurons of the visual and motor cortices of the cat — PMC (nih.gov) (accessed on 1953).

17. Rolls, E.T. (1990). Theoretical and Neurophysiological Analysis of the Functions of the Primate Hippocampus in Memory. In: Cold Spring Harbor Symposia on Quantitative Biology, Vol. LV, , Cold Spring Harbor Laboratory Press. Pp. 995 — 1006. Available online: Dendritic organization in the neurons of the visual and motor cortices of the cat — PMC (nih.gov) (accessed on 1953).

18. Виноградова, О. С. Гиппокамп и память / О. С. Виноградова. — М.: «Наука», 1975. — 336 с. Available online: Виноградова, Ольга Сергеевна — Гиппокамп и память [Текст] — Search RSL (accessed on 1975).

19. Hopfield, J.J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci. 79,. Pp. 2554 — 2558. Available online: Neural networks and physical systems with emergent collective computational abilities. — PMC (nih.gov) (accessed on 1982).

20. Бузикашвили Н.Е. N-граммы в лингвистике / Н.Е. Бузикашвили, Д.В. Самойлов, Г.А. Крылова // Сборник: Методы и средства работы с документами. — М.: Диториал УРРС. 2000. — 376 с. С. 91-130. Available online: Методы и средства работы с документами | | Едиториал УРСС | Книги по рекламе, маркетингу, PR и дизайну | Advertology.Ru (accessed on 2000).

21. Холоденко, А.Б. О построении статистических языковых моделей для систем распознавания русской речи / А.Б. Холоденко // Интеллектуальные системы. — 2002. — Т. 6, вып. 1-4. — С. 381-394. Available online: Интеллектуальные системы. Исследования. Статьи: О построении статистических языковых моделей для систем распознавания русской речи (msu.ru) (accessed on 2002).

22. Харламов, А.А. Формирование n-граммной тематической модели текста / А.А. Харламов // Речевые технологии. — № 1-2. — 2016. — С. 15-23. Available online: 2/2016 — Речевые технологии (speechtechnology.ru) (accessed on 2016).

23. Харламов, А.А. Свидетельство о регистрации программы «Программа для автоматической смысловой обработки текстов на основе нейронных сетей «TextAnalyst»» / А.А. Харламов. Available online: ww.fips.ru/vse-servisy.php (accessed on 31 October 1997).

24. Харламов, А.А. Способ автоматизированной семантической индексации текста на естественном языке. Патент на изобретение № 2518946, приоритет от 27 ноября 2012г. Зарегистрировано 11 апреля 2014г / А.А. Харламов. Available online: Способ автоматизированной семантической индексации текста на естественном языке. Патент № RU 2518946 МПК G06F40/20 | Биржа патентов — Московский инновационный кластер (i.moscow) (accessed on 2014).

25. Р-система. Введение в экономический шпионаж. Практикум по экономической разведке в современном российском предпринимательстве. В 2-х книгах. — М.: Изд-во «Хамтек Паблишер», 1997. Available online: Сергей Хич / Р-система: введение в экономический шпионаж. Практикум по экономической разведке в современном российском предпринимательстве. В 2-х томах. | Арбаткнига (arbatkniga.ru) (accessed on 1997).

26. Харламов, А.А. Нейросетевая технология представления и обработки информации (естественное представление знаний) / А.А. Харламов. — М.: Радиотехника, 2006. — 89 с. Available online: Книга Харламов А.А. «Нейросетевая технология представления и обработки информации (естественное представление знаний)» 2006 г. | купить книгу и найти похожие | Магазин научной книги URSS.ru | ISBN 5-88070-073-9 (accessed on 2006).

27. Голенков, В.В. Принципы построения массовой семантической технологии компонентного проектирования интеллектуальных систем / В.В. Голенков, Н.А. Гулякина // Труды конференции "Open Semantic Technologies for Intelligent Systems" (OSTIS 2012). — 2012. — Pp. 23-24. Available online: Golenkov_Printsipy. PDF (bsuir.by) (accessed on 2012).

28. TITANIS: A Tool for Intelligent Text Analysis in Social Media / Ivan Smirnov, Maksim Stankevich, Yulia Kuznetsova, Margarita Suvorova, Daniil Larionov, Elena Niki -tina, Mikhail Savelov, and Oleg Grigoriev. Springer Nature Switzerland AG 2021 S. M. Kovalev et al. (Eds.): RCAI 2021, LNAI 12948, pp. 232-247. 2021. Available online: https://doi.org/10.1007/978-3-030-86855-0_16 (accessed on 2021).

TEXT ANALYSIS USING ARTIFICIAL NEURAL NETWORKS BASED ON NEURAL-LIKE ELEMENTS WITH TIME SUMMATION OF SIGNALS (PART 3)

Kharlamov A. A., Doctor of Technical Sciences, Senior Researcher Institute of Higher Nervous Activity and Neurophysiology of the Russian Academy of Sciences, Professor of the Department of Applied and Experimental

20

Linguistics of MGLU, Professor of the HSE Department of Software Engineering, Professor of the Department of Intelligent Information Systems and Technology of the Moscow Institute of Physics and Technology, Moscow, kharlamov@analyst.ru

Analysis of the meaning (content) of texts is a rather difficult and rare example of applications from the subject area of text analysis. The hierarchy of processes for analyzing digitized texts from the lower — graphematic — level to the upper — level of acceptable combinability of root bases — semantic level is a natural hierarchy of processing textual information in the human mind. The paper presents two levels of processing from this hierarchy — lexical and semantic. An application — a software system for semantic analysis of texts — TextAnalyst, which realizes the processing of the two levels, and forms a semantic network of the text as a result of such processing, is described. Analysis examples using the approach for text analysis are presented.

• analysis of text meaning • artificial neural networks based on neuron-like elements with temporal summation of signals • programs for semantic analysis of texts • analysis results

i Надоели баннеры? Вы всегда можете отключить рекламу.