Научная статья на тему 'Модели текстов и текстовых коллекций для поиска и анализа информации'

Модели текстов и текстовых коллекций для поиска и анализа информации Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
926
73
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕКСТ / ТЕКСТОВАЯ КОЛЛЕКЦИЯ / ЕСТЕСТВЕННЫЙ ЯЗЫК / МОДЕЛЬ / СЕМИОТИКА ТЕКСТА / СЕМИОТИКА ТЕКСТОВЫХ КОЛЛЕКЦИЙ / СОДЕРЖАНИЕ ТЕКСТА / ТЕМАТИКА КОЛЛЕКЦИИ / ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / СОДЕРЖАТЕЛЬНЫЙ ПОИСК

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Крейнес М.Г.

Рассмотрена система математических моделей, ориентированных на решение задач по описанию тематики и содержания текстов на естественных зыках и текстовых коллекций, поиску и анализу текстовой информации, оценке качества текстов и текстовых коллекций.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модели текстов и текстовых коллекций для поиска и анализа информации»

УДК 519.767.6

М. Г. Крейнес ООО «Базисные технологии»

Модели текстов и текстовых коллекций для поиска и анализа информации

Рассмотрена система математических моделей, ориентированных на решение задач по описанию тематики и содержания текстов на естественных зыках и текстовых коллекций, поиску и анализу текстовой информации, оценке качества текстов и текстовых коллекций.

Ключевые слова: текст, текстовая коллекция, естественный язык, модель, семиотика текста, семиотика текстовых коллекций, содержание текста, тематика коллекции, тематическое моделирование, содержательный поиск.

M. G. Kreines

«BaseTech»LLC

Text and text corpora models for information retrieval

and analysis

The system of mathematical models is considered. This system is oriented to solve description problems for themes and meanings of texts in natural languages and text corpora, text information retrieval and analysis, and the estimation of quality of texts and text corpora.

Key words: text, text corpora, natural language, model, text semiotics, text corpora semiotics, text meaning, corpora topic, topic modeling, information retrieval.

1. Введение

Настоящая работа реализует убеждение автора в том, что изучение и практическое использование свойств естественного языка как системы представления, передачи и обсуждения информации и/или знаний не могут быть ограничены исследованиями синтаксических единиц языка (словосочетаний и предложений). Содержательная и плодотворная работа, выполняемая в рамках создания национальных корпусов различных языков (см., например, [www.ruscorpora.ru, www.natcorp.ox.ac.uk]) характеризует семантику и употребление слов языка в рамках непосредственного фразеологического контекста. Анализ текста в целом, дистанцируясь от фразеологического контекста, способен дать много ценной и полезной информации о некоторых (не обязательно обо всех) встречающихся в тексте словах. Переход от анализа конкретного текста к анализу коллекций текстов еще больше расширяет возможности изучения и практического применения знаний о значении и употреблении слов естественного языка. В рамках такого подхода трюизм из голливудского фильма «This is only word. And words mean different for different people» становится программой исследований, существенно выходящих за рамки «семантических полей», формируемых по результатам дистрибутивно-статистического анализа текстов [1]. Конкретная прикладная роль таких исследований определяется тем, что их результаты критически важны для

© Крейнес М.Г., 2017

© Федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (государственный университет)», 2017

решения практических задач организации рационального поиска информации и знаний, зафиксированных на естественных языках в форме неструктурированных текстов.

Начиная с 50-х годов двадцатого века значительные усилия затрачены на изучение языка и текстов на естественных языках точными методами математики и информатики (см. обзор раннего развития соответствующих исследований [1] и рассказ о работах академика А.Н. Колмогорова, его учеников и окружения [2]). В изучении текстов выделяются два альтернативных подхода. Первый подход в явном виде использует внешние по отношению к тексту сведения о смысле, значении, содержательной сочетаемости и отношении слов языка в форме онтологий и тезаурусов и часто основан на анализе текстов как последовательности предложений с их синтаксическим разбором. Второй подход основан на комбинаторных и вероятностных методах исследования естественного языка, представленного отдельными текстами и коллекциями текстов (см., например, [3-9]). В этих исследованиях без использования информации о семантике, грамматике и синтаксисе языка предложены модели и методы выявления наиболее значимых слов по комбинаторным и вероятностным (статистическим) признакам для текста и для коллекции текстов (латентный семантический анализ, тематическое моделирование - topic modeling). Большое распространение получил подход, в котором для выявления семантически близких слов используется сходство их моделей, ориентированных на вероятностное предсказание появления соседних слов (или сочетаний слов) в текстах без учета [5,8] или с учетом контекста (фрагмента текста или текста целиком [9]). Принципиально данные модели близки к моделям дистрибутивно-статистического анализа [1], но, в отличие от последних, используют не традиционные статистические методы, а методы машинного обучения на нейросетях. Необходимо подчеркнуть, что модели слов [5, 8, 9] идейно близки работам, использующим развитый А.Н. Колмогоровым подход к оценке количества информации [10] для анализа информативности текстов (см. [2] и библиографию, приведенную в указанной работе).

Комбинаторные и вероятностные подходы к вычислительному анализу естественных языков используют модели, в которых текст в целом или отдельные слова (последовательности слов) характеризуются набором слов, возможно, с весовыми коэффициентами (векторная модель текста или слова) [6]. В тематическом моделировании текстовых коллекций (topic modeling) тематические группы также связывают с наборами слов (возможно, с весовыми коэффициентами) [3,7]. Весовые коэффициенты ассоциируются со значимостью слова для текста или для тематической группы. Определение весовых коэффициентов использует два принципиальных подхода. Векторные модели текстов основаны на представлении текстов «мешком слов», когда порядок слов, грамматические и синтаксические конструкции в тексте игнорируются, а учитываются только частоты словоупотребления в конкретных текстах и/или в некоторой совокупности текстов. Модели дистрибутивно-статистического анализа используют модель «мешка слов» для интервалов — фрагментов текста (предложений, строк, определенной окрестности анализируемого слова) [1]. Второй подход использует так называемые векторные модели слов. Различные варианты векторных моделей слов (в частности, модели word2vec) ориентированы на учет последовательности слов в предложении [5,9]. В отличие от моделей колмогоровской школы (см. [2]) во всех этих моделях особенности естественного языка, в котором существенны функциональные различия грамматических (очень часто используемых) слов, редких слов и «обычных» слов, не учитываются в явном виде. Разве что введением словарей исключаемых из анализа стоп-слов для грамматических слов или введением эвристик (см., например, [11]). Результатом является либо большой вес редких слов при разнообразных статистических способах определения весовых коэффициентов, приводящий к вытеснению из модели «обычных» слов [11], либо игнорирование редких слов при использовании методов машинного обучения, что определяет переход на уровень последовательностей букв при анализе естественного языка [12]. Однако для адекватного представления содержания текста и характера словоупотребления необходим контекст слов, представленный «обычными» и редкими словами. Видимо, исключение редких или «обычных» слов является основным механизмом, не позволяю-

щим при поиске содержательно близких текстов на основании векторных моделей текстов обеспечивать правильность результатов более 60%, см. [13].

Возможное решение данной проблемы было предложено в патенте на полезную модель № 62263 [14] в рамках информационной технологии КЛЮЧИ К ТЕКСТАМ® [15]. Здесь в качестве модели текста используется матрица, строки которой являются векторными моделями текста, рассчитанными для различных пороговых значений, ограничивающих снизу частоту слов, используемых при формировании соответствующего набора слов с весами.

Трудность вычислительного анализа текстов на естественных языках определяется высокой размерностью задач, связанной с большим объемом словаря естественных языков и большим числом текстов, необходимых для получения достоверных статистических данных или обучения [8,16]. При использовании матричных моделей текстов эта проблема оказывается несущественной. Действительно, модель каждого текста формируется независимо. А число разных слов в каждом тексте всегда много меньше общего числа слов в языке (например, в романе Льва Толстого «Анна Каренина» менее 12 000 разных слов при общем объеме текста более 250 000 словоупотреблений и общем числе слов русского языка значительно превосходящем 100 000). Число слов в модели текста может быть сравнимо с числом разных слов в тексте только для очень коротких текстов (размером до нескольких десятков слов), в остальных случаях число слов в модели много меньше числа разных слов в тексте. Отметим, что для формирования моделей коллекции текстов оказалась достаточной лишь небольшая доля от общего числа всех слов, включенных в модели текстов коллекции.

2. Модель текста и ее использование

Базовыми элементами для построения моделей текстов в данной работе являются слова. словоформы, тексты на естественных языках и их коллекции. Под словом далее понимается лемма слова — грамматически нейтральная (например, основная словарная) форма слова. Словоформы — различные грамматические формы конкретного слова. Связь между элементами определяется фактом словоупотребления — наличием словоформы, соответствующей слову, в тексте. Основной переменной моделей является число словоупотреблений слова в тексте. Данная переменная определяет следующие производные переменные модели текста и коллекции текстов: объем текста в числе словоупотреблений, объем коллекции текстов в числе словоупотреблений, частотный словарь текста (множество слов с указанием числа словоупотреблений данного слова, встретившихся в тексте), частотный словарь коллекции текстов (множество слов с указанием числа словоупотреблений данного слова, встретившихся во всех текстах коллекции), множество текстов коллекции, в которых встречается определенный набор слов.

Перечисленных переменных оказывается достаточно для вычислительного формирования правдоподобных и практически полезных моделей, отражающих содержание текстов на естественных языках и тематику текстовых коллекций.

В основу формирования моделей положено предположение, что основным носителем семантики произвольного текста на естественном языке является множество слов, отличающее текст от текстовой коллекции, определяющей естественный язык, на котором написан текст. Это весьма сильное предположение, т.к. оно в явном виде содержит утверждение о возможности построить модель текста, не используя информацию о смысле и значении слов. Такое утверждение практически общепринято при дистрибутивно-статистическом анализе текстов [1], при построении векторных моделей текстов [6, 7] и векторных моделей слов [5,9], при реализации методов латентного семантического анализа [4] и тематическом моделировании коллекций [3,7]. Наше предположение основано на двухуровневой модели восприятия текстовой информации, выделяющей знаковый (семиотический) уровень и логико-семантический уровень, на котором происходит интерпретация и, возможно, уточнение результатов семиотического уровня [15,17]. При этом семиотический уровень формирует базовые структуры для уровня интерпретации и может быть эффективно фор-

мализован без использования знаний о семантике и о грамматике языка. Рассматриваемые ниже модели формируются на семиотическом уровне. Необходимо подчеркнуть, что интерпретация модели текста и/или самого текста основана на знаниях семантики языка и на общих представлениях о мире, носителем которых является человек.

Будем моделировать текст множеством частотных словарей слов (расширение модели мешка слов), выделив в стандартном мешке слов в общем случае пересекающиеся компоненты, отличающиеся минимальной частотой использования слов в множестве текстов, определяющем естественный язык, на котором написан текст. Для каждого значения минимальной частоты будем искать свое множество слов, отличающее текст от множества текстов, задающих естественный язык. Определение такого множества основано на выявлении пар слов, сильно связанных в конкретном тексте и не демонстрирующих такой связи в коллекции текстов, в целом задающей естественный язык, на котором написан текст. Этот подход отличается от распространенных вариантов выявления ключевых слов по большому числу использований слова в тексте и его модификаций (например, по величине TF/IDF — частота использования слова в тексте и число текстов, в которых встречается слово, см., например [6,12]) и по частой встречаемости двух слов в малом по сравнению с текстом его фрагменте (последовательности слов, предложении, абзаце, окрестности, измеренной в числе слов [1,5,9]). Сила связи определяется по комбинаторному индексу, используемому в информационной технологии КЛЮЧИ К ТЕКСТАМ^. Индекс вычисляется для каждой пары слов в тексте по числу словоупотреблений каждого из слов пары в моделируемом тексте и множестве текстов, задающем естественный язык, на котором написан текст, с учетом объемов текста и множества текстов, измеренных в числе словоупотреблений. Такой индекс силы связи слов не зависит от грамматической сочетаемости слов, от взаимного расположения слов в тексте и от любой содержательной информации о конкретных словах и их сочетаниях. Весом слова, характеризующим его значимость для текста. является максимальная величина указанного комбинаторного индекса для всех пар слов, в которых одним элементом пары является анализируемое слово, а другими — остальные слова текста. Если нормировать веса всех слов по максимальному значению веса для анализируемого текста, все слова текста упорядочить по невозрастанию нормированного веса, положить равными нулю веса, меньшие заданного порогового, и выбрать определенное число слов из начала списка, получим разновидность векторной модели текста, инвариантную относительно размера текста. Совокупность таких векторных моделей для различных значений минимальных частот использования слов определяет матричную модель текста. От числа слов, включенных в модель, зависит детальность описания текста. Модель текста представлена парой матриц, элементами первой являются слова, а элементами второй — веса слов, вошедших в первую матрицу. В каждой строке матрицы слова упорядочены по невозрастанию веса слов. Число строк матриц задано общим числом пороговых значений частоты использования слов в множестве текстов, а число столбцов задано числом слов, включенных в векторную модель, определяющим детальность описания текста моделью. Для множеств текстов, задающих различные естественные профессиональные языки как профессиональные диалекты, например русского языка, построенные таким образом модели текста могут быть различными.

Матричная модель текста позволяет сформулировать модель показателя содержательной близости текстов и вычислительно получать оценку содержательной близости текстов. Эта модель использует определение близости строк матричных моделей в зависимости от наличия совпадающих слов в строках матричных моделей текстов, их веса в строках моделей текстов, числа совпадающих слов в отдельных строках матричных моделей. Модель учитывает максимальный коэффициент близости строк матричных моделей сравниваемых текстов и общее число строк матричных моделей сравниваемых текстов, имеющих значимый коэффициент близости. Значение показателя содержательной близости при сравнении текста с самим собой равно 1 (максимально возможное значение введенного показателя). Практика показала, что при значениях показателя, близких к единице, содержание срав-

ниваемых текстов практически идентично [18,19]. Минимальному значению показателя — нулю — соответствуют содержательно не связанные пары текстов.

Поиск содержательно близких текстов в произвольной коллекции позволяет решить задачу кластеризации — выделения в коллекции подмножеств содержательно близких текстов в отсутствие априорной информации о свойствах и числе таких подмножеств [20]. Кластеризация результатов поиска обеспечивает содержательную систематизацию коллекций (до 15 000 текстов) и используется для систематизации результатов поиска и содержательной навигации по результатам поиска.

3. Последовательность моделей коллекции текстов

Модели коллекции текстов построим на основании матричных моделей текстов, что существенно снижает размерность и вычислительную сложность задачи (например, по сравнению с латентным семантическим анализом). Рассмотрим коллекцию текстов, для каждого из которых сформирована модель. Преобразуем матричную модель в векторную следующим образом. Объединим множества слов, входящих в строки матрицы, определяющей словарный состав модели текста, приписав каждому слову его максимальный вес во всех строках матрицы, получим множество пар слово-вес. Определенная таким образом модель текста в составе слов и в значениях их весовых коэффициентов учитывает наличие в языке функционально различных групп слов, отмеченное во введении.

Объединим модели всех текстов коллекции, суммируя веса каждого слова во всех моделях, где оно встречается. Для каждого слова определим его вес в коллекции как сумму его весов в отдельных текстах коллекции, считая, что если слово не входит в модель некоторого текста, то его вес в этом тексте равен нулю. Упорядочим множество слов по невозрастанию суммарного веса слов в коллекции. Тогда простейшая модель коллекции есть упорядоченное множество пар «слово-суммарный вес слова в коллекции». Слова, входящие со значительным весом в значимое число моделей текстов, попадают в начало представляющего модель списка слов (много раз просуммирован значительный вес), позволяют в общих чертах описать содержание коллекции и, возможно, хотя бы грубо различить тематику основных содержательных групп текстов коллекции. Однако вместе с указанными словами в начале списка могут оказаться и слова с небольшим весом, попавшие в модели существенной доли текстов коллекции, безусловно не позволяющие различать содержательные группы текстов. Другим очевидным недостатком простейшего варианта модели коллекции является объем модели, равный общему числу разных слов, входящих в модели текстов коллекции, и, как следствие, неудобство ее практического использования.

Наши следующие задачи — ограничить размер модели коллекции (измеренный в числе слов) и найти в модели слова (или группы слов), позволяющие выделять содержательно различные группы текстов внутри коллекции. Решение данных задач основано на гипотезе, тесно связанной с исходным для формирования модели текста предположением. Полагаем, что для коллекции наиболее существенными являются слова из простейшей модели, обладающие большим суммарным весом в коллекции и одновременно устойчиво связанные в коллекции — оба слова из пары присутствуют в одних и тех же текстах. Сходные соображения использованы при расчетах когерентности (однородности) групп слов в задачах тематического моделирования [21,22]. Устойчивость связи слов в текстах коллекции определяется по величине комбинаторного индекса, формально полностью идентичного с комбинаторным индексом, используемым для вычисления веса слов в модели текста. При этом для вычислений используется число текстов, в которых пара слов встретилась одновременно, число текстов, в которых каждое из слов встретилось, и общее число текстов в анализируемой коллекции.

В качестве нулевого приближения модели возьмем определенное число первых слов простейшего варианта модели коллекции. Значение индекса вычисляется для всех пар слов из приближения модели. Максимальное значение индекса по всем парам, в которые входит конкретное слово, назовем контекстным весом слова в коллекции. По пороговой величине

контекстного веса разделим слова, вошедшие в приближение модели, на слова, имеющие сильные связи с другими словами модели, и слова, таких связей не имеющие. Получим контекстное приближение модели коллекции, состоящее из двух групп слов. Слова первой группы характеризуют тематику и содержание отдельных текстов коллекции или их групп, а слова второй группы характеризуют коллекцию в целом. Первую группу слов модели коллекции назовем семантическими детерминантами коллекции, а вторую — ее стилистическими детерминантами. Статистическая интерпретация выражения для комбинаторного индекса, используемого для определения связи слов, показывает, что в случае независимости (в статистическом смысле) использования двух слов в текстах коллекции введенный индекс по величине близок к единице или меньше единицы. Поэтому значение веса слова близкое к единице выбрано в качестве нижней оценки порогового значения для отсечения слов, не имеющих сильных связей в анализируемой коллекции. Уточнение пороговой величины, определяющей выделение семантических и стилистических детерминант коллекции, удается связать с изменением накопленного среднего веса слов модели при их упорядочении по невозрастанию веса.

Определим полноту описания коллекции контекстным приближением модели как долю таких текстов, в модели которых входит хотя бы одно слово из числа семантических детерминант коллекции. Если нулевое приближение не позволило обеспечить требуемую полноту описания коллекции, добавим к приближению определенное число слов простейшей модели коллекции, проведем заново расчеты весов слов, выделим семантические и стилистические детерминанты коллекции и определим полноту описания коллекции получившейся моделью. Будем итерационно повторять описанную процедуру, пока требования к полноте описания коллекции не будут выполнены. Понятно, что рассмотренная итерационная процедура не всегда закончится успешно. Причина неудачи итерационного процесса — невозможности выделить в модели коллекции семантические детерминанты — свидетельствует, прежде всего, об искусственном характере коллекции. Примером является коллекция идентичных текстов (с совпадающими моделями отдельных текстов), для которой все слова простейшей модели окажутся стилистическими детерминантами. При успешном завершении рассмотренной итерационной процедуры получаем адаптивное контекстное приближение модели коллекции. Таким образом, удается ограничить размер модели текстовой коллекции, адаптировав объем модели к полноте описания коллекции.

Перейдем к поиску в модели слов (или групп слов), позволяющих выделять содержательно различные группы текстов внутри коллекции. Для определения контекстного веса слов были выполнены вычисления значения комбинаторного индекса устойчивости связи в коллекции слов для всех пар слов приближенной модели. Это определяет модель контекста слова в конкретной коллекции текстов как набор «слово, значение индекса», упорядоченный по невозрастанию величины связи. Такая модель контекста слова формально подобна матричной модели текста при значении параметра, определяющего число строк матричной модели, равном единице. Наличие модели контекста каждого слова позволяет в рамках адаптивного контекстного приближения выделить группы слов с близкими контекстами. Задача такого выделения формулируется как задача кластеризации: объединить слова в однородные группы на основании близости их контекстов в отсутствие априорной информации о свойствах и числе групп. Для решения задачи кластеризации слов, образующих уточненную модель, используется хорошо зарекомендовавший себя метод кластеризации текстовых коллекций на основании моделей текстов [20]. Прямое применение данного метода возможно ввиду полной формальной идентичности постановки задач кластеризации множества слов на основании их контекстов и кластеризации текстовой коллекции на основании величины попарной близости текстов. При этом близость моделей контекстов слов формально определяется как близость моделей текстов при значении параметра, определяющего число строк матричной модели, равном единице. В результате решения задачи кластеризации контекстов слов адаптивного контекстного приближения модели выделяются тематические группы слов с весами, характеризующими типичность

конкретного слова для тематической группы. Каждое слово может входить одновременно в несколько групп. Таким образом, вычислительно формируется структурированная контекстная модель коллекции текстов, здесь число различных однородных групп и веса слов модели в группах определяется в ходе итерационной процедуры кластеризации. Структурированная контекстная модель включает в себя все слова адаптивного контекстного приближения модели, сгруппированные по наличию общих контекстов. В каждой группе — элементе структурированной контекстной модели — слово имеет вес, определяющий типичность слова для группы. Максимальное значение веса — единица. Адаптивное контекстное приближение может удовлетворять требованиям к полноте описания коллекции, но не соответствовать желаемому уровню детальности представления тематической структуры коллекции. Поэтому при вычислительном формировании структурированной контекстной модели возможно задание требований к минимально и/или максимально допустимому числу тематических групп. Удовлетворение этому требованию может привести к необходимости итеративного изменения приближенной модели, новому построению контекстного приближения и т.д.

С использованием полученной структурированной контекстной модели коллекции решаются две практически важных и теоретически интересных задачи: тематическая категоризация текстов коллекции и количественная оценка тематического сходства текстовых коллекций. Тематическая принадлежность каждого текста определяется в результате вычислений и сравнения значений показателя притяжения модели текста к каждому элементу структурированной контекстной модели. Показатель притяжения (модель показателя) определяется суммой средних геометрических весов слов, присутствующих одновременно в модели текста и в тематической группе слов из числа семантических детерминант коллекции, общим числом таких слов и средним геометрическим суммарного веса слов в модели текста и в тематической группе (также из числа семантических детерминант коллекции). Величина введенного показателя притяжения может изменяться от 0 до 1. Текст ассоциируется с тематическими группами (категориями), для которых получены большие показатели близости. Возможно отнесение текста одновременно к нескольким группам. Эксперименты показали, что при величине показателя, большей 0.3, можно уверенно говорить о содержательном соответствии текста и тематической группы. Из определения полноты описания коллекции моделью понятно, что все тексты, описанные структурированной контекстной моделью, будут отнесены хотя бы к одной из ее тематических категорий.

При формировании структурированной контекстной модели можно использовать дополнительные условия: ограничение снизу средней величины показателя притяжения для текстов анализируемой коллекции или средней величины максимального для каждого текста коллекции показателя притяжения (что соответствует отнесению текста к единственной категории). Введение таких дополнительных условий эквивалентно требованиям к достоверности категоризации текстов на основании структурированной контекстной модели. Выполнение данных требований обеспечивает адаптивное к содержательным свойствам коллекции определение числа и особенностей выявляемых в коллекции тематических групп. Рассмотренные модели позволяют также сформулировать модель тематического сходства текстовых коллекций, позволяющую количественно охарактеризовать тематическое сходство текстовых коллекций инвариантно относительно их размера [23].

4. Заключение

Матричная модель текста и формируемые на ее основе модели текстовых коллекций основаны на содержательных предположениях о свойствах текстов на естественных языках. В этом заключается принципиальное отличие рассмотренных в данной статье моделей от распространенных подходов к моделированию текстов и текстовых коллекций на базе универсальных статистических, алгебраических и нейросетевых конструкций. Важной особенностью моделей является их невысокая размерность для отдельных текстов и для текстовых коллекций. Так, пригодные для практического применения модели коллекций

из более чем двух миллионов газетных статей и миллиона научных статей включают менее 1000 слов каждая.

Модели текстов и их коллекций являются объектом содержательной интерпретации, позволяют исследовать особенности использования и развития языка (в частности, языка профессиональной сферы), выявлять особенности и этапы развития предметной сферы, отраженной в коллекции текстов, служат основой технологического решения разнообразных практических задач поиска и анализа неструктурированной текстовой информации, зафиксированной с помощью естественных языков.

Разнообразно технологическое вычислительное использование моделей: от поиска содержательно близких текстов и выявления наличия в текстовой коллекции тематических групп до количественного сопоставления тематического сходства коллекций текстов. Сопоставление тематического сходства коллекций текстов позволяет, например, находить научные коллективы, вовлеченные в исследования близких проблем, или пользователей Интернета, высказывающих близкие взгляды. Модели текстов и текстовых коллекций позволили сформулировать модели и методы для количественного анализа качества научных текстов и вычислительной интеграции показателей, характеризующих содержание научных текстов и их коллекций, с данными библиометрии и наукометрии [23,24]. В частности, оказалось возможным вычислительное выявление содержательно необоснованного так называемого «дружественного цитирования», существенно искажающего данные индексов научного цитирования. Рассмотренный в данной статье комплекс моделей реализован в информационной технологии КЛЮЧИ К ТЕКСТАМ®.

Литература

1. Шайкевич А.Я., Андрющенко В.М., Ребецкая Н.А. Дистрибутивно-статистический анализ языка русской прозы 1850-1870. М.: Языки славянской культуры, 2013.

2. Успенский В.А. Предварение для читателей «Нового литературного обозрения» к семиотическим посланиям А.Н. Колмогорова // Новое литературное обозрение. 1997. № 24. С. 123-215.

3. Blei D.M. Probabilistic topic models // Comm. ACM. 2012. V. 55, N 4. P. 77-84.

4. Handbook of latent semantic analysis / ed. by Landauer T.K., McNamara D.S., Dennis S., Kintsch W. Hove: Psychology Press, 2013.

5. Mikolov T, Sutskever I., Chen K, Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality // In: Advances in neural information processing systems, 2013. P. 3111-3119.

6. Salton G, Buckley C. Term-weighting approaches in automatic text retrieval // Information Processing & Management. 1998. V. 24, N 5. P. 513-523.

7. Воронцов К.В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. Т. 455, № 3. С. 268-271.

8. Bengio Y., Ducharme R, Vincent P., Jauvin C. A neural probabilistic language model // Journal of Machine Learning Research. 2003. V. 3. P. 1137-1155.

9. Le Q., Mikolov T. Distributed representations of sentences and documents // Proc. of 31-st International Conference on Machine Learning, Beijing. JMLR: W&CP, 2014. V. 32.

10. Колмогоров А.Н. Теория информации и теория алгоритмов. М.: Наука, 1987.

11. Joulin A., Grave E, Bojanowski P., Mikolov T. Bag of tricks for efficient text classification // arXiv:1607.01759v3. Preprint of Cornell University. Cornell, 2016.

12. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching word vectors with subword information // arXiv:1607.04606v1. Preprint of Cornell University. Cornell, 2016.

13. Aswani K.Ch., Srinivas S. On the performance of latent semantic indexing-based information retrieval // Journal of Computing and Information Technology — CIT. 2009. V. 17, N 3. P. 259-264.

14. Крейнес М.Г., Афонин А.А. Патент на полезную модель № 62263 «Система формирования семантических данных для поиска и анализа текстовых документов». 2007.

15. Крейнес М.Г. Информационная технология смыслового поиска и индексирования текстовой информации в электронных библиотеках: ключи от текста // Научный сервис в сети Интернет. М.: Изд-во МГУ. 1999. С. 214-218.

16. Joulin A., Grave E, Bojanowski P., Douze M, Jegou H., Mikolov T. FASTTEXT.ZIP: Compressing text classification models // arXiv:1612.03651v1. Preprint of Cornell University. Cornell, 2016.

17. Kreines M.G. Intellectual information technologies and scientific electronic publishing: Changing world and changing model // Proc. 6-th International ICCC/IFIP Conf. on Electronic Publishing. Berlin: Verlag fur Wissenschaft und Forschung, 2002. P. 135-142.

18. Петров А.Н., Крейнес М.Г., Афонин А.А. Семантический поиск неструктурированной текстовой информации на естественных языках в задачах организации экспертизы при реализации научно-технических программ. // Информатизация образования и науки. 2013. Т. 18, № 2. С. 54-67.

19. Петров А.Н., Крейнес М.Г., Афонин А.А. Вычислительные модели семантики текстовых источников информации для информационно-аналитического обеспечения научно-технической экспертизы // Матем. моделирование. 2016. Т. 28, № 6. С. 33-52.

20. Крейнес М.Г., Афонин А.А. Кластеризация текстовых коллекций: помощь при содержательном поиске и аналитический инструмент // В сб.: «Интернет-порталы: содержание и технологии». М.: Просвещение, 2007. Вып. 4. С. 510-537.

21. Mimno D, Wallach H., Talley E., Leenders M., McCallum A. Optimizing semantic coherence in topic models // Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, Edinburgh, Scotland, UK, 2011. P. 262-272.

22. Newman D, Noh Y, Talley E, Karimi S., Baldwin T. Evaluating topic models for digital libraries // Proceedings of the 10th Annual Joint Conference on Digital libraries. JCDL 10. NY. USA. ACM, 2010. P. 215-224.

23. Крейнес М.Г., Крейнес Е.М. Модель управления выбором референтных коллекций для объективной оценки качества научно-технических публикаций по библиометрическим и наукометрическим показателям // Изв. РАН. ТИСУ. 2016. № 5. С. 73-89.

24. Крейнес М.Г., Крейнес Е.М. Модель управления построением объективной оценки качества научно-технических документов на основе анализа их содержательного контекста // Изв. РАН. ТИСУ. 2016. № 6. С. 97-106.

References

1. Shaikevich A.Y., Andrushenko V.M., Rebetskaya N.A. Distributive-statistical analysis of Russian prose language 1850-1870. M.: Languages of Slavic Culture, 2013. (in Russian).

2. Uspenskii V.A. Introduction for the readers of «New literature reviews» to semiotic letters by A.N. Kolmogorov. New Lit. Rev. 1997. N 24. P. 123-215. (in Russian).

3. Blei D.M. Probabilistic topic models. Comm. ACM. 2012. V. 55, N 4. P. 77-84.

4. Handbook of Latent Semantic Analysis. Ed. by Landauer T.K., McNamara D.S., Dennis S., Kintsch W. Hove: Psychology Press, 2013.

5. Mikolov T., Sutskever I., Chen K, Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality. In: Advances in neural information processing systems, 2013. P. 3111-3119.

6. Salton G, Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing & Management. 1998. V. 24, N 5. P. 513-523.

7. Vorontsov K.V. Additive regularization for thematic models of text document corpora. Lectures of RAS. 2014. V. 455, N 3. P. 268-271. (in Russian).

8. Bengio Y., Ducharme R., Vincent P., Jauvin C. A neural probabilistic language model. Journal of Machine Learning Research. 2003. V. 3. P. 1137-1155.

9. Le Q., Mikolov T. Distributed representations of sentences and documents. Proc. of 31-st International Conference on Machine Learning, Beijing. JMLR: W&CP, 2014. V. 32.

10. Kolmogorov A.N. Theory of information and theory of algorithms. M.: Science, 1987. (in Russian).

11. Joulin A., Grave E, Bojanowski P., Mikolov T. Bag of tricks for efficient text classification. arXiv:1607.01759v3. Preprint of Cornell University. Cornell, 2016.

12. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching word vectors with subword information. arXiv:1607.04606v1. Preprint of Cornell University. Cornell, 2016.

13. Aswani K.Ch., Srinivas S. On the performance of latent semantic indexing-based information retrieval. Journal of Computing and Information Technology — CIT. 2009. V. 17, N 3. P. 259-264.

14. Kreines M.G., Afonin A.A. Patent N 62263 «System of semantic data forming for search and analysis of text documents». 2007. (in Russian).

15. Kreines M.G. Information technology for text information theme search and indexing in electronic libraries: keys to text. Scientific Services in Internet. M.: MSU. 1999. P. 214-218. (in Russian).

16. Joulin A., Grave E., Bojanowski P., Douze M., Jegou H., Mikolov T. FASTTEXT.ZIP: Compressing text classification models. arXiv:1612.03651v1. Preprint of Cornell University. Cornell, 2016.

17. Kreines M.G. Intellectual information technologies and scientific electronic publishing: Changing world and changing model. Proc. 6-th International ICCC/IFIP Conf. on Electronic Publishing. Berlin: Verlag fur Wissenschaft und Forschung, 2002. P. 135-142.

18. Petrov A.N., Kreines M.G., Afonin A.A. Semantic search for non-structural text information on natural languages in the problems of expertise organization for scientific program realization. Informatization of Education and Science. 2013. V. 18, N 2. P. 54-67. (in Russian).

19. Petrov A.N., Kreines M.G., Afonin A.A. Computational models of text information source semantics for information and analytical support of scientific expertise. Mathematical Modeling. 2016. V. 28, N 6. P. 33-52. (in Russian).

20. Kreines M.G., Afonin A.A. Clasterization of text collection: a help under information retrieval and analytical instrument. In: «Internet-Portals: Content and technologies». M.: Prosveshenie, 2007. I. 4. P. 510-537. (in Russian).

21. Mimno D., Wallach H., Talley E., Leenders M., McCallum A. Optimizing semantic coherence in topic models. Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, Edinburgh, Scotland, UK, 2011. P. 262-272.

22. Newman D., Noh Y., Talley E., Karimi S., Baldwin T. Evaluating topic models for digital libraries. Proceedings of the 10th Annual Joint Conference on Digital libraries. JCDL 10. NY. USA. ACM, 2010. P. 215-224.

23. Kreines M.G., Kreines E.M. Control model for selection of reference collections providing impartial assessment of the quality of scientific and technological publications by using bibliometric and scientometric indicators. JCSSI. 2016. V. 55, N 6. P. 750-766.

24. Kreines M.G., Kreines E.M. Control model for the alignment of the quality assessment of scientific documents based on the analysis of content-related context. JCSSI. 2016. V. 55. N 6. P. 938-947.

Поступила в редакцию 10.07.2017

i Надоели баннеры? Вы всегда можете отключить рекламу.