УДК 004.4, 004.9
А. А. Харламов, Б. И. Васин
А. А. Харламов, доктор технических наук, профессор кафедры прикладной и экспериментальной лингвистики факультета английского языка МГЛУ; e-maiL: [email protected]
Б. И. Васин, Генеральный директор, ООО «ДИАВЕР»; e-maiL: [email protected]
ИНСТРУМЕНТАРИЙ ДЛЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ ЭКСПЕРТНОЙ ОЦЕНКИ НАУЧНОЙ ПРОДУКЦИИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ ПРИОРИТЕТНЫХ НАУЧНЫХ НАПРАВЛЕНИЙ И КОЛЛЕКТИВОВ
Автоматизированная информационно-аналитическая экспертная оценка научной продукции с целью выявления приоритетных научных направлений и коллективов является одним из актуальных направлений анализа текстовых данных больших объемов, и в настоящее время далеко от практических решений. Экспертная оценка научных публикаций и научной продукции сталкивается с двумя основными проблемами: (1) субъективность экспертной оценки и трудность объединения оценок разных экспертов; (2) необходимость анализа очень больших объемов неструктурированной текстовой информации. Обе эти проблемы преодолеваются применением технологии автоматического смыслового анализа текстовой информации TextAnaLyst. Предлагается методика использования технологии TextAnaLyst, которая позволяет решить несколько задач из области экспертной оценки научной продукции: смоделировать предметную область, представленную в текстах автора, выявить особенности представления предметной области автором, сформировать общую для всех экспертов модель предметной области и отслеживать динамику ее изменения. При этом появляется возможность обрабатывать большие объемы текстовой информации, а возможность анализа различных корпусов текстов на единой основе привносит в анализ элемент объективности.
Ключевые слова: информационно-аналитическая экспертная оценка; анализ текстовых данных больших объемов; технология автоматического смыслового анализа текстовой информации TextAnaLyst.
A. A. Kharlamov
Dr. Tekhn. Sciences, Department of appLied and experimentaL Linguistics of the FAI, Professor, fsbi MSLU, [email protected]
B. I. Vasin
GeneraL Director, Diaver, Ltd., [email protected]
TOOLS FOR INFORMATION-ANALYTICAL EXPERT EVALUATION OF SCIENTIFIC PRODUCTION FOR SIGNIFICATION
OF PRIORITY SCIENTIFIC STREAMLINES AND COMMUNITIES
Automatical. information-anaLyticaL expert evaluation of scientific production for signification of priority scientific streamLines and communities is one of great current interest streamLines for anaLysis of text big data. And now there are not practicaL decisions in the direction. Expert evaLuation of scientific papers and scientific production has two main difficuLties: (1) subjectivity of expert evaLuation; and (2) necessity of Large voLume unstructured text information anaLysis. The both the difficuLties overcome by using the TextAnaLyst technoLogy of automaticaL semantic anaLysis of text information. In the paper the methods of using the TextAnaLyst technoLogy are shown. They aLLow decide severaL tasks of expert evaLuation of scientific production: to modeL a subject domain by using author texts, to signify speciaL aspects of the author conceptuaLization of the subject domain, to anaLyze dynamics of subject domain modeL changes. This is aLLow to anaLyze Large voLumes of text information. And the singLe base of different text corpora anaLysis introduce the objectiveness eLement into the anaLysis.
Key words: Information-AnaLyticaL Expert EvaLuation, AnaLysis of Large VoLumes of Text Information, TextAnaLyst TechnoLogy of AutomaticaL Semantic AnaLysis of Text Information.
Введение
Автоматизированная информационно-аналитическая экспертная оценка научной продукции с целью выявления приоритетных научных направлений и коллективов является одним из актуальных направлений анализа текстовых данных больших объемов, и в настоящее время далеко от практических решений [Kharlamov et al. 2014].
Экспертная оценка научных публикаций и научной продукции сталкивается с двумя основными проблемами: (1) субъективность экспертной оценки и трудность объединения оценок разных экспертов; (2) необходимость анализа очень больших объемов неструктурированной текстовой информации.
Обе эти проблемы преодолеваются посредством применения современных технологий для автоматической смысловой обработки текстов. При этом появляется возможность обрабатывать большие объемы текстовой информации, а возможность анализа различных корпусов текстов на единой основе привносит в анализ элемент объективности.
В статье для анализа текстов рассматривается методика использования технологии автоматического смыслового анализа текстовой
информации TextAnalyst, которая позволяет решить несколько задач из области экспертной оценки научной продукции:
1) смоделировать предметную область, представленную в текстах автора;
2) выявить особенности представления предметной области автором;
3) сформировать общую для всех экспертов модель предметной области;
4) анализировать динамику изменения модели предметной области, отражающую как динамику изменения предметной области, так и динамику изменения ее модели, соответствующую представлениям эксперта.
Модель предметной области формируется в рамках упомянутой технологии, на основе корпуса описывающих ее текстов, как однородная семантическая (ассоциативная) сеть, вершины которой соответствуют ключевым понятиям предметной области. Понятия предметной области так же, как и связи между ними в этой сети, взвешиваются их рангом, характеризующим степень связности понятия с другими понятиями (чем выше степень связности, тем выше ранг) [Коршунов & Гомзин 2012].
Модель предметной области в виде семантической сети порождает другие представления текста: тематическую структуру текста, реферат текста, тематический реферат. Тематическая структура текста (корпуса текстов) - минимальный древовидный подграф семантической сети - иерархия понятий, характеризующая тематику текста: основную тему, подтемы, подподтемы, и т. д. Аналогично тематической структуре текста можно построить тематическое дерево на любую заданную тему текста. Реферат текста - это подмножество предложений текста, суммарный вес понятий которых превышает некоторый заранее заданный порог, в порядке их появления в тексте. Тематический реферат текста - это множество предложений текста, содержащих понятия тематической структуры на заданную тему.
Сравнение состояний моделей предметной области на временной оси позволяет выявить динамику изменения как индивидуальных представлений о предметной области отдельных авторов, коллективов и экспертов, так и объективные изменения модели, характеризующие изменения предметной области.
Сравнивая тематические структуры корпусов текстов разных авторов, разных научных коллективов, разных экспертов между
собой, а также с тематической структурой усредненной модели предметной области, полученной интегрированием информации от разных авторов, научных коллективов, экспертов, можно выявить отличия в представлениях об этой предметной области разных авторов, научных коллективов, экспертов. Числовые характеристики понятий и связей модели предметной области, полученные на основе строгих алгоритмов, позволяют объективно характеризовать эти различные модели одной и той же предметной области.
Такое представление предметной области может быть основанием для формирования единой экспертной оценки, полученной как объективными методами, так и на основе субъективных мнений отдельных экспертов, суммированием этих различных оценок с их взвешиванием степенью валидности каждого конкретного экспертного мнения.
Вопрос выявления метаданных текстов (наукометрических показателей) оставлен в стороне, так как реализуется принципиально другими методами [Налимов & Мульченко 1970].
Основное назначение инструментария - снижение нагрузки на экспертов при выполнении рутинных работ, и формализация показателей экспертной деятельности с целью ранжирования экспертов по качеству экспертизы - предполагает использование механизмов автоматического и автоматизированного анализа больших массивов плохо структурированной текстовой информации.
1. Обработка текстов автоматическая, автоматизированная
В основе механизмов обработки информации - подход, базирующийся на использовании сетевого представления смысла текста [Коршунов & Гомзин 2012].
1.1. Формирование смыслового портрета предметной области
Под смысловым портретом предметной области понимается однородная (ассоциативная) семантическая сеть с ранжированными вершинами и дугами, вершинами которой являются понятия текста, а дуги соответствуют ассоциативным связям между этими понятиями в рамках смысловых единиц текста - предложений или абзацев, или, возможно, небольших текстов (новостной ленты, например). Неоднородная семантическая сеть, в противоположность однородной ( ассоциативной), имеет дуги, размеченные типами отношений [Осипов 1997].
Смысловой портрет предметной области позволяет реализовать всю нижеперечисленную функциональность: формирование тезауруса текста - гипертекстовой структуры текста, формирование лексической маски текста, тематическое моделирование текста, реферирование общее, тематическое, сравнение текстов по смыслу, классификацию текстов, кластеризацию текстов.
Формирование однородной семантической сети осуществляется путем выявления попарной сочетаемости слов упомянутых фрагментов текста (выявления частоты встречаемости слов текста) после проведения первичной обработки текста - удаления слов, не несущих в тексте смысла, с целью уменьшения информационного шума.
Слова текста подвергаются процедуре лемматизации (также для увеличения устойчивости процедуры анализа): вместо слов вершинами сети становятся корневые основы слов.
Для еще большей устойчивости анализа необходимо перечисление синонимов понятий заданной предметной области. Учет синонимии - процедура, которую пользователь должен провести в заданной предметной области.
Для ранжирования вершин и связей полученная частотная сеть текста подвергается переранжированию - итеративной процедуре, в процессе которой вес вершин увеличивается за счет весов связанных с ними вершин. При этом учитывается и вес соответствующих связей. Таким образом, вершины с наибольшей связностью оказываются имеющими наивысший ранг. В качестве начальных числовых характеристик итеративной процедуры переренжирования используются частота встречаемости слов в тексте (как весовых характеристик понятий) и частота попарной встречаемости слов в тексте (как весовых характеристик связей).
1.2. Формирование тезауруса текста -гипертекстовой структуры
Тезаурус текста представляет собой гипертекстовую структуру, в которой в качестве средства навигации по тексту используется упомянутая ассоциативная сеть, а объяснительными статьями понятий тезауруса (текста) является перечень предложений текста, содержащих эти понятия.
Имеется дополнительная возможность адресоваться в исходный текст (при необходимости расширения контекста за рамки одного
предложения) из этого конкретного предложения. По этой причине гипертекстовая структура текста становится удобным цитатником с ассоциативной навигацией на основе семантической сети.
1.3. Тематическое моделирование текста
Из ассоциативной сети текста выделяется минимальный древовидный подграф с корневой вершиной максимального веса, который представляет собой тематическую структуру текста: корневая вершина - главная тема текста, последующие по уровню вершины - подтемы, подподтемы и т. д.
Тематический анализ, реализованный традиционными методами ЬБА, рЬБА, LDA можно использовать с помощью программных продуктов с открытым кодом.
1.4. Формирование лексической маски
Перечень слов, используемых в словаре слов-предпочтений, позволяет визуализировать из сети по п. 1.1 подсеть, которую можно считать лексической маской. Термины лексической маски как подсети семантической сети ранжированы весовыми показателями, которые характеризуют степень важности термина в описании предметной области.
Формирование лексической маски может осуществляться экспертом в полуавтоматическом режиме из перечня слов ассоциативной сети. Эксперт также в полуавтоматическом режиме может назначать ранги терминов лексической маски, отличные от усредненных представлений, полученных автоматически при анализе текстов предметной области.
Возможно оперирование этой маской с целью удаления понятий, в ней содержащихся, из основной сети, сравнения лексических масок, визуализации динамики изменения лексических масок во времени.
1.5. Реферирование общее, тематическое
Выявление предложений текста, суммарный вес понятий, содержащихся в которых, превышает некоторый заранее заданный порог, в порядке их следования в исходном тексте, представляет собой некоторый реферат текста, полученного методом извлечения выдержек.
Подобно формированию тематического дерева текста возможно формирование дерева ответа на заданный вопрос (корневой вершиной которого является заданное понятие, или группа понятий). Выявление
в тексте предложений, суммарный вес понятий, содержащихся в которых, превышает некоторый заранее заданный порог, в порядке их следования в исходном тексте за вычетом предложений, не относящихся к этому дереву ответа на запрос, представляет собой реферат текста на тему запроса (тематический реферат).
1.6. Сравнение текстов по смыслу
Вычисление степени пересечения ассоциативных сетей (вершин и дуг с их весовыми характеристиками) двух текстов позволяет выявить степень смыслового подобия текстов [Харламов 2014].
1.7. Классификация текстов
Сравнение текста (по п. 1.6) с корпусами текстов, описывающих конкретные предметные области, позволяет выявлять степень смыслового пересечения текста с упомянутыми предметными областями, то есть классифицировать тексты.
1.8. Кластеризация текстов
Разбиение ассоциативной сети некоторого корпуса текстов на подсети путем удаления слабых связей, и выявления главных тем этих подсетей, позволяет выявить степень пересечения сетей отдельных текстов с этими подсетями, что равноценно кластеризации исходного корпуса текстов на разделы, соответствующие выделенным главным темам.
1.9. Визуализация динамики изменения смыслового портрета предметной области во времени
Последовательное представление смысловых портретов предметных областей по их временным срезам (позавчера-вчера-сегодня) позволяет визуализировать динамику изменения предметной области во времени [Харламов 2017].
2. Автоматизированные механизмы формирования экспертных оценок
Так же как текст является результатом интеллектуальной деятельности автора (коллектива авторов), текст является результатом интеллектуальной деятельности эксперта как автора. Поэтому анализ текста позволяет оценить как качество работы автора, так и качество работы эксперта, оценивающего работу автора. При этом текст автора
рассматривается как текст, а текст эксперта одновременно и как текст, и как метатекст.
Для оценки качества текстов и в том, и в другом случае используются одни и те же механизмы. Но при этом, оценки, которые формируются при анализе метатекстов во втором случае, влияют на формирование оценок текстов в первом случае - оцениваемых текстов.
В качестве основного инструмента оценки используется смысловой портрет текста (предметной области). Дополнительным инструментом анализа является лексическая маска (набор лексических меток), которая контрастирует представление о предметной области, характерное для разных авторов и для разных экспертов.
2.1. Лексическая маска эксперта
Перечень лексических маркеров (в составе лексической маски), т. е. перечень ключевых понятий текста (полученный автоматически) и скорректированный вручную экспертом, соответствует представлениям эксперта о предметной области.
2.2. Точка зрения эксперта на семантику предметной области
Семантическая сеть текста, сформированная автоматически, более или менее объективно оценивает (любой) текст. Модель предметной области, представленная семантической сетью, по мнению конкретного эксперта, меняет свою структуру. Конкретный эксперт акцентирует свое внимание на конкретных понятиях предметной области, исключая другие из круга своих интересов. Поэтому семантическая сеть предметной области (или конкретного текста, относящегося к предметной области), отфильтрованная с помощью лексической маски, становится семантическим портретом текста с точки зрения данного эксперта.
2.3. Усреднение представлений о предметной области как пересечение точек зрения разных экспертов
Сравнение семантических моделей предметных областей разных экспертов дает возможность выявить объективные представления о предметной области, но и анализировать частные мнения экспертов о предметной области. Пересечение ассоциативных сетей дает усредненное представление группы экспертов о предметной области. Дополнения к пересечению - особенности представлений отдельных экспертов о предметной области.
3. Автоматизация экспертизы
Интерпретация различий точек зрения экспертов на предметную область является основой для оценки качества экспертизы.
3.1. Оценка текста автора
Сопоставление результатов сравнения смысловых моделей, принадлежащих конкретным экспертам, как с оценками, сделанными этими экспертами, так и с оценками самих экспертов, позволяет с точностью до мнения экспертов, а также сообщества экспертов оценить качество автоматического анализа с целью его последующего использования вместо экспертов.
Для примера рассмотрим оценку конкретного текста. Авторский текст подвергается автоматическому выявлению его смыслового портрета (семантической сети). Сеть подвергается фильтрации с помощью лексической маски. Оставшаяся часть сети оценивается суммированием со взвешиванием рангов терминов, которые получены при оценке авторского текста (т. е. соответствует оценке автора). Такая же оценка с помощью лексической маски (усредненной по множеству текстов предметной области) дает максимальную оценку. Тогда процент оценки авторского текста от оценки лексической маски дает оценку текста по балльной шкале: 20 %, 40 %, и т. д. - 2 балла, 3 балла и т. д.
3.2. Оценка текста научного коллектива
Формирование модели предметной области на основе анализа текстов научного коллектива позволяет сравнивать модель предметной области с моделями других коллективов. Этот анализ не отличим от анализа текста конкретного автора в сравнении с текстами других авторов, а также в сравнении с усредненной оценкой.
3.3. Оценка степени новизны научной продукции
Выявление в научной продукции информации, новой относительно усредненной за некоторый промежуток времени модели предметной области, позволяет оценивать степень новизны научной продукции.
3.4. Оценка вклада научного коллектива
Выявление разницы усредненной за некоторый промежуток времени модели предметной области и такой же модели, полученной на
основе анализа корпуса текстов научных публикаций конкретного коллектива, позволяет оценить вклад (продуктивность) научного коллектива в состояние предметной области.
3.5. Тезаурус в оценке степени новизны научной продукции
Возможно проведение качественного (в противовес количественному) сравнения текстов. Для этого можно сравнивать не смысловые портреты текстов предметных областей, а их тезаурусы (по п. 1.2). При этом можно сравнивать тезаурусы, построенные на текстах разных экспертов, а также на текстах разных научных коллективов.
4. Анализ жизненного цикла научного коллектива
Всё вышеперечисленное касалось анализа статики предметной области (ее состояния в конкретный момент времени). Анализ динамики модели предметной области, сформированной на основе анализа научной продукции научного коллектива, позволяет оценивать динамику развития коллектива.
4.1. Качество научной деятельности научного коллектива
Наличие изменений в структуре (составе и связях) модели предметной области позволяет формировать количественную оценку предметной области. Динамика этих численных характеристик, сопоставленная с динамикой экспертных оценок результатов научной деятельности, дает возможность автоматизировать анализ продуктивности научного коллектива, а в конечном итоге - анализировать его жизненный цикл. Так, длительное неувеличение продуктивности (качества) научного коллектива может говорить о завершении его жизненного цикла.
5. Отбор экспертов
Отбор экспертов предполагает использование как механизмов автоматической оценки качества экспертизы, так и оценок, проведенных другими экспертами (как внутренними, так и внешними).
Численная оценка точки зрения эксперта, построенная на основе анализа его текстов (по п. 2.2) с использованием лексической маски эксперта (как в п. 2.1) может быть соотнесена с результатами экспертной деятельности данного эксперта экспертным сообществом.
Проведение процедуры такой оценки по текстам конкретного автора позволит принять предварительное решение при ранжировании претендентов в эксперты в процессе отбора.
Заключение
В статье изложена методика автоматизации экспертной деятельности, проводимой на основе публикаций авторов и творческих коллективов. Представлен инструментарий для проведения такой экспертной оценки, использующий технологию для автоматического смыслового анализа текстов TextAnalyst, реализующий отдельные этапы автоматической обработки больших текстовых корпусов с формированием численных характеристик отдельных составляющих этих корпусов. Соотнесение таких усредненных численных оценок с оценками, выработанными экспертами, позволяет автоматизировать (и таким образом объективизировать) процесс проведения экспертизы, что облегчает и делает более доступным проведение более качественной экспертизы, и делает возможным сравнение экспертных оценок, сделанных отдельными экспертами.
СПИСОК ЛИТЕРАТУРЫ
Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке: тр. Института системного программирования РАН. Т. 23. 2012. С. 215-244.
Налимов В. В., Мульченко З. М. Об использовании статистических методов при управлении развитием науки // Управление, планирование и организация научных и технических исследований. Т. 3. М. : ВИНИТИ, 1970. С. 327-342.
Осипов Г. С. Приобретение знаний интеллектуальными системами: Основы
теории и технологии. М. : Наука, Физматлит, 1997. 112 с. Харламов А. А. Технология автоматического смыслового анализа текстов
TextAnalyst // Вестник МГЛУ 2014. Вып. 13 (699). С. 234-244. Харламов А. А. Ассоциативная память - среда для формирования пространства знаний. От биологии к приложениям. Дюссельдорф : Palmarium Academic Publishing, 2017. 109 с. Kharlamov A. A., Yermolenko T. V., Zhonin A. A. Modeling of Process Dynamics by Sequence of Homogenous Semantic Networks on the Base of Text Corpus Sequence Analysis: доклад на Международной конференции SPECOM 2014, Нови Сад, Сербия, 2014. LNAI 8773 Springer P. 300-307.