Принципы построения формального контекстно-логического конструктора запросов для точного поиска событий в больших массивах гетерогенной информации

Маис Паша Оглы Фархадов; Екатерина Владимировна Панкратова; Ольга Викторовна Блинова; Валентин Александрович Смирнов

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2023 Управление, вычислительная техника и информатика № 64

Tomsk: State University Journal of Control and Computer Science

Научная статья

УДК 681.5; 004.4

doi: 10.17223/19988605/64/14

Принципы построения формального контекстно-логического конструктора запросов для точного поиска событий в больших массивах гетерогенной

информации

Маис Паша оглы Фархадов1, Екатерина Владимировна Панкратова2, Ольга Викторовна Блинова3, Валентин Александрович Смирнов4

12•3 Институт проблем управления РАН им. В.А. Трапезникова, Москва, Россия 4 ООО «Спич Драйв», Санкт-Петербург, Россия 1 mais.farhadov@gmail. сот

2 pankatya86@gmail. сот

3 blinova_olga_v@mail. ги

4 [email protected]

Аннотация. Представлен прототип формального контекстно-логического конструктора запросов, разработанного для поиска документов в базе данных гетерогенной информации. Дан краткий обзор основных проблем организации поиска по разнородным данным и существующих методов структурирования и обработки массивов таких данных. Представленный конструктор запросов в первую очередь ориентирован на работу с гетерогенными текстовыми данными для поиска в них релевантных результатов. Описаны ключевые этапы работы системы поиска документов, включая предварительную обработку текста, индексацию, создание запросов и процесс поиска. Определены основные принципы построения пользовательского интерфейса, приведены наиболее значительные преимущества прототипа для потенциальных пользователей. Предполагается внедрение конструктора для решения задач классификации документов, мониторинга информационного пространства, сбора и статистического анализа данных.

Ключевые слова: гетерогенные данные; методы текстового поиска; модели данных; контекстно-логический конструктор запросов; поисковые машины; автоматическая обработка текстовых документов.

Благодарности: Исследование выполнено в рамках научной программы Национального центра физики и математики (проект «Искусственный интеллект и большие данные в технических, промышленных, природных и социальных системах». НЦФМ-9-ИПУ-1).

Для цитирования: Фархадов М.П., Панкратова Е.В., Блинова О.В., Смирнов В.А. Принципы построения формального контекстно-логического конструктора запросов для точного поиска событий в больших массивах гетерогенной информации // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2023. № 64. С. 138-145. doi: 10.17223/19988605/64/14

Original article

doi: 10.17223/19988605/64/14

Principles of constructing a formal context-logical query constructor for accurate search of events in large arrays of heterogeneous information

Mais Pasha ogly Farkhadov1, Ekaterina V. Pankratova2, Olga V. Blinova3, Valentin A. Smirnov4

12•3 V.A. Trapeznikov Institute of Control Sciences ofRussian Academy of Sciences, Moscow, Russian Federation 4 Speech Drive, LTD, Saint-Petersburg, Russian Federation 1 mais.farhadov@gmail. com 2 pankatya86@gmail. com

3 blinova_olga_v@mail. ru

4 [email protected]

Abstract. The article presents the prototype of a formal context-logical query designer built for the document search in the database containing heterogeneous information. A concise overview is presented for the main problems in organizing the search for heterogeneous data, as well as the existing methods for structuring and processing arrays of such data. The presented query designer is primarily focused on processing heterogeneous text data, to search for relevant documents. The key components of the system are described including documents pre-processing, indexing, query build-up and the search. The main principles are defined for the query designer and the most important user benefits are highlighted. The query designer is planned to be implemented in solving the problems of document classification and in the monitoring systems of the information space, data collection and statistical analysis.

Keywords: heterogeneous data; text search methods; data models; search system; context-logical query designer; automatic processing of text documents.

Acknowledgments: The research was carried out within the framework of the scientific program of the National Center for Physics and Mathematics (the project "Research and development of artificial intelligence technologies for predictive modeling and decision support in technical, industrial, natural and social systems").

For citation: Farkhadov, M.P., Pankratova, E.V., Blinova, O.V., Smirnov, V.A. (2023) Principles of constructing a formal context-logical query constructor for accurate search of events in large arrays of heterogeneous information. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitelnaja tehnika i informatika - Tomsk State University Journal of Control and Computer Science. 64. pp. 138-145. doi: 10.17223/19988605/64/14

Введение

Существующие на данный момент автоматизированные интеллектуальные системы обработки данных не позволяют в полной мере охватить и качественно проанализировать накопленные большие массивы гетерогенной информации. В контексте организации структур для хранения и обработки гетерогенных данных возможно различное понимание свойства гетерогенности. Физическая гетерогенность означает различные типы информации, форматы данных, подходы к цифровому представлению или используемым моделям, например, типов баз данных. Неоднородность представления данных обусловлена постоянным накоплением информационного фонда из различных источников и намерением последующего его использования для решения кардинально разных задач. В качестве гетерогенных данных могут выступать текстовые файлы, аудио-, видеоматериалы, графики, рисунки, таблицы, коды программ, диаграммы, схемы и т.д. Также гетерогенность может быть семантической, подразумевающей главные различия в названиях, значениях, смысловой наполненности информации [1].

При анализе больших массивов информации надо учитывать оба вида гетерогенности данных. В различных практических задачах в рамках одной базы данных могут иметь значение как один, так и оба вида гетерогенности. В случае физической гетерогенности в первую очередь необходимо решить вопрос о способах обработки и методах поиска, при семантической - о формулировке запросов, методах выборки обрабатываемых массивов, способах индексации.

Механизмы работы поисковых роботов отличаются от логики человеческого мышления, в этой связи формулировка запросов, при выполнении которой находится релевантная информация, - это сложная задача, требующая для своего решения специальных инструментов [2]. Контекстно-логические конструкторы запросов показывают хорошие результаты при обработке гетерогенных данных, так как являются инструментом составления частично формализованных запросов, который сохраняет интуитивно понятный интерфейс и естественную логику [3].

1. Методы структурирования, хранения и анализа гетерогенной информации

Основная задача структурирования и разработки методов обработки гетерогенных массивов данных - это обеспечение возможности их интеграции. Интеграция означает возможность работать с информацией как с единым массивом данных, обладающим целостностью, реализацию возможности для пользователя работать с данными как с единым информационным пространством [4].

Методы обработки гетерогенной информации можно разделить на две большие группы. К первой относится обработка запросов по каждой категории информации отдельно. Это позволяет использовать стандартные системы обработки данных в соответствии с их видом. Однако серьезным недостатком такого подхода являются трудности с объединением результатов обработки по подсистемам. Вторая группа методов - преобразование гетерогенных потоков к общему виду и последующая единая обработка по всей системе. Основными недостатками такого подхода являются ресурсо-емкость преобразования информации и сложность учета особенностей каждого из рассматриваемых видов информации [5]. При использовании разрабатываемого контекстно-логического конструктора запросов используется второй метод: все поступающие данные в различных форматах преобразуются в единый текстовый формат.

2. Принципы построения контекстно-логического конструктора запросов

Разработанный прототип контекстно-логического конструктора универсален и может быть применен в различных системах анализа и обработки информации: мониторинге информационного пространства, анализе записей аудио- и видеоразговоров, анализе научных документов, стенограмм конференций, обработке архивов и т.д. Для обеспечения такой универсальности сформулированы ключевые принципы работы конструктора: модульность, инкапсуляция и эргономичность.

Модульность обеспечивает возможность неограниченного масштабирования сложности поисковых запросов путем комбинации атомарных поисковых запросов с использованием логических операторов. При обработке большого количества разнородных элементов иногда необходимо объединение большого количества правил для получения именно тех результатов, которые необходимы пользователю. При формировании длинных запросов их можно сохранять как шаблоны и потом изменять только необходимую часть, например для поиска по определенным критериям разных фраз из уже отобранной ранее категории документов.

Инкапсуляция позволяет обеспечить несколько уровней вложенности при создании элементов поисковых запросов; например, внутри одного из элементов можно использовать несколько различных контекстных правил, объединенных различными логическими операторами. Такие запросы часто формируются при поэтапном приближении к релевантным результатам путем уточнения запросов и поиска по найденным в предыдущих итерациях результатам.

Эргономичность облегчает создание и редактирование запросов через графический интерфейс, когда поисковый запрос формируется «на лету» в несколько кликов без необходимости программирования или сложных ручных операций. На практике эргономичность является одним из важнейших критериев для практического применения новых разработок, так как пользователи чаще всего не смогут оценить качество работы поискового робота, если будут испытывать сложности при использовании графического интерфейса.

Конструктор запросов предназначен для создания точных поисковых запросов к базе данных текстов. С помощью конструктора эксперт может выделить в массиве текстов интересующую его комбинацию слов и терминов, а также получить статистические данные о доле текстов, соответствующих поисковому критерию, в общей базе.

3. Этапы обработки гетерогенной информации для работы с конструктором запросов

Обработка документов состоит из нескольких этапов (рис. 1), только на последнем этапе пользователь непосредственно работает с прототипом конструктора запросов, все остальные этапы являются подготовительными.

Первый этап. Осуществляется загрузка коллекции документов из источников данных. Это могут быть как структурированные базы данных или разделы баз данных, так и неструктурированные коллекции документов, в том числе полученные в результате автоматизированного распознавания речи или изображений. Производится проверка времени изменения документов. На первом этапе ра-

боты алгоритма текстовые документы индексируются и сохраняются на сервере в виде бинарных документов, оптимизированных для последующего парсинга. Метаданные документов сохраняются в таблицу внутри базы данных с указанием уникального идентификатора документа и ключевых метаданных (автор документа, дата, источник, ключевые слова и др.).

Рис. 1. Общая схема системы обработки документов с использованием конструктора запросов Fig. 1. The general scheme of the document processing system using the query constructor

Второй этап. Все документы проходят подготовительную обработку. Цель такой обработки -очищение документа от данных, не нуждающихся в обработке, стемминг слов, т.е. поиск основы слова независимо от того, совпадает ли она с морфологическим корнем. Формирование структуры слово-позиция. Данный процесс также необходим для сокращения объема поискового индекса и способствует увеличению скорости поиска. На этом же этапе эксперт определяет словари: список слов и фраз, которые ему интересны с точки зрения содержания документов. Данные словари могут быть импортированы из уже существующего глоссария или базы знаний.

На третьем этапе тексты, загруженные в систему, анализируются на предмет наличия в них слов и фраз, входящих в созданные экспертом словари, с учетом словоформ. Так, например, если в словарь входит слово «атом», то в текстах будут найдены все формы данного слова («атома», «атомы» и др.). В случае обнаружения слова в тексте информация об этом сохраняется в отдельную таблицу, представляющую собой индекс для дальнейшего быстрого поиска по документам. При добавлении в словарь новых слов в фоновом режиме автоматически строится исторический индекс. Глубина индекса определяется настройками системы.

Четвертый, завершающий этап представляет собой непосредственно работу пользователя с конструктором запросов. При тестировании поиска в качестве запросов использовались следующие типы: информационный (поиск общей информации независимо от тематической направленности); транзакционный (поиск группы документов по определенным критериям); навигационный (поиск конкретного ресурса, обладающего заданными характеристиками). Подробнее работа пользователя с формальным контекстно-логическим конструктором запросов описана в следующем разделе [6].

4. Пользовательский интерфейс

Интерфейс прототипа конструктора запросов представляет собой набор взаимосвязанных форм, на которых отражены основные функции, операторы и правила. Запросы формируются в наглядной форме, все элементы форм предназначены для быстрого и удобного выбора существующих запросов или для создания новых.

В первой форме пользователю предлагается выбрать запрос из наиболее часто используемых в библиотеке запросов (рис. 2.). Предполагается, что при регулярной работе с системой в большинстве случаев использовать готовые запросы или формировать новые на основе существующих удобнее и быстрее, чем создавать запросы заново. Необходимый запрос можно выбрать в один клик. Выбранный запрос выделяется цветом. Также есть возможность перейти к полному списку доступных пользователю запросов.

Рис. 2. Меню выбора часто используемых запросов Fig. 2. Frequently used query selection menu

При создании новых запросов или модернизации существующих ключевой функцией является добавление новых блоков; каждый блок включает в себя указание логической связки (И / ИЛИ), наличие или отсутствие отрицания, а также конкретное контекстное правило (ПРИСУТСТВУЕТ, ОТСУТСТВУЕТ, ОКОЛО, НАЧАЛО, ОКОНЧАНИЕ) (рис. 3).

А Конструктор

запросов

•fe Мои запросы

* Отсутствует здравствуйте

* Приветствие

* Прощание

* Отсутствует спасибо за ожидание

* Отсутствует до свидания

* Грубость в разговоре

* Длинные паузы

■к Завершение разговора

* Агрессия

* Проверка статуса

* Другая симка

(Tq> Другие запросы

(5)

ОТСУТСТВУЕТ ЗДРАВСТВУЙТЕ

ДУБЛИРОВАТЬ

В начале разговора отсутствует приветствие ▼ and ) Оператор и

L

□ Not Контекстное правило - Канал • о

О Искать производные формы

0 УДАЛИТЬ ЗАПРОС

0 СОХРАНИТЬ

Рис. 3. Интерфейс создания нового запроса Fig. 3. Interface for creating new request

В рамках запроса на первом этапе необходимо выбрать одно из контекстных правил, после чего пользователь вводит параметры для конкретного правила, а также выбирает, активировать или нет оператор отрицания. Активация отрицания в запросе происходит путем отметки в чек-боксе. Для добавления правила или оператора пользователь использует контекстное меню, которое также позволяет производить базовые операции с уже имеющимися в запросе правилами (вырезать, вставить, удалить). Одним из наиболее эффективных контекстных правил является правило ОКОЛО, позволяющее

искать в текстах события, связанные друг с другом. Расстояние между словами может указываться, например, в секундах (для аудиозаписи разговора) или в количестве слов (для текстовых документов) (рис. 4.).

Рис. 4. Использование оператора ОКОЛО Fig. 4. Using the NEAR operator

Остальные правила в прототипе проверяют наличие или отсутствие слов. На рис 5 ниже приведен интерфейс использования логических правил И / ИЛИ. С их помощью можно указать взаимозаменяемые синонимичные конструкции, в случае если пользователь не знает точной формулировки фраз в искомых документах. Согласно указанным принципам запросы можно объединять.

Рис. 5. Интерфейс использования операторов И / ИЛИ Fig. 5. Interface for using operators AND / OR

Прототип предполагает возможность поиска по словарям, а также по формам слов. В случае диалоговой речи (например, чат) прототип также предполагает опцию поиска в тексте конкретного участника диалога. Сформированный запрос сохраняется в каталог запросов. По результатам выполнения любого поискового запроса пользователь может просмотреть список документов, в которых найдены участки текста по соответствующим запросам, сами участки текста, собрать статистические данные по документам, соответствующим поисковым критериям, например число таких документов по отношению к общему числу документов в категории.

Заключение

Рассмотренные особенности работы с гетерогенными данными требуют разработки специфических инструментов для систематизации множества информационных объектов и поиска релевантных документов в массиве информации. Использование контекстно-логического конструктора запросов позволит учитывать морфологическую и синтаксическую вариативность текстов, упростить поиск по документам, в значительной степени автоматизировать классификацию и тем самым повысить скорость и качество работы эксперта с базой. В статье рассмотрены этапы работы системы обработки документов с использованием прототипа формального контекстно-логического конструктора запросов для точного поиска событий в тексте, общая схема обработки документов и создания хранилища метаданных. Прототип строится на основе принципов модульности, эргономичности и инкапсуляции, что обеспечивает его гибкость и адаптивность к большому числу практических задач. Рассмотрены основные структурные и интерфейсные особенности разработанного прототипа.

Список источников

1. Кашников А., Лядова Л. Интеграция гетерогенных источников данных на основе рекурсивной декомпозиции // Information

Technologies and Knowledge. 2011. Т. 3, № 5. С. 274-284.

2. Обухова О.Л., Бирюкова Т.К., Гершкович М.М., Соловьев И.В., Чочиа А.П. Конструктор запросов интеллектуального

поиска // Электронные библиотеки: перспективные методы и технологии, электронные коллекции : тр. XII Всерос. науч. конф. RCDK2010, Казань, Россия 13-17 октября 2010 г. Казань : Казан. ун-т, 2010. C. 557-559.

3. Жижимов О.Л., Федотов А.М., Шокин Ю.И. Технологическая платформа массовой интеграции гетерогенных данных //

Вестник НГУ. Сер. Информационные технологии. 2013. № 1. C. 24-41.

4. Бочаров А.В. Визуальный конструктор пользовательских поисковых запросов на основе комбинаторных тематических

тезаурусов: реализация идеи // Историческая информатика. Информационные технологии и математические методы в исторических исследованиях и образовании. 2014. № 2-3. С. 10-20.

5. Куликов Г.Г., Шилина М.А., Бармин А.А., Старцев Г.В., Шамиданов Д.Г. Метод структурирования контента гетерогенного

информационного пространства на основе формализованной модели предметной области для решения задач интеллектуального поиска // Вестник ЮУрГУ. Сер. Компьютерные технологии, управление, радиоэлектроника. 2018. № 1. C. 5-16.

6. Высочкин А.В., Квач А.И., Портнов Е.М. Разработка алгоритма поиска и ранжирования неструктурированной

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

информации // Инженерный вестник Дона. 2019. № 1 (52). C. 57-61.

References

1. Kashnikov, A. & Lyadova, L. (2011) Integration of heterogeneous data sources based on recursive decomposition. Information

Technologies and Knowledge. 3(5). pp. 274-284.

2. Obukhova, O.L., Biryukova, T.K., Gershkovich, M.M., Solovyov, I.V. & Chochia, A.P. (2010) Konstruktor zaprosov intellektu-

al'nogo poiska [Constructor of intelligent search queries]. Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollektsii [Electronic libraries: promising methods and technologies, electronic collections]. Proc. of the 12th Conference RCDL'2010. Kazan', October 13-17, 2010. pp. 557-559.

3. Zhizhimov, O.L, Fedotov, A.M. & Shokin, Yu.I. (2013) Technology platform for mass integration of heterogeneous data. Vestnik

NGU. Ser. Informatsionnye tekhnologii. 1. pp. 24-41.

4. Bocharov, A.V. (2014). Visual designer of user search queries based on combinatorial thematic thesauri: implementation of the

idea. Istoricheskaya informatika. Informatsionnye tekhnologii i matematicheskie metody v istoricheskikh issledovaniyakh i obra-zovanii. 2-3. pp. 10-20.

5. Kulikov, G.G., Shilina, M.A, Barmin, A.A., Startsev, G.V. & Shamidanov, D.V. (2018) Method of structuring the content of the

heterogeneous information space based on the formalized model of the subject domain for solving the problems of intellectual search. Vestnik YuUrGU. Ser. Komp'yuternye tekhnologii, upravlenie, radioelektronika. 18(1). pp. 5-16.

6. Visochkin, A.V., Kvach, A.I. & Portnov, E.M. (2019) Development of an algorithm for searching and ranking unstructured infor-

mation. Inzhenernyy vestnik Dona. 1(52). pp. 57-61.

Информация об авторах:

Фархадов Маис Паша оглы - доктор технических наук, заведующий лабораторией Института проблем управления им. В.А. Трапезникова РАН (Москва, Россия). E-mail: [email protected]

Панкратова Екатерина Владимировна - кандидат физико-математических наук, старший научный сотрудник Института проблем управления им. В.А. Трапезникова РАН (Москва, Россия). E-mail: [email protected]

Блинова Ольга Викторовна - научный сотрудник Института проблем управления им. В.А. Трапезникова РАН (Москва, Россия). E-mail: [email protected]

Смирнов Валентин Александрович - кандидат технических наук, генеральный директор ООО «Спич Драйв» (Санкт-Петербург, Россия). E-mail: [email protected]

Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов.

Information about the authors:

Farkhadov Mais Pasha ogly (Doctor of Technical Sciences, Chief Researcher, V.A. Trapeznikov Institute of Control Sciences of Russian Academy of Science, Moscow, Russian Federation). E-mail: [email protected]

Pankratova Ekaterina Vladimirovna (Candidate of Physical and Mathematical Sciences, Senior Researcher, V.A. Trapeznikov Institute of Control Sciences of Russian Academy of Science, Moscow, Russian Federation). E-mail: [email protected] Blinova Olga Viktorovna (Researcher, V.A. Trapeznikov Institute of Control Sciences of Russian Academy of Science, Moscow, Russian Federation). E-mail: [email protected]

Smirnov Valentin Aleksandrovich (Candidate of Technical Sciences, Director of Speech Drive, LTD, Saint-Petersburg, Russia). E-mail: [email protected]

Contribution of the authors: the authors contributed equally to this article. The authors declare no conflicts of interests.

Received 15.03.2023; accepted for publication 04.09.2023 Поступила в редакцию 15.03.2023; принята к публикации 04.09.2023