УДК 004.8
DOI: 10.24412/2071-6168-2023-11-262-263 РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ СЕМАНТИЧЕСКОГО АНАЛИЗА И СИНТЕЗА ДАННЫХ
М.Н. Квасов, Г.А. Митряев, М.А. Прохоров
В работе исследуется процесс сбора разнородных неструктурированных данных и их последующая обработка. Рассмотрены основные области применения методов обработки естественного языка. Обозначены проблемные вопросы при работе с данными посредствам семантического анализа. Предложена модель семантического анализа и синтеза данных в соответствии с запросом пользователя. При этом учтена возможность получения дополнительной информации (метаданных) из разнородных источников таких, как видео, аудио и графические данные. Предложенная модель может быть использована при разработке программных комплексов, целью которых является сбор и обработка разнородной неструктурированной информации. В дальнейшем в модель могут быть внедрены технологии искусственного интеллекта.
Ключевые слова: семантический анализ; синтез данных; разнородные данные; неструктурированные данные; математическая модель; обработка естественного языка.
Объем информации, генерируемый людьми и различными смарт-устройствами, увеличивается с каждым годом. В 2008 году пользователями глобальной сети интернет сгенерировано 5 эксабайт данных, а в 2022 году этот показатель был достигнут за 1 день. Такой темп связан не только с возросшей доступностью выхода в Интеренет, но и с увеличением использования интернета вещей (IoT). Для работы с таким количеством информации необходимо использовать методы обработки больших данных (Big Data), которые являются достаточно сложными и требуют для решения использования ряда инструментов [1-4]:
- нейросети;
- технология Data Mining;
- машинное обучение;
- стратегия краудсорсинга;
- метод предиктивной аналитики;
- принцип статистического анализа;
- технологии имитационного моделирования;
- метод визуализации аналитических данных;
- метод смешения и интеграции данных.
Использование результатов обработки больших данных для российского потребителя относительно новое направление, которое интенсивно развивается с учетом опыта, полученного западными странами. Так, например, используя методы обработки естественного языка (NLP), входящие в область искусственного интеллекта (AI) можно решить следующие задачи:
- прогнозирование заболеваний пациентов на основе данных из их медицинских карт, речи. Например, Amazon Comprehend Medical изучает действия лекарств, болезненные состояния пациентов, эффективность назначенного лечения по данным цифровых медицинских записей, протоколов клинических испытаний, используя NLP;
- определение отношения клиентов к товару или услуге на основе данных, полученных из социальных сетей, мессенджеров, новостных порталов. При этом маркетологи получают данные о предпочтениях клиентов и факторах, которые оказали влияние на принятие решения. В дальнейшем эта информация используется для отображения персонализированной рекламы и рекомендаций по выбору медиа-контента;
- фильтрация нежелательных писем (спам) и генерация быстрого ответа. Почтовые сервисы на основе NLP анализа осуществляют обработку текста электронного письма и автоматически отфильтровывают часть сообщений до попадания в поле зрения пользователя, а также предлагают быстрые ответы на полученные письма;
- определение подлинности новостных публикаций;
- поиск в интернете по голосовому запросу, управление элементами умного дома, перевод денег. Для решения этих задач используются голосовые интерфейсы такие, как Amazon Alexa, Apple Siri, Яндекс Алиса, Сбер Салют и многие другие;
- создание торговых алгоритмов трейдерами. Обработка данных из новостных источников, отчетов компаний, комментариев инвесторов - все это может быть использовано для синтеза необходимого алгоритма;
- выявление потенциальных клиентов и сотрудников организаций до того, как они станут активными на рынке труда.
Основной проблемой при решении этих задач является необходимость обработки неструктурированных данных. Они могут быть представлены в виде текста с расположенными в произвольном порядке датами, фактами, цифрами; изображений, видео и аудио файлов, имеющих или не имеющих текстового описания своего содержания (метаданные).
Существенная часть информации, являющейся ценной для использования, должна быть представлена в базах знаний в текстовом виде. Для решения задач доступа к необходимым данным, либо получении обобщенной информации, используются методы семантического анализа. Описание существующих подходов представлены в [528].
Работы в области семантического анализа данных, как правило, нацелены на обработку исходно текстовой информации, полученной из новостных источников, научных статей, книг и т.п. Некоторые из них принимают во внимание возможность обработки текста, полученного путем распознавания человеческой речи, но пренебрегают временем получения этих данных.
В работе [29] рассмотрена возможность применения подхода семантического описания и онтологии в качестве средства подготовки данных и инструмента распознавания дорожных знаков для помощи водителю при управлении транспортным средством. Однако в представленной онтологической модели рассмотрен только один источник информации (изображение с видеокамер автомобиля) для выполнения единственной функциональной задачи (распознавание дорожных знаков).
Объем генерируемых данных ежегодно возрастает, также растет и потребность получения информации по результатам обработки Больших Данных. Учитывая многообразие неструктурированных данных и их потенциальную ценность, представляется актуальным создание математической модели семантического анализа и синтеза данных, в которой будут учтены аспекты обработки неструктурированных данных. В ходе решения поставленной задачи разработана модель, в которой в отличии от известных, учтена возможность проведения семантического анализа разнородных неструктурированных данных как в исходном текстовом виде, так и полученных после предобработки видео, аудио и графических файлов, а также прикрепленных к ним метаданных. Автоматическая обработка полученный информации позволяет выделить сущности, а последующее проведение семантического анализа выявляет связи между ними, тем самым структурируя данные. Основываясь на принципах индуктивной логики и информации полученной из пользовательского запроса осуществляется процесс синтеза данных для получения дополнительных сведений из данных и более целостной картины.
Семантический анализ данных. Основываясь на анализе работ [30-34] и принципах работы автоматизированных систем обработки данных составлена обобщенная схема работы вопросно-ответной системы (рисунок 1). На входе системы создается запрос пользователя на естественном языке. Далее запрос обрабатывается поисковой системой, которая обращается к базе данных и формирует релевантную выборку. Прежде чем попасть в базу данных вся информация подвергается автоматической обработке. Для текстовой информации это стандартный набор процедур, который может быть применен к имеющимся метаданным графических, видео и аудио файлов. Кроме получения стандартного набора метаданных для перечисленных файлов возможно извлечение дополнительной информации в автоматическом режиме. Например, из аудио и видео файлов может быть получена распознанная речь, которая в дальнейшем будет представлена в виде текстового блока и подвергнута автоматической обработке. Описание графических изображений с помощью средств компьютерного зрения может быть дополнено метаданными о визуально доступной информации. Весь этот набор неструктурированных данных после предварительной обработки подвергается семантическому анализу.
Далее на основе релевантной выборки с учетом выделенных семантических отношений производится синтез данных в соответствии с запросом пользователя и выдача результата.
Предобработка разнородных неструктурированных данных
1 -
Автоматическая обработка текстовой информации:
- предварительная обработка;
- извлечение именованных сущностей; -токенизация;
- морфологический анализ;
- синтаксический анализ;
- семантический анализ.
Рис. 1. Обобщенная схема работы вопросно-ответной системы
Ключевыми процессами системы являются семантический анализ и синтез данных. В данном случае задачей анализа является построение семантических отношений D= {D1(jsli,sl2),...,Dd(sdi,sd^) }, обнаруженным в анализируемом тексте T, кортежа синтаксем st: Т = [%,..., sn], где в соответствие каждой синтаксеме s¿ ставится множество p(s¿), элементы которого определяют морфологические, онтологические характеристики и название самой синтаксемы. Входные данные при разработке математической модели получаются из множества T, выходные из множества D.
Поиск элементов множества D производится с помощью онтосемантических правил, имеющих вид «если А, то В». Пусть А — базовый онтосемантический шаблон, Q — очередь на обработку, Reg — множество всех базовых онтосемантических правил, используемых при семантическом анализе:
Reg = {reg1,—,regm}, где regt - i-ое базовое онтосемантическое правило, представляющее собой кортеж:
regt = [PTi,Di(ai,ßi),deli,spi], где PT¿ - кортеж [p(s¿"),p(s9, — ,P(.SD ], каждый элемент которого является кортежем из трех элементов:
p[sJ^) = [nameJ^ ,morphPiJ,ontPiJ], где name¡ - название слова или синтаксемы s¡, а morphPj1 и ontPtJ множество морфологических и онтологических характеристик этого слова или синтаксемы соответственно; Di(ai,ßi) - семантическое отношение D¿, соединяющее 2 узла, определенные кортежами a¿ и ßt соответствующих синтаксем или из номеров слов PTt; delt - множество порядковых номеров слов или синтаксем из PT¿; spt - значение приоритета семантической группы, к которой относится семантическая зависимость 5¿.
Математическая модель семантического анализа основана на утверждении, что в анализируемом тексте Т производится поиск кортежа подряд идущих синтаксем или слов, коррелирующий с базовым онтосемантическим шаблоном. При совпадении с шаблоном PTt, создается семантическая зависимость D¿, первый и второй аргументы которой состоят из кортежей синтаксем из Т, связанных с порядковыми номерами из кортежей a¿ и ßt в PT¿ соответственно. Если множество delt не пустое, в Q добавляется элемент (sdei., spt, pos(sdei.)), где sdei. - кортеж слов и/или синтаксем из Т , связанных в PTi связанных с элементам из deli, а pos(sdei.) - порядковый номер синтаксемы в Т, связанный в РТ^ с элементом, порядковый номер которого равен max deli.
Запрос пользователя
I -
Формирование поискового запроса в поисковой системе
I -
Поиск данных в потоках и озерах данных
Формирование релевантной выборки
Синтез данных в соответствии с запросом
Выдача результата
После обнаружения в тексте Т всех семантических зависимостей из очереди удаляется элемент с наивысшим приоритетом. В сокращенном на одну синтаксему тексте Т осуществляется очередная итерация поиска семантических шаблонов из Reg. Процесс повторяется до полного исчерпания базовых семантических шаблонов в анализируемом тексте.
Пример онтосемантического правила regt представлен на рисунке 2, с помощью которого в анализируемом тексте ищется семантическое отношение, где (-) - любой, (г) - глагол, (с) - существительное, (время) - онтологическая характеристика.
ncune¡ morphPf а ::!!>■' :
™Í1 - [{-},«,{-}], Е{-},{с}.{»ре«}]1-ВремЯ{0,1), Ш, 3
-Т-Г
РЫ) ptf) fi; / \
del, sp.
Рис. 2. Пример базового онтосемантического правила
Элементы p(s/)) - характеристики слова или синтаксемы s?. Характеристика p(sa) = [namea,morphPa,ontPa] не противоречит характеристике p(sp) = \namep,morphPp,ontPp\ (при этом p(sa) p(sp)), если соответствующие sa и Sp совпадают или название Sp любое, а морфологические и онтологические характеристики p(sp) содержатся в p(sa) или не противоречат им:
" (патеа = патер)
с
p(sa) cp(sp)
Л
morphPa cmorphPp Л
ontP„ contPp
Для поиска кортежа [sy,Sy+1,..,Sy+n_1J,H3 п, элементами которого являются подряд идущие синтаксемы из Т, совпадающего с базовым семантическим шаблоном PTt = [р(5*), p(sf), ...,p(s¿) ], определена функция In:
In(T,PTi) = {!, 3[sJ,sJ+i.....sj+n_í]^T: p(sf)cp(sj+?_1),^ e1...n
1 t 0, else
Для поиска семантических отношений D в тексте Т для каждого правила regí = [PTi,Di(ai,Pi), del^spi]] выполняется проверка на содержание базового онтосемантического шаблона Р Ti в Т. В случае обнаружения шаблон PTt в Т в множество D дополняется семантической зависимостью опре-
деленной в PTt с аргументами, а элемент (sdel.,spi, pos(sdel¡)), попадает в очередь Q:
'( ' DU DjCSj ,S; )
[Insert (Q, {sdelí,spi,pos(sdel¡)) В случае опустошения очереди Q поиск семантических отношений D в анализируемом тексте Т завершается.
Если в множестве Q имеются элементы, то удаляется элемент qmax с наивысшим приоритетом, и из текста Т синтаксема, связанная с qmax:
(ísEmpty(Q) = 0)*
i max ^max
Выходные данные модели предоставляются сформированным множеством семантических отношений D:
In(T,PTi) = 0 )
Л | ^ Return D isEmpty(Q) = Ш
В состав модели синтеза данных в соответствии с запросом пользователя вводятся:
- множество проанализированных текстовых блоков Н: Н = {h;}"^ , где nh - количество обнаруженных семантических отношений;
- множество взаимосвязанных текстовых блоков W:W = {WilWi £Я}"=1, где nw - количество.
При этом в процессе синтеза учитываются функции распределения Fa - тип источника получения информации (текст, видео, аудио или графический файл), Fn{a{) - количество связанных текстовых блоков относительно их первоисточника. Объем генерируемых данных, исчисляемый в количестве файлов, представляет из себя нестационарный поток. Так, например, доля видеофайлов за прошедшие пять лет кратно возросла. Если рассматривать более короткие промежутки времени, то объем генерируемых пользователями данных того или иного рода может зависеть как от времени года, так и от времени суток. Следовательно, случайная величина a (тип источника) распределена по экспоненциальному закону:
Р = (1- е~Аа,а > 0
а Ь, а<0'
В свою очередь количество связанных текстовых блоков как правило будет иметь нормально распределение:
Fn (а;) = —т=е 2*2
С учетом указанных данных модель синтеза данных по запросу пользователя описывается выражением:
M = {H,W,Fa,Fn)
Заключение. Предложенная математическая модель семантического анализа и синтеза данных может
быть использована при разработке программных комплексов, целью которых является сбор и обработка разнородной неструктурированной информации с последующим проведением анализа с использованием технологий искусственного интеллекта. Стоит отметить, что предварительная обработка разнородных данных, представленными видео, аудио и графическими файлами, требует значительных вычислительных ресурсов, следовательно получение ответа на пользовательский запрос при ограниченности вычислительного ресурса может занять длительное время. Дальнейшим направлением исследований может стать вопрос определения вычислительной сложности семантического анализа и синтеза данных и влияние этого показателя на оперативность предоставления ответа на запрос.
Список литературы
1. Кубасов И.А., Лекарь Л.А., Кондрущенков О. М. Перспективные направления применения методов анализа больших данных в информационно-аналитическом обеспечении оперативно-разыскной деятельности // Стратегическое развитие системы МВД России: состояние, тенденции, перспективы: Сборник статей Международной научно-практической конференции, Москва, 23 октября 2020 года. Москва: Академия управления Министерства внутренних дел Российской Федерации, 2020. С. 436-442.
2. Hagn K., Grau O. (2022) Optimized Data Synthesis for DNN Training and Validation by Sensor Artifact Simulation. Deep Neural Networks and Data for Automated Driving, pp. 127-147.
3. Averkin A., Yarushev S. (2020) Neural networks in semantic analysis. Dorondnicyn Computing Centre (electronic journal). Available at: https://elibrary.ru/item.asp?id=43856160 (accessed 13 October 2022) (in Russian).
4. Рябушев С. А., Бабушкин Д. А. Исследование и анализ различных методов машинного обучения для решения задачи семантического анализа // Научные исследования молодых учёных: сборник статей XIX Международной научно-практической конференции, Пенза, 27 июля 2022 года. Пенза: Наука и Просвещение, 2022. С. 81-86.
5. Foltz P., Kintsch W., Landauer T. (2009) The Measurement of Textual Coherence With Latent Semantic Analysis. Discourse Processes (electronic journal). Available at: DOI: 10.1080/01638539809545029.
6. Kishenova A., Tazhibaeva S., Kabanova A. (2021) Cognitive-semantic Approach to text analysis in the Russian language picture of the world. Eurasian Union of Scientists (electronic journal). Available at: https://elibrary.ru/item.asp?id=44910644 (accessed 13 October 2022) (in Russian).
7. Landauer T., Foltz P., Laham D. (1998) An Introduction to Latent Semantic Analysis Discourse Processes. Discourse Processes (electronic journal). Available at: DOI: 10.1080/01638539809545028.
8. Mikhailova G. I., Solopova I. D. (2021) Semantic analysis of the British buildings' names. Science and society: materials of the XVI All-Russian scientific-practical conference with international participation, Novosibirsk, 17 March 2022. P. 66-69.
9. Potaraev V. (2020) Analysis of relation types in semantic network used for text classification. Open semantic technologies for designing intelligent systems, no 4. P. 305-308. (in Russsian).
10. Potaraev V. (2020) Analysis of relation types in semantic network used for text classification. Open semantic technologies for designing intelligent systems (electronic journal), no 4. P. 305-308.
11. Purtov D., Sidorkina I. (2020) An approach combining general and highly specialized semantic analysis in DLP systems. Open semantic technologies for designing intelligent systems (electronic journal).
12. Purtov D., Sidorkina I. (2020) An approach combining general and highly specialized semantic analysis in DLP systems. Open semantic technologies for designing intelligent systems, no. 4., P. 301-304.
13. Rehder B., Schreiner M., Wolfe M. (1998) Using Latent Semantic Analysis to Assess Knowledge: Some Technical Considerations. Discourse Processes (electronic journal). DOI: 10.1080/01638539809545031.
14. Stroy O.A. (2019) Basic methods of semantic analysis. Youth. Society. Modern science, technologies & innovations (electronic journal).
15. Vorobiev V., Rovbo M. (2019) Analysis of Semantic Probabilistic Inference Control Method in Multiagent Foraging Task. Open semantic technologies for designing intelligent systems, no 3. P. 237-242.
16. Wang D., Ma X., Yang X. (2022) TL-GAN: Improving Traffic Light Recognition via Data Synthesis for Autonomous Driving. Available at [Электронный ресурс] URL: https://deepai.org/publication/tl-gan-improving-traffic-light-recognition-via-data-synthesis-for-autonomous-driving (accessed 11 October 2022).
17. Wolfe M., Schreiner M., Rehder B. (1998) Learning from text: Matching readers and texts by latent semantic analysis. Discourse Processes (electronic journal). DOI: 10.1080/01638539809545030.
18. Алетдинова А. А., Капелюк З. А., Корицкий А. В. Анализ покупательского поведения населения на основе семантического анализа запросов пользователей // Вестник Алтайской академии экономики и права, 2022. С. 11-16.
19. Багаев И. В., Васенина М. С., Кудрявцев П. А. Кластеризация и семантический анализ записей в социальных сетях // Общество. Наука. инновации (НПК-2017): сборник статей, 2017.
20. Гавриленко А. В. Применения методов семантического анализа текста и методов машинного обучения для анализа тональности финансовых новостных сообщений // МНСК-2022: Материалы 60-й Международной научной студенческой конференции, Новосибирск, 10-20 апреля 2022 года. Новосибирск: Новосибирский национальный исследовательский государственный университет, 2022. С. 141.
21. Галаганова С. Г., Кравец П. С. Субъективное семантическое пространство человека в условиях цифровой трансформации общества // Человеческий капитал, 2022. С. 159-172.
22. Диковицкий В. В. Семантический анализ текста с применением нейросетевого анализа морфологии и синтаксиса // Труды Кольского научного центра РАН, 2017. С. 109-115.
23. Воронин В. М., Курицин С. В., Наседкина З. А., Ицкович М. М. Использование латентного семантического анализа как альтернативы пропозиционального анализа в исследованиях понимания текста // Гуманизация образования, 2017. С. 11-19.
24. Комарова А. В., Менщиков А. А., Полев А. В., Гатчин Ю. А. Метод автоматизированного извлечения адресов из неструктурированных текстов // International Journal of Open Information Technologies, 2017. С. 21-27.
25. Багаев И. В., Васенина М. С., Кудрявцев П. А. Кластеризация и семантический анализ записей в социальных сетях. Научно-практическая конференция, Киров, 01-29 апреля 2017 года. Киров: Вятский государственный
265
университет, 2017. С. 670-675.
26. Огарок А. Л. Математическая модель процесса семантической обработки текстовой информации. Информатизация и связь, 2021. С. 87-91.
27. Селенина А. Л. Методика анализа семантических аспектов информационной безопасности личности // Вестник науки и образования, 2020. С. 52-56.
28. Хобсон Л., Ханнес Х., Коул Х. Обработка естественного языка в действии: практическое руководство. Санкт-Петербург: Питер, 2020. С. 576.
29. В. А. Маслов, С. М. Соколов, Обработка семантических запросов в среде Protege на примере построения онтологии дорожных знаков, Препринты ИПМ им. М. В. Келдыша. 2018. 260 c.
30. Ширинкина Е. В. Развитие человеческих ресурсов на этапе развития цифровых технологий: семантический анализ // Экономика: вчера, сегодня, завтра, 2018. С. 279-287.
31. Михалева М.Ю., Орлова И.В. Математическое моделирование и количественные методы исследований в менеджменте. М.: Вузовский учебник, 2019. C. 320.
32. Квасов М. Н. Практические рекомендации по обеспечению устойчивости функционирования автоматизированных систем специального назначения критически важными объектами в условиях деструктивных информационных воздействий / М. Н. Квасов, А. П. Криков, М. А. Прохоров // Известия Тульского государственного университета. Технические науки. 2019. Вып. 6. С. 14-21.
33. Мосин Д. А. Методологический подход к совершенствованию автоматизированных систем управления сложными организационно - техническими системами специального назначения на основе внедрения технологий искусственного интеллекта / Д. А. Мосин, А. Ю. Цветков, М. А. Прохоров // Вопросы оборонной техники. Серия 16: Технические средства противодействия терроризму. 2021. № 11-12(161-162). С. 3-14.
32. Горлач Б.А., Шахов В.Г. Математическое моделирование. Построение моделей и численная реализация: Учебное пособие. СПб.: Лань, 2018. С. 292.
33. Яглом И.М. Математические структуры и математическое моделирование. М.: Ленанд, 2018.
Квасов Михаил Николаевич, канд. техн. наук, начальник лаборатории, [email protected], Россия, Анапа, Военный инновационный технополис «ЭРА»,
Митряев Геннадий Андреевич, канд. техн. наук, начальник лаборатории, gmitryaev@mail. ru, Россия, Санкт-Петербург, Военно-космическая академия имени А. ФМожайского,
Прохоров Михаил Александрович, канд. техн. наук, главный эксперт, Россия, Москва, Военно-научный комитет Вооруженных Сил Российской Федерации
DEVELOPMENT OF A MATHEMATICAL MODEL SEMANTIC ANALYSIS AND DATA SYNTHESIS M.N. Kvasov, G.A. Mitryaev, M.A. Prokhorov
The paper examines the process of collecting heterogeneous unstructured data and their subsequent processing. The main areas of application of natural language processing methods are considered. Problematic issues are identified when working with data through semantic analysis. A model of semantic analysis and synthesis of data in accordance with the user's request is proposed. At the same time, the possibility of obtaining additional information (metadata) from heterogeneous sources such as video, audio and graphic data is taken into account. The proposed model can be used in the development of software complexes, the purpose of which is to collect and process heterogeneous unstructured information. In the future, artificial intelligence technologies can be introduced into the model.
Key words: semantic analysis; data synthesis; heterogeneous data; unstructured data; mathematical model; natural language processing.
Kvasov Mikhail Nikolaevich, candidate of technical sciences, head of the laboratory, [email protected], Russia, Anapa, Military innovative technopolis "ERA ",
Mityaev Gennady Andreevich, candidate of technical sciences, head of the laboratory, [email protected], Russia, St. Petersburg, Military Space Academy named after A.F.Mozhaisky,
Prokhorov Mikhail Aleksandrovich, candidate of technical sciences, chief expert, Russia, Moscow, Military Scientific Committee of the Armed Forces of the Russian Federation