УДК 004.048 ББК 32.813 Ч 25
Частикова Вера Аркадьевна
Доцент, кандидат технических наук, доцент кафедры компьютерных технологий и информационной безопасности института компьютерных систем и информационной безопасности Кубанского государственного технологического университета, Краснодар, e-mail: [email protected] Колесник Николай Михайлович
Аспирант кафедры компьютерных технологий и информационной безопасности института компьютерных систем и информационной безопасности Кубанского государственного технологического университета, Краснодар, e-mail: [email protected]
Методика автоматического определения аутентичности данных, представленных в текстах на естественном языке
(Рецензирована)
Аннотация. Рассмотрены современные средства анализа и обработки текстовой информации. Предложена методика автоматического сопоставления документов различной размерности на предмет аутентичности информации, представленной в одном из них по отношению ко второму, который, в свою очередь, является проверенным источником по заданной предметной области. Описан оптимальный способ выбора необходимого источника по вопросу, ответом на который является проверяемый текст. Методика основана на сопоставлении графов знаний, полученных из «отношений» ключевых слов с другими элементами текста. Адаптированы модели получения векторных представлений документов в многомерном пространстве с учетом семантики и контекста, в которых они употребляются. Предлагаемый подход предусматривает заранее сформированную базу данных с источниками (теоретические материалы предметной области) и модуль «вопрос-ответ» (который и будет проверяться на аутентичность).
Ключевые слова: автоматическая обработка естественного языка, word2vec, node2vec, OIE, doc2vec, нейронные сети, CECM, REM, RAKE.
Chastikova Vera Arkadyevna
Associate Professor, Candidate of Technical Sciences, Associate Professor of Technologies and Information Security Department, Institute of Computer Systems and Information Security, Kuban State University of Technology, Krasnodar, e-mail: [email protected]
Kolesnik Nikolay Mikhaylovich
Post-graduate student of Computer Technologies and Information Security Department, Institute of Computer Systems and Information Security, Kuban State University of Technology, Krasnodar, e-mail: [email protected]
Methods of automatically determining the authenticity data of the natural language texts
Abstract. This article discusses modern tools for analyzing and processing textual information. A method is proposed for automatically comparing documents of various dimensions for the authenticity of information presented in one of them with respect to the second one, which, in turn, is a proven source for a given subject area. And also describes the best way to select the desired source for the question, the answer to which is the text to be checked. The technique is based on a comparison of knowledge graphs derived from the "relationships" of keywords with other elements of the text. In addition, adapted models for obtaining vector representations of documents in a multidimensional space, taking into account the semantics and context in which they are used. The proposed approach provides for a preformed database with sources (theoretical materials of the subject area) and a question-answer module (which will be checked for authenticity).
Keywords: automatic processing of natural language, word2vec, node2vec, OIE, doc2vec, neural networks, CECM, REM, RAKE.
Введение
Автоматический анализ и обработка текстовой информации подразумевает под собой перевод естественного языка в понятную для машины интерпретацию. В 90-е годы XX века был предложен способ векторизации текстовых данных. В настоящее время он нашел свое развитие в нейросетевом фреймворке word2vec. Основная задача подобного перехода - присвоение каждому входному элементу последовательности (слову) вектора в многомерном пространстве и последующее вычисление близости выбранных элементов. Значительно выросшие вычислительные мощности ЭВМ позволяют обрабатывать вышеупомянутыми средствами миллионы документов за считанные часы.
Однако в вопросах семантического анализа естественного языка (немаркированный, необработанный текст) важна не только контекстная близость слов или их синонимичность, но и онтология, показывающая отношения и связи элементов текста.
В работе предложена методика автоматической проверки аутентичности текстов естественного языка различной размерности посредством построения графа знаний и вычисления векторной близости подобных графов. Также описан метод автоматического подбора источника (документа из базы данных, содержащего необходимую информацию по вопросу, ответом на который и является проверяемый текст) [1, 2].
Цели и задачи исследования
Целью работы является изучение существующих средств автоматической обработки и анализа естественного языка и построение с их помощью методики проверки аутентичности информации из текста по сравнению с источником, учитывая семантику и онтологию отношений элементов текста [3-5].
Были выделены следующие задачи:
1. Представление естественного языка в сущности, с которыми могут оперировать средства вычислительной техники. В частности, векторное представление.
2. Семантический и статистический анализ текста на предмет поиска ключевых слов и вычленения онтологических отношений между ними.
3. Получение представления отношений элементов каждого текста и их сравнение между собой.
Конечное решение должно быть способно, для примера, проверить развернутый ответ на правильность, соотнеся векторные представления ответа и источника предметной области. Впоследствии основные положения данной методики планируется использовать в системах обучения и тестирования знаний [6, 7].
Материалы и методы исследования
Word2vec
Word2vec - нейросетевой фреймворк, объединяющий группу моделей, которые используются для создания векторных представлений слов. Они представляют собой неглубокие двухслойные нейронные сети, которые обучаются восстанавливать языковой контекст слов. Технология основана на дистрибутивной семантике и была разработана группой исследователей Google в 2013 году.
В качестве входных данных word2vec принимает корпус (текст) и сопоставляет каждому слову в нем вектор, выдавая его координаты на выходе.
В word2vec существуют два основных алгоритма обучения: CBOW (Continuous Bag of Words) и Skip-gram. CBOW - «непрерывный мешок со словами» - модельная архитектура, которая предсказывает текущее слово, исходя из окружающего его контекста. То есть в данном случае близкими в векторном представлении будут слова, синонимичные друг к другу. Архитектура типа Skip-gram действует иначе: она использует текущее слово, чтобы предугадывать окружающие его слова. Таким образом, рядом окажутся те слова, что часто встречаются близко в тексте. Пользователь word2vec имеет возможность переключаться и выбирать между алгоритмами. Порядок слов контекста не оказывает влияния на результат ни в одном из этих алгоритмов [1, 2, 8].
Doc2vec
После обучения на корпусе входных данных (текстов, абзацев, предложений, документов) с помощью word2vec вычисляется средний вектор на основе суммы всех векторов слов, входящих в текст, и делении на количество слов. Полученный вектор интерпретирует заданный документ в многомерном пространстве.
Node2vec
Node2vec изучает представления узлов в графе через приложение модели word2vec по последовательностям узлов, отобранных с помощью случайных блужданий. Инновацией в
node2vec является определение поиска путем случайного блуждания, которое является гибким и адаптируемым к разнообразию возможных типов связей, возможно, присутствующих в сети.
Рис. 1. Иллюстрация процедуры случайного блуждания
После перехода к узлу v из t возвращаемый гиперпараметр p и гиперпараметр ввода-вывода q управляют вероятностью ходьбы и могут: направить ход в предыдущий узел (t), остаться близко к предыдущим узлам (x1) или перемещаться дальше (x2, x3) [8].
Kg2vec
Kg - knowledge graph (граф знаний) - представление элементов текста и взаимосвязей между ними в виде графа. Kg2vec принимает в качестве входных данных триплеты слов (субъект; взаимосвязь; объект). Для примера, фраза «Петр Васильевич помыл машину» после перевода будет выглядеть: «Петр Васильевич; помыл; машину» [9].
Rapid Automatic Keyword Extraction
RAKE - описанный в 2017 году метод автоматического извлечения ключевых слов в документе, основанный на частотах их появления и заведомо принятом утверждении, что реже ключевыми бывают одиночные слова [10].
Для автоматического получения входных триплетов возможно использовать инструменты OIE (open information extraction), например, RCO Fact Extractor SDK или бесплатную openlE и ее адаптацию к русскому языку. Подобные инструменты позволяют анализировать естественный язык по заранее настроенным параметрам и выделить триплеты взаимосвязей в тексте, чтобы в дальнейшем использовать их как описание графа знаний.
Простая векторная модель на основе word2vec, где схожесть текста определяется суммированием векторов слов, входящих в текст, не учитывает семантику и онтологию взаимосвязей элементов текста. В связи с этим, исходя из поставленной выше задачи, предлагается:
1. Суммировать векторы наиболее важных слов в тексте.
2. Использовать CECM - Context and entity constrained model (модель ограничения контекста и вхождения) и REM - relation encoding model (модель кодирования взаимосвязей) [1, 5, 9].
Эти модели были созданы для оптимизации поиска ссылок на страницы с информацией по коротким запросам. Подобные задачи встречаются при разработке поисковых систем.
CECM использует пару запрос-вхождение (вопрос - ответ на вопрос) и получает представление каждого слова с помощью неявного ограничения его контекста в заданном окне [1, 2, 4].
1/T p(wt\w^,e).
Это позволяет увеличить логарифм схожести каждого запроса с его вхождением.
REM получает на вход триплеты объектов S={<Sj, rj, ог>}, j'=1...\S\, где sj - субъект отношения, rj - само отношение, oj - объект отношения. Предполагается, что функциональная связь, описанная в триплете как r, определяет перевод к векторному представлению. В итоге REM максимизирует логарифмическую вероятность:
1/T XT=1 log p(wt\w^,e) + £ ^1/^ log p(s + r \ Oj ) ,
s+ratiot
где w^C - набор слов в окне, центрированном на wt. Левая часть уравнения - CECM модель, которую обучают по CBOW алгоритму. А правая часть (REM) оптимизирует представление отношений, обучаясь на входных триплетах.
Логарифмическая вероятность:
P(s + r | О ):= (ехр(<+гЧ; )) / (Z exP(eS+r4 )).
1 ^^ s+r 1
С помощью данных моделей удалось добиться результата в ~88,7% точности при поиске ссылок по коротким запросам [1].
Алгоритм автоматического определения аутентичности текстов различной
размерности
Описанные выше модели были выбраны для решения задачи автоматического анализа и оценки аутентичности данных в текстах естественного языка в системе вопрос-ответ-источники. CECM оптимизирует процесс поиска подходящего источника, а REM максимизирует близость векторных представлений текстов с аналогичными «отношениями» их общих элементов. После их адаптации под решение задач исследования было решено увеличить окно просмотра вокруг центрального слова wt. Для коротких запросов разработчики использовали окно c=5; предлагается увеличить его до 15 для обработки источников, до 10 - для обработки ответов и уменьшить до 3 - для обработки вопросов.
Итоговый алгоритм анализа:
1. Текстовый корпус, состоящий из документов (книг, статей, сайтов, других источников с научной информацией), обрабатывается алгоритмом Rapid Automatic Keyword Extraction (быстрое автоматическое извлечение ключевых слов) с использованием фреймворка Natural Language Toolkit (NLTK) для получения списка ключевых слов источников и ответов обучаемых на вопросы [10].
2. Поступает вопрос от преподавателя к обучаемому, который, в свою очередь, генерирует ответ. Вопрос, ответ и наборы ключевых слов документов из базы данных обрабатываются doc2vec и из полученных на выходе векторов выбираются ближайшие к вопросу - их и считаем подходящими источниками.
3. Применяется CECM модель, которая улучшает с ходом времени эксплуатации данного алгоритма качество и скорость поиска подходящего под вопрос источника [1, 3, 9].
4. Средствами OIE извлекаются отношения совпавших ключевых слов в ответе обучаемого и источнике. В результате чего - на выходе формируются триплеты отношений, существенных для семантики вхождений, по которым строится граф знаний. Особенно выделяются ключевые слова, появляющиеся и в вопросе, и в ответе, и в источнике.
Принцип выбора отношений в системах OIE основан на морфологическом и семантическом анализе слов и словосочетаний и аналогичен механизмам, описанным в пункте, раскрывающем суть kg2vec.
5. REM используется для сопоставления графа знаний ответа с графом источника, обучаясь при помощи node2vec на триплетах, извлеченных ранее.
Полученные векторные представления графов знаний ответа и информации из источников используются для вычисления логарифма схожести. Проанализировав получаемые значения, в перспективе возможно выдвижение оценочной шкалы.
Выводы
Задачи анализа естественного языка возникают все чаще с каждым годом в разнообразных сферах жизнедеятельности человека. Представленная методика решает ряд проблем, связанных с сопоставлением фактов и знаний, которые несут в себе тексты. Что позволяет оценить корректность и полноту информации в одном из них по отношению ко второму.
В качестве рекомендаций по развитию или реализации данной методики стоит выделить следующее: рассмотреть возможность добавления нейронов для сглаживания оценочной шкалы, используя обратную связь системы с преподавателем, который корректирует оценку [6].
Примечания:
1. Asli C., Dilek H.-T., Panupong P., Ruhi S. Enriching word embeddings using knowledge graph for semantic tagging in conversational dialog systems // AAAI -Association for the Advancement of Artificial Intelligence. 2015. P. 39-42. URL:
https://www.aaai.org/ocs/index.php/SSS/SSS15/paper/ download/10333/10034 (дата обращения: 17.12.2018).
2. Expert finding for community-based question answering via ranking metric network learning / Z. Zhao, Q. Yang, D. Cai, X. He, Y. Zhuang. Proc. 7th int. joint conf. artif. intell. 2016. P. 3000-3006. URL: https://www.ijcai.org/Proceedings/16/Papers/426.pdf (дата обращения: 17.12.2018).
3. Lu H., Kong M. Community-based question answering via contextual ranking metric network learning // Proc. 26th AAAI conf. artif. intell. 2017. P. 49634964. URL:
https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/d ownload/14211/14222 (дата обращения: 17.12.2018).
4. Context-dependent knowledge graph embedding / Yuanfei Luo, Quan Wang, Bin Wang and Li Guo. P. 1656-1661. URL: http://aclweb.org/anthology/D15-1191 (дата обращения: 17.12.2018).
5. Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean. arXiv preprint arXiv: 1301.3781. 2013. URL: https://arxiv.org/pdf/1301.3781.pdf (дата обращения: 17.12.2018).
6. Частикова В. А., Колесник Н.М. Экспертные системы рецензирующего типа: обзор и современное состояние // Научные труды Кубанского государственного технологического университета. Краснодар: КубГТУ, 2016. С. 187-198. URL: https://ntk.kubstu.ru/file/1163 (дата обращения: 17.12.2018).
7. Частикова В.А., Колесник Н.М. Система адаптивного тестирования на основе критикующего подхода к построению экспертных систем // Научные труды Кубанского государственного технологического университета. Краснодар: КубГТУ, 2018. С. 506-517. URL: https://ntk.kubstu.ru/file/2077 (дата обращения: 17.12.2018).
8. Grover A., Leskovec J. node2vec: Scalable feature-learning for networks, in KDD, ACM. 2016. URL: https://cs.stanford.edu/~jure/pubs/node2vec-kdd16.pdf (дата обращения: 17.12.2018)
9. Expeditious Generation of Knowledge Graph Embeddings / T. Soru, S. Ruberto, D. Moussallem, A. Valdestilhas, A. Bigerl, E. Marx, D. Esteves. 2018. URL:
https://www.researchgate.net/publication/323931794_ Expedi-
tious_Generation_of_Knowledge_Graph_Embeddings (дата обращения: 17.12.2018).
10. Automatic keyword extraction from individual documents / S. Rose, D. Engel, N. Cramer, W. Cowley; // Text Mining: Applications and Theory / M.W. Berry, J. Kogan editors. Chichester, UK: John Wiley & Sons, Ltd, 2010. P. 1-20. URL: https://www.researchgate.net/publication/227988510 _Automatic_Keyword_Extraction_from_Individual_ Documents (дата обращения: 17.12.2018).
References:
1. Asli C., Dilek H.-T., Panupong P., Ruhi S. Enriching word embeddings using knowledge graph for semantic tagging in conversational dialog systems // AAAI -Association for the Advancement of Artificial Intelligence. 2015. P. 39-42. URL:
https://www.aaai.org/ocs/index.php/SSS/SSS15/paper/ download/10333/10034 (дата обращения: 17.12.2018).
2. Expert finding for community-based question answering via ranking metric network learning / Z. Zhao, Q. Yang, D. Cai, X. He, Y. Zhuang. Proc. 7th int. joint conf. artif. intell. 2016. P. 3000-3006. URL: https://www.ijcai.org/Proceedings/16/Papers/426.pdf (дата обращения: 17.12.2018).
3. Lu H., Kong M. Community-based question answering via contextual ranking metric network learning // Proc. 26th AAAI conf. artif. intell. 2017. P. 49634964. URL:
https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/d ownload/14211/14222 (дата обращения: 17.12.2018).
4. Context-dependent knowledge graph embedding / Yuanfei Luo, Quan Wang, Bin Wang and Li Guo. P. 1656-1661. URL: http://aclweb.org/anthology/D15-1191 (дата обращения: 17.12.2018).
5. Efficient estimation of word representations in vector space / T. Mikolov, K. Chen, G. Corrado, J. Dean. arXiv preprint arXiv: 1301.3781. 2013. URL: https://arxiv.org/pdf/1301.3781.pdf (дата обращения: 17.12.2018).
6. Chastikova VA., Kolesnik КМ. Overview and analysis of the current state of critiquing expert systems // Proceedings of the Kuban State Technological University. Krasnodar: KubSTU, 2016. URL: https://ntk.kubstu.ru/file/1163 (access date: 17.12.2018).
7. Chastikova VA., Kolesnik КМ. Adaptive testing system based on the critical approach to building expert systems // Proceedings of the Kuban State Technological University. Krasnodar: KubSTU, 2018. URL: https://ntk.kubstu.ru/file/2077 (access date: 17.12.2018).
8. Grover A., Leskovec J. node2vec: Scalable feature-learning for networks, in KDD, ACM. 2016. URL: https://cs.stanford.edu/~jure/pubs/node2vec-kdd16.pdf (дата обращения: 17.12.2018)
9. Expeditious Generation of Knowledge Graph Embeddings / T. Soru, S. Ruberto, D. Moussallem, A. Valdestilhas, A. Bigerl, E. Marx, D. Esteves. 2018. URL:
https://www.researchgate.net/publication/323931794_ Expedi-
tious_Generation_of_Knowledge_Graph_Embeddings (дата обращения: 17.12.2018).
10. Automatic keyword extraction from individual documents / S. Rose, D. Engel, N. Cramer, W. Cow-ley; // Text Mining: Applications and Theory / M.W. Berry, J. Kogan editors. Chichester, UK: John Wiley & Sons, Ltd, 2010. P. 1-20. URL: https://www.researchgate.net/publication/227988510 _Automatic_Keyword_Extraction_from_Individual_ Documents (дата обращения: 17.12.2018).