УДК 004.
ДУЛЬНЕВ А.С. магистрант РТУ МИРЭА Россия, г. Москва.
МЕТОДЫ АВТОМАТИЗИРОВАННОГО ПОДХОДА К РЕФЕРИРОВАНИЮ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ Аннотация: в эпоху информационных технологий огромную роль играет скорость восприятия и понимание читаемой информации. Рост количества статей, больших объемов текстов и данных создает необходимость использовать машинные методы извлечения, подсчета, обработки информации.
Ключевые слова: нейронная сеть, машинное обучение, реферирование, глубинное обучение, Персептрон, Word2 Vec.
DULNEV A.S.
Master student RTU MIREA Russia, Moscow
METHODS OF AUTOMATED APPROACH TO REFERING TEXTS IN
THE RUSSIAN LANGUAGE
Annotation: in the era of information technology, the speed of perception and understanding of readable information plays a huge role. The increase in the number of articles, large volumes of texts and data creates the need to use computer-aided methods for extracting, counting, processing information. Keywords: neural network, machine learning, summarization, deep learning, Perceptron, Word2Vec.
Машинное обучение - одна из больших частей информатики, которая позволяет компьютерам возможность обучаться, не будучи явно запрограммированной.
Объектом исследования работы являются два основных комплекса связанных с обработкой естественного языка: математический и лингвистический методы под названием обработка естественного языка (NLP- natural language processing)
Предметом исследования является автоматическое реферирование текстов с учетом специфики ведения диалогов в социальной сети.
Основной задачей является формирование ряда практических методов, позволяющих обрабатывать текст. На данный момент тема исследования является одной из основных задач обработки естественного языка.
Основная цель реферирования - найти подмножество данных, которое содержит «информацию» всего набора и сделать краткий обзор текста -реферат. В рамках обработки текста в роли набора выступают слова,
предложения, абзацы и т.д. Примерами являются поисковые системы, онлайн-переводчики и т.д.
Реферат создается путем поиска наиболее информативных предложений в тексте. Существует два основных метода автоматического реферирования:
Экстрактный - извлекающий метод
Абстрактный метод
Методы экстракции находят множество существующих слов, фраз или предложений в исходном тексте для дальнейшего формирования реферата. В большинстве случаев такие методы используют алгоритмы, рассчитывающие частоту нахождения слов в тексте.
Абстрактные методы создают внутреннее представление истиной информации текста, а затем используют определённые алгоритмы генерирования естественного языка для создания реферата, который будет понятнее человеку.
На сегодняшний день все исследования построены экстрактивных методах. Абстрактные методы требуют экспериментального подхода с использованием современного программного обеспечения направленного на машинное обучение [1].
Цель исследования - разработать программный
модуль осуществляющий реферирование текста с учётом специфики ведения диалогов в социальной сети.
Задачи данного исследования:
Исследовать существующие методы по разработке программного обеспечения для реферирования текстов.
Рассмотреть существующие алгоритмы и методы, которые используются для обработки текстовой информации
Разработать модель программы, осуществляющей реферирование текстов, представленных диалогом в социальной сети.
Подготовить отчет о работе разработанной программы и проанализировать результаты.
Реферирование - это процесс извлечения самой важной информации из источника (или источников) для создания сокращенной версии для конкретного пользователя (или пользователей) и задачи [2].
Одним из примеров создания реферата можно рассмотреть длинную новостною статью, из которой можно выделить много коротких текстовых сводок, которые встречаются каждый день.
Рассмотрим методы реферирования, которые основанных на нейронных
сетях:
1. Экстракция - производит выбор фраз и предложений из источника для формирования главной мысли всего сказанного заключается в распределении фраз по важности.
2. Абстрагирование_- генерация абсолютно новых слов, фраз и предложений для выделения смысла исходного документа (источника). Более сложный подход, приближен к человеческому (выбор и сжатие содержимого из исходного документа). Для решения вопросов, связанных с абстрагирующим реферированием текста, лучше всего подходит совокупность методов, называемыми Deep Learning или глубинное обучение.
3. Глубинное обучение_(англ. Deep learning) — уровень технологий машинного обучения, характеризующий качественный прогресс, возникший после 2006 года в связи с нарастанием вычислительных мощностей и накоплением опыта. Методы глубинного обучения продемонстрировали очень хорошие результаты для реферирования различных текстов (автоматического машинного перевода, в частности модель sequence to sequence - последовательность к последовательности). Такая модель полностью подходит для проведения операции реферирования различных текстов.
4. Искусственная нейронная сеть. Для изучения нейронной сети необходимо понимать, что такое искусственный нейрон и принцип его работы. Самым распространенным типом искусственного нейрона, является персептрон.
Перцептрон принимает несколько двоичных входов xi, x2, ... и производит один двоичный выход (рис. 1).
Рисунок 1 - Схема перцептрона Персептрон имеет три входа: x1, x2, x3. Фрэнк Розенблатт предложил простое правило для вычисления результата. Он представил веса, wi, W2, как действительные числа, выражающие важность соответствующих входных данных для вывода. Выход нейрона может быть 0 или 1 и определяется тем, является ли взвешенная сумма SjWjXj меньше или больше некоторого порогового (threshold) значения. Подобно весам, порог представляет собой действительное число, которое является параметром нейрона (рис. 2).
10 if У WiXi < threshould
1 if У wtXi > threshould
Рисунок 2 - Формула активации нейрона Это основная математическая модель. Основным простым способом представления персептрона, является тем, что это устройство, которое принимает решения, взвешивая доказательства.
5. Представление слов в качестве векторов. Выделить слова в чистом виде невозможно, т.к. нейросеть воспринимает данные в формате цифр. Для решения данной проблемы необходимо, чтобы нейросеть воспринимала последовательность слов, существует несколько методов представления слов в многомерном цифровом пространстве.
6. Простые векторы совпадений. Анализ контекста, в котором используется слово, - это трансцендентное понимание, того как приблизится к реферированию текста. Механизм заключается в принятии во внимание того, какие слова окружают рассматриваемое слово.
7. Word2Vec - это группа связанных моделей, которые используются для создания векторных представлений слов. Эти модели представляют собой небольшие двухслойные нейронные сети, которые обучаются реконструировать лингвистические контексты слов. Word2vec принимает в качестве своего ввода большой корпус текста и создает векторное пространство, обычно в несколько сотен измерений, причем каждому уникальному слову в корпусе присваивается соответствующий вектор в пространстве. Векторные представления расположены в векторном пространстве, так что слова, которые имеют общие контексты в корпусе, расположены в непосредственной близости друг от друга в пространстве (рис.
3).
vec("man") — vecf'king") + vec("woman") = vec("queen")
Рисунок 3 - Векторы слов Это позволяет использовать семантическую связь слов, а также производить вычисления при помощи векторной алгебры.
Кроме использования нейронных сетей для реферирования текстов, возможно применение других алгоритмов и методов, которые позволяют сделать реферирования текста без использования нейросетей.
Таким образом, мы рассмотрели наиболее популярные методы реферирования текста на основе нейронных сетей.
Использованные источники:
1. Automatic summarization: [Электронный ресурс] - Редим доступа: https://en.wikipedia.org/wiki/Automatic_summarization, свободный. -(дата обращения 30.09.2018)
2. Mani I. Advances in Automatic Text Summarization. [Текст] - The MIT Press, 1999. - 442 c.
3. Яцко В.А. Симметричное реферирование: теоретические основы и методика. НТИ, 2002.