Научная статья на тему 'Тексты на естественном языке и методы извлечения структурированных данных'

Тексты на естественном языке и методы извлечения структурированных данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
639
68
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕСТРУКТУРИРОВАННАЯ ИНФОРМАЦИЯ / ЕСТЕСТВЕННЫЙ ЯЗЫК / ОНТОЛОГИЯ / ЛИНГВИСТИЧЕСКИЕ УРОВНИ / СТАТИСТИЧЕСКИЙ ПОДХОД / ИСПОЛЬЗОВАНИЕ ПРАВИЛ / ИСПОЛЬЗОВАНИЕ МАШИННОГО ОБУЧЕНИЯ / ИСПОЛЬЗОВАНИЕ КОНТРОЛИРУЕМЫХ ЯЗЫКОВ / UNSTRUCTURED INFORMATION / NATURAL LANGUAGE / ONTOLOGY / LINGUISTIC LEVELS / THESAURUS / STATISTICAL APPROACH / USE OF MACHINE LEARNING / USE OF CONTROLLED LANGUAGES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бедарев Никита Владимирович, Войнов Антон Антонович

Значительное увеличение потоков неструктурированной информации, а также потребность в повышении качества ее обработки и представления в информационных системах требует развития моделей представления знаний в компьютерном ресурсе, предназначенном для эффективного использования в автоматической обработке текстов в различных предметных областях.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NATURAL LANGUAGE TEXTS AND METHODS OF STRUCTURED DATA EXTRACTION

A significant increase in the flow of unstructured information, as well as the need to improve the quality of its processing and presentation in information systems requires the development of models of knowledge representation in a computer resource designed for effective use in the automatic processing of texts in various subject areas.

Текст научной работы на тему «Тексты на естественном языке и методы извлечения структурированных данных»

УДК 004.89

ТЕКСТЫ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ И МЕТОДЫ ИЗВЛЕЧЕНИЯ СТРУКТУРИРОВАННЫХ ДАННЫХ

Никита Владимирович Бедарев

Сибирский государственный университет путей сообщения, 630049, Россия, г. Новосибирск, ул. Д. Ковальчук, 191, магистрант, тел. (913)981-50-33, e-mail: bednikita@yandex.ru

Антон Антонович Войнов

Сибирский государственный университет путей сообщения, 630049, Россия, г. Новосибирск, ул. Д. Ковальчук, 191, магистрант, тел. (913)707-08-39, e-mail: alariht@gmail.com

Значительное увеличение потоков неструктурированной информации, а также потребность в повышении качества ее обработки и представления в информационных системах требует развития моделей представления знаний в компьютерном ресурсе, предназначенном для эффективного использования в автоматической обработке текстов в различных предметных областях.

Ключевые слова: неструктурированная информация, естественный язык, онтология, лингвистические уровни, статистический подход, использование правил, использование машинного обучения, использование контролируемых языков.

NATURAL LANGUAGE TEXTS AND METHODS OF STRUCTURED DATA EXTRACTION

Nikita V. Bedarev

Siberian Transport University, 191, Dusi Kovalchuk St., Novosibirsk, 630049, Russia, Graduate, phone: (913)981-50-33, e-mail: bednikita@yandex.ru

Anton A. Voynov

Siberian Transport University, 191, Dusi Kovalchuk St., Novosibirsk, 630049, Russia, Graduate, phone: (913)707-08-39, e-mail: alariht@gmail.com

A significant increase in the flow of unstructured information, as well as the need to improve the quality of its processing and presentation in information systems requires the development of models of knowledge representation in a computer resource designed for effective use in the automatic processing of texts in various subject areas.

Key words: unstructured information, natural language, ontology, linguistic levels, thesaurus, statistical approach, use of machine learning, use of controlled languages.

Целью исследования является создание методики, позволяющей облегчить обработку текста на естественном языке при создании онтологии.

Достижение цели осуществлялось последовательно и выразилось в решении ряда задач.

Первичная обработка текста на естественном языке состоит в его анализе на всех лингвистических уровнях. Различные уровни участвуют в разных процедурах анализа текста, которые входят в системы извлечения фактов и имено-

ванных сущностей. Самые большие возможности и высокое качество анализа текстов возможно получить, только проведя все этапы анализа. Основными проблемами здесь являются сложность синтаксического анализа текста и сложность создания полноценной экспертной системы, реализующей полноценную модель окружающего мира.

За время работы над задачей обработки текстов на естественном языке сформировалось несколько подходов к ее решению: использование онтологий, статистический подход, использование правил (Rule-based), использование машинного обучения (ML), использование ограниченных или контролируемых языков (КЕЯ, CNL).

Результатом работы является система-редактор в виде веб-приложения, предоставляющего для пользователя ряд инструментов для упрощения создания онтологий. Система состоит из двух частей: сервиса, осуществляющего операции по обработке естественного и контролируемого языка (составление триплетов «субъект-предикат-объект», нормализация и перевод текста) и непосредственно веб-приложение для редактирования текста на контролируемом естественном языке и его перевода в формат онтологий.

Компьютерная лингвистика демонстрирует вполне осязаемые результаты в различных приложениях по автоматической обработке текстов на естественном языке. Наиболее проработанными являются модели морфологического анализа и синтеза. Существующие инструменты самой компьютерной лингвистики, использование машинного обучения и корпусов текстов, может существенно продвинуть решение вышеупомянутых проблем.

Значительное увеличение потоков неструктурированной информации, а также потребность в повышении качества ее обработки и представления в информационных системах требует развития моделей представления знаний в компьютерном ресурсе, предназначенном для эффективного использования в автоматической обработке текстов в различных предметных областях.

Человечество дошло до того предела, где нет никакой разницы, есть информация или нет только потому, что ее слишком много, и люди не в состоянии усвоить такое количество знаний, чтобы воспользоваться ими. Это значит, что людям нужны подходы, позволяющие иначе устроить как процесс извлечения информации и знаний из огромного скопа данных, так и иначе устроить всю систему обучения.

Функция языковой системы заключается в том, чтобы служить средством для порождения, хранения и передачи информации. Язык является именно средством передачи информации. Информация заключена не в языке, а в тексте, а уже он в свою очередь «создан» с использованием языка, языковой системы.

Говоря о том, что язык это знаковая система, имеется в виду, что основным элементом подобной системы является знак. Он служит для отображения какого-либо элемента действительности. Благодаря наличию в языке данного знака этот элемент не только получает представительство в системе знаний о мире, присущей носителю языка, - возникает возможность передать эти знания другому. И таким образом, знания становятся коммуницируемыми (передаваемыми).

Конкретным индивидуумам присуще потенциально бесконечное разнообразие способов отражения действительности из-за уникальности каждого индивидуума. Бесконечно разнообразны и конкретные условия, в которых имеет место процесс отражения и формирования информации на его основе. Информация должна быть каким-то образом модифицирована, ограничена, подвержена своего рода компрессии, для того чтобы она могла быть передана и воспринята.

Язык возникает и функционирует только в обществе и обслуживает наиболее важные ситуации с точки зрения общества, в том числе некоторой социальной группы. Для языка естественна функция кодирования: преобразования информации, это необходимо для того чтобы она была коммуницируема. При этом информация неизбежно усредняется, обедняется и огрубляется.

Естественным является тот факт, что во время коммуникативного акта человек непрерывно планирует (программирует) свою речь или свое восприятие, осуществляя необходимые регулировки, переключения и т.д. С этой точки зрения, каждая следующая единица должна быть каким-то образом «сверена» и согласована с тем, что уже произнесено (или воспринято) к текущему моменту. Согласно этой гипотезе мышление человека оперирует фреймовыми структурами знаний разной организации - планами, сценариями, схемами. Фрейм любого вида - это та минимально необходимая структурированная информация, которая однозначно определяет данный класс объектов (фреймы-структуры, фреймы-роли, фреймы-сценарии, фреймы-ситуации) [1].

Сегодня АОТ (NLP, Natural Language Processing) успешно применяется для нескольких целей:

- Анализ текста (Text Mining):

- извлечение именованных сущностей (Named Entity Récognition);

- извлечение фактов (Information Extraction);

- анализ тональности текстов и отзывов (Sentiment Analysis);

- информационный поиск;

- вопросно-ответные системы (Question Answering);

- кластеризация и классификация текстов;

- Генерирование текста;

- Синтез и распознавание речи (Speech Recognition);

- Машинный перевод (Machine Translation);

- Автоматическое реферирование, аннотирование или упрощение текста.

В рамках работы был проведен сравнительный анализ систем извлечения

информации из текстов. В настоящее время идет активная разработка и внедрение в сервисы крупных компаний технологий автоматической обработки текстов на естественном языке. Следующий этап развития подобных технологий подразумевает их использование для решения задач бизнеса. Наиболее выде-лаются следующие системы:

- Томита-парсер (Yandex);

- Compreno (ABBYY);

- Texterra (ИСП РАН);

- LSPL (МГУ);

- SyntaxNet (Google).

Первичная обработка текста на естественном языке состоит в его анализе на всех лингвистических уровнях. Различные уровни участвуют в разных процедурах анализа текста, которые входят в системы извлечения фактов и именованных сущностей. Самые большие возможности и высокое качество анализа текстов возможно получить, только проведя все этапы анализа. Основными проблемами здесь являются сложность синтаксического анализа текста и сложность создания полноценной экспертной системы, реализующей полноценную модель окружающего мира. Выделяют следующие этапы анализа текстов на естественном языке:

- графематический;

- лексико-морфологический;

- синтаксический;

- семантический;

- прагматический уровень анализа (выделение онтологий).

Сложность анализа текста заключается в том, что текст эллиптичен, неполон и насквозь пронизан умолчаниями. При разработке систем извлечения именованных сущностей из естественных текстов учитывается множество факторов: языковые факторы, предметные области и стилистика, разрешение корефе-ренции, коррекция орфографических ошибок, разрешение эллипсиса,

За время работы над задачей обработки текстов на естественном языке сформировалось несколько подходов к ее решению:

- использование онтологий;

- статистический подход;

- использование правил (Rule-based);

- использование машинного обучения (ML);

- использование ограниченных или контролируемых языков (КЕЯ, controlled natural language, CNL);

- использование фреймовых структур.

Онтологическое моделирование - это составление информационных моделей в виде концептуальных описаний предметных областей, удовлетворяющих определенным стандартам. Есть специальные языки для онтологий, они стандартизованы и уже применяются в индустрии. Основная цель онтологий - описание схем данных и знаний, которые могут существовать в самых различных источниках. Проблема в том, что этих источников много, они сильно отличаются по типу хранения данных, по программной архитектуре. Чтобы связать их в единое информационное пространство, нужны специальные интеграционные механизмы - ими как раз и являются онтологии.

Создание онтологий - сложный и итеративный процесс. В нем участвуют эксперты конкретных предметных областей и специалисты инженерии знаний. Подавляющее большинство существующих онтологий разработано «вручную» с применением специальных технических средств - редакторов онтологий (например, Protеgе, OntoEdit) [2, 3].

Онтология - это формальная спецификация согласованной концептуализации. Под согласованной концептуализацией подразумевается, что данная концептуализация не есть частное мнение, а является общей для некоторой группы людей. Концептуализация - это структура реальности, рассматриваемая независимо от словаря предметной области и конкретной ситуации. Основная цель онтологий - описание схем данных и знаний, которые могут существовать в самых различных источниках. В простейшем случае онтология - это набор фактов вида <Subject, Predicate, Object>, например, <Николай, является, Человек>.

Существуют различные подходы при создании онтологий, но все они содержат в себе следующие этапы: кластеризация, добавление новых терминов, идентификация отношений, классификация, концептуальное моделирование, и представление онтологии [4].

Контролируемый язык (КЕЯ) является подвидом естественного языка, который получен ограничением в использовании грамматики, терминологии и речевых оборотов с использованием регламентирующих правил для снижения многозначности и сложности языка.

КЕЯ может выступать в качестве средства приближения семантических технологий к особенностям человеческого восприятия при разработке онтоло-гий, в том числе многоязычных. КЕЯ как средство представления онтологий имеет немногочисленные примеры реализации в виде законченных программных продуктов. Одним из таких примеров в английском варианте является Fluent Editor [5]. В результате анализа научной литературы по проблеме использования КЕЯ на основе русского языка для создания мультиязычных отраслевых онтологий учебных дисциплин, мы пришли к заключению, что в настоящее время наблюдается недостаток подобных проектов. Очевидно, что средства КЕЯ находятся в начале своего развития и это направление весьма перспективно с точки зрения широкого охвата семантическими технологиями различных сфер использования.

Введение КЕЯ как самостоятельного термина оправдано тем, что на естественный русский язык накладываются жесткие синтаксические требования, ограничивающие его выразительную силу, но сохраняющие ее в достаточной степени, чтобы описать предметную область. Вводимые ограничения преследуют основную цель - исключить многозначность КЕЯ и сделать текст на КЕЯ машиночитаемым.

Результатом работы является система-редактор в виде веб-приложения, предоставляющего для пользователя ряд инструментов для упрощения создания онтологий. Система состоит из двух частей: сервиса, осуществляющего операции по обработке естественного и контролируемого языка:

- составление триплетов «субъект-предикат-объект»;

- приведение текста к нормальной форме;

- перевод текста.

А также непосредственно веб-приложение для редактирования текста на контролируемом естественном языке и его перевода в формат онтологий:

- редактирование КЕЯ;

- подсветка имеющихся отношений или триплетов в исходном, а также произвольном тексте;

- перевод КЕЯ в формат онтологий;

- построение фреймов и навигация по ним;

- визуализация онтологий.

На данном этапе развития информационных технологий в области обработки естественного языка невозможно создание системы, способной в полной мере и без каких-либо ограничений в автоматическом режиме обрабатывать тексты. Тем не менее, компьютерная лингвистика демонстрирует вполне осязаемые результаты в различных приложениях по автоматической обработке текстов на естественном языке. Наиболее проработанными являются модели морфологического анализа и синтеза. Еще менее изучены и формализованы модели уровня семантики и прагматики. Существующие инструменты самой компьютерной лингвистики, использование машинного обучения и корпусов текстов, могут существенно продвинуть решение вышеупомянутых проблем.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета, 2011.

2. О технологии ABBYY Compreno [Электронный ресурс] / ABBYY - Режим доступа: https://www.abbyy.com/ru-ru/isearch/compreno/, свободный. (Дата обращения: 25.03.2017 г.)

3. Nothman J., Curran J. R., Murphy T. Transforming Wikipedia into named entity training data // Proceedings of the Australian Language Technology Workshop. 2008. P. 124-132.

© Н. В. Бедарев, А. А. Войнов, 2018

i Надоели баннеры? Вы всегда можете отключить рекламу.