Научная статья на тему 'АЛГОРИТМЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНЫХ ТЕХНОЛОГИЙ АНАЛИЗА ДАННЫХ'

АЛГОРИТМЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНЫХ ТЕХНОЛОГИЙ АНАЛИЗА ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
72
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АЛГОРИТМЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА / АНАЛИТИЧЕСКИЕ ИНСТРУМЕНТЫ / ВЕБ СЕРВИС

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ковченко И.А.

В статье рассматриваются вопросы исследования и разработки алгоритмов обработки естественного языка в совокупности с интеллектуальными технологиями анализа данных. В исследовании приводятся такие алгоритмы обработки естественного языка как извлечение именованных сущностей и идентификация тональности текста и последующий интеллектуальный анализ данных, полученных на основе данных алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «АЛГОРИТМЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНЫХ ТЕХНОЛОГИЙ АНАЛИЗА ДАННЫХ»

УДК 004.42

И.А. Ковченко

АЛГОРИТМЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНЫХ ТЕХНОЛОГИЙ АНАЛИЗА ДАННЫХ

В статье рассматриваются вопросы исследования и разработки алгоритмов обработки естественного языка в совокупности с интеллектуальными технологиями анализа данных. В исследовании приводятся такие алгоритмы обработки естественного языка как извлечение именованных сущностей и идентификация тональности текста и последующий интеллектуальный анализ данных, полученных на основе данных алгоритмов.

Ключевые слова: алгоритмы обработки естественного языка, аналитические инструменты, веб сервис.

В настоящее время в сети интернет хранится огромное количество данных, таких как отзывы пользователей на естественном языке, при обработке которых возможно получить множество релевантной информации об интересующем объекте (предприятии, партнере, контрагенте и т.д.).

Для обработки релевантных данных используются такие алгоритмы как извлечение именованных сущностей и идентификация тональности текста [3].

Задача алгоритма извлечения именованных сущностей состоит в автоматическом построении структурированных данных из неструктурированной или слабоструктурированной информации. С помощью данного алгоритма могут быть выделены названия компаний, географические названия, физические имена людей и т.д. В настоящее время существует множество инструментов, поставляемых в качестве API или веб-сервиса, которые позволяют использовать данный алгоритм в качестве готового модуля. Задача состоит в оптимизации, или так называемой «тренировке» моделей для того, чтобы программный модуль акцентировал внимание на необходимых для извлечения данных.

Другим алгоритмом обработки естественного языка, который повсеместно используются в современном анализе информации (к примеру, анализ сообщений из социальных сетей) - является идентификация тональности текста. Анализ тональности текста представляет собой класс методов анализа содержания в компьютерной лингвистике для автоматизированного выявления в текстах эмоционально окрашенной лексики по отношению к объектам, т.е. в простейшем варианте, присваивание положительной или отрицательной категории определенному объекту или совокупности объектов. Методы и алгоритмы идентификации тональности текста могут быть применены в различных сферах и отраслях деятельности, таких как сфера обслуживания, качество работы сотрудников, отзывы потребителей о качестве продукции и т.д.

Помимо данных алгоритмов и методов могут быть использованы и другие инструменты обработки, такие как токенизация (разбиение на отдельные семантические единицы), исключение стоп слов (предварительное удаление из текста семантических единиц не несущих смысловой нагрузки, т.е. частицы, союзы и т.д.) для предварительной обработки текста. В конечно счете, на выходе остается информация об определенном объекте, его параметрах и идентифицированная тональность: по шкале от 1 до 100 или в бинарном виде: «положительная», «отрицательная» в зависимости от дальнейших действий.

Собрав совокупную информацию с использованием алгоритмов обработки естественного языка, ее необходимо проанализировать и представить в наглядном виде. Для решения данной задачи предлагается использование интеллектуальной технологии анализа данных. В качестве прикладного инструмента возможно использование платформы Deductor компании BaseGroup [2].

Данная платформа предназначена для создания законченных аналитических решений. В платформу встроены современные методы извлечения, визуализации и анализа данных.

В контексте данного исследования могут быть применены следующие возможности платформы:

1.Применение инструментов «очистки данных» для предварительной обработки информации. Данный инструмент используется для выявления дубликатов на этапе подготовки собранных данных к дальнейшей обработке и интерпретации. В данном случае, несколько комментариев, оставленных одним

© Ковченко И.А., 2016.

Научный руководитель: Воронцова Ольга Ивановна - кандидат политологических наук, доцент, Астраханский государственный университет, Россия.

ISSN 2223-4047

Вестник магистратуры. 2016. № 12-2(63)

пользователем по одному и тому же объекту необходимо предварительно удалить из выборки, при этом приняв решение не является ли удаляемая информация релевантной, проанализировав зависимость от параметров (таких как, время комментария, потому как определение тональности объекта может меняться с течением времени).

2.Построение и интерпретация самоорганизующихся карт Кохонена для проанализированных отзывов. К примеру, можно наглядно отобразить зависимость положительных или отрицательных отзывов в зависимости от места сбора информации (собственный сайт компании, форум, торговая площадка и т.д.), времени сбора информации (врем, когда был оставлен комментарий) и выявить недостатки исследуемого объекта.

3.Использование инструментов визуализации для отображения информации в удобном виде. В платформе могут быть построены многомерные графики для наглядного отображения обработанной и проанализированной информации по множеству параметров. Например, отображение объектов по оси X, времени комментирования по оси Y, источников комментариев по оси Z, и значение положительности или отрицательности в качестве размера «точки» на многомерной диаграмме.

В целом, архитектура системы, в которой реализованы алгоритмы обработки естественного языка и интеллектуальные технологии анализа данных может быть представлена в качестве универсальной распределенной системы, включающей несколько уровней [1]:

- Представление: реализуется с помощью шаблона MVC.

- Сервисы: содержат логику приложения и включают работу с алгоритмами обработки естественного языка.

- База данных - хранилище данных для информации.

- Связь с модулями осуществляется через веб-сервис.

- Связь с платформой Deductor через прямое соединение с базой данных.

Рис 1. Архитектура системы

Таким образом, может быть получен синергетический эффект [4] от применения информационных технологий в сфере оптимизации деятельности организаций или предприятий, использующих технологии для анализа отзывов потребителей на естественном языке.

Библиографический список

1. Босов А., Иванов А. Программная инфраструктура информационного web-портала // Информатика и ее применения. 2007. № 2.

2. Семочкина И., Прокофьев О. Технологии и программные средства реализации интеллектуального анализа данных // Современные информационные технологии. 2013. № 17.

3. Горбушин Д., Гринченков Д., Мохов В., Нгуен Ф. Системный анализ подходов к решению задачи идентификации тональности текста // Известия высших учебных заведений. 2016. № 2(190).

4. Ханова А.А. Синергетический эффект управления организацией на основе сбалансированной системы показателей // Прикаспийский журнал: управление и высокие технологии. 2010. № 4. С. 36-41.

КОВЧЕНКО ИЛЬЯ АНАТОЛЬЕВИЧ - магистрант, Астраханский государственный университет, Россия.

i Надоели баннеры? Вы всегда можете отключить рекламу.