Научная статья на тему 'ВЫБОР ОПТИМАЛЬНОГО ПРОГРАММНОГО ПРОДУКТА ПРИ ОБРАБОТКЕ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ'

ВЫБОР ОПТИМАЛЬНОГО ПРОГРАММНОГО ПРОДУКТА ПРИ ОБРАБОТКЕ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
4
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
неструктурированные данные / информационный поиск / программное обеспечение / система / процесс автоматизации / информационный продукт / unstructured data / information retrieval / software / system / automation process / information product

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — В.А. Гусейнова, И.Л. Савостьянова

В данной статье был произведен анализ проблем в области обработки неструктурированных данных, рассмотрены виды информационного поиска, проанализированы задачи извлечения именованных сущностей. Выбран самый оптимальный программный продукт для работы с неструктурированными данными.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — В.А. Гусейнова, И.Л. Савостьянова

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SELECTION OF THE OPTIMUM SOWTWARE PRODUCT WHEN PROCESSING UNSTRUCTURED DATA

In this article, an analysis of problems in the field of processing unstructured data was made, the types of information retrieval were considered, and the tasks of extracting named entities were analyzed. The most optimal software product for working with unstructured data has been selected.

Текст научной работы на тему «ВЫБОР ОПТИМАЛЬНОГО ПРОГРАММНОГО ПРОДУКТА ПРИ ОБРАБОТКЕ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ»

УДК 004.043

ВЫБОР ОПТИМАЛЬНОГО ПРОГРАММНОГО ПРОДУКТА ПРИ ОБРАБОТКЕ

НЕСТРУКТУРИРОВАННЫХ ДАННЫХ

В. А. Гусейнова Научный руководитель - И. Л. Савостьянова

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: lera.guseynova.2016@mail.ru

В данной статье был произведен анализ проблем в области обработки неструктурированных данных, рассмотрены виды информационного поиска, проанализированы задачи извлечения именованных сущностей.

Выбран самый оптимальный программный продукт для работы с неструктурированными данными.

Ключевые слова: неструктурированные данные, информационный поиск, программное обеспечение, система, процесс автоматизации, информационный продукт.

SELECTION OF THE OPTIMUM SOWTWARE PRODUCT WHEN PROCESSING

UNSTRUCTURED DATA

V. A. Guseynova Scientific supervisor - I. L. Savostyanova

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: Lera.guseynova.2016@mail.ru

In this article, an analysis of problems in the field of processing unstructured data was made, the types of information retrieval were considered, and the tasks of extracting named entities were analyzed.

The most optimal software product for working with unstructured data has been selected.

Key words: unstructured data, information retrieval, software, system, automation process, information product.

На сегодняшний день большое количество ведущих производителей программного обеспечения предлагают свои разработки в информационной области, однако не у всех предлагаемых решений есть возможность работать с данными Web-ресурсов.

Из-за того, что количество источников неструктурированной информации (различные web-энциклопедии, новостные и научные порталы и т.д.) постоянно растет, то возрастает потребность в извлечении из таких источников структурированной информации. В этом заключается актуальность исследования и дальнейшее применение в различных приложениях задачи извлечения структурированных именованных сущностей.

При достижении цели автоматизации процесса обработки неструктурированных данных, таких как Web-ресурсы, будет проводится более результативное осуществление информационного поиска, что, в свою очередь, приведет к снижению трудозатрат пользователей.

Секция «Информационно-экономические системы»

Информационный поиск - это процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности, и наука об этом поиске [1].

Структурированными называют данные, которые упорядочены и организованы таким образом, что к ним можно обеспечить возможности использования некоторых действий (к примеру, визуального либо машинного анализа).

В свою очередь получается, что к неструктурированным относятся данные, которые имеют "произвольную" форму. Они могут в себя включать тексты и графику, различные мультимедиа (видео, речь, аудио). Подобная форма представления информации широко используема в Интернете, а сами данные даются пользователю в виде отклика поисковыми системами.

Задача извлечения именованных сущностей является подзадачей задачи извлечения информации и сводится к распознаванию в тексте именованных сущностей и их классификации по определенным категориям [2].

Извлечение информации - это разновидность информационного поиска, основной целью которой, является выявление структурированной информации из неструктурированных данных.

Под именованными сущностями нередко понимают объекты четко определенного вида. Они по своим свойствам имеют свое наименование или идентификатор, например, организации, места, люди, события и т.д.

Извлечение таких сущностей широко применяется в областях:

1. Информационный поиск (включая кросс-языковой);

Кросс-языковой поиск - это информационный поиск, в котором языки запроса и результатов поиска различаются. Ранее, основная задача информационного поиска состояла в поиске документа, который должен был удовлетворять поставленным критериям запроса. Такой запрос применялся к массиву данных. Сегодня же, такая задача включает в себя огромное количество подзадач. К ним можно отнести систематизацию, фильтрацию, кластеризацию документов, аннотирование и реферирование документов, разработку и улучшение языков запросов.

2. Вопросно-ответные системы;

Вопросно-ответная система обрабатывает поступающие вопросы и выдает на них ответы на естественном языке. Подавляющее большинство вопросов предполагает в качестве ответа то, что можно отнести к именованным сущностям различных типов. Данное обстоятельство наглядным образом демонстрирует полезность и эффективность применения извлечения именованных сущностей при разработке подобных информационных систем для повышения их продуктивности и качества работы.

3. Автоматизированный сбор новостей;

События, освещаемые в новостях, можно содержательно охарактеризовать, используя различные именованные сущности, которые будут описывать время и место действия, а также участников события.

4. Анализ биологических и медицинских текстов;

Выявление специализированных видов именованных сущностей для таких прикладных областей, как биология и медицина позволяет проводить поиск информации среди большого массива документов, которые относятся к данным областям, более высокоэффективным образом.

На данный момент огромное количество ведущих производителей программного обеспечения предлагают свои продукты и решения в области обработки неструктурированных данных. Как правило - это масштабируемые системы, в которых реализованы различные математические и лингвистические алгоритмы анализа текстовых данных. Они имеют развитые графические интерфейсы, богатые возможности визуализации

и манипулирования с данными, предоставляют доступ к различным источникам данных, функционируют в архитектуре клиент-сервер [3]. К таким системам относятся:

1. Intelligent Miner for Text (IBM);

2. Text Miner (SAS);

3. Oracle Text (Oracle);

4. SemioMap (Entrieva);

5. Autonomy Knowledge Server (Autonomy).

Если рассматривать продукт фирмы IBM Intelligent Miner for Text, то он представляет собой комплекс некоторых утилит. Их запуск проводится из командной строки или скриптов независимо друг от друга. Эта система является одним из лучших инструментов глубинного анализа текстов [4].

Но из найденных продуктов в сети, лишь продукт фирмы IBM Intelligent Miner for Text содержит в себе все необходимое для решения задачи извлечения именованных сущностей и, как следствие, для обработки неструктурированных данных Web-ресурсов. Но для ознакомления со способами организации обработки текстовых данных, находящихся как в структурированном, так и в неструктурированном виде, в рамках данной системы, а также для дальнейшего ее использования необходимо приобрести лицензию. Стоимость лицензии на данный программный продукт зависит от его уровня и набора входящих в него опций.

Требования по соответствию нормативам являются внешним триггером, однако, наиболее важная ценность обработки неструктурированной информацией выражается тогда, когда неструктурированный контент применяется для создания или усовершенствования продуктов, или услуг, для улучшения системы принятия решений и исполнительных процессов. Организации должны уделять внимание использованию как можно более широкого спектра источников неструктурированных данных. Это улучшит их позиции на рынке и поможет повысить эффективность исполнительных процессов. Программные поставщики и системные интеграторы должны осваивать более стратегический подход к продвижению своих продуктов и снижать общую стоимость их внедрения.

Библиографические ссылки

1. Koriolan404 // Основные понятия информационного поиска. Релевантность, пертинентность и их отличие. [Электронный ресурс]. URL: http://koriolan404.narod.ru/ tipis/25.htm (дата обращения: 31.03.2022).

2. Виолентов И.А. Анализ подходов и инструментов для извлечения именованных сущностей / И.А. Виолентов. - Нижний Новгород, 2014. С. 98-99.

3. Ткаченко М.В. Выделение именованных сущностей на основе «Википедии» / М.В. Ткаченко. - СПб., 2011. С. 98-99.

4. Гершевич Е.К. Извлечение именованных сущностей из текстовых данных // сб. ст. по материалам Международной научно-практической конференции «Молодой ученый: вызовы и перспективы». - № 2436 - Интернаука, 2016. С. 98-99.

© Гусейнова В. А., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.