Научная статья на тему 'Интеллектуальный анализ текста'

Интеллектуальный анализ текста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2053
357
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
интеллектуальный анализ / потоки данных / текст / intellectual analysis / data streams / text

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Цитульский Антон Максимович, Иванников Александр Владимирович, Рогов Илья Сергеевич

Необходимо исследовать основы, методы и варианты использования интеллектуального анализа текста. Привести примеры использования интеллектуального анализа текстов. Рассмотреть перспективные направления исследований в направлении анализа текста. Сравнить текстовый анализ и анализ данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Цитульский Антон Максимович, Иванников Александр Владимирович, Рогов Илья Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTELLECTUAL TEXT ANALYSIS

We want to explore the basics, methods and uses of text mining. Give examples of the use of text mining. Consider promising areas of research in the direction of text analysis. Compare text analysis and data analysis.

Текст научной работы на тему «Интеллектуальный анализ текста»

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА

INTELLECTUAL TEXT ANALYSIS

УДК-004

Цитульский Антон Максимович, студент, МГТУ им. Н. Э. Баумана, Россия, г. Москва

Иванников Александр Владимирович, студент, МГТУ им. Н. Э. Баумана, Россия, г. Москва

Рогов Илья Сергеевич, студент, МГТУ им. Н. Э. Баумана, Россия, г. Москва

Tsitulsky Anton Maksimovich, tmath90@yandex.ru Ivannikov Alexander Vladimirovich, tmath90@yandex .ru Rogov Ilya Sergeevich

Аннотация

Необходимо исследовать основы, методы и варианты использования интеллектуального анализа текста. Привести примеры использования интеллектуального анализа текстов. Рассмотреть перспективные направления исследований в направлении анализа текста. Сравнить текстовый анализ и анализ данных.

ABSTRACT

We want to explore the basics, methods and uses of text mining. Give examples of the use of text mining. Consider promising areas of research in the direction of text analysis. Compare text analysis and data analysis.

Ключевые слова: интеллектуальный анализ; потоки данных; текст.

Keywords: intellectual analysis; data streams; text.

Введение

Поток информации из всемирной паутины труден для восприятия людьми, принимающими решения. В компаниях становится все более привлекательным использование различных фильтров, которые определяют релевантную информацию и делают ее доступной. Методы интеллектуального анализа текста могут использоваться индивидуально или коллективно для обработки неструктурированных текстовых данных.

Интеллектуальный анализ текста описывает методы получения новой информации из потока текста и текстовых данных, которые появляются каждый день. В частности, он включает в себя процессы компиляции, организации и анализа больших коллекций документов с целью извлечения

необходимой информации и обнаружения ранее неизвестных связей между текстами. Ручной анализ текста это трудоемкий процесс, который превышает человеческую способность читать, маркировать или сортировать терабайты текстовых данных по различным критериям. Интеллектуальный анализ текста

В отличие от компьютеров, людям довольно легко читать и понимать тексты. С другой стороны, если тексты должны анализироваться программным обеспечением, это является сложной задачей, которая требует сочетания компьютерно-лингвистических и статистических методов. На этом фоне интеллектуальный анализ текста относится к автоматизированному аналитическому процессу извлечения новых и потенциально полезных знаний из текстовых документов. Для этой цели используются методы: обработки естественного языка (^ЫЬР), поиска и извлечения информации, а также искусственного интеллекта.

Перспективный прикладной потенциал интеллектуального анализа текста можно найти в области управления взаимоотношениями с клиентами и конкурентной разведки. Благодаря интернету быстро растет количество текстовых документов, анализ текста приобретает большой потенциал. Возможные задачи интеллектуального анализа текста разнообразны. Они включают, например, извлечение неявных знаний из больших объемов текстовых данных, визуализация закономерностей и информации, представленной в текстах, оценка текстовых данных, которые не могут быть прочитаны людьми из-за их объема, структурирование и анализ научных публикаций и патентов. Анализ текста и анализ данных

Главная разница между анализом данных и анализом текста - тип обрабатываемых данных. Таким образом, источник данных для классического интеллектуального анализа данных это структурированные данные. Структурированные данные обычно находятся в первой нормальной форме в соответствии с терминологией реляционных баз данных. Следовательно, отдельные поля данных содержат атомарные значения, то есть они не могут быть далее разложены. Напротив, текстовые документы в контексте интеллектуального анализа текста обычно понимаются как неструктурированная основа анализа. Однако, если рассматривать его точно, текст не является полностью неструктурированным, но имеет неявную структуру, вытекающую из грамматики, и, в зависимости от текстового документа, явную структуру, например, из заголовков и абзацев.

Другое отличие состоит в том, как анализ данных и анализ текста подходят к аналитике. Ни одна из них не является единой технологией, но вместо этого использует широкий спектр функций для преобразования имеющихся данных в ценные идеи и знания.

С одной стороны, интеллектуальный анализ данных объединяет дисциплины, в том числе статистику, искусственный интеллект и машинное обучение, для непосредственного применения к структурированным данным. Некоторые из используемых функций моделирования данных перечислены ниже:

• Ассоциация - определяет, насколько вероятен один случай в отношении другого случая с течением времени. Например, в транзакциях продаж функция ассоциации может раскрыть модели покупок покупателей, покупающих молоко при покупке зерновых.

• Классификация - показывает шаблоны, используемые для прогнозирования класса, в который попадают данные. Например, прогнозы погоды о том, будет ли солнечно или облачно в зависимости от погодных условий.

• Кластеризация - организует данные, выявляя сходства и группируя их в кластеры для выявления новых фактов об этих данных. Например, сегментация рынка является одним из его приложений.

• Регрессия - предсказывает числовое значение в зависимости от переменных в данном наборе данных. Например, цены на подержанный автомобиль с учетом его пробега и других переменных условий.

Платформы аналитики и бизнес-аналитики могут быстро идентифицировать и извлекать информацию из больших наборов, структурированных данных и применять эти функции интеллектуального анализа данных для создания моделей, которые обеспечивают аналитическую, предиктивную и предписывающую аналитику.

С другой стороны, для интеллектуального анализа текста требуется дополнительный шаг при сохранении той же аналитической цели, что и для интеллектуального анализа данных. Анализ текста имеет дело с неструктурированными данными, поэтому, прежде чем можно будет применить какую-либо функцию моделирования данных или распознавания образов, неструктурированные данные должны быть организованы и структурированы таким образом, чтобы обеспечивалось моделирование данных и аналитика.

Это требует сложных статистических и лингвистических методов, чтобы иметь возможность анализировать широкий спектр неструктурированных

текстовых форматов данных и обогащать каждый документ метаданными, такими как автор, дата, краткое содержание и так далее. Этот процесс обычно связан с техникой ИИ, называемой обработкой естественного языка. это позволяет системе понимать значение на человеческом языке. Метаданные можно считать ключевым элементом в структурировании данных этого типа. После того, как данные были метатегированы и определены, они могут быть переведены в машиночитаемый формат, который можно использовать для анализа.

Таблица 1.

Основные отличия анализа текста и данных

Анализ данных Анализ текста

Функции Диапазон функций для поиска шаблонов и связей в структурированных данных. Диапазон функций для преобразования неструктурированных текстовых данных в структурированную информацию для анализа данных.

Тип данных Структурированные данные из больших наборов данных, найденных в таких системах, как базы данных, электронные таблицы, ERP, CRM и бухгалтерские приложения. Неструктурированные текстовые данные, найденные в электронных письмах, документах, презентациях, видео, общих файлах, социальных сетях и Интернете.

Поиск данных Структурированные данные однородны и организованы, что облегчает поиск. Неструктурированные текстовые данные представлены во многих различных форматах и типах контента, расположенных в более широком диапазоне приложений и систем.

Подготовка данных Структурированные данные являются формальными и отформатированными, что облегчает процесс ввода данных в аналитические модели. Лингвистические и статистические методы, включая формулировку МЬР и мета-теги, должны применяться для превращения неструктурированных в пригодные для использования

Анализ данных Анализ текста

структурированные данные.

Методы анализа текста

Методы анализа текста можно подразделить на две категории: лингвистические методы (обработка естественного языка), и статистические методы(частота встречающихся слов). Поскольку основой интеллектуального анализа текстовых данных являются текстовые данные или тексты, в методах анализа также доминируют лингвистические методы. Данные, которые анализируются с использованием методов анализа текста, попадают в категорию данных неструктурированных или полуструктурированных данных. Анализ лингвистического языка, например, для классификации данных в соответствии с конкретными семантическими характеристиками, обеспечивает важную отправную точку для структурирования этих (полу) структурированных данных (кластеризация). Методы обработки естественного языка:

• Морфологический анализ. Цель состоит в том, чтобы уменьшить сложность последующего анализа текстового документа.

• Синтаксического анализ - аннотация отдельных блоков предложений. Под аннотацией понимается текстовый тег, то есть вставка маркеров для отдельных частей текста. Пометка части речи (POS) является отправной точкой синтаксического анализа. Тегер части речи аннотирует все слова в предложении с их частью речи (например, глагол, прилагательное, существительное). На основании результатов POS-тегов может строиться синтаксический анализ. Структура предложения анализируется, и каждое слово помечается в соответствии с его положением в предложении (например, субъект, предикат, объект). Преимущество синтаксического анализа заключается в том, что он позволяет целенаправленно извлекать информацию из определенных синтаксических единиц.

• Семантический анализ обрабатывает контекстные знания, чтобы разбить текст на смыслозависимые единицы.

ПРОЦЕСС ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА

Как общий процесс, интеллектуальный анализ текста включает в себя отдельные этапы:

1. Определение задачи: определение проблемы и определение целей для анализа текста.

2. Выбор документов: на основе предварительно сформулированных аналитических целей для интеллектуального анализа текста определяются

потенциально релевантные документы. В этом случае может использоваться так называемое хранилище документов, которое объединяет различные типы документов (например, электронные письма, формы, отчеты) из разных источников.

3. Обработка документов. В то время как структурированные данные в анализе данных напрямую соответствуют обрабатываемым единицам анализа, анализ текста дополнительно требует извлечения признаков, из которых извлекаются термины, которые затем служат для представления документов. Такой термин может состоять только из одного слова или основы, но также и из нескольких составных слов, которые вместе имеют определенное значение: например, «Текстовый майнинг». Для извлечения термина могут использоваться методы обработки естественного языка. Термины, извлеченные из коллекции документов, служат переменными в интеллектуальном анализе текста. Наиболее распространенная модель представления документов основана на векторах в n-мерном векторном пространстве, размеры которых соответствуют словарю коллекции документов (модель векторного пространства). Эта модель может быть графически представлена в виде матрицы терминов документа: здесь строки матрицы соответствуют документам коллекции документов, а столбцы -отдельным терминам. Запись в ячейке может быть двоичной (для наличия или отсутствия термина в документе), указывать частоту термина в документе или соответствовать взвешенной частоте, указывающей значение термина в документе.

4. Анализ текста. После того, как термины извлечены из текстовых документов и текстовые данные получили структуру, можно использовать методы, известные из классического интеллектуального анализа данных: тексты могут автоматически назначаться предварительно определенным категориям (классификация) или они можно сгруппировать так, чтобы похожие тексты были объединены (сегментация). Аналогичным образом можно анализировать общее вхождение терминов (анализ зависимостей).

5. Интерпретация и оценка результатов: фильтрация и оценка результатов интеллектуального анализа текста.

6. Применение результатов.

Выводы

Неиспользуемые данные, которые хранятся в больших количествах в компаниях, также называют «темными данными». По данным исследовательской компании Gartner, к 2021 году 80 процентов компаний не смогут установить правила безопасного и продуктивного использования этого

растущего объема данных. Анализ текстовых данных является одним из наиболее перспективных подходов для извлечения значимой информации из неиспользуемых неструктурированных данных.

Поскольку интеллектуальный анализ данных работает с структурированными данными внутри организации, он особенно подходит для предоставления широкого спектра эксплуатационных и бизнес-преимуществ. Например, он может организовывать и анализировать данные из систем IoT, чтобы обеспечить прогнозируемое обслуживание заводского оборудования, или он может комбинировать исторические данные о продажах с поведением клиентов для прогнозирования будущих продаж и моделей спроса.

Извлечение текста может пойти еще дальше, синтезируя огромное количество контента в легко понятную информацию и позволяя вам понять, что люди на самом деле думают. Анализ настроений стал основным бизнес-примером использования анализа текста, поскольку он позволяет выявить мнения и проблемы клиентов и партнеров путем отслеживания и анализа социального контента.

Новый мир больших данных означает, что большинство предприятий стремятся объединить как структурированные, так и неструктурированные данные для обеспечения большей наглядности и лучшего понимания своего бизнеса и операций.

Литература

1. Gentsch, P.; Hänlein, M.: Text Mining. In: WISU 12/99, S. 1646-1653 (1999).

2. Hippner, H.; Rentzmann, R.: Text Mining zur Anreicherung von Kundenprofile in der Bankenbranche. Erscheint in: HMD-Praxis der Wirtschaftsinformatik (2006).

3. Фербер, Р.: поиск информации-Suchmodelle и интеллектуальный анализ данных-Verfahren für Textsammlungen und das Web. Гейдельберг: дпункт^ег^ 2003

4. Автоматическое Извлечение Контента, Консорциум Лингвистических Данных. - Режим доступа: https://www.ldc.upenn.edu/collaborations/past-projects/ace (дата обращения: 05.09.2019)

5. Марти Херст: Что Такое Интеллектуальный Анализ Текста? - Режим доступа: http://people.ischool.berkeley.edu/~hearst/text-mining.html (дата обращения: 05.09.2019)

6. Интеллектуальный Анализ Текста. - Режим доступа: https://gi.de/informatiklexikon/text-mining/ (дата обращения: 05.09.2019)

Literature

1. Gentsch, P.; Hänlein, M.: Text Mining. In: WISU 12/99, S. 1646-1653 (1999).

2. Hippner, H.; Rentzmann, R.: Text Mining zur Anreicherung von Kundenprofilen in der Ban-kenbranche. Erscheint in: HMD - Praxis der Wirtschaftsinformatik (2006).

3. Ferber, R.: Information Retrieval - Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt.verlag 2003

4. Automatic Content Extraction, Linguistic Data Consortium. - Режим доступа: https://www.ldc.upenn.edu/collaborations/past-projects/ace (дата обращения: 05.09.2019)

5. Marti Hearst: What Is Text Mining? - Режим доступа: http://people.ischool.berkeley.edu/~hearst/text-mining.html (дата обращения: 05.09.2019)

6. Text Mining. - Режим доступа: https://gi.de/informatiklexikon/text-mining/ (дата обращения: 05.09.2019)

i Надоели баннеры? Вы всегда можете отключить рекламу.