Научная статья на тему 'Перспективы и аспекты использования систем анализа текста'

Перспективы и аспекты использования систем анализа текста Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
244
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ / ANALYSIS / СИСТЕМЫ АНАЛИЗА ТЕКСТА / TEXT ANALYSIS SYSTEMS

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Кириллов Никита Ильич

В статье анализируются теоретические аспекты применения систем анализа текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Перспективы и аспекты использования систем анализа текста»

какие именно выгоды может принести с собой внедрение информационных систем и приблизительно оценить возможные проблемы, основываясь на своем опыте работы на предприятии.

В случаях чрезвычайной сложности проблемы, ее новизны, недостаточности имеющейся информации, невозможности математической формализации процесса оценки приходится обращаться к компетентным специалистам, прекрасно понимающим специфику данной рабочей области. Их решение, аргументация, формирование качественных и количественных оценок, обработка последних формальными методами получили название метода экспертных оценок.

Четвертая группа - группа классических методов оценки инвестиционных проектов. В группу классических методов оценки входят такие показатели, как ROI (окупаемость инвестиций), NPV (чистая приведенная стоимость), IRR (внутренняя норма доходности), и другие.

В основном используются традиционные финансовые коэффициенты, которые рассчитываются применительно к тем результатам деятельности предприятия, на которые в большей степени влияют информационные технологии. Обычно такими целями выступают сокращение накладных расходов, снижение затрат на содержание аппарата управления, сокращение персонала и пр. недостатком данной группы методов является то, что затратный подход позволяет контролировать информационные расходы, но он мало помогает в определении выгод, которые способна дать информация предприятию. При таком анализе собственно информация остается в стороне, все внимание переключается на экзогенные факторы, через которые должны проявляться информационные эффекты. На первом этапе такое упрощение допустимо, но оно препятствует пониманию процессов внутри информационной системы управления.

Группа балансовых методов оценивает внедренную систему не на основании увеличения или снижения эффективности работы, а на основании вложенных в ее разработку ресурсов. Группа балансовых методов включает в себя такие методы, как CBA - анализ «затраты-выпуск» (или «затраты-выгоды»), TCO - Совокупная стоимость владения, ИТ-Бюджет, Information Economics (IE) - Метод экономической теории информации. Применение балансовых методов (cost-benefit analysis) подразумевает сведение затрат на информационные системы, проблем, возникающих в результате их интеграции и использования (к примеру, дополнительные затраты производственных и временных ресурсов на переработку методологии управления, разработку новых моделей бизнес-процессов, время и ресурсы на обучение персонала) с одной стороны, и преимуществ, создаваемых данными информационными системами, с другой стороны.

Литература

1. Сатунина А. Е. Управление проектом корпоративной информационной системы предприятия. М.:

ИНФРА-М, 2009. 2 с.

Perspectives and aspects of text analysis systems Kirillov N.

Перспективы и аспекты использования систем анализа текста

Кириллов Н. И.

Кириллов Никита Ильич /Kirillov Nikita — бакалавр, факультет прикладной математики и информационных технологий, Финансовый университет при Правительстве Российской Федерации, г. Москва

Аннотация: в статье анализируются теоретические аспекты применения систем анализа текста. Abstract: the article analyzes theoretical aspects of text analysis systems.

Ключевые слова: анализ, системы анализа текста. Keywords: analysis, text analysis systems.

Несмотря на то, что история письменности насчитывает тысячелетия, способ представления информации в виде текста остается одним из основных и сегодня, а за последние десятилетия объемы существующей текстовой информации невероятно возросли. Кроме того, текст является одним из самых эффективных источников информации как для передачи, так и для, например, машинной обработки и последующего автоматического анализа. Ценность автоматического анализа текста на сегодняшний день особенно высока, так как человек обработать самостоятельно современные объемы информации уже, безусловно, не сможет. Анализ текста находит применение практически во всех сферах жизни: в бизнесе (автоматическая обработка и классификация документов), в политологии и социологии (предсказание

результатов выборов или будущих общественных волнений на основе записей пользователей в социальных сетях), в филологии (определение авторства произведений, авторского стиля), в экспертных системах, системах машинного перевода, поисковых системах и во многих других. Помимо задач анализа текста немаловажными в компьютерной лингвистике являются и задачи по автоматическому синтезу текста, решение которых открывает невероятное количество принципиально и качественно новых возможностей взаимодействия информационных систем и человека. С помощью систем автоматического синтеза текста возможно развитие экспертных и вопросно-ответных систем, способных вести диалог с пользователем в наиболее понятной, удобной и простой форме. Развитие таких систем также способствует развитию машинного перевода, позволяя автоматически качественно переводить как пользовательские запросы, так и крупные литературные произведения, делая их доступными для читателей всего мира. И, безусловно, появляется возможность для создания динамических, интерактивных произведений, позволяющих пользователям влиять на их развитие, определять исходы ключевых эпизодов и получать именно тот продукт, который будет наиболее интересен.

Сложность разрабатываемой системы анализа текстов может разительно отличаться в зависимости от сложности задач, которые перед ней ставятся. Достаточно много задач автоматической обработки текстов (АОТ) уже давно практически решены; например, такие задачи, как: определение и фильтрация спама в почтовых рассылках, корректировка орфографии, автоматическое дополнение слов по мере ввода на основе некой предсказательной модели. Однако до сих пор существует целый пласт проблем АОТ, общее решение которых не найдено и очень важно: машинный перевод, поиск релевантных ответов на сложные вопросы на естественном языке, выявление сущностей и их связей в больших неструктурированных данных, определение и анализ мнений. Все вышеперечисленные задачи объединяет и то, что они сложны как для решения, так и для формализации. Теоретическую основу исследованиям обеспечивает компьютерная лингвистика - научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков [1]. Таким образом, в разработке систем АОТ используются методы статистического анализа, машинного обучения и такие математически модели, как модель Маркова. Также в некоторых случаях применяется следующий подход: определение экспертами моделей языка и правил, на основе которых делается анализ. Он позволяет достичь достаточно высоких результатов, но очень трудоемок. Необходимо также отметить, что предпринимается много попыток упрощения анализа текста за счет онтологий - формализации представления текстовых данных и их специальной разметки, и во многих дисциплинах разрабатываются стандартные онтологии, которые могут использоваться экспертами для аннотирования и обработки информации в своей области. К примеру, поисковые системы предлагают использовать семантическую разметку HTML-кода в соответствии с установленным стандартом, которая позволяет точно охарактеризовать представленный объект. В итоге поисковая система лучше понимает контент страницы и более точно классифицирует ее для дальнейшего релевантного отношения с запросами пользователей. Также, например, в области медицины используются специальные структурированные словари, такие как семантическая сеть «The Unified Medical Language System» (Система Унифицированного Медицинского Языка).

В понимании текста на естественных языках можно выделить несколько основных проблем:

Таблица 1. Основные проблемы понимания текста

Знание и понимание предметной области_

Различная структура предложений в языке_

Фразеологизмы и противоречия_

Неявный контекст_

Неологизмы

1) Знание и понимание предметной области, а также обучение системы новым знаниям о контексте. К примеру, изучив предложение «Он вернулся в квартиру с пустыми руками», без знания о человеке и квартире в контексте обычной жизни система может сделать вывод о наличии у квартиры рук.

2) Различная структура предложений в языке. Например, как известно, в русском языке на смысл предложения может кардинально повлиять даже место запятой в предложении, не говоря уже о возможностях перестановки слов и влиянии этого на смысл и тональность текста.

3) Фразеологизмы и противоречия. «Да нет, наверное».

4) Неявный контекст. «Ты - мне, я - тебе».

5) Неологизмы. Системе необходимо уметь предсказывать смысл незнакомых ранее слов. Большинство из указанных проблем возможно решить только с развитием искусственного интеллекта.

Также среди задач обработки естественного языка (КЪР) в компьютерной лингвистике можно выделить направления: Автоматический анализ и синтез текста; машинный перевод; корпусная лингвистика; автоматическое извлечение фактов из текста (знаний); экспертные системы; вопросно -ответные системы. Системы, направленные на извлечение знаний из текстов на естественных языках, а также на синтез текста на основе знаний называются лингвистическими процессорами или трансляторами. Такие системы могут интегрироваться с экспертными системами и выдавать пользователю информацию, представленную в максимально понятной и удобной форме. Также лингвистический процессор может быть интегрирован с системой распознавания или синтеза речи, что позволит решить проблемы машинного перевода и вопросно -ответных систем. Однако разработать настолько качественный лингвистический процессор крайне сложно. Как можно заметить, достаточно много проблем связано с автоматической генерацией осмысленного текста, и создание подобной системы позволит сделать очень серьезный шаг в разработке искусственного интеллекта. В создании систем АОТ обычно выделяют следующие методы и уровни обработки: графематический анализ; морфологический анализ; синтаксический анализ; семантический анализ; проверка правописания; проверка грамматики; автоматическое реферирование; тематическая классификация и моделирование; анализ тональности; информационный поиск; машинный перевод; извлечение отношений и ключевых слов; семантический анализ. Автоматический анализ включает в себя ряд весьма сложных операций, которые выполняются над текстом. При автоматическом анализе текст последовательно преобразовывается в его лексемо-морфологические, синтаксические и семантические представления, понятные на машинном уровне и удобные для дальнейшей обработки. Графематический анализ - один из первых этапов анализа естественного текста, предоставляющую информацию для последующей обработки и более глубокого анализа. Также этот этап называют токенизацией. Обычно данный анализ не требует специальной настройки, так как общие алгоритмы, используемые в анализе, подходят для большинства задач и естественных языков. На этом этапе решаются такие базовые задачи, как: разделение текста на слова, знаки препинания; выделение предложений; выделение совпадений по заданным шаблонам (телефонов, электронных адресов, инициалов); выделение примечаний. Морфологический анализ позволяет определить словоформы и грамматические характеристик слов, привести слова к словарной форме и указать части речи для каждого слова (частеречный тэгинг). В данном случае существует множество словарных решений высокого качества, и, к примеру, методы машинного обучения здесь вряд ли будут эффективнее. Синтаксический анализ - процесс сопоставлений линейной последовательности лексем языка с его формальной грамматикой. В ходе анализа данные преобразовываются в нужную или удобную для дальнейшей обработки структуру данных, чаще - в дерево. Основная проблема синтаксического анализа заключается в возможной многозначности.

Литература

1. Волкова И. А. Введение в компьютерную лингвистику. / И. А. Волкова. М.: МГУ, 2006. 43 с.

The use of cross-functional indicator DIFOTAI in analysis of the implementation

of information systems Kirillov N.

Применение кросс-функционального показателя DIFOTAI при оценке результатов внедрения информационных систем Кириллов Н. И.

Кириллов Никита Ильич /Kirillov Nikita — бакалавр, факультет прикладной математики и информационных технологий, Финансовый университет при Правительстве Российской Федерации, г. Москва

Аннотация: в статье анализируются аспекты применения ключевого показателя эффективности DIFOTAI при оценке результатов внедрения информационных систем.

Abstract: the article analyzes aspects of key indicator DIFOTAI efficiency when assessing the results of the implementation of information systems.

Ключевые слова: КПЭ, DIFOTAI, КИС, Информационные системы. Keywords: KPI, DIFOTAI, CIS, Corporate Information Systems.

i Надоели баннеры? Вы всегда можете отключить рекламу.