Научная статья на тему 'ИССЛЕДОВАНИЕ СОВРЕМЕННЫХ АНАЛИЗАТОРОВ ТЕКСТОВОЙ ИНФОРМАЦИИ'

ИССЛЕДОВАНИЕ СОВРЕМЕННЫХ АНАЛИЗАТОРОВ ТЕКСТОВОЙ ИНФОРМАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
478
119
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЕСТЕСТВЕННЫЙ ЯЗЫК / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / NLP / МАШИННОЕ ОБУЧЕНИЕ / AMAZON COMPREHEND / IBM-WATSON / NATURAL LANGUAGE / ARTIFICIAL INTELLIGENCE / MACHINE LEARNING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Брызгалов А.А.

Представлен аналитический обзор двух известных программных систем, решающих задачи обработки естественного языка: Amazon Comprehend - сервис обработки естественного языка и IBM-Watson - суперкомпьютер фирмы IBM, оснащенный системой искусственного интеллекта. Проведен их анализ, выявлены особенности и недостатки рассмотренных сервисов. Используя информацию по истории ПГУПС, проведено тестирование сервиса Amazon Comprehend, выявлены недокументированные ограничения при обработке русского текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH OF MODERN TEXT INFORMATION ANALYZERS

An analytical overview of two well-known software systems that solve natural language processing tasks is presented: Amazon Comprehend, a natural language processing service, and IBM-Watson, an IBM supercomputer equipped with an artificial intelligence system. Their analysis is carried out, features and shortcomings of the considered services are revealed. Using information on the history of PGUPS, Amazon Comprehend service was tested, undocumented restrictions were revealed when processing Russian text.

Текст научной работы на тему «ИССЛЕДОВАНИЕ СОВРЕМЕННЫХ АНАЛИЗАТОРОВ ТЕКСТОВОЙ ИНФОРМАЦИИ»

Исследование современных анализаторов текстовой информации

магистр А. А. Брызгалов Петербургский государственный университет путей сообщения Императора Александра I

Санкт-Петербург, Россия threnhawk@gmail.com

Аннотация. Представлен аналитический обзор двух известных программных систем, решающих задачи обработки естественного языка: Amazon Comprehend — сервис обработки естественного языка и IBM-Watson — суперкомпьютер фирмы IBM, оснащенный системой искусственного интеллекта. Проведен их анализ, выявлены особенности и недостатки рассмотренных сервисов. Используя информацию по истории ПГУПС, проведено тестирование сервиса Amazon Comprehend, выявлены недокументированные ограничения при обработке русского текста.

Ключевые слова: естественный язык, искусственный интеллект, NLP, машинное обучение, Amazon Comprehend, IBM-Watson.

Введение

Искусственный интеллект (ИИ) — это наделение компьютеров человеческими способностями, из которых владение языком едва ли не важнейшая.

Обработка естественного языка (далее — NLP, англ. Natural Language Processing) — область, находящаяся на пересечении информатики, искусственного интеллекта и математической лингвистики [1].

NLP изучает проблемы компьютерного анализа и синтеза естественных языков в целях создания более удобной формы взаимодействия компьютера и человека.

Задолго до того, как обработка естественного языка стала модной темой в области искусственного интеллекта, люди придумывали правила и машины для манипулирования языком, начав практику комбинирования букв. Среди философов давно шли споры о природе человека и процессе познания мира, нейрофизиологи и психологи разработали ряд теорий относительно работы человеческого мозга и мышления, математики задавались вопросами оптимальных расчетов, наконец зародился фундамент математической теории вычислений — теории алгоритмов — были созданы первые компьютеры.

Истоки обработки естественного языка можно отследить в начале компьютерной эры, когда Алан Тьюринг в 1950 году описал умную машину, способную легко взаимодействовать с человеком посредством текста на экране.

В 1954 году Джорджтаунским университетом совместно с IBM был проведен эксперимент машинного перевода более чем шестидесяти русских фраз на английский язык. Эксперимент нельзя назвать полнофункциональной системой, так как он был задуман в первую очередь для того, чтобы, показывая возможности машинного перевода, привлечь правительственный и общественный интересы к этой научной теме и увеличить финансирование [2].

К середине 1960-х годов ряд исследователей, воодушевленных ростом мощности и доступности компьютеров общего назначения, вдохновленных мечтой об искусственном интеллекте человеческого уровня, разрабатывали системы, направленные на подлинное понимание языка и диалог с машиной.

Важным этапом в развитии понимания естественного языка является созданная в 1966 году американским специалистом по информатике Джозефом Вейценбаумом программа ELIZA. Как пояснял Вейценбаум, его программа «делала возможной беседу определенного рода между человеком и компьютером на естественном языке». Программа ELIZA — первый в мире чат-бот и виртуальный собеседник, превратившая строгое человеко-машинное взаимодействие в иллюзию человеческого общения.

Еще одной невероятно успешной демонстрацией понимания естественного языка и искусственного интеллекта явилась программа Терри Винограда SHRDLU, разработанная в 1968-1970 годах. Программа могла понимать интерактивный диалог на английском языке, чтобы отвечать на вопросы и выполнять команды, имеющие отношения к виртуальному миру.

Но какими бы на вид интеллектуальными ни казались программы ELIZA и SHRDLU — это были очень простые программы с большим количеством ограничений. Однако они выполнили свою миссию в истории развития искусственного интеллекта и вдохновили разработчиков на дальнейшие исследования в области понимания естественного языка, что в конечном итоге оказалось гораздо сложнее, чем считалось ранее [3].

В период 1980-1990-х годов темпы роста направления искусственного интеллекта увеличились. Это было связано с внедрением машинного обучения алгоритмов обработки языка, с постоянным увеличением вычислительной мощности и постепенным ослаблением доминирования хом-ских теорий лингвистики (Теория Хомского о языке). Вычислительная грамматика, инструменты и практические ресурсы, связанные с математической лингвистикой, стали доступны вместе с синтаксическими анализаторами. Получили направление исследования по основным и футуристическим темам, таким как устранение неоднозначности слов и статистически окрашенный естественный язык, работа над лексиконом. К этому стремлению развития NLP присоединились и другие важные темы, такие как статистическая обработка языка, извлечение информации и автоматическое обобщение [4].

В настоящее время мы находимся на пике интереса к обработке естественного языка. Благодаря прорывам в машинном обучении в последнее десятилетие мы наблюдаем

серьезное улучшение в деле распознания речи и машинного перевода. Генераторы языка уже достаточно хороши для того, чтобы писать связные новостные статьи, а виртуальные помощники становятся частью нашей повседневной жизни. Качество современных систем машинного перевода уже вплотную приближается к человеческому [5].

В глубоком обучении языку все большую роль, в свою очередь, играет обучение «без учителя», с использованием громадных массивов дешевых неразмеченных текстов. Обилие данных позволяет обучать достаточно сложные модели языка с миллиардами настроечных параметров и недостижимым прежде качеством решения практических задач. Понятно, что создание подобных моделей вручную даже большими коллективами лингвистов практически нереально.

Обработка естественного языка — собирательный термин, относящийся к автоматической вычислительной обработке человеческих языков. Обработка включает в себя как алгоритмы, которые принимают созданный человеком текст в качестве входных данных, так и алгоритмы, которые производят естественно выглядящий текст в качестве выходных данных.

NLP, также известная как компьютерная лингвистика, представляет собой комбинацию искусственного интеллекта и лингвистики, которая позволяет нам разговаривать с машинами так, как если бы они были людьми.

Задачи обработки естественного языка

Проблема обработки естественного языка была приоритетной в развитии искусственного интеллекта в течение десятилетий. В 1980-90-е годы были предприняты значительные усилия по созданию чат-бота для общения с человеком и выдачи заранее написанного ответа на заданный вопрос. Такой тип системы обычно называют конечным автоматом, или детерминированным конечным автоматом.

Основным недостатком такой системы была реализация на основе правил и условного оператора if-else, которая может быть сложной структурой для декодирования и обновления [6].

К основным направлениям обработки естественного языка относят:

• проверку орфографии;

• автозаполнение предложений;

• обобщение документов;

• ответ на вопрос;

• распознавание именованных сущностей;

• машинный перевод.

По данным исследовательской компании «Gather», клиенты в области обработки естественного языка сталкиваются со следующими проблемами [7]:

• 80% времени исследователей данных тратится на утомительные задачи, которые можно было бы автоматизировать;

• 63% компаний рассматривают наличие технических навыков как проблему для внедрения;

• 70% предприятий повысят производительность труда сотрудников с помощью ИИ к 2021 году;

• 60% компаний рассматривают нормативные ограничения как препятствие для внедрения ИИ.

Недавно появилось несколько очень интересных приложений, в которых обработка естественного языка может внести значительный вклад в изучение NLP и в распространение искусственного интеллекта на предприятиях. И одно из них — это крупнейший сервис на рынках платформ электронной коммерции и публично-областных вычислений Amazon Web Services (AWS) Amazon Comprehend.

Amazon Comprehend Amazon Comprehend — это сервис обработки естественного языка, запущенный в 2017 году, в котором для поиска закономерностей и взаимосвязей в тексте применяются технологии машинного обучения. Amazon Comprehend использует машинное обучение для извлечения аналитических сведений и взаимосвязей из неструктурированных данных. Сервис определяет язык текста, извлекает ключевые фразы, распознает людей, места, бренды или события, определяет степень позитивности или негативности текста, анализирует текст с помощью токенизации и частей речи и в результате автоматически группирует набор текстовых файлов по темам [8]. На рисунке 1 представлен пример работы Comprehend.

Рис. 1. Пример потока отзывов imdb, использующих Amazon Comprehend

Программное обеспечение Amazon Comprehend состоит из нескольких приложений:

1. Извлечение ключевых фраз (рис. 2). API извлечения ключевых фраз возвращает ключевые фразы или тезисы разговора и оценку уверенности в том, что это ключевая фраза.

2. Анализ настроений (рис. 3). API анализа настроений возвращает общее настроение текста (положительное, отрицательное, нейтральное или смешанное).

3. Синтаксический анализ. API Amazon Comprehend Syntax позволяет клиентам анализировать текст с помощью токенизации и частей речи (PoS), а также определять границы слов и метки, такие, как существительные и прилагательные в тексте.

Intellectual Technologies on Transport. 2020. No 2

Key ptiiiui

the- X.VIII century the end

thfr PtpArTiritrtt

water communications

the slate road construction Expedition

the survey, design, construction. №шк[ГйЦлп and operation

Russian Railways

isoi-teo»

Рис. 2. Ключевые фразы

Sentiment

Neutra!

0.99 confidence

Negative 0.00 confidence

Positive

0.00 confidence

Mixed

0.00 confidence

Рис. 3. Настроение текста

4. Распознавание сущностей (рис. 4). API распознавания сущностей возвращает именованные сущности («Люди», «Места», «Местоположения» и т. д.), которые автоматически классифицируются на основе предоставленного текста.

Analyzed text

From the XVIII century to the end. the Department of w survey, design, construction, r

e road construction Expedition were eng; :onstruction and operation of Russian Railways. In 1801 -1809, both these departments were heade Nikolai Petrovich Rumyantsev (1754-1826), a prominent statesman, diplomat, member of the State Council, and Senator. In 1809, submitted to the Emperor Alexander I "proposals for reliable measures for the establishment of convenient communications or lar water throughout Russia". This document not only proposed a new, unified, and improved management structure for all Russian communication routes, but also suggested the need to establish a special highertechnical educational institution in the state to tr; capable of leading the construction of roads and bridges, river and sea ports, and civil and transport structures. On the basis of the in accordance with the most Highly approved Manifesto on November 20,1809, an independent Agency was organized-the Manag water and land communications. The same Manifesto established the Corps of railway engineers and the Institute of the Corps of railway engineers (now Saint Petersburg state University of railway engineering). The building was createc

«

Entity

XVIII century

Department of water communk

Russian Railways

both

Nikolai Petrovich Rumyantsev 1809

Emperor Alexander

Category

-Date

-Organizatio

-Organizatioi

-Quantity

-Date

— Person

0.99+ 0.95 0.94 0.86 0.99+ 0.99+ 0.84

Рис. 4. Сущности

5. Пользовательские объекты. Позволяют настроить Amazon Comprehend для определения терминов, характерных для конкретного домена. Используя AutoML, Comprehend изучит небольшой частный набор примеров

(например, список стратегий и текст, в котором они используются), а затем обучит пользовательскую модель распознавать эти термины в любом другом блоке.

6. Обнаружение языка. API обнаружения языка автоматически обнаруживает текст, написанный на более чем 100 языках, и возвращает доминирующий язык с показателем уверенности, подтверждающим, что этот язык является доминирующим.

7. Пользовательская классификация. API пользовательской классификации позволяет легко создавать пользовательские модели классификации текста с помощью специфичных для компании меток.

8. Тематическое моделирование. Определяет соответствующие термины или темы из коллекции документов, хранящихся в Amazon. Этот API определит наиболее распространенные темы в коллекции и организует их в группы, а затем сопоставит принадлежность документов темам.

9. Поддержка нескольких языков. Amazon Comprehend может выполнять анализ текстов на английском, французском, немецком, итальянском, португальском и испанском языках. Это позволяет создавать приложения, которые могут обнаруживать текст на нескольких языках, конвертировать его в английский, французский, немецкий, итальянский, португальский и испанский языки с помощью Amazon Translate, а затем использовать Amazon Comprehend для выполнения анализа текста.

Используя информацию по истории ПГУПС, проведено тестирование этого сервиса. Документация сервиса утверждает, что программа поддерживает анализ русского текста, но, когда на вход был дан текст на русском языке, сервис не смог распознать его, и, следовательно, анализ ключевых фраз и настроений, распознавание сущностей и т. д. не могли быть использованы. Таким образом, для того, чтобы входные данные были прочитаны сервисом, возникла необходимость перевести текст на английский язык.

Основываясь на очень скудной информации [9], полученной в ходе прохождения уроков на сайте Amazon, попытаемся описать, как работают некоторые функции.

Информация о настроениях описывает общее настроение текста, а также оценки настроений каждого ярлыка: положительный, отрицательный, нейтральный и смешанный. Все эти оценки настроений возвращаются из модели глубокого обучения, созданной на программной платформе MXNet, и изображаются в виде числа от 0 до 1, где 1 — полная достоверность метки настроения.

Допустим, мы имеем текстовое сообщение (описание фильма, рецензия, комментарии):

This has to be one of the most boring unoriginal films I've ever seen.

Или же

Knives Out is the kind of «whodunnit» film that will never fail to entertain.

В первом примере система должна выдать отрицательный результат, так как комментарий негативный, а во втором, соответственно, положительный. Подобного рода задачи в машинном обучении называются классификацией, а метод — «обучение с учителем». То есть сначала алгоритм

Intellectual Technologies on Transport. 2020. No 2

(1) «тренируется» на обучающей выборке, сохраняя необходимые коэффициенты и другие данные модели, затем, при поступлении новых данных, с определенной вероятностью классифицирует их.

1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1+e-(Po+PlX), (1)

F(x) =

где р0 и — коэффициенты, полученные на основе обучения на тестовых данных. Формула (1) в конечном счете возвращает значение от 0 до 1, то есть чем ближе к 0, тем больше вероятность, что текст несет негативную информацию.

Чтобы достаточно точно анализировать настроение, Comprehend производит семантический анализ. Например, мы с легкостью можем заменить слово «черный» словом «темный», так как их смысл очень схож. Такие слова можно назвать семантически схожими. В эту группу слов входят синонимы, гипонимы, гиперонимы и т. д. Amazon заменяет каждое слово в списке номером его семантической группы. В итоге мы получим нечто вроде «мешка слов», но с более глубоким смыслом.

Суть модели заключается в следующем: на вход дается большой объем текста, на выходе мы получаем взвешенный вектор фиксированной длины для каждого слова (длина вектора задается вручную). Фиксированная длина используется в dataset. Dataset для машинного обучения — это обработанная и структурированная информация в табличном виде. Скорее всего, за меру близости слов Amazon берет косинусное расстояние. Но так как математические модели закрыты, мы можем только догадываться, на каких алгоритмах основана данная функция.

Ключевые слова

Оценку информативности фраз можно вычислить по таким характеристикам, как частота слов и расположение слов в документе. Частота слов содержит количество вхождений слова или фразы в заданный документ. Чем больше вхождений исследуемого слова в документ, тем выше его информативность. Но необходимо отфильтровывать часто встречающиеся слова (стоп-слова), которые не содержат какой-либо информации о документе. Расположение слов в документе также учитывается; наиболее информативные фразы встречаются, как правило, в начале документа, в аннотации и в заголовке. Самой распространенной мерой для расчета информативности терминов в документе является TF-IDF (2). Вес термина пропорционален количеству употреблений данного термина в документе и обратно пропорционален частоте употребления в других документах коллекции. Особенностью этой меры является то, что при изменении количества документов в коллекции необходимо пересчитывать частоты всех терминов.

TF - IDF = TF* IDF.

(2)

TF (Term Frequency) — частота термина в анализируемом документе, отношение числа вхождения термина к общему количеству терминов в документе (3).

TF =

(3)

IDF (Inverse Document Frequency) — инвертированная частота документа - обратная частота, с которой термин встречается в других документах коллекции (4).

(4)

IDF = log — ,

а df '

где N — общее количество документов в коллекции (корпусе); df — количество документов, содержащих термин. Выбор основания логарифма не имеет значения, так как не влияет на соотношение весов терминов.

Не менее важной частью задачи является оценка эффективности найденного решения. Эффективность оценивается релевантностью автоматически найденных 8 ключевых фраз в документе по отношению к заведомо известным ключевым фразам. Точность (Precision) — отношение числа релевантных ключевых фраз, найденных автоматически, к общему числу найденных ключевых фраз в документе (5).

Р =

\Trelr\Tretr\ \Tretr\

(5)

где P — точность; Trel — множество релевантных терминов; Tretr — множество найденных терминов.

Полнота (Recall) — это отношение числа релевантных ключевых фраз, найденных автоматически, к общему числу релевантных ключевых фраз в документе (6).

R =

\Trelfr\Trel\

(6)

\Trelf\

где R — полнота; ТгеН- — множество релевантных терминов, содержащихся в документе; Тге1 — множество найденных релевантных терминов.

F-мера ^^соге, F-measure) — объединение точности и полноты в одной усредненной величине — определяется как взвешенное гармоническое среднее точности и полноты (7).

1

F =

, а £ [0,1]

(7)

где F — мера; P — точность; R — полнота.

Amazon Comprehend — полностью управляемый сервис, который использует машинное обучение для извлечения аналитических сведений и неструктурированных взаимосвязей, однако опыт в сфере машинного обучения не требуется. Amazon использует [10, с. 184-186] объектно-ориентированное хранилище, предоставляя услуги через вызов веб-сервисов.

Мощная функциональность, предлагаемая Amazon Comprehend, заключается в том, что можно создать пользовательскую модель для анализа вместо использования других встроенных моделей. Заметим, что в целях повышения наглядности для визуальной аналитики этому сервису неплохо предоставлять диаграмму.

С помощью Amazon Comprehend можно получить ответы на интересующие вопросы из текстов, организовывать и группировать документы по темам, облегчающим поиск информации. Это дает возможность сосредоточить поиск на основных темах и контексте статей, а не просто ключевых словах, что является, без сомнения, преимуществом этого сервиса.

IBM Watson

Несмотря на растущее осознание стратегической ценности искусственного интеллекта в бизнесе, большинство организаций все еще борются с фундаментальной информационной архитектурой [11, с. 85-86]. Рутинная работа по поиску, сбору, организации изолированных данных, подготовке этих данных для анализа часто замедляет разработку искусственного интеллекта. Согласно прогнозу исследовательской компании Gather на 2020 год, предприятиям необходимо быстро и легко пользоваться моделями искусственного интеллекта. Для достижения этой цели важную роль будет играть автоматизация.

IBM Watson — суперкомпьютер фирмы IBM, оснащенный системой искусственного интеллекта, созданный группой исследователей под руководством Дэвида Феруччи. Назван в честь первого президента IBM Томаса Уот-сона [12].

Основная задача IBM Watson — понимать вопросы, сформулированные на естественном языке, и находить на них ответы с помощью искусственного интеллекта.

Auto AI — это мощный набор возможностей в компьютере Watson для автоматизации многих, часто сложных и трудоемких, задач, связанных с проектированием, оптимизацией и управлением моделями ИИ на предприятии. В результате специалисты по обработке данных могут быть освобождены, чтобы посвятить больше времени разработке, тестированию и развертыванию моделей машинного обучения [13].

Чтобы ускорить разработку и внедрение моделей машинного обучения, сервис автоматизировал следующие функции [14]:

1. Подготовка данных. Применяются различные алгоритмы или оценки для анализа, очистки и подготовки необработанных данных для машинного обучения. Сервис автоматически обнаруживает и классифицирует функции на основе типа данных, таких как категориальные или числовые.

2. Выбор модели. Используется новый подход, который позволяет тестировать и ранжировать алгоритмы-кандидаты по небольшим подмножествам данных, постепенно увеличивая размер подмножества для наиболее перспективных алгоритмов для достижения наилучшего соответствия.

3. Проектирование объектов. Сервис автоматизирует проектирование объектов, которое пытается преобразовать необработанные данные в комбинацию функций, которая наилучшим образом представляет решение задачи для достижения наиболее точного прогноза.

4. Оптимизация гиперпараметров. Уточняет наиболее эффективные модели конвейеров. Для этого находится кортеж гиперпараметров, который дает оптимальную модель, оптимизирующую заданную функцию потерь на заданных независимых данных.

Одной из интересных функций Watson является работа с гиперпараметрами.

Оптимизация гиперпараметров (ОГ) — это механизм автоматического исследования пространства поиска потенциальных гиперпараметров, построения серии моделей и сравнения моделей с использованием интересующих мет-

рик. Чтобы использовать ОГ, необходимо указать диапазоны значений для изучения каждого гиперпараметра [15, 16].

В настоящее время Watson поддерживает два метода ОГ.

Метод Random реализует простой алгоритм, который будет случайным образом присваивать значения гиперпараметров из диапазонов, заданных для эксперимента.

RBFOpt использует метод, называемый радиальной базисной функцией ядра, для исследования пространства поиска. Эффективное определение параметров нейронных сетей является сложной задачей из-за чрезвычайно большого конфигурационного пространства и вычислительных затрат на оценку предлагаемой конфигурации (оценка одной конфигурации может занять от нескольких часов до нескольких дней). Для решения этой сложной задачи RBFOpt использует основанный на модели алгоритм глобальной оптимизации, который не требует производных. Аналогично байесовской оптимизации, которая приспосабливает Гауссову модель к неизвестной целевой функции, этот метод подходит к модели радиальной базисной функции [17].

Оптимизация гиперпараметров требует установки верхнего предела количества моделей, которые она будет строить. Из количества настраиваемых N гиперпараметров, метод использует первые N+1 модели, построенные в качестве базовых моделей, после чего он начинает фактическую оптимизацию.

Производительность модели измеряется с использованием числовых и графических подходов. В бинарной классификации информативные меры обобщения могут быть получены из таблицы для расчета чувствительности (sensitivity, SE), специфичности (specificity, SP) и точности (accuracy, Acc) среди других показателей.

Чувствительность SE, или истинно положительный показатель (true positive rate, TPR), используется для количественной оценки, насколько эффективно классификаторы правильно распознают фактические положительные случаи. Специфичность SP, или истинно отрицательный показатель (true negative rate, TNR), обеспечивает способность классификатора правильно распознать фактические негативные случаи. Следовательно, SE и SP могут быть определены как (8) и (9) соответственно:

SE = SP =

TP

TP+FN

TN TN+FP'

(8) (9)

где TP — истинно положительный показатель (true positive), FP — ложно положительный показатель (false positive), TN — истинно отрицательный показатель (true negative) и FN — ложно отрицательный показатель (false negative)

Положительные и отрицательные прогностические значения (PPV и NPV соответственно) являются долями прогнозируемых положительных и отрицательных показателей.

Следовательно,

PPV =

TP

TP+FP

(10)

NPV =

TN

FN+TN

(11)

Точность классификации, определенная в (12), представляет собой процент от общего количества предметов, классифицированных правильно и часто используемых для оценки качества прогностических моделей,

Асс =

TP+TN N

(12)

где N = TP + TN + FP + FN.

Однако эта мера эффективности может вводить в заблуждение, особенно в больших наборах несбалансированных данных с множеством классов категорий, так как в целом точность зависит от частоты класса. Чтобы преодолеть это ограничение, сбалансированная точность (balanced accuracy, bAcc) рассматривается и используется в Watson вместе с другими методами оценки производительность модели. Формально bAcc может быть определено следующим образом:

. . 1 ,ТР TNч

ЬАсс = -(— + —) .

2К Р N

(13)

Кривая рабочей характеристики приемника (receiver operating characteristic, ROC) [18] представляет собой стандартный метод, используемый в качестве графического показателя производительности, чтобы суммировать прогнозные показатели бинарной классификации. Кривая ROC строит график TPR по оси y против ложных срабатываний FPR по оси х, производимых классификационной моделью, где каждая точка на кривой ROC соответствует классификатору.

Количественную интерпретацию ROC дает показатель AUC [18] (англ. area under ROC curve — площадь под ROC-кривой) — площадь, ограниченная ROC-кривой и осью доли ложных положительных классификаций. Чем выше показатель AUC, тем качественнее классификатор, при этом значение 0,5 демонстрирует непригодность выбранного метода классификации (соответствует случайному гаданию). Значение менее 0,5 говорит о том, что классификатор действует с точностью до наоборот: если положительные назвать отрицательными и наоборот, классификатор будет работать лучше. Чтобы правильно измерить AUC, важно определить его доверительный интервал (confidence interval, CI). В Watson CI вычисляются с использованием пакета pROC.

Метрика F1, также известная как F-оценка, или F-мера, принимает во внимание точность классификации как показано в (14).

„ „ ,ppv*tpr. F1 = 2 * (-).

1 PPV+TPR

(14)

Для реализации Auto AI в любой разработке AI требуются следующие инструменты или сервисы:

1. Watson Studio — интегрированная среда для проектирования, разработки, развертывания и тестирования моделей с помощью функции автоматического AI.

2. Watson Machine Learning. Этот сервис требуется для развертывания модели ML.

3. Watson Open Scale. Сервис необходим для управления моделью ML в производстве.

4. Хранилище объектов. Необходимо для хранения набора данных.

IBM Watson — это инструмент, который ускоряет развертывание искусственного интеллекта и машинного обучения. Но для того, чтобы пользоваться всеми преимуществами данного сервиса, нужно подключать много других платных сервисов, что является недостатком этого сервиса.

Также в качестве недостатка Amazon и IBM можно выделить закрытость базовых моделей разработчика. Фактически пользователь имеет дело с «черным ящиком», который не дает полного понимания того, на каких алгоритмах работает их ИИ, тем самым тем самым хороня идеи, улучшающие работу данных сервисов, которые могли бы появиться у специалистов из других фирм.

Заключение

Искусственный интеллект напрямую соотносится с Data Science — наукой о данных, направленной на извлечение бизнес-ценности из массива информации [19].

ИИ оперирует огромными массивами, анализирует поступающие данные и разрабатывает на их основе адаптивные решения.

Вот несколько проблем, которые можно решить с помощью алгоритмов машинного обучения:

• оперативное реагирование;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• разработка стратегий развития бизнеса;

• решение проблем, связанных с человеческим фактором;

• борьба с мошенничеством;

• увеличение прибыли и пр.

Но, к сожалению, большинство внедряющих технологии ИИ компаний пока так и не научились извлекать из них реальную выгоду. Проблема в том, что чаще всего компании пока ограничиваются в сфере ИИ маленькими проектами, которые не дают серьезной отдачи.

Использование искусственного интеллекта постепенно становится необходимостью во всех отраслях бизнеса Настоящий эффект от внедрения ИИ может быть достигнут только при масштабировании пилота, который показал результативность, на всю компанию либо на достаточно крупные ее подразделения. Эксперты отмечают, что чаще успеха добиваются те, для кого ИИ — инструмент увеличения доходов, а не средство снижения издержек.

Если компания хочет добиться успеха в мире бизнеса, она должна отлично разбираться в новейших технологиях. ИИ —1718 одна из наиболее удивительных и значимых современных разработок, преимуществами которой стоит обязательно воспользоваться.

Литература

1. Обработка естественного языка // Википедия. Дата обновления: 27.05.2020.

URL: http://ruwikipedia.org/wikiЮбработка_естественного_ языка. (дата обращения 22.06.2020).

2. Bird S. Natural Language Processing with Python. — O'Reilly Media, 2009. — 502 p.

3. Russel S. Artificial Intelligence: A modern Approach / S. Russel, P. Norvig. — Third Edition. — Pearson, 2009. — 1152 p.

4. Будников Е. А. Обзор некоторых статистических моделей естественных языков // Машинное обучение и анализ данных. 2011. T. 1, № 2. С. 245-250.

5. Степанов П. А. Автоматизация обработки текстов естественного языка // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2013. Т. 11, Вып. 2. С. 106-112.

6. Goodfellow I. Deep Learning / I. Goodfellow, Y. Bengio,

A. Courville. — Cambridge: The MIT Press, 2016. — 800 p.

7. Gartner Predicts 70 Percent of Organizations Will Integrate AI to Assist Employees' Productivity by 2021. — 24.01.2019. URL: http://www.gartner.com/en/news-room/press-releases/2019-01 -24-gartner-predicts-70-percent-of-organiza-tions-will-int# (дата обращения 22.06.2020).

8. Amazon Comprehend — обработка естественного языка (NLP) и машинное обучение (ML) // Amazon Web Services. URL: http://aws.amazon.com/ru/comprehend (дата обращения 22.06.2020).

9. Escalona T. Detect Sentiment from Customer Reviews Using Amazon Comprehend — 26.01.2018 // AWS Machine Learn Blog / Amazon Web Services.

URL: http ://aws.amazon. com/ru/blogs/machine-learning/ detect-sentiment-from-customer-reviews-using-amazon-com-prehend (дата обращения 28.06.2020).

10. Методы и модели исследования сложных систем и обработки больших данных: Монография / И. Ю. Парамонов, В. А. Смагин, Н. Е. Косых, А. Д. Хомоненко; под ред.

B. А. Смагина, А. Д. Хомоненко. — СПб.: Лань, 2020. — 236 с. — (Учебники для вузов. Специальная литература).

11. Модели и методы исследования информационных систем: Монография / А. Д. Хомоненко, В. П. Бубнов, А. В. Забродин [и др.]; под ред. А. Д. Хомоненко. — СПб.: Лань, 2019. — 204 с. — (Учебники для вузов. Специальная литература).

12. IBM Watson // IBM — Российская Федерация. URL: http://www.ibm.com/ru-ru/watson (дата обращения 22.06.2020).

13. Serving COVID -19 Epidemic Models with Watson Machine Learning — 07.04.2020 / L. Cmielowski, A. Quemy, R. Bigaj, W. Sobala // IBM Watson / Medium.

URL: http://medium. com/ibm-watson/serving-covid- 19-epide-mic-models-with-watson-machine-learning-378b6fe9407b (дата обращения 23.06.2020).

14. IBM Watson Machine Learning vs Oracle Machine Learning // TrustRadius.

URL: http://www.trustradius.com/compare-products/ibm-watson-machine-learning-vs-oracle-machine-learning (дата обращения 22.06.2020).

15. Токмакова А. А. Получение устойчивых оценок гиперпараметров линейных регрессионных моделей // Машинное обучение и анализ данных. 2011. T. 1, № 2. С. 140-155.

16. Раднаев Ч. Б. Оптимизация гиперпараметров свер-точной нейронной сети // Молодежь и современные технологии: C6. трудов XV Международной научно-практической конференции студентов, аспирантов и молодых ученых (Томск, 04-07 декабря, 2017 г.). — Томск: Национальный исследовательский Томский политехнический университет, 2018. — С. 81-82.

17. An Effective Algorithm for Hyperparameter Optimization of Neural Networks. / A. Fokoue, G. I. Diaz, G. Nannicini, H. Samulowitz // IBM Journal of Research and Development. 2017. Vol. 61, No. 4-5, 9 p. D0I:10.1147/JRD.2017.2709578.

18. Богданов Л. Ю. Оценка эффективности бинарных классификаторов на основе логической регрессии методом ROC-анализа // Вестник Саратовского государственного технического университета. 2010. № 4 (50), Вып. 2. С. 93-97.

19. Юрченко А. В. К концепции информационно-аналитической системы поддержки научных исследований, основанных на интенсивном использовании цифровых данных // Вычислительные технологии. 2017. Т. 22, № 4. С. 105-120.

Research of Modern Text Information Analyzers

Master of Science A. A. Bryzgalov Emperor Alexander I Petersburg State Transport University Saint Petersburg, Russia threnhawk@gmail.com

Abstract. An analytical overview of two well-known software systems that solve natural language processing tasks is presented: Amazon Comprehend, a natural language processing service, and IBM-Watson, an IBM supercomputer equipped with an artificial intelligence system. Their analysis is carried out, features and shortcomings of the considered services are revealed. Using information on the history of PGUPS, Amazon Comprehend service was tested, undocumented restrictions were revealed when processing Russian text.

Keywords: natural language, artificial intelligence, NLP, machine learning, Amazon Comprehend, IBM-Watson.

References

1. Natural Language Processing [Obrabotka estestvennogo yazyka], Wikipedia [Vikipediya]. Update May 27, 2020. Available at: http://ru.wikipedia.org/wiki/06pa6oTKa_ ecreCTBeHHoro_a3biKa (accessed 22 June 2020).

2. Bird S. Natural Language Processing with Python. — O'Reilly Media, 2009. — 502 p.

3. Russel S., Norvig P. Artificial Intelligence: A modern Approach. Third Edition. Pearson, 2009, 1152 p.

4. Budnikov E. A. Overview of Some Statistical Models of Natural Languages [Obzor nekotorykh statisticheskikh mod-eley estestvennykh yazykov], Journal of Machine Learning and Data Analysis [Mashinnoe obuchenie i analiz dannykh], 2011, Vol. 1, No. 2, Pp. 245-250.

5. Stepanov P. A. Processing Automation of Natural Language Texts [Avtomatizatsiya obrabotki tekstov estestvennogo yazyka], Vestnik of Novosibirsk State University. Series: Information Technologies [Vestnik Novosibirskogo gosudar-stvennogo universiteta. Seriya: Informatsionnye tekhnologii], 2013, Vol. 11, Is. 2, Pp. 106-112.

6. Goodfellow I., Bengio Y., Courville A. Deep Learning. Cambridge, The MIT Press, 2016, 800 p.

7. Gartner Predicts 70 Percent of Organizations Will Integrate AI to Assist Employees' Productivity by 2021. Published at January 24, 2019.

Available at: http://www.gartner.com/en/newsroom/press-re-leases/2019-01 -24-gartner-predicts-70-percent-of-organiza-tions-will-int# (accessed 22 June 2020).

8. Amazon Comprehend — Natural Language Processing (NLP) and Machine Learning (ML) [Amazon Comprehend — obrabotka estestvennogo yazyka (NLP) i mashinnoe obuchenie (ML)], Amazon Web Services. Available at: http://aws.ama-zon.com/ru/comprehend (accessed 22 June 2020).

9. Escalona T. Detect Sentiment from Customer Reviews Using Amazon Comprehend, AWS Machine Learn Blog. Amazon Web Services. Published at January 26, 2018. Available at: http://aws.amazon.com/ru/blogs/machine-learn-ing/detect-sentiment-from-customer-reviews-using-ama-zon-comprehend (accessed 28 June 2020).

10. Paramonov I. Yu., Smagin V. A., Kosykh N. E., Kho-monenko A. D. Methods and models of research of complex systems and big data processing; Monograph [Metody i modeli issledovaniya slozhnykh sistem i obrabotki bol'shikh dannykh: Monografiya], St. Petersburg, LAN Publishing House, 2020, 236 p.

11. Khomonenko A. D., Bubnov V. P., Zabrodin A.V., et al. Models and methods of research of information systems: Monograph [Modeli i metody issledovaniya informatsionnykh system: Monografiya], St. Petersburg, LAN Publishing House, 2019, 204 p.

12. IBM Watson, IBM — Russian Federation [IBM — Ros-siyskaya Federatsiya]. Available at: http://www.ibm.com/ru-ru/watson (accessed 22 June 2020).

13. Cmielowski L., Quemy A., Bigaj R., Sobala W. Serving COVID-19 Epidemic Models with Watson Machine Learning, IBM Watson. Meduim. Published at April 07, 2020. Available at: http://medium.com/ibm-watson/serving-covid-19-epide-mic-models-with-watson-machine-learning-378b6fe9407b (accessed 23 June 2020).

14. IBM Watson Machine Learning vs Oracle Machine Learning, TrustRadius.

Available at: http://www.trustradius.com/compare-prod-ucts/ibm-watson-machine-learning-vs-oracle-machine-learn-ing (accessed 22 June 2020).

15. Tokmakova A. A. Obtaining Stable Estimates of Hyperparameters of Linear Regression Models [Poluchenie ustoychivykh otsenok giperparametrov lineynykh regres-sionnykh modeley], Journal of Machine Learning and Data Analysis [Mashinnoe obuchenie i analiz dannykh], 2011, Vol. 1, No. 2, Pp. 140-155.

16. Radnaev Ch. B. Optimization of Convolutional Neural Network Hyperparameters [Optimizatsiya giperparametrov svertochnoy neyronnoy seti], Youth and modern technologies: Proceedings of the XV International Scientific and Practical Conference of Students, Postgraduates and Young Scientists [Molodezh' i sovremennye tekhnologii: Sbornik trudov XV Mezhdunarodnoy nauchno-prakticheskoy konferentsii studentov, aspirantov i molodykh uchenykh], Tomsk, December 4-7, 2017, Tomsk, National Research Tomsk Polytechnic University, 2018, Pp. 81-82.

17. Fokoue A., Diaz G. I., Nannicini G., Samulowitz H. An Effective Algorithm for Hyperparameter Optimization of Neural Networks. IBM Journal of Research and Development, 2017, Vol. 61, No. 4-5, 9 p. DOI:10.1147/JRD.2017.2709578.

18. Bogdanov L. Y. The Evaluation of Performance of Binary Classifiers Based on Logistic Regression Using Roc Analysis [Otsenka effektivnosti binarnykh klassifikatorov na osnove logicheskoy regressii metodom ROC-analiza], Vestnik Saratov

HHmmneKmyanbHbie техноnогии Ha mpaHcnopme. 2020. № 2

85

State Technical University [Vestnik Saratovskogo gosudar-stvennogo tekhnicheskogo universiteta], 2010, No. 4 (50). Is. 2, Pp. 93-97.

19. Yurchenko A. V. On the Concept of Information-Analytical System for Supporting Data Intensive Science [K kont-

septsii informatsionno-analiticheskoy sistemy podderzhki nauchnykh issledovaniy, osnovannykh na intensivnom ispol'zovanii tsifrovykh dannykh], Computational Technologies [Vychislitel'nye tekhnologii], 2017, Vol. 22, No. 4, Pp.105-120.

HHmmneKmyaxbHbie техноnогии Ha mpaHcnopme. 2020. № 2

86

i Надоели баннеры? Вы всегда можете отключить рекламу.