Метрики для оценки качества чат-бот приложений

Ураев Денис Алексеевич

МЕТРИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА ЧАТ-БОТ ПРИЛОЖЕНИЙ Ураев Д. А. Email: Urayev1162@scientifictext.ru

Ураев Денис Алексеевич - магистрант, кафедра программного обеспечения информационных технологий, Белорусский государственный университет информатики и радиоэлектроники, г. Минск, Республика Беларусь

Аннотация: в статье анализируются метрики и методы оценки качества чат-бот приложений. Данное направление является относительно молодым и набирает всё большую популярность в таких областях, как сервисы электронной коммерции, колл-центры, игровая индустрия. А так как чат-боты зачастую заменяют людей, то для оценки их качества недостаточно применять только метрики оценки программного обеспечения. Данная тема является актуальной, потому что международные и единые стандарты для оценки качества чат-бот приложений еще не выработаны.

Ключевые слова: чат-бот, оценка качества, методы оценки, бизнес-показатели, KPI.

QUALITY ASSESSMENT METRICS OF CHATBOT APPLICATIONS

Urayev D.A.

Urayev Denis Aleskeyevich - Master, INFORMATION TECHONLOGY SOFTWARE DEPARTMENT, BELARUSIAN STATE UNIVERSITY OF INFORMATICS AND RADIOELECTRONICS, MINSK, REPUBLIC OF BELARUS

Abstract: the article analyzes the metrics and methods for assessing the quality of chat bot applications. This area is relatively young and is gaining more and more popularity in areas such as e-commerce services, call centers, and the gaming industry. Since chat-bots often replace people, it is not enough to use only software evaluation metrics to evaluate their quality. This topic is relevant, because international and common standards for assessing the quality of chat bot applications have not yet been developed.

Keywords: chat bot, quality assessment, assessment methods, business indicators, KPI.

УДК 004.051

Чат-бот приложения с использованием алгоритмов машинного обучения является только развивающимся направлением, поэтому международные стандарты для оценки качества чат-бот приложений еще не выработаны. Однако, так как чат-бот приложения напрямую воспроизводят то, как могут работать реальные люди, то чат-ботов можно считать «сотрудниками» нового поколения. Поэтому, для оценки эффективности чат-бот приложений, я бы предложил использовать KPI метрики (Key Performance Indicator), которые используются в бизнес-оценке как показатель деловой активности сотрудников организаций. С другой стороны, так как чат-боты являются программным обеспечением, для оценки качества также можно использовать стандартные методы оценки ПО [1].

Таким образом, методы оценки качества чат-бот приложений можно разделить на две категории:

1. Методы оценки, для измерения бизнес-показателей.

2. Методы оценки, для измерения технических-показателей.

Оценка бизнес-показателей. Набор метрик, для оценки бизнес-показателей, является самым главным с точки зрения бизнеса, так как помогает рассчитать, в какой срок окупятся затраты на разработку бота и отвечает ли он ожиданиям. Сами KPI в данном случае могут быть разными и зависят от функций бота. Далее приведены самые популярные примеры:

- Снижение загрузки колл-центра. Это одна из самых распространенных задач чат-ботов. Так как большинство запросов в колл-центр являются стандартными, роботы

справляются с ними не хуже людей. Они обслуживают пользователей в чатах и по телефону и переводят на «живых» операторов только когда это требуется. К примеру, по данным компаний украинского мобильного оператор «Киевстар», внедрение чат-бота позволяет снизить загрузку операторов на 85% [2].

- Конверсии в покупки. Эта простая метрика актуальна для e-commerce и используется также, как в традиционном маркетинге. Такие бренды, как H&M или Taco Bell используют ботов как интернет-магазин в мессенджере.

- Активация. Одно из преимуществ ботов заключается в том, что после добавления в друзья к пользователю они могут периодически напоминать им о себе и о вашем бизнесе. Например, сообщая о новых акциях в магазине или предлагая интересный контент, связанный с брендом. А по итогам — просчитывать, какой процент пользователей удалось «вернуть» среди тех, кто давно не заходил на сайт.

- Количество пользователей. Всегда можно отслеживать общее количество пользователей за указанный период времени и сравнивать его с предыдущим периодом. Общее количество складывается из новых пользователей и вернувшихся. Число последних -очень полезная метрика. Она показывает, сколько пользователей повторно используют вашего чат-бота в сравнении с предыдущим периодом. Этот показатель особенно важен тем компаниям, у которых ежедневно большой поток посетителей на сайте или в приложении. Если он растет, значит ваши пользователи были удовлетворены ответом бота ранее и охотно выбирают новый канал коммуникации.

- NPS - индекс потребительской лояльности. Чат-бот является удобным инструментом для проведения опроса и расчета показателя NPS. NPS - это индекс потребительской лояльности, т.е. оценка лояльности пользователей по отношению к продукту и компании. Обычно такой опрос проводят посредством email-рассылок, звонков, всплывающих окон и т.д. С чат-ботом проводить такую оценку удобнее и быстрее. В конце диалога пользователю можно предлагать оценить разговор. Например, чат-бот пишет «Остались ли вы довольны ответом?» Бот предлагает выбрать ответ из нескольких вариантов: «Я спрашивал про другое», «Я не понял ответа», «Ответ не решил проблему». Исходя из ответа, мы можем выявить причину отрицательной оценки, проанализировав историю этого диалога. На основе оценок, полученных от пользователей, данную метрику можно рассчитать по формуле:

NPS = (Сумма оценок от 9 до 10) — (Сумма оценок от 0 до 6)/ на кол-во всех респондентов * 100

Оценка технических показателей. Архитектура чат-бот приложений содержит 3 компонента, которые являются общими для всех чат-ботов, построенных на различных платформах и для различных целей:

1. Dialog Flow - путь разговора, который определяет разработчик.

2. ML модель классификации сообщений (ML Classification model), для определения намерения пользователей.

3. ML модель для извлечения данных (ML Information Extraction model) из

пользовательских сообщений.

Таким образом для оценки качества чат-бота с технической точки зрения будут использованы 3 метрики, которые оценивают каждую из компонент системы. Для этого, из архива сохранённых разговоров будут извлекаться переписки между пользователем и чат-ботом, и данные переписки будут обрабатываться операторами в ручном режиме.

Для оценки качества Dialog Flow задача оператора будет заключаться в том, чтобы отметить каждый ответ чат-бота как уместный или неуместный (неправильный). Иногда чат-боты путаются, и это нормально. Это чаще всего происходит при нетипичных входящих запросах, тех, ответы на которые не заложены в базу знаний бота. Пример формы, для отображения оператору, представлен на рисунке 1.

Helk^^ianl^oino^ontartm

I Repeated messages

IBots qjester/answer is out of context/illogical IThis response is badly phrased I This response is good

Well. I would like a copy of the payoff of my home loan.

Рис. 1. Интерфейс оператора для оценки качества ответов чат-бота

Для оценки качества классификации сообщений (ML Classification model), оператор должен вручную проклассифицировать каждый запрос от пользователей. Данная оценка является важной, так как правильная классификация исходного намерения пользователя является точкой входа в разговор с чат-ботом. Данный показатель должен быть особенно высоким для определения тех намерений пользователя, которые входят в «область знания» чат-бота. В дальнейшем, ответ оператора будет сравниваться с ответом классификационной ML модели для составления статистики. Также, так как ответы операторов мы считает за «истину», то их ответы в будущем могут быть использованы для перетренировки новых ML моделей. Таким образом будет налажен процесс того обучения и чат-бот будет становиться «умнее».

Пример того, как выглядит интерфейс оператора по классификации пользовательских сообщений в архивном разговоре приведен на рисунке 2.

Рис. 2. Интерфейс оператора для классификации сообщений

Для оценки качества извлечения данных (ML Information Extraction model) задача оператора выделить ценные данные из пользовательских сообщений (например, имя пользователя, страну, период банковской выписки, почтовый ящик и т.п.). Данные оценки являются особенно важными в чат-ботах, которые работают с личными данными пользователя, их аккаунтами в системах, связанных с деньгами (чат-бот приложения для банков, мобильных операторов и т.п.) Полученные ответы от операторов также будут использованы для генерации статистики и в будущих тренировках новых ML моделей, сохраняя непрерывным процесс «обучения» чат-бота.

На рисунке 3 представлен пример интерфейса оператора для извлечения данных из пользовательских сообщений в ручном режиме. Процесс извлечения происходит путём тэгирования (выделения с последующей подсветкой) слов и данных внутри сообщения.

do you require these to be bank stamped statements?

Рис. 3. Интерфейс оператора для извлечения данных из сообщений

Список литературы /References

1. Лемешковская Н. Возможно ли измерить KPI чат-бота? // Яндекс Дзен. [Электронный ресурс], 2018. Режим доступа: https://zen.yandex.ru/media/e-xecutive.ru/vozmojno-li-izmerit-kpi-chatbota-5c18c8070c4c2700ab6e0d09/ (дата обращения: 29.10.2019).

2. Чат-бот Зоряна от Киевстар: 2 млн диалогов, 12 тысяч ответов в базе и новые функции // Киевстар. [Электронный ресурс], 2018. Режим доступа: https://kyivstar.ua/ru/mm/news-and-promotions/chat-bot-zoryana-ot-kievstar-2-mln-dialogov-12-tysyach-otvetov-v-baze-i-novye/ (дата обращения 29.10.2019).

Метрики для оценки качества чат-бот приложений Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ураев Денис Алексеевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ураев Денис Алексеевич

QUALITY ASSESSMENT METRICS OF CHATBOT APPLICATIONS

Текст научной работы на тему «Метрики для оценки качества чат-бот приложений»