УДК 004.8
DOI 10.52575/2687-0932-2022-49-2-356-374
Оценивание эффективности функционирования диалоговой системы на основе применения нечеткого вывода
с нейросетевой настройкой
Махди Т.Н., 2) Игитян Е.В., 2) Польщиков К.А., 2) Корсунов Н.И.
1)1 Университет Мустансирия, Ирак, 10001, г. Багдад, ул. Аль-Кадисия 2) Белгородский государственный национальный исследовательский университет, Россия, 308015, г. Белгород, ул. Победы, 85 E-mail: [email protected], [email protected], [email protected],
Аннотация. Представлены результаты исследования, направленные на совершенствование процесса оценивания эффективности функционирования диалоговых систем на основе разработки моделей нечеткого вывода и нейросетевого обучения. Обоснована актуальность разработки средств анализа выполнения вопросно-ответных функций программными средствами, именуемыми виртуальными ассистентами. В качестве величин для оценивания эффективности функционирования диалоговых систем предложено использовать частные показатели, характеризующие точность, лаконичность и полноту ответов на заданные вопросы. Результирующая оценка эффективности определяется значением обобщенного показателя, вычисляемого с учетом значений частных показателей. Разработан алгоритм вычисления обобщенного показателя на основе применения нечеткого вывода. Необходимые для его выполнения значения параметров функций принадлежности и индивидуальных выводов нечетких правил предложено вычислять на основе алгоритма нейросетевого обучения. Представлены результаты экспериментальных исследований по оцениванию эффективности функционирования диалоговых систем на основе предложенных алгоритмов.
Ключевые слова: диалоговая система, виртуальный ассистент, вопросно-ответная система, оценивание эффективности, нечеткий вывод, нейросетевое обучение
Благодарности: исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 20-37-90083.
Для цитирования: Махди Т.Н., Игитян Е.В., Польщиков К.А., Корсунов Н.И. 2022. Оценивание эффективности функционирования диалоговой системы на основе применения нечеткого вывода с нейросетевой настройкой. Экономика. Информатика, 49(2): 356-374. DOI 10.52575/2687-0932-202249-2-356-374
Evaluation of the Dialogue System Efficiency Based on the Application of Fuzzy Inference with Neural Network Settings
Tareq N. Mahdi, 2) Elena V. Igityan, 2) Konstantin A. Polshchikov, 2) Nikolay I. Korsunov
1)1 Mustansiriyah University, AL-Qadisiya St, Baghdad, 10001, Iraq 2) Belgorod National Research University, 85 Pobeda St, Belgorod, 308015, Russia E-mail: [email protected], [email protected], [email protected],
Abstract. The results of the study aimed at improving the process of evaluating the effectiveness of the functioning of dialogue systems based on the development of models of fuzzy inference and neural network learning are presented. The relevance of the development of tools for analyzing the performance of question-answer functions by software tools called virtual assistants is substantiated. As values for evaluating the effectiveness of the functioning of dialogue systems, it is proposed to use particular indicators that
characterize the accuracy, conciseness and completeness of answers to the questions asked. The resulting performance evaluation is determined by the value of the generalized indicator, calculated taking into account the values of particular indicators. An algorithm for calculating a generalized indicator based on the use of fuzzy inference has been developed. The values of parameters of membership functions and individual conclusions of fuzzy rules necessary for its implementation are proposed to be calculated on the basis of a neural network learning algorithm. The decision to complete the neural network tuning of the fuzzy inference parameters is made based on the calculation and analysis of the current learning error. The results of experimental studies on evaluating the effectiveness of the functioning of dialogue systems based on the proposed algorithms are presented.
Keywords: dialogue system, virtual assistant, question-answer system, performance evaluation, fuzzy inference, neural network learning
Acknowledgments: the reported study was funded by RFBR, project number 20-37-90083.
For citation: Mahdi T.N., Igityan E.V., Polshchikov K.A., Korsunov N.I. 2022. Evaluation of the Dialogue System Efficiency Based on the Application of Fuzzy Inference with Neural Network Settings. Economics. Information technologies, 49(2): 356-374 (in Russian). DOI 10.52575/2687-0932-2022-49-2-356-374
Введение
Одним из важнейших направлений автоматической обработки естественно-языковых данных является разработка и совершенствование интеллектуальных диалоговых систем и их упрощенных версий - чат-ботов. Эти системы стали все чаще применяться в коммерческих проектах [Balakrishnan, Dwived, 2021], где они используются в общении с клиентами для помощи в покупке товаров, технической поддержки, навигации по сайтам и т. д. [Abu Daqar, Smoudy, 2019]. Диалоговые системы используются в качестве интеллектуальных модулей общения социальных роботов, которые ухаживают за больными, престарелыми людьми [Reis et al., 2018].
Задача диалоговых систем - не только продемонстрировать пользователю свои коммуникативные способности, но и предоставить максимально точный ответ на вопрос, заданный на естественном языке. Современные вопросно-ответные системы обладают модулями контентной аналитики, позволяющими собирать и упорядочивать информацию, а также использовать машинное обучение на основе нейронных сетей [Lin, Xu, 2019]. Популярными сегодня диалоговыми системами являются виртуальные ассистенты «Siri» (Apple), «Google Assistant», «Amazon Alexa», «Cortana» (Microsoft), «Алиса» (Яндекс) [Tulshan, Dhage, 2019; Bylieva et al., 2021]. Специалисты утверждают, что проблемным вопросом является отсутствие адекватных средств оценки качества диалоговых систем, недостает общепризнанных методов, моделей, метрик, т. е. количественных показателей, на основе которых можно было бы сравнить эффективность имеющихся систем, обосновать выбор подходящих для тех или иных целей виртуальных ассистентов, а также объективно выявить их недостатки и направления дальнейшего совершенствования.
В настоящее время для оценивания эффективности диалоговых систем используются наборы многих самых различных показателей, в том числе, стандартные технические показатели программного обеспечения (показатель диалогового потока, показатель качества классификации сообщений, показатель качества извлечения данных из пользовательских сообщений и др.). Оценка качества реплики может быть вычислена как перплексия (обратная вероятность тестового набора, нормализованная по количеству слов,) но она не всегда позволяет оценить адекватность реплики. В отдельных случаях для оценки эффективности чат-ботов используются метрики, которые были разработаны для оценки качества моделей машинного перевода, например, BLEU [Papineni et al., 2002] и METEOR [Lavie, Agarwal, 2007] - показатели различий между компьютерным переводом и эталонным пользовательским переводом.
Анализ показал, что обозначенные выше показатели являются либо не в полной мере подходящими к оценке диалоговых систем, либо не самыми важными, второстепенными, по-
верхностными. Методы их вычисления не позволяют в требуемой мере оценить приспособленность системы к выполнению вопросно-ответных функций. На наш взгляд, в данной сфере лучше подходят показатели точности, лаконичности и полноты. Таким образом, задача разработки средств анализа эффективности диалоговых систем с точки зрения выполнения вопросно-ответных функций является актуальной.
Цель статьи - совершенствование процесса оценивания эффективности функционирования диалоговых систем на основе разработки моделей нечеткого вывода и нейросетевого обучения.
Для достижения цели требуют решения следующие задачи исследования:
1) обоснование показателей для оценивания эффективности функционирования диалоговой системы;
2) разработка алгоритма оценивания эффективности функционирования диалоговой системы на основе применения нечеткого вывода;
3) разработка алгоритма настройки параметров нечеткого вывода для оценивания эффективности функционирования диалоговой системы;
4) проведение экспериментальных исследований по оцениванию эффективности функционирования диалоговых систем на основе применения предложенных алгоритмов.
Обоснование показателей для оценивания эффективности функционирования
диалоговых систем
Анализ источников по тематике исследования показал, что различают следующие разновидности современных диалоговых систем:
1) целе-ориентированные диалоговые системы, помогающие выполнить человеку какое-то действие, например, включить электроприбор или заказать доставку продуктов [Xu et al., 2020];
2) знание-ориентированные (вопросно-ответные) диалоговые системы, помогающие получить искомую информацию [Sun et al., 2020].
3) диалоговые системы, предназначенные для общения, поддержания диалога без определенной цели [Jannach et al., 2021].
Наиболее известные сегодня диалоговые системы, такие виртуальные ассистенты, как, например, Siri (компания «Apple»), Алиса (компания «Яндекс»), способны в той или иной мере выполнять все вышеуказанные функции. И всё же наиболее полезными, на наш взгляд, являются знание-ориентированные возможности, предоставляющие человеку в процессе общения искомую информацию, т. е. именно те сведения, о которых он спрашивает, которые его интересуют в данный момент. В связи с этим знание-ориентированные диалоговые системы стали объектом данного исследования.
Назначение знание-ориентированной диалоговой системы - получить ответы (реплики), содержащие как можно больше искомой информации. При этом в процессе общения в репликах диалоговой системы может содержаться или отсутствовать искомая информация в полном или частичном объеме, а также содержаться или отсутствовать другая информация, усложняющая понимание ответов и получение искомых знаний человеком.
С точки зрения содержания искомой и другой информации реплики, выдаваемые диалоговой системой, могут быть следующих видов:
1) реплики, в которых содержится полная искомая информация и отсутствует другая информация;
2) реплики, в которых содержится полная искомая информация и другая информация;
3) реплики, в которых содержится частичная искомая информация и отсутствует другая информация;
4) реплики, в которых содержится частичная искомая информация и другая информация;
5) реплики, в которых отсутствует искомая информация и содержится другая информация;
6) реплики, в которых отсутствует искомая информация и другая информация. Признаки вышеуказанных видов реплик, выдаваемых диалоговой системой, отражены в таблице 1.
Таблица 1 Table 1
Признаки видов реплик, выдаваемых диалоговой системой Signs of the replicas types issued by the dialogue system
Виды реплик Содержится искомая информация Содержится другая информация
Полная Частичная
1 да нет нет
2 да нет да
3 нет да нет
4 нет да да
5 нет нет да
6 нет нет нет
Эффективность работы диалоговой системы тем выше, чем больше содержится искомой информации в выдаваемых ею репликах и меньше содержится другой информации, усложняющей понимание ответа. Другими словами, эффективно функционирующие диалоговые системы должны отвечать требованиям точности, лаконичности и полноты.
С учетом вышеизложенного для оценки эффективности функционирования диалоговой системы предлагается использовать представленные ниже частные показатели:
1) X - доля реплик с искомой информацией;
2) ¡3 - доля реплик только с искомой информацией;
3) у - доля реплик только с полной искомой информацией.
Показатель X вычисляется как отношение числа реплик, содержащих искомую информацию, к общему числу реплик, выданных диалоговой системой:
А + В + С + Б
а =-, (1)
А + В + С + Б + Е + F
где А - число реплик вида 1; В - число реплик вида 2; С - число реплик вида 3; Б - число реплик вида 4; Е - число реплик вида 5; F - число реплик вида 6.
Показатель 3 равен отношению числа реплик, содержащих только искомую информацию, к общему числу реплик, содержащих искомую и/или другую информацию:
А + С
3 =-. (2)
А + В + С + Б + Е
Показатель у определяется как отношение числа реплик, содержащих только полную искомую информацию, к общему числу реплик, содержащих искомую информацию:
А + В
у =-. (3)
А + В + С + Б
Число реплик вида 1 можно вычислить по формуле:
N
A = £ ai . (4)
i=i
Значения слагаемых а{ в формуле (4) можно определить с использованием правила:
[1, п = 1;
а = 1 1 (5)
1 10, Г1 * 1, ()
где 1 - номер реплики, выданной диалоговой системой; г - вид реплики номер 1.
По аналогии для вычисления значений С, D, Е и F могут быть использованы формулы:
N
В = 2 ъ; (6)
1=1
Ъ = [ 1 (7)
1 \о, п * 2; ()
n
с = 2 ^; (8)
1=1
[1, п = 3;
С1 = 10 + 3 (9)
i0, п * 3;
N
D = 2 di; (10)
1=1
[1, П = 4;
^ = [ 1 (11) 1 [0, П * 4; ( )
n
Е=2 ^; (12)
1=1
/1, п=5;
е1 =1 (13)
1 [0, Г- * 5; ( )
N
F=2 А; (14)
1=1
[1, п = 6;
^ =10 = 6 (15)
I0, П * 6.
Чем выше значения каждого частного показателя, тем выше эффективность функционирования диалоговой системы. Однако при сравнении диалоговых систем возможны случаи, когда, например, для одной системы значение первого частного показателя выше, чем для другой системы, а значение второго или третьего показателя ниже. Значит, чтобы оценить эффективность функционирования диалоговой системы, требуется использовать некоторый единственный обобщенный показатель 5, который учитывает значения предложенных выше частных показателей.
Разработка алгоритма оценивания эффективности функционирования диалоговой системы на основе нечеткого вывода
Ввиду того, что критерии к показателям X, ¡3 и у сложно представить с помощью конкретных численных значений, для их оценивания могут быть применены нечеткие множества «высокое значение показателя X » и «низкое значение показателя X », «высокое значение показателя 3» и «низкое значение показателя 3», «высокое значение показателя у » и «низкое значение показателя у». В этом случае для вычисления обобщенного показателя эффективности функционирования диалоговой системы целесообразно применить нечеткий вывод. Построение правил нечеткого вывода целесообразно осуществлять на основе алгоритма Сугено нулевого порядка [Takagi, Sugeno, 1985], т. к. он является одним из наиболее простых и успешно применяется во многих прикладных областях [Konstantinov et а1., 2015; Po1shchykov et а1., 2019; Ve1ikanova et а1., 2021]. В этом случае нечеткие правила для вычисления обобщенного показателя 5 имеют следующий вид:
if (а = а" ') and (3 = 3+) and (y = y+) then (s = si) ? (16)
if (а = ал ) and (3 = 3+) and (y = y~) then (S = s2) (17)
if (а = ал ) and (3 = 3~) and (y = y+) then (S = S3) ? (18)
if (а = ал ) and (3 = 3~) and (y = y~) then (S = s4) (19)
if (а = а~ ) and (3 = 3+) and (y = y+) then (S = S5) ? (20)
if (а = а~ ) and (3 = 3+) and (y = y~) then (S = s6) (21)
if (а = а~ ) and (3 = 3~) and (y = y+) then (S = S7) ? (22)
if (а = а~ ) and (3 = 3~) and (y = y~) then (S = s8) (23)
+ _
где х - нечеткое множество «высокое значение показателя X »; х - нечеткое множество «низкое значение показателя X »; ¡+ - нечеткое множество «высокое значение показателя 3»; 3~ - нечеткое множество «низкое значение показателя 3»; У+ - нечеткое множество «высокое значение показателя у»; у~ - нечеткое множество «низкое значение показателя у»; 51зs2, ...,s8- значения индивидуальных выводов каждого нечеткого правила.
Значения X могут в различной мере соответствовать нечетким множествам х+ и х~ . Чтобы вычислить значения, характеризующие меру этого соответствия, можно использовать
функции принадлежности х+ (X) и х" (X) . При этом значение функции х+ (X) равно вероятности того, что значение X принадлежит нечеткому множеству х+, аналогично значение функции x_ (X) равно вероятности того, что значение X принадлежит нечеткому множеству X-. Таким же образом, чтобы вычислить вероятность того, что значения 3 принадлежат нечетким множествам 3+ и 3~ , можно применить функции принадлежности у + (3) и у_ (3) , а для вычисления вероятности того, что значения у принадлежат нечетким множествам
у+ и у~, можно использовать функции принадлежности г + (у) и г_ (у) .
Для вычисления обобщенного показателя эффективности функционирования диалоговой системы предлагается использовать линейные Z-образные и S-образные функции принадлежности, широко применяемые в исследовательской практике [Po1shchykov et а1., 2020; Агузумцян и др., 2021].
Графический вид функций принадлежности х (а) и х+ (а) представлен на рисунке 1.
Рис. 1. Функции принадлежности х (а) и х+ (а) Fig 1. Membership functions х~ (а) and х+ (а)
Границы наклонного отрезка линейной Z-образной функции х" (а) обозначены величинами х[ и Xq , а границы наклонного отрезка линейной S-образной функции х+ (а) обозначены величинами х+ и х+ .
Рис. 2. Функции принадлежности y (Р) и y + (Р) Fig 2. Membership functions y~(Р) and y+ (Р)
Границы наклонного отрезка линейной Z-образной функции y~ (Р) обозначены величинами y1 и уд , а границы наклонного отрезка линейной S-образной функции y + (Р) обозначены величинами у+ и y+.
Рис. 3. Функции принадлежности z (/) и z + (/) Fig 3. Membership functions z" (/) and z + (/)
Границы наклонного отрезка линейной Z-образной функции г" (у) обозначены величинами ¿1" иг", а границы наклонного отрезка линейной S-образной функции г+ (у) обозначены величинами г+ и .
Вычисление обобщенного показателя эффективности функционирования диалоговой системы на основе нечеткого вывода требует, прежде всего, выполнения фаззификации, результатами которой являются значения функций принадлежности, зависящие от входных значений показателей а, ¡3 и у:
х (а) =
1, а < х ;
х— -а
Xn — X
X < а < хп;
х+ (а) =
П, а > х— ;
П, а < х+ ;
а — х
—
х1 х—
х— < а < х ;
1, а > Xi ;
y- (Р) Ч
1, Р<y—;
y——Р y—- —y—
y1 <р< у— ;
—, Р> у—;
у+(Р) Ч
—, Р<у—+;
Р—у—+
у+ <Р< у+;
У1 —у— 1, Р> у+;
z 7 = <
1, 7< z1 ;
z— — 7
^ z1 <r<z—;
z— —z
z + (7) 4
—, 7 > z—■; —, 7 < z—+; 7 — z+ +
, z— <7 < z1 ;
z1 —z,
—
1, 7 > z+.
(24)
(25)
(26)
(27)
(28)
(29)
После фаззификации выполняется процедура агрегирования, результатами которой являются величины Gl, G2, ... G8, вычисляемые с использованием следующих выражений:
G = х+ (а) a у+ (Р) A z + (7)
(30)
G2 = x+ (a) a y+ (P) a z - (r) G3 = x+ (a) a y~ (P) a z+(r)
G4 = X+ (a) A y~ (p) A z" (r)
G5 = X-(a) a y+ (P) a z + (r)
g6 = X_(a) a у+(p) a z" (r)
G7 = X~ (a) A y ~ (P) A z+ (r)
g8 = X" (a) a y~ (P) a z" (r)
(31)
(32)
(33)
(34)
(35)
(36)
(37)
Заключительной процедурой процесса оценивания эффективности функционирования диалоговой системы является дефаззификация, в результате которой вычисляется значение обобщенного показателя 5 :
8
Е
S =
k=1
(38)
Е ^
k=1
Процесс оценивания эффективности функционирования диалоговой системы на основе нечеткого вывода можно представить в виде алгоритма, блок-схема которого представлена на рисунке 4.
Данный алгоритм предписывает выполнение следующих шагов: Шаг 1. Осуществляется ввод исходных данных: - число вопросов N , задаваемых диалоговой системе;
- значения параметров функций принадлежности, т. е. величин х0, л
с\, Уо ,
У\
Уo, У1 , ^0 , , ^0 и - значения индивидуальных выводов нечетких правил, т. е. величин ¿1, ^, • • •, . Шаг 2. Диалоговой системе задается вопрос номер i = 1.
Шаг 3. Анализируется выданный диалоговой системой ответ. В соответствии с таблицей 1 определяется вид реплики.
Шаг 4. По формулам (5), (7), (9), (11), (13) и (15) вычисляются значения а{, Ь, сг-, di,
е и ^ .
Шаг 5. Проверяется выполнение условия:
i < N . (39)
Если данное условие выполняется, то I увеличивается на 1, диалоговой системе задается следующий вопрос и осуществляется переход к шагу 3. В противном случае осуществляется переход к шагу 6.
Шаг 6. По формулам (4), (6), (8), (10), (12) и (14) вычисляются значения А, В , С , D, Е и F .
Шаг 7. По формулам (1)-(3) вычисляются значения частных показателей а, ¡3 и у . Шаг 8. С использованием выражений (24)-(29) выполняется процедура фаззификации. Шаг 9. По формулам (30)-(37) выполняется процедура агрегирования. Шаг 10. Выполняется процедура дефаззификации, в результате которой по формуле (38) вычисляется значение 5 .
X
Шаг 11. Осуществляется вывод результирующего значения обобщенного показателя эффективности функционирования диалоговой системы. Конец алгоритма.
Рис. 4. Блок-схема алгоритма оценивания эффективности функционирования диалоговой системы Fig 4. Block diagram of the algorithm for evaluating the dialogue system effectiveness
Для выполнения представленных выше процедур нечеткого вывода в соответствии с формулами (16)—(38) и соответствующего алгоритма необходимы конкретные значения
параметров функций принадлежности (величин Xg , xf, xf, xf, Уд , У\ , Уо , У1+, zo , zi, zo
и zf), а также индивидуальных выводов нечетких правил (величин si, S2, ..., s8). Вычислить значения этих параметров позволяет применение нейросетевого обучения. В этих целях требуется создать многослойную нейронную сеть прямого распространения, в слоях которой выполнялись бы определенные процедуры нечеткого вывода. Такая гибридная адаптивная
система нейронно-нечеткого вывода (Adaptive Neuro-Fuzzy Inference System, ANFIS), именуемая также нечеткой нейронной сетью, успешно применяется при решении многих научно-технических задач [Polshchykov, Lazarev, Zdorovtsov, 2017; Karaboga, Kaya, 2019].
Разработка алгоритма нейросетевой настройки параметров нечеткого вывода для оценивания эффективности функционирования диалоговой системы
Настройка ANFIS даст возможность автоматически вычислить неизвестные значения параметров функций принадлежности и индивидуальных выводов нечетких правил. Чтобы выполнить настройку нечеткой нейронной сети необходимо сформировать обучающую выборку, структура которой представлена в таблице 2.
Таблица 2 Table 2
Структура обучающей выборки The structure of the training set
Порядковый номер эксперимента Значение а Значение ¡3 Значение у Результирующая оценка
1 ах А У1
2 С2 ¡2 У2 S2
m ат 3т ут Sm
M ам 3м Ум SM
В целях формирования обучающей матрицы необходимо провести М экспериментов, в ходе каждого из которых получить от диалоговой системы ответы (реплики) на N вопросов. В результате каждого эксперимента номер т экспертом выставляется субъективная оценка Sm ,
показывающая, насколько, по его мнению, проведенный диалог был полезен. Кроме того, по результатам каждого эксперимента по формулам (1)—(15) вычисляются значения частных показателей эффективности функционирования диалоговой системы и заносятся в соответствующие строки обучающей выборки. Для получения достоверных результатов объем обучающей выборки должен составлять не менее 1000 строк, как и число проведенных для её формирования экспериментов.
Сформированная вышеуказанным образом обучающая выборка подается на вход и в течение многочисленных циклов (эпох) выполняется настройка нечеткой нейронной сети. Для обучения рекомендуется использовать алгоритм обучения, реализующий комбинацию метода наименьших квадратов и метода убывания обратного градиента. Число циклов настройки должно быть таким, чтобы в течение нескольких последних эпох значение ошибки обучения стало наименьшим.
Алгоритм нейросетевой настройки параметров нечеткого вывода для вычисления обобщенного показателя 5 представлен на рисунке 5. Данный алгоритм предписывает выполнение следующих шагов:
Шаг 1. Осуществляется ввод исходных данных:
- число экспериментов М , выполняемых для формирования обучаемой выборки;
- число вопросов N , задаваемых диалоговой системе, в ходе каждого эксперимента;
- начальное число эпох обучения нечеткой нейронной сети.
Шаг 2. Начинается проведение эксперимента номер т = 1.
Шаг 3. Диалоговой системе задается вопрос номер / = 1.
Шаг 4. Анализируется выданный диалоговой системой ответ. В соответствии с таблицей 1 определяется вид реплики.
Шаг 5. По формулам (5), (7), (9), (11), (13) и (15) вычисляются значения ai, Ьi, ci, di, Ъ и ^ .
Шаг 6. Проверяется выполнение условия (39).
Если данное условие выполняется, то i увеличивается на 1, диалоговой системе задается следующий вопрос и осуществляется переход к шагу 4. В противном случае осуществляется переход к шагу 7.
Шаг 7. По формулам (4), (6), (8), (10), (12) и (14) вычисляются значения Ат, Вт , Ст,
Dm, Ет и Fm, а затем по формулам (1)-(3) вычисляются значения частных показателей ат, Рт и ут .
Шаг 8. Выставляется субъективная оценка Sm полезности диалога, проведенного в ходе эксперимента т .
Шаг 9. Данные о значениях ат, Рт, ут и Sm вносятся в строку номер т обучающей выборки.
Шаг 10. Проверяется выполнение условия:
m < M
(40)
Если данное условие выполняется, то m увеличивается на 1, начинается проведение следующего эксперимента и осуществляется переход к шагу 3. В противном случае осуществляется переход к шагу 11.
Шаг 11. Проводится настройка нечеткой нейронной сети с использованием обучающей выборки в течение заданного числа эпох.
Шаг 12. Выполняется анализ вычисленной ошибки обучения. Если в течение нескольких последних эпох значение ошибки обучения продолжает уменьшаться, то заданное значение числа эпох обучения увеличивается на 1 и осуществляется переход к шагу 11.
В противном случае принимается решение о завершении настройки нечеткой нейронной сети. Конец алгоритма.
После настройки нечеткой нейронной сети алгоритм, представленный на рисунке 4, может быть использован для оценивания эффективности функционирования диалоговой системы.
Проведение экспериментальных исследований
Предложенные выше алгоритмы были применены в ходе экспериментальных исследований по оцениванию эффективности функционирования диалоговых систем. Для вычисления обобщенного показателя эффективности 5 применялась нечеткая нейронная сеть, процессы создания и настройки которой выполнялись в программной среде Matlab с помощью специальных наборов инструментов Fuzzy Logic Toolbox и Neural Network Toolbox. Для создания и настройки ANFIS предварительно было проведено M = 1012 экспериментов. В ходе каждого эксперимента диалоговой системе «Алиса» был задан уникальный набор из N = 20 вопросов, специально подобранных на определенную тему. На основе анализа полученных реплик в соответствии с алгоритмом, представленным на рисунке 8, в результате каждого эксперимента номер m была сформирована соответствующая строка обучающей выборки.
На рисунке 6 показаны результаты обучения ANFIS в течение 12 эпох. Видно, что в результате 3 последних циклов обучения ошибка не уменьшалась и принимала наименьшее значение 0,00199. Это свидетельствует о том, что настройку нечеткой нейронной сети можно завершить. Созданная система нечеткого вывода была сохранена в виде файла «ANFIS Alice.fis».
Рис. 5. Блок-схема алгоритма нейросетевой настройки параметров нечеткого вывода Fig 5. Block diagram of the algorithm for neural network settings of fuzzy inference parameters
Рис. 6. Результаты обучения ANFIS Fig 6. ANFIS learning outcomes
Структура созданной нечеткой нейронной сети представлена на рисунке 7.
Рис. 7. Структура ANFIS Fig 7. ANFIS structure
В результате настройки нечеткой нейронной сети были получены следующие значения параметров функций принадлежности и индивидуальных выводов нечетких правил:
х- = 0,1019; х- = 0,9393; х+ = 0,1004; х+ = 0,9419; у- = 0,1537; у- = 0,9506;
у+ = 0,1882; у? = 0,9537; = 0,1229; z- = 0,8674; z+ = 0,1187; = 0,9430; ^ = 1,027;
= -16,73; = 7,844; s4 = 5,382; = 23,54; = 11,84; s7 = -1,314; = 8,998.
Настройка параметров нечеткого выбора завершена. Теперь алгоритм, представленный на рисунке 4, может быть использован для оценивания эффективности функционирования диалоговых систем. Приведем пример его применения в небольшом эксперименте, проведенном с виртуальным ассистентом «Алиса».
В процессе диалога «Алисе» было задано 5 вопросов. Вопрос 1: «Расскажи об Эйфелевой башне».
Ответ 1: «Эйфелева башня - металлическая башня в центре Парижа, самая узнаваемая его архитектурная достопримечательность». В ответе содержится только частичная искомая информация и отсутствует другая информация, реплику можно отнести к виду 3.
Вопрос 2: «Эйфелева башня высокая?»
Ответ 2: «Эйфелева башня - металлическая башня в центре Парижа, самая узнаваемая его архитектурная достопримечательность». В ответе не содержится искомая информация о высоте башни, однако имеется другая информация. Реплику можно отнести к виду 5.
Этот же вопрос был сформулирован немного иначе.
Вопрос 3: «Эйфелева башня является высокой?»
Ответ 3: «Эйфелева Башня - это самая известная архитектурная достопримечательность Парижа, известная как символ Франции, воздвигнутая на марсовом поле и названная в честь своего конструктора Гюстафа Эйфеля. Она является самым узнаваемым и высоким зданием в Париже, её высота вместе с новой антенной составляет 324 метра, что примерно равняется с домом в 81 этаж». Ответ содержит полную информацию о высоте башни, но включает много дополнительных сведений, о которых не спрашивалось. Данная формулировка была бы более уместна при ответе на вопрос 1. Реплику можно отнести к виду 2.
Вопрос 4: «В честь кого названа Эйфелева башня?»
Ответ 4: «Гюстав Эйфель». Ответ лаконичен, содержит полную искомую информацию, в нем нет дополнительной информации. Реплику можно отнести к виду 1.
Вопрос 5: «Эйфелева башня выше, чем Останкинская?»
Ответ 5: «Останкинская телебашня выше. Её высота 540 метров, а высота Эйфелевой башни составляет 324 метра». Ответ содержит полную искомую информацию, дополнительная информация отсутствует. Реплику можно отнести к виду 1.
Результаты всех полученных ответов сведены в таблице 3.
Таблица 3 Table 3
Результаты диалога с виртуальным ассистентом «Алиса» The results of the dialogue with the virtual assistant "Alisa"
i ri ai b ci dt ei fi
1 3 0 0 1 0 0 0
2 5 0 0 0 0 1 0
3 2 0 1 0 0 0 0
4 1 1 0 0 0 0 0
5 1 1 0 0 0 0 0
С использованием представленных в таблице 3 данных выполнены вычисления по формулам (4), (6), (8), (10), (12) и (14), получены значения А = 2, В = 1, С = 1, D = 0, Е = 1 и F = 0. Затем с помощью выражений (1)-(3) вычислены значения частных показателей: а = 0,8, ( = 0,6 и у = 0,75. В результате выполнения процедур фаззификации, агрегирования и дефаззификации вычислено значение обобщенного показателя S = 0,801, характеризующего эффективность функционирования виртуального ассистента «Алиса» в данном конкретном диалоге.
На основе применения представленных в статье алгоритмов были проведены многочисленные эксперименты, результаты которых показали, что эффективность функционирования диалоговых систем зависит от тематики диалогов и набора подобранных вопросов. В ходе экспериментов выявлены недостатки современных виртуальных ассистентов, в частности, несовершенство учета контекста и отслеживания истории ведения диалога. Связанные с этим ошибки и неточности в ответах диалоговых систем неизменно приводили к снижению
вычисляемого обобщенного показателя эффективности их функционирования, значения которого наблюдались в пределах от 0,395 до 0,912.
Таким образом, выполнение исследований на основе предложенных в статье алгоритмов позволяет выявить диалоги с невысокими значениями обобщенного показателя 5 . Это даст возможность в дальнейшем провести их детальный экспертный анализ и внести необходимые корректировки в целях совершенствования функционирования диалоговых систем.
Заключение
Представленные в работе модели и алгоритмы, которые основаны на применении нечеткого вывода и нейросетевого обучения, позволили усовершенствовать процесс оценивания эффективности функционирования диалоговых систем. В статье решены задачи исследования и получены следующие результаты:
1. Для оценки эффективности функционирования диалоговой системы обосновано использование частных показателей, характеризующих точность, лаконичность и полноту ответов на заданные вопросы. Предложены модели для вычисления этих показателей как доли реплик с искомой информацией, доли реплик только с искомой информацией и доли реплик только с полной искомой информацией. Значение обобщенного показателя эффективности функционирования диалоговой системы предложено вычислять на основе применения нечеткого вывода с учетом значений частных показателей.
2. Разработан алгоритм оценивания эффективности функционирования диалоговой системы на основе применения нечеткого вывода. Алгоритм предусматривает выполнение процедур выявления видов ответных реплик, вычисления значений частных показателей, фаззификации, агрегирования, дефаззификации и вывода результирующего значения обобщенного показателя эффективности. Необходимые для выполнения данного алгоритма конкретные значения параметров функций принадлежности и индивидуальных выводов нечетких правил предложено вычислять на основе применения нейросетевого подхода.
3. Разработан алгоритм нейросетевой настройки параметров нечеткого вывода, выполняемого для вычисления обобщенного показателя эффективности функционирования диалоговой системы. Алгоритм включает процедуры создания обучающей выборки и последующей настройки нечеткой нейронной сети. Строки обучающей выборки содержат данные о значениях частных показателей эффективности и субъективных оценках полезности диалогов, проведенных с вопросно-ответной системой. Решение о завершении нейросетевой настройки параметров нечеткого вывода принимается на основе вычисления и анализа текущей ошибки обучения.
4. Проведены экспериментальные исследования по оцениванию эффективности функционирования диалоговых систем на основе предложенных алгоритмов. В результате значения обобщенного показателя эффективности изменялись в пределах от 0,395 до 0,912 в зависимости от тематики диалогов и набора подобранных вопросов. Полученные экспериментальные результаты могут быть использованы в целях совершенствования функционирования диалоговых систем.
Список литературы
Агузумцян Р.В., Великанова А.С., Польщиков К.А., Игитян Е.В., Лихошерстов Р.В. 2021. О применении интеллектуальных технологий обработки естественного языка и средств виртуальной реальности для поддержки принятия решений при подборе исполнителей проектов. Экономика. Информатика, 48 (2): 392-404. DOI 10.52575/2687-0932-2021-48-2-392-404. Польщиков К.А., Польщикова О.Н., Игитян Е.В., Балакшин М.С. 2019. Алгоритм поддержки принятия решений по выбору средств обработки больших массивов естественно-языковых данных. Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. 46 (3): 553-562. DOI 10.18413/2411-3808-2019-46-3-553-562.
Abu Daqar M.A.M., Smoudy A.K.A. 2019. The Role of Artificial Intelligence on Enhancing Customer Experience. International Review of Management and Marketing, 9(4): 22-31.
Balakrishnan J., Dwived Y. K. 2021. Conversational commerce: entering the next stage of Al-powered digital assistants. Annals of Operations Research. URL: https://doi.org/10.1007/s10479-021-04049-5 (accessed: 15.05.2022).
Bylieva D., Lobatyuk V., Kuznetsov D., Anosova N. 2021. How Human Communication Influences Virtual Personal Assistants. Lecture Notes in Networks and Systems, 184: 98-111.
Jannach D., Manzoor A., Cai W., Chen L. 2021. A Survey on Conversational Recommender Systems. ACM Computing Surveys, 54 (5): 1-36.
Karaboga D., Kaya E. 2019. Adaptive network based fuzzy inference system (ANFIS) training approaches: a comprehensive survey. Artificial Intelligence Review, 52: 2263-2293.
Konstantinov I.S., Lazarev S.A., Polshchykov K.O., Mihalev O.V. 2015. Theoretical aspects of evaluation of the corporative portal network traffic management. International Journal of Applied Engineering Research, 10(24): 45691-45696.
Lavie A., Agarwal A. 2007. METEOR: An automatic metric for MT evaluation with high levels of correlation with human judgments. Proceedings of the second workshop on statistical machine translation: 228-231.
Lin T.-E., Xu. H. 2019. A post-processing method for detecting unknown intent of dialogue system via pre-trained deep neural network classifier. Knowledge-Based Systems, 186: 104979.
Papineni K., Roukos S., Ward T., Zhu W.-J. 2002. BLEU: A Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics: 311-318.
Polshchykov K.A., Lazarev S.A., Konstantinov I.S., Polshchykova O.N., Svoikina L.F., Igityan E.V., Balakshin M.S. 2020. Assessing the Efficiency of Robot Communication. Russian Engineering Research, 40: 936-938.
Polshchykov K., Lazarev S., Polshchykova O., Igityan E. 2019. The Algorithm for Decision-Making Supporting on the Selection of Processing Means for Big Arrays of Natural Language Data. Lobachevskii Journal of Mathematics, 40(11): 1831-1836.
Polshchykov K.O., Lazarev S.A., Zdorovtsov A.D. 2017. Neuro-Fuzzy Control of Data Sending in a Mobile Ad Hoc Network. Journal of Fundamental and Applied Sciences, 9(2S): 1494-1501.
Reis A., Paulino D., Paredes H., Barroso I., Monteiro M.J., Rodrigues V. 2018. Using intelligent personal assistants to assist the elderlies an evaluation of Amazon Alexa, Google Assistant, Microsoft Cortana, and Apple Siri. 2-nd International Conference on Technology and Innovation in Sports, Health and Wellbeing (TISHW): 1-5.
Sun Y., Hu Y., Xing L., Yu J., Xie Y. 2020. History-Adaption Knowledge Incorporation Mechanism for Multi-Turn Dialogue System. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05): 8944-8951.
Takagi T., Sugeno M. 1985. Fuzzy Identification of Systems and Its Applications to Modeling and Control. IEEE Transactions on Systems, Man, and Cybernetics, 15: 116-132.
Tulshan A.S., Dhage S.N. 2019. Survey on Virtual Assistant: Google Assistant, Siri, Cortana, Alexa. Communications in Computer and Information Science, 968: 190-201.
Velikanova A.S., Polshchykov K.A., Likhosherstov R.V., Polshchykova A.K. 2021. The use of virtual reality and fuzzy neural network tools to identify the focus on achieving project results. Journal of Physics: Conference Series. 2nd International Scientific Conference on Artificial Intelligence and Digital Technologies in Technical Systems 2021, Volgograd, 2060: 173707.
Xu H., Peng H., Xie H., Cambria E. 2020. End-to-End latent-variable task-oriented dialogue system with exact log-likelihood optimization. World Wide Web, 23: 1989-2002.
References
Aguzumtsyan R.V., Velikanova A.S., Polshchikov K.A., Igityan E.V., Likhosherstov R.V. 2021. Application of intellectual technologies of natural language processing and virtual reality means to supportdecision-making when selecting project executors. Economics. Information technologies, 48(2): 392-404. (in Russian). DOI 10.52575/2687-0932-2021-48-2-392-404.
Polshchikov K.A., Polshchikova O.N., Igityan E.V., Balakshin M.S. 2019. The algorithm of decision support in the choice of means of processing large amounts of natural language data. Belgorod State
University Scientific Bulletin. Economics. Information technologies. 46 (3): 553-562 (in Russian). DOI 10.18413/2411-3808-2019-46-3-553-562.
Abu Daqar M.A.M., Smoudy A.K.A. 2019. The Role of Artificial Intelligence on Enhancing Customer Experience. International Review of Management and Marketing, 9(4): 22-31.
Balakrishnan J., Dwived Y.K. 2021. Conversational commerce: entering the next stage of AI-powered digital assistants. Annals of Operations Research. URL: https://doi.org/10.1007/s10479-021-04049-5 (accessed: 15.05.2022).
Bylieva D., Lobatyuk V., Kuznetsov D., Anosova N. 2021. How Human Communication Influences Virtual Personal Assistants. Lecture Notes in Networks and Systems, 184: 98-111.
Jannach D., Manzoor A., Cai W., Chen L. 2021. A Survey on Conversational Recommender Systems. ACM Computing Surveys, 54 (5): 1-36.
Karaboga D., Kaya E. 2019. Adaptive network based fuzzy inference system (ANFIS) training approaches: a comprehensive survey. Artificial Intelligence Review, 52: 2263-2293.
Konstantinov I.S., Lazarev S.A., Polshchykov K.O., Mihalev O.V. 2015. Theoretical aspects of evaluation of the corporative portal network traffic management. International Journal of Applied Engineering Research, 10(24): 45691-45696.
Lavie A., Agarwal A. 2007. METEOR: An automatic metric for MT evaluation with high levels of correlation with human judgments. Proceedings of the second workshop on statistical machine translation: 228-231.
Lin T.-E., Xu. H. 2019. A post-processing method for detecting unknown intent of dialogue system via pre-trained deep neural network classifier. Knowledge-Based Systems, 186: 104979.
Papineni K., Roukos S., Ward T., Zhu W.-J. 2002. BLEU: A Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics: 311-318.
Polshchykov K.A., Lazarev S.A., Konstantinov I.S., Polshchykova O.N., Svoikina L.F., Igityan E.V., Balakshin M.S. 2020. Assessing the Efficiency of Robot Communication. Russian Engineering Research, 40: 936-938.
Polshchykov K., Lazarev S., Polshchykova O., Igityan E. 2019. The Algorithm for Decision-Making Supporting on the Selection of Processing Means for Big Arrays of Natural Language Data. Lobachevskii Journal of Mathematics, 40(11): 1831-1836.
Polshchykov K.O., Lazarev S.A., Zdorovtsov A.D. 2017. Neuro-Fuzzy Control of Data Sending in a Mobile Ad Hoc Network. Journal of Fundamental and Applied Sciences, 9(2S): 1494-1501.
Reis A., Paulino D., Paredes H., Barroso I., Monteiro M.J., Rodrigues V. 2018. Using intelligent personal assistants to assist the elderlies an evaluation of Amazon Alexa, Google Assistant, Microsoft Cortana, and Apple Siri. 2-nd International Conference on Technology and Innovation in Sports, Health and Wellbeing (TISHW): 1-5.
Sun Y., Hu Y., Xing L., Yu J., Xie Y. 2020. History-Adaption Knowledge Incorporation Mechanism for Multi-Turn Dialogue System. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05): 8944-8951.
Takagi T., Sugeno M. 1985. Fuzzy Identification of Systems and Its Applications to Modeling and Control. IEEE Transactions on Systems, Man, and Cybernetics, 15: 116-132.
Tulshan A.S., Dhage S.N. 2019. Survey on Virtual Assistant: Google Assistant, Siri, Cortana, Alexa. Communications in Computer and Information Science, 968: 190-201.
Velikanova A.S., Polshchykov K.A., Likhosherstov R.V., Polshchykova A.K. 2021. The use of virtual reality and fuzzy neural network tools to identify the focus on achieving project results. Journal of Physics: Conference Series. 2nd International Scientific Conference on Artificial Intelligence and Digital Technologies in Technical Systems 2021, Volgograd, 2060: 173707.
Xu H., Peng H., Xie H., Cambria E. 2020. End-to-End latent-variable task-oriented dialogue system with exact log-likelihood optimization. World Wide Web, 23: 1989-2002.
Конфликт интересов: о потенциальном конфликте интересов не сообщалось. Conflict of interest: no potential conflict of interest related to this article was reported.
ИНФОРМАЦИЯ ОБ АВТОРАХ
Махди Тарек Нассер, магистр наук, преподаватель Университета Мустансирия, г. Багдад, Ирак
Игитян Елена Владимировна, аспирант кафедры информационно-телекоммуникационных систем и технологий, Белгородский государственный национальный исследовательский университет, г. Белгород, Россия
INFORMATION ABOUT THE AUTHORS
Tareq N. Mahdi, MSc, Assistant Lecturer of the Mustansiriyah University, Baghdad, Iraq
Elena V. Igityan, Post-graduate Student of the Department of Information and Telecommunications Systems and Technologies of the Belgorod National Research University, Belgorod, Russia
Польщиков Константин Александрович, доктор технических наук, доцент, директор института инженерных и цифровых технологий, Белгородский государственный национальный исследовательский университет, г. Белгород, Россия
Корсунов Николай Иванович, доктор технических наук, профессор, профессор кафедры математического и программного обеспечения информационных систем, Белгородский государственный национальный исследовательский университет, г. Белгород, Россия
Konstantin A. Polshchikov, Doctor of Technical Sciences, Associate Professor, Director of the Institute of Engineering and Digital Technologies of the Belgorod National Research University, Belgorod, Russia
Nikolay I. Korsunov, Doctor of Technical Sciences, Professor, Professor of the Department of Mathematical and Software Information Systems of the Belgorod National Research University, Belgorod, Russia