Научная статья на тему 'Метод решения задач маршрутизации вызовов на основе новой оценки релевантности термов'

Метод решения задач маршрутизации вызовов на основе новой оценки релевантности термов Текст научной статьи по специальности «Математика»

CC BY
65
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод решения задач маршрутизации вызовов на основе новой оценки релевантности термов»

ve Lösung von zwei Klassifizierungsaufgaben vorzunehmen. In der ersten Etappe wird die Zugehörigkeit des Rufexemplars zur «residualen» (nicht informativen) Klasse definiert. Sollte eine Bestätigung für eine solche Zugehörigkeit fehlen, erfolgt in der zweiten Etappe einer Klassifizierung, die darauf ausgerichtet ist, das Rufexemplar einer der informativen Klassen zuzuordnen. Die Zweckmäßigkeit dieser Überlegung wird durch zahlenmäßige Untersuchungen bestätigt (s. Tab.).

Ergebnisse der numerischen Untersuchungen

Ergebnisse der numerischen Untersuchungen

Die vorgeschlagene Methode wurde anhand der untersuchten Aufgabenstellung für das Rufrouting mit und ohne Dekomposition getestet. Ebenso wurde eine vergleichende Untersuchung mit Standardklassifizierungsmethoden vorgenommen, die für die Lösung der Aufgabenstellung zur Anwendung kommen können, wie:

- Methode der nächsten Nachbarn (Anzahl der Nachbarn von 1 bis 15);

- Bayessche Methode mit Laplace-Korrektur;

- Bayessche Methode ohne Laplace-Korrektur;

- Lösungsbaum;

- auflösende Induktion;

- Perzeptron.

Die Ergebnisse der vergleichenden Untersuchungen sind in der Tabelle dargestellt.

Aus der Tabelle wird die Effizienz der vorgeschlagenen neuen Methode bei Nutzung der Dekomposition der Aufgabenstellung mit gesonderter Herausstellung der «residualen» Klasse ersichtlich.

Somit konnte ein neuer Algorithmus zur Lösung von Aufgaben beim Rufrouting vorgeschlagen und umgesetzt werden, dessen Unterscheidungsmerkmale sind: neue Methode zur Bewertung der Termrelevanz, die auf der Nutzung von Werten der relativen Antreffhäufigkeit der Terms in den Klassen zur Bewertung der Relevanz von fließenden Regeln im Fuzzy-Klassifikator mit Ersetzen der Funktionswerte für die Zugehörigkeit basiert; Dekomposition der Ausgangsaufgabenstellung in zwei Etappen mit gesonderter Herausstellung der «residualen» Klasse, die nicht informative Rufexemplare enthält, unter Berücksichtigung der Spezifik und der Inhomogenität dieser Klasse.

Der Vergleich mit den für die Lösung der genannten Aufgabenstellung beim Rufrouting verwendeten Standardklassifizierungsmethoden, demonstriert den Vorteil der vorgeschlagenen Methode.

Referenzen

1. Carpenter B., Chu-Carroll J., Proc. ICSLP-98, Sydney, Australia, Dec. 1998, pp. 2059-2062.

2. Chu-Carroll J., Carpenter B., Computational Linguistics, 1999, Vol. 25, no. 3, pp. 361-388.

3. Lee C.-H., Carpenter B., Chou W., Chu-Carroll J., Reichl W., Saad A., Zhou Q., Speech Communication, 2000, Vol. 31, no. 4, pp. 309-320.

4. Kuo H.-K., Lee C.-H., Proc. of ICSLP'00, 2000.

5. Gorin A. L., Riccardi G., Wright J.H., Speech Communication, 1997, Vol. 23, pp. 113-127.

6. Wright J.H., Gorin A.L., Riccardi G., Proc. Eurospeech-97, Sept. 1997, pp. 1419-1422.

7. Schapire R.E., Singer Y., Machine Learning, 2000, Vol. 39, no. 2/3, pp. 135-168.

8. Ishibuchi H., Nakashima T., Murata T., Transactions on Systems, Man, and Cybernetics, 1999, Vol. 29, pp. 601-618.

9. Sergienko, R. Proc. of Advances in Swarm Intelligence: 3rd Int. Conference (ICSI 2012), Shenzhen, China, 2012, Part I, Springer, pp. 452-459.

Klassifizierungspräzision

№ Algorithmus ohne Dekomposition, % mit Dekomposition, %

1 Methode der nächsten Nachbarn mit der Anzahl der Nachbarn:

1 74,53 78,85

2 72,07 77,54

3 75,10 78,85

4 75,02 78,51

5 75,18 78,23

6 74,53 78,57

7 74,45 78,85

8 75,27 78,57

9 75,02 78,45

10 74,86 78,45

15 74,36 77,43

2 Bayessche Methode: mit Laplace-Korrektur 72,03 76,21

ohne Laplace-Korrektur 74,06 76,21

3 Lösungsbaum 27,97 73,83

4 Entscheidende 40,48 76,21

Induktion

5 das Perceptron 21,74 73,83

6 das vorgeschlagene Konzept 55,10 85,50

Версия статьи на русском языке

УДК 004.89

МЕТОД РЕШЕНИЯ ЗАДАЧ МАРШРУТИЗАЦИИ ВЫЗОВОВ НА ОСНОВЕ НОВОЙ ОЦЕНКИ РЕЛЕВАНТНОСТИ ТЕРМОВ

(Работа проводится в рамках выполнения ГК №№ 16.740.11.0742, 11.519.11.4002 и поддержана совместным грантом Министерства образования и науки РФ и Немецкой службы академических обменов DAAD по программе «Михаил Ломоносов»)

Т.О. Гасанова, аспирант (Ульмский университет, алл. А. Эйнштейна, 5, г. Ульм,

89081, Баден-Вюртемберг, Германия, tatiana.gasanюva@цni-ulm.de); Р.Б. Сергиенко, к.т.н.., ст. преподаватель; Е.С. Семенкин, д.т.н.., профессор (Сибирский государственный аэрокосмический университет им. академика М.Ф. Решетнева, просп.. им. газ. «Красноярский рабочий», 31, г. Красноярск,, 660014, Россия, romaserg@ist. ш, eugenesemenkin@yan.dex. ш); В.М. Минкер, доктор-инженер, профессор (Ульмский университет, алл. А. Эйнштейна, 5, г. Ульм, 89081, Баден-Вюртемберг, Германия, uolfgang.minker@uni-ulm.de)

Маршрутизация вызовов, основанная на обработке естественного языка, представляет собой сложную и перспективную область исследований в интеллектуальных машинных методах и интерпретации языка. Эта сложность обусловлена трудностями в автоматической интерпретации естественного языка. В данной статье сделан акцент на разработку алгоритмов, по эффективности способных превзойти существующие методы на больших БД и не требующих морфологического анализа или фильтра в виде стоп-слова. В предлагаемом подходе осуществляется декомпозиция задачи классификации, к которой сводится маршрутизация вызовов, на две стадии: обнаружение остаточного класса и отнесение объектов к значимым классам. К остаточному классу относятся объекты, которые нельзя отнести к значимым классам или же можно отнести сразу к нескольким значимым классам. Предлагается новая формула оценки релевантности термов при определении значимых классов, являющаяся модификацией оценки релевантности нечетких правил в нечетком классификаторе. Используя эту формулу только для 300 наиболее часто встречающихся слов для каждого класса, достигнута точность классификации 85,55 %.

Ключевые слова: классификация вызовов, оценка релевантности термов, обработка естественного языка.

CALL ROUTING PROBLEM SOLVING METHOD BASED ON A NEW TERM RELEVANCE ESTIMATION Gasanova T.O., Postgraduate

(Ulm University, 5, Albert-Einstein-Allee, Ulm, 89081, Baden-Wuerttemberg, Germany, tatiana.gasanova@uni-ulm.de);

Sergienko R.B., Ph.D., Senior Lecturer; Semenkin E.S., Ph.D., Professor (Siberian State Aerospace University, 31, «Krasnoyarsky Rabochy» Av., Krasnoyarsk, 660014, Russia, romaserg@list.ru, eugenesemenkin@yandex.ru);

Minker W.M., Dr.-Eng., Professor (Ulm Universiry, 5, Albert-Einstein-Allee, Ulm, 89081, Baden-Wuerttemberg, Germany, wolfgang.minker@uni-ulm.de) Abstract. Call routing based on Natural Language Understanding remains a complex and challenging research area in machine intelligence and language understanding. This challenge is due to the difficulty in automated natural language understanding. This paper focuses on the design of algorithms which are able to outperform existing methods on large dataset and do not require morphological and stop-word filtering. The proposed approach decomposes the classification problem into two steps: detection the residual class and utterance categorization to meaningful classes. Class residual includes utterances which cannot be assigned to any useful class or which can be assigned to more than one class. We present the new formula for term relevance estimation which is a modification of fuzzy rules relevance estimation for fuzzy classifier. Using these formulae for only 300 frequent words for each class we achieve an accuracy rate of 85,55 %. Keywords: call classification, term relevance estimation, natural language processing.

Задача маршрутизации вызовов на естественном языке близка к задачам категоризации (классификации) документов, однако имеются некоторые отличия. При категоризации документов, как правило, присутствует значительное число термов (слов), а при маршрутизации вызовов их гораздо меньше, причем зачастую экземпляр для классификации может быть представлен одним единственным словом.

В [1-7] представлены различные методы решения подобных задач, основанные на использовании алгоритмов решения классических задач классификации с учетом специфики задач маршрутизации вызовов. Значительное число таких методов использует понятие релевантности термов, поэтому предлагаются различные методики оценки такой релевантности.

В данной статье представлен новый метод оценки релевантности термов, основанный на модификации метода оценки релевантности нечет-

ких правил в нечетком классификаторе [8] для задач маршрутизации вызовов.

В работе также предлагается декомпозиция задачи маршрутизации вызовов на последовательное решение двух задач классификации. На первом этапе определяется принадлежность экземпляра вызова к остаточному (неинформативному) классу. В случае неподтверждения такой принадлежности на втором этапе осуществляется классификация, направленная на отнесение экземпляра вызова к одному из информативных классов. Такая декомпозиция имеет смысл, так как остаточный класс содержит значительное число термов, не встречающихся в других классах, и неоднороден по своему составу.

Таким образом, цель настоящей работы - повышение эффективности решения задач маршрутизации вызовов за счет использования нового метода оценки релевантности термов, а также декомпозиции исходной задачи на два этапа с от-

дельным определением остаточного класса.

Данная цель предопределила следующие задачи исследования:

- поиск практической задачи маршрутизации вызовов и выполнение предобработки данных;

- реализация предложенного подхода к решению задач маршрутизации вызовов;

- проведение численных исследований, включающих сравнение предлагаемого подхода с известными методами.

Описание рассматриваемой задачи маршрутизации вызовов и предобработка данных

Данные для решения задачи маршрутизации вызовов были предоставлены компанией Speech Cycle (Германия). Это уже распознанные в виде текста записи телефонных звонков в сервисную службу. Вызовы относятся к одному из 20 классов: «оператор», «платеж», «телефон», «Интернет» и т.п. В числе этих классов и остаточный класс, к которому относятся бессмысленные или неоднозначные вызовы.

Выборка представлена 24 458 записями, 90 % из которых используются в качестве обучающей выборки, 10 % - в качестве тестовой. Соответствие записей определенным классам проверялось экспертами.

Предобработка данных в задачах маршрутизации вызовов заключается в формировании для каждого экземпляра вектора признаков, характеризующих наличие тех или иных слов или фраз в каждом вызове. В данном случае каждому экземпляру из обучающей и тестовой выборки была поставлена в соответствие бинарная строка, длина которой равна словарю задачи (числу всех слов, встречающихся в тестовой выборке). Ноль означает отсутствие слова, единица - его присутствие. В данной задаче объем словаря составил 3 294 слова.

Отдельно следует отметить свойства остаточного класса. Данный класс является наиболее часто встречающимся (27 % элементов обучающей выборки). Кроме того, 45 % слов словаря встречаются только в остаточном классе и не появляются в информативных классах. Такая неоднородность остаточного класса и его заметные отличия от информативных обусловили использование в дальнейшем декомпозиции решения задачи маршрутизации вызовов.

Обратим внимание, что в настоящей работе сделан акцент на автоматические процедуры решения задач маршрутизации вызовов, не требующие использования дополнительных лингвистических знаний (морфологического анализа слов, исправления орфографических ошибок, фильтров в виде удаления местоимений, предлогов и т.п.). Таким образом, при решении задачи используется

весь словарь целиком, слова в словаре представлены в неизменном виде.

Предлагаемый подход к решению задачи маршрутизации вызовов

В качестве основы для нового метода оценки релевантности термов взята формула оценки релевантности нечетких правил в нечетком классификаторе [8, 9]. При этом проведена замена функции принадлежности нечетких термов на частоту встречаемости термов (слов) в каждом классе.

Введем следующие обозначения: Ь - число классов; ni - число элементов /-го класса в обучающей выборке; N - число появлений /-го слова из словаря во всех элементах /-го класса в обучающей выборке; Т.. = —- - относительная часто-П

та встречаемости /-го слова в /-м классе; Я = тахТ,; ^ = аг§(тахТ ) - номер класса, со-

3,33 , 3

ответствующий/-му слову.

Оценка релевантности /-го терма будет определяться по формуле

1 1 1

г—(Я, -

C. = -

ТТ

1 L

-—Тт..).

L-1Т

Согласно этой формуле релевантность терма будет тем выше, чем характернее данное слово для своего класса (релевантность равна 1, если слово встречается только в своем классе и отсутствует в остальных; равна нулю, если слово одинаково часто встречается во всех классах).

Решающее правило работает по следующему принципу. Для всех классов считаем показатель Д = Т C Далее определяется класс-победи-

jSj =i

тель с наибольшим значением такого показателя:

class _ winner = arg(maxA,).

i

В ходе численных исследований было выяснено, что достаточно использовать ограниченное число слов при вычислении показателя A, с наилучшими значениями произведения RjCj. Для данной задачи это использование 50 слов для каждого класса. Превышение такого числа используемых правил не приводит к существенному повышению точности классификации (см. рис.).

Ввиду особенностей остаточного класса предложена декомпозиция задачи маршрутизации вызовов на последовательное решение двух задач классификации. На первом этапе определяется принадлежность экземпляра вызова остаточному (неинформативному) классу. В случае отсутствия подтверждения принадлежности на втором этапе осуществляется классификация, направленная на отнесение экземпляра вызова к одному из информативных классов. Целесообразность такого пред-

i=1

ложения подтверждена численными исследованиями (см. табл.).

Результаты численных исследований

Предложенный метод был протестирован на рассматриваемой задаче маршрутизации вызовов с декомпозицией и без таковой. Также проведено сравнительное исследование со стандартными методами классификации, используемыми для решения задачи, а именно:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- метод ближайших соседей (число соседей от 1 до 15);

- Байесовский подход с коррекцией Лапласа;

- Байесовский подход без коррекции Лапласа;

- деревья решений;

- решающая индукция;

- персептрон.

Результаты сравнительного исследования приведены в таблице, из которой можно сделать вывод об эффективности предлагаемого нового подхода при использовании декомпозиции задачи с отдельными выделением остаточного класса.

Таким образом, авторами предложен и реализован новый алгоритм решения задач маршрутизации вызовов, отличительными особенностями которого являются новый метод оценки релевантности термов, основанный на использовании оценки релевантности нечетких правил в нечетком классификаторе с заменой значений функций принадлежности значениями относительной частоты встречаемости термов в классах, а также декомпозиция исходной задачи на два этапа с отдельным выделением остаточного класса, содержащего неинформативные экземпляры, ввиду специфичности и неоднородности этого класса.

Сравнение со стандартными методами классификации, используемыми для решения указанной задачи маршрутизации вызовов, показывает преимущество предлагаемого подхода.

Литература

1. Carpenter B., Chu-Carroll J., Proc. ICSLP-98, Sydney, Australia, Dec. 1998, pp. 2059-2062.

2. Chu-Carroll J., Carpenter B., Computational Linguistics, 1999, Vol. 25, no. 3, pp. 361-388.

3. Lee C.-H., Carpenter B., Chou W., Chu-Carroll J., Reichl W., Saad A., Zhou Q., Speech Communication, 2000, Vol. 31, no. 4, pp. 309-320.

4. Kuo H.-K., Lee C.-H., Proc. of ICSLP'00, 2000.

5. Gorin A.L., Riccardi G., Wright J.H., Speech Communication, 1997, Vol. 23, pp. 113-127.

6. Wright J. H., Gorin A. L., Riccardi G., Proc. Eurospeech-97, Sept. 1997, pp. 1419-1422.

7. Schapire R. E., Singer Y., Machine Learning, 2000, Vol. 39, no. 2/3, pp. 135-168.

8. Ishibuchi H., Nakashima T., Murata T., Transactions on Systems, Man, and Cybernetics, 1999, Vol. 29, pp. 601-618.

9. Sergienko R., Proc. of Advances in Swarm Intelligence: 3rd Int. Conference (ICSI 2012), Shenzhen, China, 2012, Part I, Springer, pp. 452-459.

References

1. Carpenter B., Chu-Carroll J., Proc. ICSLP-98, Sydney, Australia, Dec. 1998, pp. 2059-2062.

2. Chu-Carroll J., Carpenter B., Computational Linguistics, 1999, Vol. 25, no. 3, pp. 361-388.

3. Lee C.-H., Carpenter B., Chou W., Chu-Carroll J., Reichl W., Saad A., Zhou Q., Speech Communication, 2000, Vol. 31, no. 4, pp. 309-320.

4. Kuo H.-K., Lee C.-H., Proc. of ICSLP'00, 2000.

5. Gorin A. L., Riccardi G., Wright J.H., Speech Communication, 1997, Vol. 23, pp. 113-127.

6. Wright J.H., Gorin A.L., Riccardi G., Proc. Eurospeech-97, Sept. 1997, pp. 1419-1422.

7. Schapire R.E., Singer Y., Machine Learning, 2000, Vol. 39, no. 2/3, pp. 135-168.

8. Ishibuchi H., Nakashima T., Murata T., Transactions on Systems, Man, and Cybernetics, 1999, Vol. 29, pp. 601-618.

9. Sergienko R., Proc. of Advances in Swarm Intelligence: 3rd Int. Conference (ICSI 2012), Shenzhen, China, 2012, Part I, Springer, pp. 452-459.

0,9

0,8

0,7

-й 0,6

н

о s 0,5

У

H 0,4

0,3

0,2

0,1

0

0 20 50 100 150 200

Число используемых термов (слов)

—•— Train set accuracy —■— Test set accuracy

Зависимость точности классификации от числа используемых термов для каждого класса

300

Точность классифика-

№ Алгоритм ции

без декомпозиции, % с декомпозицией, %

1 Метод ближайших соседей с числом соседей:

1 74,53 78,85

2 72,07 77,54

3 75,10 78,85

4 75,02 78,51

5 75,18 78,23

6 74,53 78,57

7 74,45 78,85

8 75,27 78,57

9 75,02 78,45

10 74,86 78,45

15 74,36 77,43

2 Байесовский подход:

с коррекцией Лапласа 72,03 76,21

без коррекции Лапласа 74,06 76,21

3 Деревья решений 27,97 73,83

4 Решающая индукция 40,48 76,21

5 Персептрон 21,74 73,83

6 Предлагаемый подход 55,10 85,50

i Надоели баннеры? Вы всегда можете отключить рекламу.