<Тешетневс^ие чтения. 2016
УДК 519.87
СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ ПОДХОДОВ К КЛАССИФИКАЦИИ ТЕКСТА ДЛЯ РЕШЕНИЯ ЗАДАЧИ ОПРЕДЕЛЕНИЯ АДРЕСАТА В РАМКАХ АВТОМАТИЧЕСКОЙ
ГОЛОСОВОЙ ДИАЛОГОВОЙ СИСТЕМЫ
О. В. Ахтямов, Д. В. Дресвянский, Д. Ю. Мамонтов, Д. А. Скрипкина
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Описывается задача определения адресата в рамках автоматической голосовой диалоговой системы. Предлагается подход к определению адресата на основе классификации текста. Описываемый метод демонстрирует значимое улучшение эффективности классификации по сравнению с базовым подходом, а также подчеркивает важность лексической информации для задачи определения адресата.
Ключевые слова: взаимодействие «человек-человек-машина», предварительная обработка текста, взвешивание термов, трансформация признаков, фильтрация признаков.
A COMPARATIVE STUDY OF TEXT CLASSIFICATION APPROACHES TO ADDRESSEE DETECTION WITHIN AN AUTOMATIC SPOKEN DIALOGUE SYSTEM
O. V. Akhtiamov, D. V. Dresvyanskiy, D. Yu. Mamontov, D. A. Skripkina
Reshetnev Siberian State Aerospace University
31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
This paper describes the problem of the addressee detection within a spoken dialogue system (SDS). We propose an approach to addressee detection based on text classification. The described method demonstrates significantly better classification effectiveness in comparison with a baseline approach and emphasizes the importance of lexical information for addressee detection.
Keywords: human-human-machine Interaction, Text Pre-processing, Term Weighting, Feature Transformation, Feature Filtering.
Как правило, взаимодействие между человеком и автоматический голосовой диалоговой системой (АГДС) рассматривается как диалог типа «человек-машина». Реальные АГДС имеют дело со смешанным типом взаимодействия, который может включать в себя высказывания типа «человек-человек». Учитывая это, выделяются три типа взаимодействия человека с системой: первый - прямое обращение к системе, содержащее явный запрос, второй - неявное обращение к системе (пересказ или обсуждение полученной информации между пользователями), третий тип - высказывание, не имеющее отношения к решаемой задаче.
Полученная проблема категоризации может быть преобразована в задачу текстовой классификации непосредственно после распознания речи. Сложность текстовой классификации с векторной моделью заключается в необходимости извлечь числовые данные из текстовой информации прежде, чем применять методы машинного обучения. Поэтому требуется предварительная обработка текста, которая может быть произведена взвешиванием термов. В данной работе используются следующие методы взвешивания термов: TF-IDF, Gain Ratio, Confident Weights, Second Moment of a Term, Relevance Frequency, Term Relevance Ratio и Novel Term Weighting. Данные ме-
тоды обычно приводят к увеличению размерности решаемой задачи: она становится равной числу уникальных термов в наборе данных. Поэтому необходимо применять методы сокращения размерности, например, производить фильтрацию признаков или их трансформацию.
Набор данных был взят с реальной АГДС, используемой во время проведения Чемпионата мира по футболу в 2006 году. Пользователи запрашивали транспортную информацию, программу соревнований, узнавали о достопримечательностях, которые стоит посетить, и т. д. Рассматриваются две постановки задачи классификации: в первом случае данные делятся на три класса, упомянутых выше, во втором -на два (классы 2 и 3 объединены).
Поставленная задача решалась с помощью классификаторов Роше [1], Ъ-Ш [2] и SVM-FLM [3]. Все эти методы демонстрируют успешные результаты для задач классификации текстов, способны решать проблемы высокой размерности, а также обладают умеренным потреблением вычислительных ресурсов. SVM-FLM и Ъ-NN эффективно реализованы в программном пакете RapidMiner 5.3 [4], который используется в данном исследовании. Также был разработан классификатор Роше на языке С++.
Математические методы моделирования, управления и анализа данных.
Таблица 1
Результаты алгоритмов классификации с различными методами взвешивания термов для задач с двумя и тремя классами
Задача с двумя классами Задача с тремя классами
Роше A-NN SVM-FLM Роше A-NN SVM-FLM
TM2+FT 0.898 TM2+FT 0.907 NTW 0.910 NTW+FT 0.850 NTW 0.869 RF 0.893
NTW+FT 0.894 RF 0.896 RF 0.907 TM2+FT 0.844 NTW+FT 0.866 NTW 0.887
CW+FT 0.882 TRR 0.892 IDF 0.905 RF 0.842 TRR 0.864 TRR 0.887
RF+FT 0.880 NTW+FT 0.892 TM2+FT 0.903 RF+FT 0.839 RF+FT 0.863 IDF 0.886
IDF+FT 0.868 CW 0.887 TRR 0.901 IDF+FT 0.837 CW 0.863 TM2+FT 0.863
IDF 0.864 IDF 0.881 NTW+FT 0.891 TRR+FT 0.834 TM2+FT 0.863 TRR+FT 0.850
TRR+FT 0.863 CW+FT 0.880 RF+FT 0.880 CW+FT 0.832 CW+FT 0.862 NTW+FT 0.849
NTW 0.850 TRR+FT 0.879 CW+FT 0.876 IDF 0.827 RF 0.862 CW 0.849
RF 0.844 RF+FT 0.879 TM2 0.871 NTW 0.811 TRR+FT 0.857 CW+FT 0.848
TM2 0.817 NTW 0.879 TRR+FT 0.867 TM2 0.803 TM2 0.856 RF+FT 0.844
CW 0.785 TM2 0.879 IDF+FT 0.859 TRR 0.769 IDF 0.846 TM2 0.837
TRR 0.782 GR 0.877 CW 0.836 CW 0.767 IDF+FT 0.843 IDF+FT 0.827
GR+FT 0.736 IDF+FT 0.857 GR+FT 0.731 GR 0.684 GR 0.843 GR 0.739
GR 0.690 GR+FT 0.772 GR 0.638 GR+FT 0.454 GR+FT 0.606 GR+FT 0.387
* Отметка '+FT' означает, что был применен метод трансформации признаков.
В качестве критерия эффективности классификации использовалась оценка на основе полноты (Recall). Однако основным критерием эффективности в ходе параметрической оптимизации классификаторов Роше и A-NN была выбрана макро-Р-мера [5].
Для обеих задач классификации были протестированы все возможные комбинации методов взвешивания термов (с трансформацией признаков и без) и алгоритмов машинного обучения. Результаты представлены в табл. 1. Лучшие методы взвешивания термов, выделенные жирным шрифтом, не имеют статистически значимых различий друг с другом в рамках одной колонки. Согласно ¿-тесту эффективность классификатора Роше значимо хуже, чем у других используемых алгоритмов машинного обучения. Для задачи с двумя классами между A-NN и SVM-FLM нет значимых различий. Для задачи с тремя классами SVM-FLM работает значимо лучше, чем A-NN.
Далее была применена фильтрация, основанная на весе термов. Выполняется поиск оптимального процента используемых термов в диапазоне от 1 до 100 с шагом 1. Размерность задачи варьируется от 1,355 до 1,421 признака. После фильтрации признаков методы RF и TRR радикально уменьшают размерность, сохраняя эффективность классификации на прежнем уровне, и не имеют статистически значимых различий друг с другом. Другие методы взвешивания термов не позволяют сократить размерность без потери точности классификации. Результаты представлены в табл. 2.
Таблица 2
Результаты SVM-FLM с фильтрацией, основанной на весе термов
Любая обработка данных (например, предварительная обработка текста) вызывает потерю информации. Нейронные сети глубинного обучения обладают свойствами, которые могут повысить эффективность классификации: из-за возможности работать с объектами различных уровней абстракции они не требуют дополнительной обработки данных и способны сделать систему более эффективной и гибкой. Поэтому в дальнейшем предлагается исследование нейронных сетей глубинного обучения при анализе других модальностей (акустические данные и видео) для решения аналогичной задачи классификации.
References
1. Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization, no. CMU-CS, pp. 96-118, Carnegie-mellon univ Pittsburgh pa dept of computer science, 1996.
2. Zhou Y., Li Y. and Xia S. An improved KNN text classification algorithm based on clustering // Journal of computers, 2009, vol. 4, no. 3, pp. 230-237.
3. Fan R. E., Chang K. W., Hsieh C. J., Wang X. R., Lin C. J. Liblinear: A library for large linear classification // The Journal of Machine Learning Research, 2008, vol. 9, pp. 1871-1874.
4. Shafait F., Reif M., Kofler C. and Breuel T. M., Pattern recognition engineering // RapidMiner Community Meeting and Conference, Citeseer, 2010, vol. 9.
5. Manning C., Raghavan P., Schutze H. Introduction to Information Retrieval, Cambridge University Press, 2008.
Веса Задача с 2 классами Задача с 3 классами
Recall Использовано термов, % Recall Использовано термов, %
RF 0.905 35 0.887 52
TRR 0.904 40 0.887 53
© Ахтямов О. В., Дресвянский Д. В., Мамонтов Д. Ю., Скрипкина Д. А., 2016