УДК 519.688
М. Л. Кореневский, И. А. Пономарева, К. Е. Левин
ПОТОКОВАЯ КЛАССИФИКАЦИЯ ЗВУКОЗАПИСЕЙ НОВОСТНЫХ СООБЩЕНИЙ РУССКОЯЗЫЧНЫХ СРЕДСТВ МАССОВОЙ ИНФОРМАЦИИ
Описана методика тематической классификации потока речевых данных с использованием предварительной разметки слитной речи на предложения. Показано, что использование информации о границах предложений повышает надежность тематической классификации потока речи в среднем на 25-30 %. Максимальная надежность классификации достигается при совместном использовании порогового значения для числа распознанных слов и информации о границах предложений. Однако, и в случае применения только информации о границах предложений (без учета числа распознанных слов) полученные результаты демонстрирую высокую степень надежности.
E-mail: [email protected]
Ключевые слова: классификация речевых сообщений, классификация
слитной речи, разметка речи, автоматическое распознавание речи.
Использование технологий извлечения информации не только из текстовых данных, но и из аудиоматериалов значительно расширяет возможности исследований. В современном мире многие информационные источники (интервью, телефонные переговоры с операторами колл-центров, новостные сообщения средств массовой информации (СМИ) и т.п.) доступны только в аудио формате.
Одной из актуальных задач обработки речевой информации является автоматическая классификация звуковых файлов, содержащих речь, по тематике того, что было произнесено. Решение задачи классификации находит как прямые применения (тематическая категоризация новостных сообщений, диалогов с операторами колл-центров и т.д.), так и косвенные, направленные, например, на улучшение результатов распознавания речи после уточнения темы разговора или сообщения [1].
Методы тематической категоризации текстов хорошо изучены и имеют богатую историю, начинающуюся с работ 1960-х гг. по наивным вероятностным моделям классификации текстов [2-4]. В настоящее время промышленно применяются наивные байесовские классификаторы [5], геометрические классификаторы, такие как метод ближайших соседей и классификатор Роккио [6], метод опорных векторов (SVM) [7-9] и более сложные вероятностные модели — LSI, Aspect, LDA [10]. Все они дают устойчиво хорошие результаты в различных ситуациях применения.
Однако прямое применение методов тематической категоризации, ориентированных на работу с текстом, к результатам распознавания потока речевых данных порождает ряд проблем. Во-первых, это снижение надежности классификации, обусловленное наличием некоторого числа ошибок (пропуски слов, спутывания и т.д.), неизбежно возникающих при автоматическом распознавании слитной речи. Во-вторых, это отсутствие в потоке речевых данных вспомогательной печатной информации (заголовков, абзацев, заглавных букв, знаков препинания), устанавливающей границы высказываний, предложений и синтагм. Наличие такой информации позволило бы проводить предварительную сегментацию потока речевых данных на блоки, подлежащие тематической классификации.
Предварительная сегментация потока речевых данных на некоторые блоки (высказывания, предложения или синтагмы) является первым шагом на пути к надежной тематической классификации потока речи. Предлагаются различные подходы к решению этой задачи, например: прямое ограничение, накладываемое на число распознанных слов сообщения [11], автоматическая сегментация потока речи на предложения с использованием просодической информации [12], лексических особенностей [10, 13, 14].
Однако представленные в литературе результаты демонстрируют сравнительно низкую надежность тематической классификации потока речевых данных (тематической сегментации): значения метрики F-measure (см. далее) в работах разных авторов находятся в диапазоне от 0,4 до 0,65 [15, 16], в то время как результаты классификации по тематическим категориям отдельных речевых сообщений (т.е. в не потоковом случае) демонстрируют довольно высокую надежность (F-measure ~0,95) [8].
В настоящей работе представлены результаты тематической классификации потока речевых данных с применением специально разработанной технологии предварительной автоматической сегментации речи на предложения.
Постановка задачи и подготовка данных. В работе рассмотрена задача автоматической сегментации звукозаписей новостных сообщений русскоязычных СМИ по заранее заданному набору тематик (topic segmentation). При этом изначально предполагается возможность одновременной принадлежности высказывания различным тематическим категориям. Поэтому проводится так называемая муль-титеговая классификация: на выходе системы формируется решение о принадлежности рассматриваемого участка речи набору категорий.
В качестве целевых категорий рассматриваются следующие пять тематик новостных сообщений: криминал, экономика, политика, общественные события и культура/быт.
Для обучения моделей и алгоритмов классификации использовалась специально подготовленная текстовая база новостных сообщений различных источников СМИ (радио "Эхо Москвы", ТВ "Вести" и др). В среднем — около 10 МБ текста для каждой из пяти заявленных тематик. При этом 4/5 объема обучающей выборки использовались для обучения моделей классификации, и 1/5 — для обучения весовых коэффициентов метода Fusion (обобщенного решения по набору классификаторов).
Распознавание речи осуществлялось системой ASR, разработанной Центром речевых технологий с использованием общей языковой модели, построенной по базе новостных сообщений (размер словаря — 17 000 слов). Пословная ошибка распознавания в экспериментах составила 39 %.
Используемые методы. Предварительная сегментация потока речи на предложения. Существует два основных способа деления звучащей речи на предложения: выделение связных и законченных по смыслу отрезков и анализ интонационных (просодических) характеристик речи. Однако в случае с текстом, полученным в результате распознавания речи, наличие некоторого уровня пословной ошибки может привести к потере синтаксической связности и смысла текста. Просодические характеристики, которые можно исследовать, не прибегая к анализу содержания, представляются более надежной основой для решения этой задачи [10, 17, 18].
Основная идея разработанной методики состоит в обработке потока речи в реальном масштабе времени и предсказании наиболее вероятных положений границ предложений.
Речевой поток разбивается на фрагменты длительностью 10 мс, для каждого из которых рассчитываются следующие характеристики: речь/не речь, значение частоты основного тона (ЧОТ) и значение энергии (громкости) звукового сигнала. На основе этих характеристик строится вектор признаков для классификации выделенных фрагментов на две группы: соответствующие и несоответствующие границе между предложениями. При этом используются два типа классификаторов: SVM (разработка Центра речевых технологий) и деревья решений ("open source" продукт, разработанный ALGLIB Project Company [18]).
На выходе системы выводятся вероятности соответствия фрагментов речи границам предложений.
Значение EER (equal error rate, равновероятной ошибки) предлагаемой системы поиска границ предложений находится в диапазоне от 17 % (на речевом корпусе, содержащем записи студийного качества: подготовленную речь, чтение) до 40 % (на базе новостных сообщений,
содержащей записи различного качества и разных каналов записи: как подготовленную, так и спонтанную речь дикторов).
Следует отметить, что из-за отсутствия для русского языка больших аннотированных речевых корпусов, содержащих информацию о границах предложений, обучение системы к настоящему моменту проведено на недостаточном объеме данных (от 1900 до 5400 границ предложений для разных обучающих корпусов). Ожидается, что дальнейшее увеличение размера обучающей выборки приведет к значительному улучшению результатов.
Тематическая классификация. Тематическая классификация речевого потока данных проводится в реальном масштабе времени. На вход классификатора тематик подается поток распознанных слов одновременно с вероятностями границ предложений. При этом длительность фрагментов распознанного текста, поступающих на классификацию, регулируется при помощи двух параметров (которые могут использоваться, как по отдельности, так и в совокупности): порога для длительности распознанного текста (в словах); требования наличия границы предложения.
Текстовый фрагмент (документ), подлежащий тематической классификации, представляется в виде многомерного вектора, компоненты которого зависят от встречаемости того или иного терма в данном документе и других документах. Для определения расстояния между документами используется стандартная мера tf-idf, предложенная в начале 1970-х гг. [20], активно применяющаяся на практике и другими исследователями [21, 22].
В описываемой системе тематической классификации звукозаписей новостных сообщений русскоязычных СМИ используются несколько групп алгоритмов классификации: байесовские классификаторы (на основе multinomial и multivariate моделей); классификаторы на основе метода K-ближайших соседей и метода Роккио; SVM; линейный классификатор, а также классификаторы с полиномиальным и RBF (radial basis function) ядрами.
Для принятия обобщенного решения по набору классификаторов используется метод взвешенного объединения (Fusion), предложенный Niko Brummer [23, 24]. Суть этого алгоритма в линейной калибровке и последующем взвешенном объединении результатов нескольких классификаторов (на уровне scores). Обучение параметров калибровки и весовых коэффициентов Fusion проводится "с учителем" на подготовленной базе данных, содержащей значения scores всех используемых классификаторов с метками классов.
Оценка надежности тематической классификации. Для оценки надежности классификации проводилось сравнение тематической сегментации, полученной в результате автоматической классификации,
с экспертной ручной разметкой тестовой выборки речевых данных. По результатам сравнения вычислялось значение F-меры (сбалансированной меры Ван Ризбергена) отдельно для каждой тематической категории, а также в среднем по всем категориям:
2 ■ precision ■ recall
F =-,
precision + recall
где precision — точность классификации, recall — полнота классификации.
Возможны различные подходы к определению значений точности и полноты классификации. В случаях применения сглаживающей пост-обработки полученной тематической сегментации (например, объединения фрагментов речи, отнесенных к одной тематической категории и разделенных небольшими промежутками времени) целесообразно ориентироваться на число верно проставленных границ тематик. В проводимых экспериментах методы пост-обработки не применялись, поэтому точность и полнота классификации определялись длительностью речи, отнесенной к верной тематической категории:
CorrectTopicDurationAUTOMAT
precision = recall =
TopicDurationAUTOMAT CorrectTopicDurationAUTOMAT
TopicDurationEXPERT
где TopicDurationEXPERT — общая длительность речи, отнесенной к данной тематической категории экспертом при ручной разметке; TopicDurationAUTOMAT — общая длительность речи, отнесенной автоматическим классификатором к данной тематической категории; CorrectTopicDurationAUTOMAT — длительность речи, корректно отнесенной автоматическим классификатором к данной тематической категории (т.е. пересечение автоматической и экспертной разметки).
Результаты экспериментов и обсуждение. Эксперименты проводились на базе звукозаписей новостных сообщений русскоязычных СМИ (Радио Свобода). Тестовая выборка, общей длительностью около трех часов речи, содержала в себе как фонограммы студийного качества, так и включения телефонных переговоров, записанных во время прямого радиоэфира. Фрагменты подготовленной и спонтанной речи приведены в тестовой выборке примерно в соотношении 50/50. Часть тестовых данных (около 20 %) представляет собой речь на фоне музыки, что типично для практики радиовещания.
В используемой тестовой выборке содержится 128 событий смены темы. Соотношение объемов данных, относящихся к различным тематическим категориям, приведено в табл. 1.
Таблица 1
Тестовая выборка — распределение тематик
Тема Длительность речи, мин
Криминал 8
Экономика 14
Общественные события 20
Политика 81
Культура, быт 26
В ходе экспериментов сравнивались два подхода к делению потока речи на фрагменты, подлежащие тематической классификации:
— без учета информации о границах предложений (длительность фрагментов речи, поступающих на классификацию, ограничивалась только числом распознанных слов). Результаты проведенных экспериментов представлены в табл. 2;
— с учетом информации о границах предложений (длительность фрагментов речи, поступающих на классификацию, ограничивалась как числом распознанных слов, так и требованием достижения границы предложения). Результаты проведенных экспериментов приведены в табл.3.
Таблица 2
Результаты тематической сегментации (без учета информации о границах
предложений)
Тема F-мера (точность, полнота)
Порог в 5 слов Порог в 15 слов
Криминал 0,26 (0,18; 0,47) 0,32 (0,25; 0,46)
Экономика 0,41 (0,34; 0,54) 0,48 (0,4; 0,6)
Общественные события 0,34 (0,31; 0,38) 0,34 (0,35; 0,33)
Политика 0,48 (0,8; 0,35) 0,62 (0,84; 0,49)
Культура, быт 0,41 (0,27; 0,83) 0,44 (0,31; 0,79)
Все темы 0,41 (0,37; 0,46) 0,50 (0,47; 0,53)
В проводимых экспериментах значения порога длительности распознанного текста устанавливались как 5 и 15 слов. Значения больше пятнадцати не рассматривались из-за наличия в тестовой выборке большого числа коротких новостных сообщений.
Приведенные результаты показывают, что использование информации о границах предложений повышает в среднем на 25-30% надежность тематической классификации потока речи. Максимальная надежность классификации (^-мера = 0,79) достигается при совместном использовании порогового значения (15) на число распознанных
Таблица 3
Результаты тематической сегментации (с учетом информации о границах
предложений)
F-мера (точность, полнота)
Тема Порог в 0 слов + границы предложений Порог в 5 слов + границы предложений Порог в 15 слов + границы предложений
Криминал 0,66 (0,72; 0,61) 0,37 (0,36; 0,38) 0,40 (0,44; 0,36)
Экономика 0,67 (0,74; 0,61) 0,76 (0,69; 0,85) 0,79 (0,74; 0,85)
Общественные события 0,74 (0,71; 0,77) 0,60 (0,63; 0,58) 0,60 (0,63; 0,58)
Политика 0,84 (0,86; 0,82) 0,89 (0,87; 0,9) 0,90 (0,87; 0,93)
Культура, быт 0,67 (0,59; 0,78) 0,70 (0,67; 0,73) 0,71 (0,68; 0,73)
Все темы 0,77 (0,76; 0,77) 0,78 (0,76; 0,8) 0,79 (0,78; 0,81)
слов и информации о границах предложений. Однако и в случае применения только информации о границах предложений (без учета числа распознанных слов) полученные результаты демонстрируют высокую степень надежности тематической классификации (^-мера = 0,77).
Для категорий "криминал" и "общественные события" наблюдается резкое снижение надежности классификации при установлении порога для числа распознанных слов (табл. 3). Это можно объяснить тем, что сообщения этих тематик, представленные в тестовой выборке, относятся в основном к дайджесту новостей (а не к длительным тематическим передачам), и, соответственно, имеют относительно короткую длительность.
В ходе экспериментов было замечено, что нередко возникает следующая ситуация: длительные (порядка нескольких минут) радиопередачи, отнесенные экспертом к одной теме, автоматический классификатор также относит целиком к верной теме, но, кроме того, находит в пределах данной передачи более короткие фрагменты речи, относящиеся к другим тематикам. При этом прослушивание этих коротких фрагментов вне общего контекста передачи действительно показывает их соответствие нецелевой теме. Например, в ходе радиопередачи о парламентских выборах, отнесенной экспертом целиком к теме "политика", диктор на некоторое время отвлекся на разговор об экономической ситуации в стране, что не было замечено экспертом при ручной сегментации, но было зафиксировано автоматическим классификатором. Однако, несмотря на то, что такая чувствительность тематического классификатора кажется оправданной, подобные ситуации были отнесены к разряду ошибок, так как основной целью настоящей работы было достижение максимального совпадения автоматической
разметки с экспертной. Решение о возможности перевода таких ситуаций из ранга "ошибок ложной тревоги" в ранг "корректных срабатываний" должно приниматься в рамках конкретных задач и условий применения тематического классификатора.
Выводы. Предложена методика тематической классификации потока речевых данных с применением предварительной автоматической сегментации речи на предложения. Результаты проведенных экспериментов показывают, что использование информации о границах предложений повышает надежность тематической классификации потока речи в среднем на 25-30%.
Надежность потоковой тематической классификации с применением предложенной методики определяется максимальным полученным в ходе экспериментов значением F-мера = 0,79.
Для тематической классификации новостных сообщений в "не потоковом" случае (т.е. когда заранее известно, что в пределах подаваемой на классификацию фонограммы нет событий смены темы) значение F-мера в наших экспериментах превышает 0,9 для каждой из пяти заявленных тематических категорий. До такого уровня надежности хотелось бы довести в дальнейшем и методику потоковой тематической классификации. Предполагается, что увеличение объемов обучающих данных автоматического выделителя границ предложений приведет и к росту надежности тематической классификации.
СПИСОК ЛИТЕРАТУРЫ
1. Николенко С. И., Левин К. Е., Хохлов Ю. Ю. Двухпроходное автоматическое распознавание речи с использованием интеллектуального анализа текстов // Тр. конф. "Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте". - М., Физматлит, 2009. - С. 192-202.
2. M i n s k y M. Steps toward artificial intelligence // Proceedings of the IRE 49(1): 8-30, 1961.
3. M a r o n M. E. Automatic indexing: An experimental inquiry // Journal of the ACM (JACM). - 1961. - 8(3). - P. 404-417.
4. Harold Borko, Myrna Bernick. Automatic document classification. -1963. - J. ACM 10(2). - P. 151-162.
5. Zhang H. The optimality of naive Bayes // Proceedings of the FLAIRS Conference / Ed. by V. Barr, Z. Markov, 2004.
6. Joachims T. A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization // Proceedings of the International Conference on Machine Learning (ICML-97). - 1997. - P. 143-151.
7. Hofmann T., ScholkopfB., Smola A. J. Kernel methods in machine learning // The Annals of Statistics. - 2008. - Vol. 36, No. 3. - P. 1171-1220.
8. Torres R., Takeuchi S h., Kawanami H., Matsui T., Saruwatari H., Shikano K. Comparison of methods for topic classification in a speech-oriented guidance system. Interspeech 2010. P. 1261-1264, Chiba, September 2010.
9. Joachims T. Learning to classify text using support vector machines: Methods, theory, and algorithms. Kluwer Academic Publishers, Springer, 2002.
10. Shriberg E., Stolcke A., Hakkani-Tur D., and Tur G. Prosody-based automatic segmentation of speech into sentences and topics // Speech Comm., 32(1-2):127-154, 2000.
11. Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. - 2007. - V. 19.
12. Sadaoki Furui, Katsutoshi Ohtsuki and Zhi-Peng Zhang. Japanese broadcast news transcription and information extraction // Communications of the ACM. - Vol. 43, No. 2. - February 2000.
13. Stokes N. Spoken and written news story segmentation using lexical chains // Proc. of the Student Workshop at HLT-NAACL 2003, 49.53. - 2003.
14. B e e f e r m a n D., B e r g e r A., and Lafferty J. Statistical models for text segmentation // Machine Learning, 31:177.210, 1999.
15. Rosenberg A., Hirschberg Ju. Story Segmentation of Brodcast News in English, Mandarin and Arabic. Human Language Technology Conference of the North American Chapter of the ACL. - P. 125-128, New York, June 2006.
16. Guinaudeau C., Gravier G., Sebillot P. Improving ASR-based topic segmentation of TV programs with confidence measures and semantic relations // Interspeech 2010. P. 1365-1368, Chiba, September 2010.
17. Roark B., Liu Y., Harper M., Stewart R., Lease M., S no ver M., Shafran I., Dorr B., Hale J., Krasnyanskaya A., and Yung L. Reranking for sentence boundary detection in conversational speech // ICASSP, 2006.
18. Liu Y., Stolcke A., Shriberg E. and Harper M. Using conditional random fields for sentence boundary detection in speech // Proc. of ACL-05. - 2005. -P. 451-458.
19. http://www.alglib.net/aboutus.php
20. Sparck Jones K. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. - 1972. - Vol. 28, No. 1. -P. 11-21.
21. Feldman R., Sanger J. The text mining handbook: Advanced approaches in analyzing unstructured data. Cambridge University Press, 2006.
22. Berry M. Survey of text mining: Clustering, classification, and Retrieval. -Springer, 2003.
23. Niko Brummer. Measuring, refining and calibrating speaker and language information extracted from speech, Ph.D. dissertation, Stellenbosch University, to be submitted 2007.
24. Niko Brummer. FoCal Multi-class: Toolkit for evaluation, fusion and calibration of multi-class recognition scores. Tutorial and User Manual. Spescom DataVoice, June 2007.
Статья поступила в редакцию 9.08.2011