О статистических методах идентификации языка искаженных текстовых и речевых сообщений

Кулай А.Ю.; Леднов Д.А.; Мельников С.Ю.

Раздел III. Защита телекоммуникаций

УДК 681.056

А.Ю. Кулай, Д.А. Леднов, С.Ю. Мельников О СТАТИСТИЧЕСКИХ МЕТОДАХ ИДЕНТИФИКАЦИИ ЯЗЫКА ИСКАЖЕННЫХ ТЕКСТОВЫХ И РЕЧЕВЫХ СООБЩЕНИЙ

Рассмотрены различные статистические методы идентификации языка искаженных текстов. Приведено экспериментальное сравнение их эффективности для различных длин текстовых сообщений. В предположении, что предложенная модель искажений последовательности знаков текста адекватна искажениям, наблюдаемым при обработке речевого сигнала, приводятся рекомендации по выбору статистических методов в задаче идентификации языка речевого сообщения.

1. Введение

В ряде систем автоматической обработки речи в качестве входного блока обработки речевого сигнала используются так называемые фонетические распознаватели, которые преобразуют последовательность отсчетов речевого сигнала (например, в формате 16 бит, 8КГц) в символьную последовательность в алфавите фонем того или иного языка [1]. Как правило, такие распознаватели работают со значительными ошибками. Ряд авторов для моделирования выходных последовательностей фонетических распознавателей предлагает использовать искаженные случайным образом последовательности букв текста. Такое моделирование, конечно, не вполне точно отражает реальную ситуацию, но значительно упрощает работу исследователя, исключая трудоемкий (связанный с наличием размеченных речевых корпусов) этап построения фонетических распознавателей.

Идентификация языка речевых и искаженных текстовых сообщений является частным случаем задачи распознавания образов, для решения которой требуется построить статистический критерий принадлежности нового сообщения к одному из классов, задаваемых «обучающими» сообщениями.

Выделяют две задачи идентификации языка: закрытую и открытую. В закрытой задаче идентификации предполагается, что новое сообщение принадлежит одному из рассматриваемых языков, в открытой - новое сообщение может быть на неизвестном языке. Задачу идентификации можно рассматривать как построение статистического критерия для конечного числа простых гипотез в случае закрытой задачи или для конечного числа простых и одной сложной гипотезы (сообщение на неизвестном языке) в случае открытой задачи.

При решении задачи идентификации языка и ряда других прикладных задач для описания статистических свойств последовательностей обычно используются 5-граммные модели небольших порядков [2] в сочетании с методами сглаживания вероятностей [3], в которых при вычислении вероятностей 5-грамм старших порядков используются частоты встречаемости в обучающем множестве 5-грамм меньших порядков.

В работе [4] рассматривается оригинальный метод идентификации языка на искаженных разметках речевой базы, при котором используются словари (pattern tables) как в алгоритме сжатия данных LZW [5].

Одним из перспективных и активно исследуемых в последнее время инструментов, применяемых для ряда задач распознавания образов, является метод «двоичных деревьев» (binary tree, BT) [6]. Этот метод основан на уменьшении сложно-

сти модели за счет кластеризации контекста. Вероятность текущего наблюдения обуславливается множеством (кластером) предыстории символа. Кластеры, вообще говоря, могут включать предыстории различной длины, поэтому может учитываться информация из контекстов большой длины при относительно небольшой сложности модели.

Для некоторых специфических случаев задачи идентификации языка, например, при анализе результатов работы систем автоматической обработки текстов, могут быть применены методы теории автоматов [7]. Однако такие методы характеризуются весьма значительной вычислительной сложностью.

2. Идентификация языка искаженного текста

Рассматривалась закрытая задача идентификации английского, испанского, польского и французского языков. Эксперименты проводились с текстами рассказов А. Конан-Дойля о Шерлоке Холмсе, записанными в латинице без пробелов и знаков препинания в одном регистре, таким образом, алфавит состоит из 26 символов. Предложения рассматривались отдельно. Тексты разбиты на три подмножества: train set (английский - 2,3-106 символов, испанский - 1,8-106 символов, польский - 0,3-106 символов, французский - 0,8-106 символов), development set (по 50-103 символов) и test set (по 24-103 символов). На train set обучались модели языков, на development set вычислялись дополнительные параметры, на test set проводились эксперименты.

Текст подвергался следующим искажениям: пропуск, вставка и замена. С вероятностью 0,15 происходит пропуск символа. С вероятностью 0,15 происходит вставка символа, выбор которого осуществляется случайно равновероятно. С вероятностью 0,3 происходит равновероятная замена символа латинского алфавита на любой другой. Данные искажения можно считать близкими к тем ошибкам, которые допускают реальные фонетические распознаватели [8].

3. Методы идентификации

3.1. Back-off

На обучающем множестве строятся 5-граммные модели (5 = 2, 3, 4) с применением back-off метода сглаживания вероятностей [3]. На выходе языковых моделей получается 12-мерный (по 3 модели для 4 языков) вектор вероятностей, который нормируется и затем поступает на вход гауссовского конечного классификатора (Gaussian back-end classifier) [2]. Конечный классификатор содержит четыре (по одному для каждого языка) 12-мерных нормальных распределения с диагональной ковариационной матрицей. Параметры распределений (математические ожидания и дисперсии) оцениваются на development set. Для поступившего на вход конечного классификатора 12-мерного вектора для каждого языка вычисляется плотность распределения в соответствующей точке. За истинный принимается язык с максимальным значением плотности распределения.

3.2. PPM

Строятся 5-граммные модели (5 = 2, 3, 4) с применением сглаживания вероятностей по методу «С» алгоритма сжатия PPM [9]. Метод «С» является одним из наиболее часто используемых при сжатии данных [10]. Существенная разница с back-off методом Катца заключается в том, с каким весом для вычисления вероятностей 5-грамм старших порядков берутся частоты встречаемости 5-грамм меньших порядков. На выходе языковых моделей получается 12-мерный (по 3 модели для 4 языков) вектор вероятностей, который нормируется и затем поступает на вход конечного классификатора, как и в случае back-off.

3.3. LZW

На обучающем множестве строятся зависимые от языка словари (с максимальной длиной «слова» - 10 символов), т.е. множества встречающихся последовательностей длиной до 10 символов. Для тестируемого предложения вычисляется степень сжатия CR (compression ratio) или статистика WDS (weighted discriminant score), на основе которых принимается решение о языке [4].

3.4. Двоичные деревья

На обучающем множестве для каждого языка строится двоичное дерево с 3 предикторами. Параметры дерева оптимизируются на development set [10]. Для тестируемого предложения вычисляется вероятность в соответствии с каждым двоичным деревом. За истинный принимается язык с максимальным значением вероятности.

3.4.1. Описание и построение двоичного дерева

Двоичное дерево состоит из множества неконечных и конечных вершин. Каждая неконечная вершина ассоциируется с двоичным тестом (вопросом) и имеет два перехода в вершины следующего яруса. Каждая конечная вершина (лист) помечена распределением на алфавите символов. Для того чтобы посчитать вероятность символа at в момент времени t с предысторией at_1V.., at_N, необходимо

пройти из корня по неконечным вершинам графа по пути, определяемым ответами на двоичные тесты, пока не встретится конечная вершина. Вероятность символа at получается из распределения, которым помечен этот лист. Пример двоичного

вопроса: « at_3 е А4 {E] [I1 И [U] [Y]}?». Итак, путь по графу определяется

предысторией текущего символа.

Опишем построение двоичного дерева. Пусть есть обучающее множество A = {,...,aT} с распределением YA = {pi^.jAj}^ k , где a. е A - алфавит символов мощности K . Основным шагом при построении двоичного дерева является разбиение на два подмножества Al u A2 = A , используя которые в дереве создаются две вершины следующего уровня. Для оценки качества разбиения используется энтропия

Н(ya ) = _ ^ p(aj /A)log2 p(aj/A).

j=1

Разбиение базируется на множестве «предикторов» (предыстории) (для at -

это at_j, at_2,...) каждого элемента из A и двоичном вопросе Q . Q может быть составным, но на практике обычно это выражение типа «X е S ?», где X - выбранный предиктор, например X = at_2, S с A - некоторое подмножество сим*

волов. Критерий разбиения ищет тот Q , при котором уменьшение средней энтропии максимально.

Рекурсивный алгоритм построения дерева (количество предикторов равно

N):

1. Пусть n - текущая вершина. Изначально, n - корень.

2. Для каждого предиктора X. (i = 1,..., N) ищем подмножество символов

Sn. с А, т.е. вопрос « Q^ : X. е S'! ?», который минимизирует среднюю условную энтропию распределения звуков У в вершине п :

нi (y ) = pQ )h (y/Q,) + pQ )h (y/ Qi).

3. Определяем, какой из вопросов шага 2 дает наименьшую энтропию. Пусть это будет вопрос к, т.е.

к = argmin Ht (y ).

1<i< N

4. Уменьшение энтропии в вершине n за счет вопроса к равно

H (y )-Hk (y ).

Если уменьшение «существенно», то запоминаем вопрос к, создаем две вершины-потомка n1 и n2, пропускаем данные соответственно условиям Xk е S^ и

Xk £ Skn, и повторяем шаги 2-4 для новых вершин отдельно.

Для ускорения поиска подмножества Si на втором шаге алгоритма используется вариант FF1 алгоритма Flip-Flop, предложенный в [12]. Данный алгоритм, как показано в [13], является достаточно быстрым и эффективным при решении задачи распознавания языков.

3.5. Многогранники автоматов

Укажем на принципиальную возможность использования методов теории автоматов для одной специфической задачи идентификации языка. Предположим, что текст на исходном языке обработан одной из систем автоматической обработки текста (например, с использованием автоматического перевода) А1, Л2, At,

и требуется определить, какой именно. Рассматривая А1, Л2, ..., At как конечные

автоматы, задачу идентификации языка в такой постановке можно трактовать как задачу идентификации автомата с неизвестным входом. Для ее решения можно воспользоваться подходом, предложенным в [7].

Идея подхода состоит в следующем. Предположим, что имеется текст

Y() = (y0,У\,...,УN-i), и нужно определить, каким из автоматов А1, Л2, ..., At он порожден. Зафиксируем набор мультиграмм {в , j = 1,2,..., к} в объединении

выходных алфавитов автоматов. Пусть рв),..., рв) - относительные частоты

встречаемости мультиграмм в ,..., в в последовательности y^N). В [7] приведен

1 к

алгоритм, который автомату А. ставит в соответствие определенный выпуклый многогранник RA в кубе [о,1]к . Доказано, что для RA выполняется неравенство

Р(),..., P{eNt ^ r)

D + 2(l -1) i__________________

N + D +1 -1

где I = шах{|в,-1}, под расстоянием р(и, V) между двумя точками и, V е Як понимается максимум модулей разностей координат этих точек. Д - диаметр графа переходов автомата А1. Если это неравенство нарушается, то гипотеза о

том, что текст был обработан системой А1, бракуется.

Преимущества указанного метода в том, что не используется никаких предположений о вероятностной природе входного текста, в том числе предположения

о его стационарности. К недостаткам этого метода следует отнести значительную вычислительную сложность построения многогранника.

4. Результаты идентификации языка искаженных текстов

В табл. 1 приводятся характеристики точности идентификации языка искаженных текстов для различных методов.

Таблица 1

Средний процент правильной идентификации языка искаженных текстов ________________________для различных методов____________________________

Длина тестируемого предложения в символах Back- off PPM LZW Двоичные деревья

1-20 56,3 49,59 41,49 48,55

21-40 71,32 69,91 55,8 71,32

41-60 79,16 75,99 59,29 80,58

61-80 83,33 80,54 67,57 85,95

81-100 90,57 86,55 74,37 93,28

более 100 93,32 93,21 68,11 94,65

5. Идентификация языка речевого сообщения

Рассматривалась закрытая задача идентификации восьми языков (английский, испанский, китайский, польский, русский, французский, хинди и японский). Система строилась по так называемой схеме PPRLM (рис. 1), с параллельным использованием нескольких фонетических распознавателей [2].

Для выходных последовательностей распознанных фонов строились 3- и 4граммные модели с применением back-off метода сглаживания вероятностей. Решение о языке принимал гауссовский конечный классификатор. Для длительности входного сообщения 20 секунд средняя точность составила 84,21%, для длительности входного сообщения 40 секунд средняя точность составила 91,3%. С учетом примерной скорости фонемообразования 3-5 фонем в секунду такие данные попадают в диапазон табл. 1 и в целом согласуются с предложенной в п. 2 моделью искажений.

Рис. 1. Схема PPRLM

6. Заключение

Сравниваются четыре статистических метода идентификации языка искаженных текстовых сообщений: с использованием 5-граммных моделей с двумя различными способами сглаживания вероятностей, на основе алгоритма сжатия данных LZW, двоичных деревьев. В проведенных экспериментах с искаженными текстами лучшие результаты продемонстрировал метод двоичных деревьев, метод на основе алгоритма сжатия данных LZW оказался хуже других. По результатам экспериментов на искаженных текстах можно рекомендовать метод двоичных деревьев для повышения точности идентификации языка речевых сообщений.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Батальщиков А.А., Леднов Д.А. Модель открытой идентификации языка // Сб. трудов XVII сессии Российского Акустического Общества, 11-17 сентября 2006 г. Таганрог. -Москва, ГЕОС, 2006. Т. 3. - С. 44-45.

2. Campbell W., Gleason T., Navratil J., Reynolds D., Shen W., Singer E., Torres-Carrasquillo P. Advanced language recognition using cepstra and phonotactics: MITLL system performance on the NIST 2005 language recognition evaluation. In Proc. IEEE Odyssey 2006: The Speaker and Language Recognition Workshop, (San Juan, Puerto Rico), June 2006.

3. Katz S.M. Estimation of probabilities from sparse data for the language model component of a speech recognizer. IEEE Transactions on Acoustics, Speech and Signal Processing, 35(3): 400-401, 1987.

4. Basavaraja S.V., Screenivas T.V. Low Complexity LID using Pruned Pattern Tables of LZW. In INTERSPEECH-2006, paper 1398-Mon2CaP.4.

5. Nelson M. LZW Data Compression. Dr Dobbs Journal, Oct 1989.

6. Bahl L., Brown P., DeSouza P., Mercer R. A tree-based statistical language model for natural language speech recognition. IEEE Trans. on Acoustics, Speech, and Signal Processing, 37(7): 1001-1008, July 1989.

7. Мельников С.Ю. Многогранники, характеризующие статистические свойства конечных автоматов // Труды по дискретной математике, 2003. Т. 7. - М.: Изд-во физикоматематической литературы, 2003. - С. 126-137.

8. Kulay A.Y., Melnikov S.Y. Different approaches to the garbled text language recognition, using the data compression methods. Proc. XII intern. Conference “Speech and Computer” 15-18 Oct. 2007, vol. 2, pp. 697-701.

9. Moffat A. Implementing the PPM data compression scheme. IEEE Transactions on Communications, 38(11): 1917-1921, 1990.

10. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. - М.: ДИАЛОГ-МИФИ, 2002.

11. Кулай А.Ю., Мельников С.Ю. Сравнение нескольких подходов к распознаванию языков искаженных текстов // Труды второй международной конференции «Системный анализ и информационные технологии» (САИТ-2007), (Обнинск, Россия), 10-14 сентября 2007 г. - М.: Изд-во ЛКИ, 2007. Т. 1. - С. 218-220.

12. Nadas A., Nahamoo D., Picheny M., Powell J. An iterative «Flip-Flop» approximation of the most informative split in the construction of decision tree. Proc. of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP 1991), (Toronto, Canada), May 1991, pp. 565-568.

13. Navratil J. Recent advances in phonotactic language recognition using binary-decision trees. In INTERSPEECH-2006, paper 1338-Mon2CaP.6.

УДК 681.327.8

Д.Ф.Хисамов

МОДЕЛИРОВАНИЕ СИНХРОНИЗАЦИИ ПСЕВДОСЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ НА КАНАЛАХ СВЯЗИ С ЗАВИСИМЫМИ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ОШИБКАМИ Постановка задачи

Пусть по каналу с аддитивной помехой передается рекуррентный сигнал (РС) длительностью в N символов. Прием РС осуществляется по “зачетному отрезку” [1]. Определим вероятность правильной синхронизации РС при наличии зависимых ошибок в канале. Рекуррентный сигнал на интервале анализа N можно разбить на блоки из є элементов, кратных длине “зачетного отрезка” п , то есть

є=п/3 , 3=1,2,...,п, (1)

где 3 - параметр, указывающий, на сколько частей разбит “зачетный отрезок”. Таких блоков на длине N может быть 2=№^.Т/п.

Условимся блок называть непораженным, если все є элементов блока приняты безошибочно, и пораженным при наличии хотя бы одной ошибки в блоке, и

обозначим состояния блоков соответственно через 0 и 1. Тогда блочное отображение принимаемого РС можно представить двоичной последовательностью:

5=ад,...л, (2)

где:

5 Г0 если блок непаражен,

1 [1 если блок поражен,

а вероятности правильного приема РС будет соответствовать вероятность появления в последовательности 5 серии из I нулей подряд.

Допустим, что последовательность 5 апроксимируется односвязной цепью Маркова [2]. Чем больше длительность блока, тем эта аппроксимация будет точнее, так как при этом уменьшается зависимость между блоками, отстоящими друг

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кулай А. Ю., Леднов Д. А., Мельников С. Ю.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кулай А. Ю., Леднов Д. А., Мельников С. Ю.

About Statistic Methods of Corrupted Text and Speech Messages Identification

Текст научной работы на тему «О статистических методах идентификации языка искаженных текстовых и речевых сообщений»