Вестник Санкт-Петербургского университета. 2006. Сер. 9, вып. 4
Н.В. Шишкин
(СПб., Военно-космическая акад. им. А.Ф. Можайского) ВОССТАНОВЛЕНИЕ СЖАТЫХ ТЕКСТОВЫХ СООБЩЕНИЙ
При передаче и хранении различных видов информации широкое распространение получило сжатие сообщений, значительная часть которых носит текстовый характер. Причиной этого явления выступает ряд преимуществ, которые обеспечиваются сжатием. Программы и устройства, реализующие сжатие, обеспечивают компактность представления текстов и поэтому находят повсеместное применение как в системах связи, так и в компьютерных системах обработки и хранения информации, обеспечивая тем самым высокую производительность их функционирования. К настоящему времени разработаны и внедрены различные способы и алгоритмы решения этой задачи.
Однако высокая производительность, которая достигается за счет использования алгоритмов такого рода, приводит к крайней неустойчивости систем обработки к любым ошибкам, возникающим вследствие передачи текстовых сообщений по зашумлен-ному каналу Каждый ошибочно принятый символ может привести к нарушению структуры всей выходной последовательности. Поэтому одним из направлений исследований, определяющих дальнейшие перспективы развития систем сжатия текстов и их восстановления, является разработка специальных методов контроля ошибок на основе внутренней структуры сообщений в процессе их передачи по зашумленному каналу.
Пусть символы исходного текстового сообщения в некоторой системе передачи информации кодируются с помощью кодовых комбинаций двоичного кода источника, что позволяет представить исходное сообщение в виде последовательности двоичных символов. При этом под исходным сообщением понимается форма представления информации в виде последовательности длиной ц взаимосвязанных символов (буквы.
знаки препинания, пробел) (з.) =(51,х2,.., .., алфавита 5 объема N ( е ), определяемого используемым языком общения (русский, английский и др.). В качестве кода может выступать любой из известных префиксных кодов источника. Процесс кодирования можно представить как сопоставление буквам и другим знакам сообщения из некоторого алфавита определенных кодовых комбинаций двоичных символов используемого кода, а процесс декодирования - как обратное преобразование, обеспечивающее однозначное соответствие между совокупностями двоичных символов и буквами сообщения.
В процессе передачи по каналу с шумами двоичные кодовые комбинации подвергаются искажениям. На приемной стороне осуществляется наблюдение некоторой двоичной последовательности, которая представляет собой совокупность кодовых комбинаций рассматриваемого кода источника. Влияние шумов на приемной стороне может быть оценено, а его количественная мера представлена в виде вероятности искажения двоичного символа.
© Н.В. Шишкин, 2006
Для описания исследуемых процессов могут использоваться различные типы моделей. Однако понимание текстового сообщения как статистического объекта вызывает необходимость использования для его описания стохастической модели. Примерами таких моделей являются гауссовские, пуассоновские, марковские и скрытые марковские процессы.1
Применительно к решаемой задаче восстановления сжатых текстовых сообщений целесообразно рассматривать дискретные скрытые марковские цепи порядка Л. При этом состояние системы обработки в произвольный момент времени ассоциируется с одним из различных символов 5,, .., 5Ы исходного алфавита. В дискретные моменты времени состояние системы изменяется в соответствии с некоторым вероятностным правилом, связанным с текущим состоянием и управляющим воздействием. В качестве последнего в данном случае выступает двоичная кодовая комбинация, подлежащая преобразованию в элемент текстового сообщения. Моменты времени, в которые происходит изменение состояния системы, обозначаются через £ = 1, 2,.., а ее состояние в момент времени £ - через <7<Ч Полное вероятностное описание такой системы требует задания как текущего состояния (в момент времени £), так и всех предыдущих, но для источника порядка Л это требование распространяется только на Л предыдущих состояний.
Для частного случая дискретной цепи Маркова первого порядка это вероятностное описание представляет собой вероятность того, что в момент времени £ состояние системы ассоциируется со знаком 5. при условии, что в момент времени £ - 1 состояние системы ассоциировалось со знаком Аналитическое описание требует знания только текущего и предыдущего состояний и сводится к виду
Р[*<'> = 5,. = 81%Ч™ = зк,.. ] = Р[д«> = * • = *,] • (1)
В случае, когда вероятностные характеристики фрагмента текстового сообщения не зависят от его местоположения в сообщении, а определяются только размером фрагмента (свойство стационарности), а также, когда вероятностные характеристики текстовых сообщений одного стиля могут быть получены на основе анализа всего одного достаточно большого сообщения (свойство эргодичности), переходные вероятности р (вероятности появления буквы 5. после буквы 5.) определяются выражением
,('-!) _ „ „('-2) __1 _ РГ^(')
р.. = р[дМ = sj д™ = / = 1(1) N, з = 1(1)М (2)
для любого значения I и обладают следующими свойствами:
Рц * 0, ]>>, = 1, (3)
}=1
поскольку удовлетворяют обычным вероятностным ограничениям.
Описанный выше стохастический процесс может быть назван наблюдаемой марковской моделью, так как выходом данного процесса в каждый момент времени является очередное состояние модели, которое соответствует физическому или наблюдаемому событию. Однако модель такого вида не отражает особенности влияния помех, возникающих в канале связи, и поэтому не может быть использована для решения большинства практических задач обработки реальных сообщений.
,0-П _
Больший интерес представляет расширенное понятие марковской модели на случай, когда наблюдения являются некоторой вероятностной функцией данного состояния. Процессы такого вида моделируются скрытыми марковскими процессами и представляют собой результат взаимодействия двух стохастических процессов, один из которых - основной и ненаблюдаемый (т.е. скрытый). Выводы об этом процессе могут быть сделаны на основании данных о другом случайном процессе в результате последовательности наблюдений.
Для определения введенной модели и интерпретации ее на рассматриваемую задачу необходимо задать следующие множества.2
1. Число состояний модели N. В данном случае под состоянием модели понимается изучаемая в момент времени £ буква или знак передаваемого сообщения из конечного алфавита объема N. При обработке буквы и знаки проявляются только через их двоичные коды и поэтому скрыты от наблюдателя. Для сообщений, несущих определенную семантическую нагрузку, рассматриваемая модель не является строго эргодической, в силу чего любой знак может появиться после не каждого знака или буквы, а вероятности появления различных букв и их сочетаний в различные моменты времени отличаются. При этом используются ранее введенные обозначения:
5 = {, -Удг} - Для множества состояний модели;
- для состояния модели в момент времени £.
2. Число различных символов наблюдения М, которые могут порождаться моделью (в данном случае - системой обработки). Под результатами наблюдений понимаются двоичные кодовые комбинации различной размерности. Число таких комбинаций равно числу знаков, содержащихся в применяемом алфавите (М = Л^). Множество наблюдаемых символов обозначается как V = (урУ2,...,\>м }.
3. Распределение вероятностей переходов между состояниями (матрица переходных вероятностей) Р = {р^ }, где значения р.. определяются выражением (2). Матрица
переходных вероятностей для источника первого порядка размерности N х N представляется как
Р4=
Рп Р\г - Рт Рг\ Рп ••• Ргы
PNN Рыг ••• PNN
, ¿=1Ш1=Ш. (4)
Заполнение матрицы Р осуществляется на основе обучающих выборок, представляющих собой текстовые сообщения на языке исследуемого сообщения. При этом некоторые значения р.. могут быть равны нулю. Например, для текстов на русском языке нулю равна вероятность появления буквы «я» после буквы «щ».
4. Распределение вероятностей появления символов наблюдения в г-м состоянии.
В = {Ь1Ш< где
Ш = Р\У1 \Ч{,) = > = ШЖ, У = 1(1)м . (5)
В качестве альтернативы данному распределению может рассматриваться некоторая функция потерь или положительный эффект.
5. Начальное распределение вероятностей состояний Л = {7Г(}:
к1=Р[д{1)=51], / = 1(1Ж. (6)
Это распределение также может быть представлено матрицей-строкой начального состояния р п (1) = \р (у ^ ) р (у^1 ^) р (у ^)... р (у $ )], характеризуя частоту появления какого-либо знака в качестве первого в предложении или слове.
Обучение решающего правила
Процедура обучения решающего правила подразумевает формирование исходных данных для восстановления сжатых текстов и рассматривается в контексте анализа применяемого префиксного кода, языка и стиля текстового сообщения. Для исследования свойств текстовых сообщений на различных языках необходимо сформировать модель преобразования кода источника в текстовое сообщение (см. рисунок).
Модель преобразования кода источника в сообщение.
При исследовании свойств текстов на семантическом уровне анализируется их смысловое содержание и отношение к источнику информации.
Изучение свойств текстов на синтаксическом уровне подразумевает рассмотрение их внутренних характеристик. Причем особую актуальность представляют проблемы обработки текстов как совокупности отдельных букв и знаков при полной абстракции от их смыслового и прагматического содержания.
Синтаксические свойства текстовых сообщений могут различаться не только в зависимости от языка, но и в зависимости от стиля формирования сообщений на одном языке. С учетом этого процесс обучения должен заключаться в оценивании параметров и значений элементов вышеперечисленных множеств, а именно: числа ./V и вида состоя-
ний модели, числа М и значений символов наблюдения, размерности и элементов матрицы переходных вероятностей, распределения вероятностей появления символов наблюдения в состоянии ], начального распределения вероятностей состояний. Данный процесс может отличаться как по содержанию, так и по получаемым результатам для каждого языка и стиля сообщений.3 Для сообщений на английском языке процедура обучения исследовалась различными авторами. Определенные результаты получены в ходе моделирования английских текстов.4
Пусть при изучении свойств сообщений на синтаксическом уровне представляет собой множество возможных текстовых сообщений. Элементы этого множества являются конечными последовательностями (б^ отдельных букв и знаков 5/ и могут иметь многообразную природу. При этом независимо от их конкретной природы 5. можно считать случайными элементами множества 5{д,}, на котором определено распределение ве-
роятностей (р, (з}'* - порядок источника), изменяющееся в
зависимости от местоположения Ь элемента в последовательности (з, ). Это распределение описывает статистические и синтаксические свойства источника.
Обозначенные свойства источника должны использоваться при восстановлении искажений как для принятия решения об отдельном знаке сообщения в каждый момент времени, так и о передаваемом сообщении в целом, однако они должны быть изначально оценены. В силу того, что распределение вероятностей
,0-1) „(/-2) _(/-А)
(р1 ^ , Я-' 2),.., Л) ) достоверно известно только при формировании тексто-
вого сообщения, в условиях обработки приходится пользоваться его оценкой
51-' »••»•У,-' Л>), полученной по обучающей выборке. В связи с этим акту-
альной является задача предварительного оценивания представленных свойств источника текстовых сообщений.
Рассматривая вопрос о последствиях, к которым приводит решение относительно того или иного состояния системы при восстановлении, разумно определять их по степени достижения цели. Применительно к рассматриваемой задаче в качестве цели следует определить наиболее точное восстановление модели сообщения. Это позволяет в принципе для каждого из возможных состояний (букв или знаков) указать эффект, получающийся в результате принятия решения о данном состоянии, и ввести для него количественную меру, задающую положительный эффект от принятия решения по данному состоянию. Соответствующая мера по аналогии с теорией информации является разновидностью функции потерь и определяется для каждого из возможных состояний.
Пусть С(у;-, 5^)представляет собой величину положительного эффекта для состояния где V. - наблюдаемые данные на выходе зашумленного канала. Таким образом, положительный эффект зависит как от наблюдаемой комбинации к, так и от выбираемого состояния при восстановлении .у^.
.0-1) (1-2) (1-Х)
Коррекция ошибок при восстановлении сжатых текстовых сообщений
Говоря непосредственно о восстановлении сжатых текстовых сообщений, следует ввести формальное описание правила декодирования. Оно представляет собой алгоритм обработки цифровых потоков, превращающий эти данные в конечный результат - совокупность букв и знаков текстового сообщения 5.. В правиле декодирования на множестве задается условное распределение вероятностей й);(1^')|15/(,Ч),для
каждого Тогда процедура декодирования включает оценку наблюдаемой комбинации V. = V. паГц1 на выходе зашумленного канала, для всех возможных знаков сообщения 5. определение значений С(и„а6л,при этом V. иабл и вероятностной характеристики
С^ _1),,..) и последующий выбор буквы или знака
В декодере используется наблюдение конкретной реализации на выходе зашумленного канала для формирования оценки передаваемого символа сообщения на основе полученного положительного эффекта при декодировании:
' иабл
(5,
Если предположить, что в системе обработки текстовой информации известно решение задачи кодирования для г-го сообщения, но сообщение неизвестно, то задача декодирования заключается в выборе наиболее предпочтительного сообщения путем максимизации полученного положительного эффекта:
/а^^^Ьц^^-1^"2^..^)^0 шах," <8>
ы
Для реализации изучаемого подхода может использоваться рассмотренная выше скрытая марковская модель.
Пусть в качестве анализируемой системы рассматривается восстанавливаемое текстовое сообщение, у которого пространство состояний соответствует множеству букв
и знаков алфавита. Каждому состоянию б 5{д,} соответствует множество решений (альтернатив), элементы которого соответствуют множеству состояний системы. Система
(н)
переходит за ¡л шагов в состояние .
Прямое произведение множеств решений вида
0 _ дг(1) *дг(2) *__ (9)
получило название пространства политик.
Если система на £-м шаге находится в состоянии е то система получает положительный эффект с1-'\ г = 1(1)/У, а ее состояние в следующий момент времени оп-
ределяется вероятностным законом +1), у = 1(1)N, где р\- элемент матрицы переходных вероятностей. Предполагается, что положительный эффект ¿/^ ограничен при
всех е Значения элементов ¿/^вектора-столбца положительных эффектов могут оцениваться по следующей формуле:
¿(о = . = (10)
где ¡5. | - размерность знака 5. в двоичных символах, (5., у.т6л - расстояние Хемминга между и 5. и V. , .
I I пабл.
Кроме того, следует учитывать условие нормировки
Х/40 = 1,> о при I = . (П)
7=1
Пусть установлены значения элементов матрицы-строки начального состояния как И5^))' Тогда сформированная таким образом система
описывается однородной скрытой цепью Маркова с доходами.
Сущность рассматриваемого подхода заключается в декодировании символов кода источника и одновременном восстановлении модели исходного сообщения. Данная процедура на каждом этапе декодирования сопровождается проверкой соблюдения правил построения модели источника. Совместное выполнение операций декодирования кода источника и анализа модели текстового сообщения является принципиальной отличительной чертой предлагаемого метода от существующих методов восстановления.
Рассматриваемая задача состоит в принятии последовательных решений о виде символа 5. в моменты при 1,2,..,// наблюдении текущих состояний. В качестве текущих состояний рассматриваются комбинации символов к. При этом вектор-столбец положительных эффектов содержит элементы следующего вида:
= Х + = 1(1)ЛГ,у = 1(1)ЛГ. (12)
1=1
где р^р = рл( 1); - нулевой вектор-столбец; = ^ р\^с1\х\
Задача декодирования заключается в выборе наиболее предпочтительного сообщения на основе полученного суммарного положительного эффекта:
| 03)
Оптимальное в смысле представленного критерия значение положительного эффекта позволяет судить об истинном значении переданного символа на каждом анализируемом шаге.
Несовершенство существующих методов восстановления избыточных текстовых сообщений при передаче по зашумленному каналу привело к необходимости поиска новых путей решения этой задачи. Один из подходов, основанный на учете структурных особенностей избыточных сообщений, состоит в совместном декодировании кода источника и восстановлении модели текстового сообщения. Его применение позволяет исправлять некоторые комбинации ошибок, но вызывает снижение скорости процесса обработки. Однако в силу того, что восстановление избыточных сообщений осуществляется, как правило, в отложенном режиме, увеличение времени восстановления не повлияет на качество обработки в целом.
1 Тихонов В.И., Миронов МЛ. Марковские процессы. М., 1977.
2 Рабииер JI.P. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор//ТИИЭР, 1989. Т. 77. № 2.
3 Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов. М., 1999.
4 Teahan W.J. Modeling English text. Ph.D. diss. New Zealand, Hamilton, 1998.
Статья поступила в редакцию 13 июня 2006 г.
J