Научная статья на тему 'Система контроля достоверности текстовой информации на основе n-граммных парсинговых моделей'

Система контроля достоверности текстовой информации на основе n-граммных парсинговых моделей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
142
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕКСТОВАЯ ИНФОРМАЦИЯ / БЕЗУСЛОВНАЯ / УСЛОВНАЯ ВЕРОЯТНОСТЬ / КРАТНОСТЬ ОШИБКИ / ДОСТОВЕРНОСТЬ / МОРФОЛОГИЧЕСКАЯ МОДЕЛЬ / N-ГРАММНАЯ МОДЕЛЬ / СЛОВОФОРМА / РАСПОЗНАВАНИЕ / КЛАСТЕРИЗАЦИЯ / ПОИСК / ПАРСИНГ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Камилов Мирзоян Мирзаахмедович, Ахатов

Предложен новый подход к построению компьютерной системы передачи и обработки текстовой информации на основе n-граммной языковой модели. Получены методики определения условных вероятностей n-кратных ошибок в информации, разработаны способы и алгоритмы оптимизации основных компонент системы контроля и коррекции орфографии, построенных на основе механизмов парсингового представления и моделирования элементов текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Система контроля достоверности текстовой информации на основе n-граммных парсинговых моделей»

УДК 004.512

Система контроля достоверности текстовой информации на основе я-граммных парсинговых моделей

М. М. Камилов, А. Р. Ахатов

Самаркандский государственный университет им. А. Навои, 140104, Самарканд, Узбекистан

Предложен новый подход к построению компьютерной системы передачи и обработки текстовой информации на основе n-граммной языковой модели. Получены методики определения условных вероятностей n-кратных ошибок в информации, разработаны способы и алгоритмы оптимизации основных компонент системы контроля и коррекции орфографии, построенных на основе механизмов парсингового представления и моделирования элементов текста.

The author offers a new approach for construction computer system of transfer and processing the text information on a basis of n-gram language model. In article it is stated results of receiving the techniques of definition conditional probabilities of n-multiple mistakes in the information. It is developed the ways and algorithms of optimization the basic component of the monitoring system and spelling correction constructed on the basis of parsing representation mechanisms and modeling text elements.

1. Постановка задачи контроля и коррекции текстовой информации. Функционирование любых информационных систем в существенной степени зависит от достоверности передачи сообщений, которая снижается вследствие ошибок человека-оператора, влияния помех в системах связи, сбоев электронного оборудования и погрешностей систем сканирования и распознавания. Причем в системах, предназначенных для обработки большого объема текстовой информации, например в системах электронного документооборота (СЭД), искажения проявляются в основном в виде орфографических ошибок различной кратности (однократные, двукратные, n-кратные) [1, 2].

В научных исследованиях, посвященных компьютерной обработке текстовой информации, многократно подчеркивается (главным образом, в виде постановки задач, а не решения проблемы) эффективность использования n-граммной модели естественного языка (ЕЯ) для решения задач контроля достоверности передачи и обработки текстов [3]. Однако решение проблемы контроля и коррекции ошибок в текстах на основе n-граммной модели, хотя и представляется наиболее перспективным, мало изучено с точки зрения обеспечения качества обработки текстовой информации, особенно представляемой на узбекском языке.

Следует отметить, что проблема контроля и коррекции ошибок в текстах на основе n-граммной модели ЕЯ связана с решением комплекса теоретических и практических задач, среди которых наиболее важными являются: исследование вероятностей появления ошибок для получения априорной базы n-грамм; разработка методик оценки достоверности информации при равномерных и неравномерных моделях n-кратных искажений; парсинговое моделирование структуры слова на основе словоформ, разработка вероятностных моделей кластеризации и поиска объектов контроля; компьютерная реализация моделей и алгоритмов контроля и коррекции n-граммных ошибок, оптимизация параметров функционирования компонентов систем контроля орфографии и оценка качества ее функционирования.

В настоящей работе представлены результаты исследований, направленных на решение указанных задач.

2. Модели условной вероятности и-граммных искажений. Определение вероятностей n-граммных ошибок связано с обработкой большого объема статистических данных и трудоемкими вычислениями, так как важной особенностью n-грамм является то, что их число растет экспоненциально относительно длины n. Следовательно, необходимо специальное моделирование процессов вычисления статистики и вероятностей n-граммных ошибок. В работе [4] исследованы закономерности распределения ошибок передачи текстовой информации, предложены способы моделирования и алгоритмы для выявления искаженных элементов (букв, слов) в тексте, кластеризации,

поиска, структуризации; получены частотные характеристики я-грамм при большом объеме информации, которые применялись в процессах апробации систем контроля и коррекции орфографических ошибок. Результаты проведенных экспериментальных исследований использовались при установлении закономерностей появления искажений в информации, определении условных вероятностей я-граммных ошибок для решения задач генерации и синтеза текстов из речи.

Заметим, что используемые экспериментальные данные получены на основе теоретических положений при допущении о равновероятности я-граммных ошибок, что позволило получить простые математические выражения для проведения аналитических исследований. В связи с этим представим равномерную модель я-граммных ошибок.

2.1. Равномерная модель я-граммных ошибок. Общая вероятность ошибок, обусловленных ошибками человека-оператора, сканирования и распознавания, искажениями в каналах связи, сбоями электронных средств передачи и обработки информации, обозначим через Р. Процесс перехода а1 -го сообщения в -е, как правило, задается

стохастической матрицей переходных вероятностей ||Ра а ||, которая считается основным показателем при оценке

достоверности информации в любой системе передачи и обработки данных. Общая вероятность ошибок при передаче а1 -го сообщения равна

где Раа - вероятность правильного приема а1 -го сообщения. Средняя вероятность ошибки находится осреднением условных вероятностей ошибки по всему ансамблю сообщений:

Формула (1) является двумерной моделью оценки вероятности Р, связанной с оценкой монограммной вероятности Ра и диграммной вероятности Раа . В случае учета статистики трехграмм необходимо исследовать

вероятности переходов а а/ ^ У, а при статистике я-грамм требуется вычислить вероятности набора

а,,а .,■■■,а я ^а ,,а .,■••,а я.

•7 1 7 'I 11 ]

2.2. Математическая модель условных вероятностей я-грамм. Пусть задан некоторый язык Ь(УТ) с конечным алфавитом УТ = {м>'}, где - отдельный символ, УТ - множество цепочек (строк) конечной длины, состоящих из символов алфавита УТ , я-грамма на алфавите УТ представляет собой цепочку длиной я.

Как правило, я-грамма может совпадать с каким-либо высказыванием, быть его подстрокой или вообще не входить в Ь(УТ). Например, если алфавит - это буквы ЕЯ плюс дефис, а высказывания - это слова ЕЯ, то

я-грамма - это последовательность из я символов (букв и дефисов), принадлежащая одному слову; если высказывания - это тексты, то я-грамма - это последовательность из N слов одного текста; если алфавит - это морфологические описания слов ЕЯ плюс знаки пунктуации, а высказывания - это соответствующие фразам и грамматически допустимые морфологические описания входящих в них слов, то я-грамма - это последовательность грамматически допустимых описаний я подряд стоящих слов.

Обозначим через С (м>) = С (м^2 ) число вхождений строки

в совокупность всех текстов рассматриваемого языка. Предположим, что алфавит рассматриваемого языка содержит буквы (без учета регистра) и знаки пунктуации, тогда как пробел, переход на новую строку и начало текста -специальные разделители, не входящие в алфавит. Высказывание в таком языке - это неделимая последовательность символов

р = у р V р

/ - а / , а^

(1)

М> = WiW2

Вероятность р(w) появления я-граммы w = w1равна отношению С(w) к общему числу экземпляров всех встреченных в совокупности я-грамм. В частности, для монограмм, т. е. отдельных символов, имеем

С (wi)

р( w') =

^С (w>)

где w' - символ алфавита Ут ; числитель - количество вхождений w' в совокупность всех слов, а сумма в знаменателе - общее число символов в ней.

Если вероятности появления символов в любой позиции цепочки независимы и одинаково распределены, то вероятность я-граммы

р^и.Мп) =Пр^д .

Это, в частности, означает, что любые перестановки символов строки w = w1...имеют одну и ту же вероятность.

Если достоверного априорного знания о равенстве распределений символов в разных позициях строки не существует, следует ввести условные вероятности. Тогда, обозначив через р(wj = w*.) вероятность того, что в .-й

*

позиции строки стоит символ wj, получим условную вероятность строки

р^* ... w*) = р^. = w* = w*V' Ф .) р= w*V' Ф .). (2)

Формула (2) служит также априорной основой при построении алгоритмов автоматической кластеризации слов системы контроля орфографии. В связи с этим ниже рассматриваются решение задач кластеризации слов и специфические подходы для получения эффективных алгоритмов кластеризации слов и просмотра строки текста.

3. Математическая модель кластеризации слов. Можно предложить одностороннюю (например, просмотр строки текста слева или справа) и вместе с тем двухстороннюю модель кластеризации слов, где строка текста поочередно прослеживается и слева, и справа. Установлено, что алгоритм кластеризации на основе односторонней модели позволяет значительно быстрее, без существенных потерь обеспечить выделение слова и разбиение слов на классы. Рассмотрим кластеризацию на основе односторонней модели при просмотре строки текста с левой стороны.

Корпус слов до некоторой степени редуцируется отображением каждого из N слов в Ыс классы, где Ыс < . При этом основным условием является представление я-граммной статистики для полученного корпуса классов слов. Для отображения слова в классы данная модель представляется в виде

w ^ С = С(w),

где слово w может принадлежать только одному классу. В данной работе кластеризация в классы проведена для слов узбекского языка. При этом в качестве критерия оптимизации кластеризации использована мера наибольшего подобия, определенная в тренировочном множестве. Заметим, что ключевыми моментами кластеризации слов в классы являются парсинговое моделирование структуры слова на основе словоформ [5], выработка методов поиска и оценка их вероятностей при принятых моделях.

3.1. Расчет компонентов вероятностей односторонней модели. Компонент вероятности односторонней модели классов представляется в виде

) = /С^Д...,С. (3)

По модели (3) текущее слово обрабатывается в зависимости от предыдущих слов, отображенных в классы. Следовательно, вероятность очередного символа строки также задается в зависимости от предшествующих ему (я -1)

символов: ^..мп-1). Тогда

w

1=1

Р(wi к w„-W„) = p(w„ К к wn_1)p(w! к wn_1). В терминах вероятности "быть справа" для триграмм имеем

p(wi...w„) = p(Wn | Wi...Wn _ i)p(Wn _ 1 | Wi...Wn _ 2)p(Wn _ 2 | Wi...Wn _ 3)p(wz) , в общем случае можно записать

p(wi...wn) = p(Wk | Wi...Wt _ i)jp(wi). (4)

Введя фиктивный символ "начало" и приняв, что p(wi |w0) есть p(wi), выражение (4) представим в виде

n

p(Wi...Wn) =П p(Wt | Wi...Wt _ i) (5)

k=i

Таким образом, марковская цепь (n _ i) -го порядка оказывается моделью n-граммы, а задача оценивания статистических параметров n-граммы - хорошо изученной задачей оценивания параметров марковской цепи.

Следует отметить, что вследствие наличия множества возможных типичных строк символов значения вероятностей, вычисленные по формуле (5), очень малы и их использование связано с большими трудностями вычислительного характера. Поэтому для упрощения вычислений выражение (4) целесообразно записать в виде

n

log P(Wi w2 W3 ...Wn) = Y log P( w\ Wi W2 W3.. .Wn ), (6)

k=i

однако для определения (6) необходимы многократные вычисления:

n

p = YP. .

t=i

Задавая log(a + b) = log a + log(i + b / a), вычисляем log P по следующему рекурсивному алгоритму: Начало: log P = log pi Рекурсия: a = max(log pn ,log pn+i) b = min(log pn, log p

n+i '

log pn+i = a + log(i + exp(b _ a)) Конец: logP = logpn.

Для проведения аналитических исследований эффективности систем контроля орфографии также представляет интерес получение упрощенных оценок вероятностей n-грамм.

4. Упрощенные оценки условных вероятностей и-грамм. Как правило, оценкой вероятности n-граммы служит частота ее встречаемости:

p(W, | W, _ n...W, _ i) = f (w, | W, _ n...W, _ i) =-тгр-7 .

1 7 C (w,_„...w,_iw,)

Поскольку частота появления ошибок в виде и-грамм представляет случайную величину, частотные характеристики можно интерполировать для получения их осредненных оценок.

Общая оценка условных вероятностей и-грамм также оценивается с учетом частоты их встречаемости:

C (w. ...w. ,w ) p(w> | w_n...w,._i) = f (w,. | w_n...w,._i) = ( '_" ),_i ') ,

C (w t)

где C (wt) - общее число n-грамм, встреченных в последовательности.

В качестве методики получения упрощенной оценки вероятностных переходов предложим упрощенную зна-ково-основанную диграммную модель.

{Го

&

w44

W22

Рис. 1. Цепь Маркова (а) и вероятностные состояния цепи (б)

4.1. Диграммная модель ошибок. Рассмотрим диграммную модель, которая требует вероятностей формы Р(w)wj). Обозначим частоты символа или слова через р,, а условные частоты представим как число следования символа1 за символом '. Тогда оценку максимальной вероятности запишем в виде

) = = .

'' 1 X Р. Р

Рассмотрим цепь Маркова (рис. 1, а), в которой переходы происходят по стрелкам с вероятностями р.. На рис. 1, б показаны текущие состояния выдаваемые символами а; причем каждое состояние имеет собственное распределение вероятности.

В данном случае вероятности переходов устанавливаются по формуле

р( ) =

р.+1

41

К1+Х р|1 ■

Следует отметить, что вероятности перехода зависят от состояния цепи Маркова, которое является постоянным числом. Например, если в момент времени / = 0 мы в состоянии 5 с вероятностью перехода рж, то вероятность постоянства этого состояния оценивается экспоненциальным разложением

Р(сост = 5) = ехр(- / т)

с характерным временем т = -1/1о§ р5 . Это время прямопропорционально масштабу длины, если модель выдает символы равной длины.

Вероятность переходов между состояниями определим по следующей формуле:

1 - р„ = 1 - ехр(-1/ т) * 1/т(т << 1).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Большие значения т исключают переходы в масштабе длины знака и являются желательным поведением системы. Однако если характерное время т установлено меньшим или равным 1010 знаков, то это не будет подавлять переход.

В случае если известно большее количество данных об индивидуальных частотах символа, то по моделям монограммы лучше определяются вероятности диграмм. Поэтому введем процедуру интерполирования диграммных распределений более простой моделью монограммы:

р

р

Р( М>Ы = 2-^ + (1 -2)—^)

ж

р

где N - общее число символов; 2 определяется эмпирически.

Модель монограммы с однородным распределением может сглаживать и более сложные модели, например триграммную модель.

4.2. Триграммная модель ошибок. С целью упрощения оценки условных вероятностей триграмм будем использовать линейную интерполяцию

р(М>, I2 w¡-l) = ч 2/(I ^-2 + (*>, I + Чо /() , где /(V, |...) - выборочные оценки, которые определяются следующим образом:

г, I ч С ^,-2 w,-1w,) С ) г, ч С (V,-)

/ V I w,.-2W,.-1) = ' 2 ' 1 ' , /1 V-!) = ^ / 1 , /) = - '

С (W''-2 W'■-1)

С ^^

С

б

Здесь С - общее число экземпляров всех символов, остальные величины в знаменателях - число для соответствующих (п-1)-грамм, за которыми следует допустимый в рассматриваемом языке символ. В каждом слове это число для (п-1)-грамм на единицу меньше, чем для п-грамм, в случае если число (и—1)-грамм больше нуля, в противном случае это число равно 0.

Для упрощенной вероятностной оценки авторами данной работы предложен метод рекурсивной линейной интерполяции относительных оценок частоты различных порядков /к(•), к = 0... п . На рис. 2 приведена рекурсивная схема смешивания, на основе которой запишем выражение для вычисления условных вероятностей

Рп (»п I »Р — Мп-1) =^(wl,..., »п ) Рп-1(Мп I »Р — Мп-2) + (1 — »п )) /п (»п I W1,..., Wn-1),

Р-1 (м) = ишРогт(Ж),

где м1,...,мп-1 - контекст порядка п, когда предсказано мп; /п(мп^м1,к,мк) - относительная частотная оценка порядка к для условной вероятности Рп (мп | м1,..., мк):

/к (Мп 1 W1,K, Мк ) = С (мп , W1,K, Мк VС (W1,K, Мк X к = 0.■■n,

С(мп,м1.....м) = £ к £ С(мп,wl,к,мк,мк+1 Кмп-11

мк+1еЖк+1 мпеЖп

С (»1.....») = £ С (», wl,к, мX

»еЖ

Я(м1,к,мк) е [0,1], к = 0.п - коэффициенты интерполяции.

Заметим, что коэффициенты Л(м1,., мк) сгруппированы в эквивалентные классы на основе диапазона, в который попадает индекс С(м1,., мк); для каждого эквивалентного класса диапазоны индекса установлены таким образом, что статистически достаточное число событий (мп | м1,., мк) попадает в пределы этого диапазона.

Предложенная выше методика оценки условных вероятностей ошибок в текстах на основе п-граммной модели позволяет оценить их значения в виде осредненных характеристик появления однократных, двукратных и трехкратных ошибок, которые являются важными факторами при оценке качества применения способов контроля достоверности текстовой информации.

5. Оценка достоверности информации. Поскольку в системах контроля орфографии основным элементом проверки и коррекции является слово текста, при построении таких систем на первый план выдвигаются задачи распознавания слова и его элементов. В [2, 6] разработаны интерполяционные и экстраполяционные алгоритмы распознавания элементов текста, в том числе слова. Ниже рассмотрены методики получения вероятностных моделей выделения слов в строке текста в предположении, что распознавание слова осуществляется по указанным алгоритмам статистического распознавания.

5.1. Вероятностная модель распознавания элементов текста. Начнем с выделения строки слов

Ж = агатахР(А | Ж)Р(Ж),

ж

где А обозначает наблюдаемое слово; Р(А / Ж)- условная вероятность того, что слово в строке Ж представляется в виде образа А ; Р(Ж) - априорная вероятность появления слова в тексте Ж. Исследование заключается в оценке значения вероятности Р(Ж).

р-1(у>„) = 1!Щ

Рис. 2. Рекурсивная линейная интерполяция

Пусть строка задается набором слов W = w1, w2,...,wn, тогда по теореме Байеса имеем

P(W ) = flP( wjw,, w2.....ww).

1=1

Заметим, что пространство параметра P(wk | w1,w2,...,wk_1) очень широко, причем слова wi принадлежат словарю V большого размера. Для распознавания представляется предыстория Wk = w1,w2,...,wk_1 в виде эквивалентного класса, определяемого функцией Ф(Wk_1), а также

P(W ) = f\P(wk^(Wk _1)).

k=1

Тогда задача определения вероятности выделения слов сводится к нахождению эквивалентных классификаторов Ф и методов оценки P(wk | _1)).

Поскольку для распознавания слова в тексте предлагается использование n-граммной модели языка, функция эквивалентной классификации представляется в виде

Ф(^_1 ) = wk_n+1, wk_n+2 , K , wk_1 .

Следует отметить, что определение формы Ф(Шк_1) предшествует решению задачи оценки P(wk | Ф(Wk_1)), являющейся критерием качества распознавания и соответственно контроля достоверности элементов текста.

5.2. Оценка качества распознавания слова. Качество системы контроля орфографии, как правило, определяется достоверностью распознавания слова на основе словаря словоформ. Поэтому при решении поставленной задачи важным моментом является определение показателя ошибки распознавания слова. Для этого находим наиболее благоприятное слово, произведенное алгоритмом распознавания W и истинной последовательностью слов. Затем подсчитывается число неправильных слов W в общем числе слов в W .

Особенность контроля текстовой достоверности заключается в том, что при построении алгоритма распознавания и соответственно системы контроля орфографии используется большой объем словарей словоформ и префиксов слов, при этом алгоритм позволяет выделить несоответствующие слова, обеспечить эквивалентную классификацию префикса слова и использовать априорную информацию при предсказании следующего слова.

Как одну из оценок качества распознавания слова можно использовать энтропию основного источника информации

Hw (M ) = exp(_1/ N £ ln[ Pm ( wk | Wk_1)]),

k=1

где Hw - энтропия слова в строке; N - число слов в общем объеме словаря тестируемого материала.

6. Парсинговое моделирование структуры слова на основе словоформ. Аргументы приведенных моделей эквивалентной классификации и оценки качества распознавания определяются на основе изложенного ниже нового механизма применения n-граммной структурированной модели естественного языка, который включает процедуры парсингового кодирования и поиска последовательности контролируемых слов.

6.1. Парсинговое кодирование. Пусть W - предложение длиною n слов, к которому добавим в начало < s > и в конец < /s >, так что получим w0 =< s > и wn+1 =< s > .

Обозначим через Wk = w0... wk число k-префиксов слова в предложении, тогда WkTk будет k-префиксом слова-парсинга. Для кодирования последовательности слов построим дерево слова-парсинга. Отметим, что k -префикс слова-парсинга содержит только те бинарные поддеревья, диапазоны которых полностью включены в k -префиксы слова, за исключением w0 =< s >. Отдельные слова вместе с их позиционными признаками (POS-признак) могут быть расценены как корневые деревья.

На рис. 3 показан полный парсинг некоторого слова. Схема определяет бинарный парсинг (< s > SB)(w1,t1).(wntn)(< /s >,SE), где последовательность SB/SE - отличительный POS-признак для

< s > / < /s > соответственно с ограничениями, что (< /s >, TOP) - единственно дозволенный заголовок; (w1,t1)...(wntn)(</s >,SE) формирует элемент, возглавляемый (</s >,TOP').

Парсинги определяются, когда (< /s >, TOP') - заголовок любого элемента, который доминирует (над < /s >), но не < s > .

На рис. 4 представлена схема взаимодействия модулей системы кодирования для построения алгоритма распознавания элементов на основе парсингового дерева. Система кодирования состоит из трех модулей:

1) "Предсказатель слова" предсказывает следующее слово wk+1, данное ^-префиксом слова-парсинга, затем передает управление на "Таггер";

2) "Таггер" предсказывает POS-признак tk+1 следующего слова, данного k-префиксом слова-парсинга, и последнего предсказанного слова wk+1, затем передает управление модулю "Конструктор";

3) "Конструктор" наращивает существующую двоичную расширенную структуру, повторно генерируя переходы, до тех пор пока управление не перейдет к модулю "Предсказатель" по достижении пустого перехода.

Теперь рассмотрим получение оценки вероятностей обмена информацией между модулями парсинговой модели.

6.2. Вероятностные оценки парсинговой модели. Обозначим вероятность распознавания последовательности слов W в парсинговой модели через P(W,T), где T - дерево полного парсинга. Вероятностная модель должна быть способной различить желательные и менее желательные парсинги. Для того чтобы получить правильное назначение вероятности P(W ,T), необходимо определить надлежащие условные вероятности каждому переходу.

Вероятность P(W, T) последовательности слов W и полного парсинга T рассчитывается следующим образом:

n+1

P(W,T) =П[P(Wk I Wk-jTk-j)P(tk | Wk-jTk-j,Wk)P(Tkkj | Wk-jTk-j,Wk,tk)]. k=1

Nk

Здесь P(Tkk-j| Wk_lTk-l,wk,tk) = ПP(pi 1 Wk-lTk-l,wk,tk,piKph); Wk-iTk-j - (k-1)-й префикс слова-парсинга;

i=i

wk - слово, предсказанное "Словопредсказателем"; tk - признак, назначенный для wk "Таггером"; Tkk-1 - пошаговая парсинговая структура, которая генерирует Tk = Tk-11| Tkk-1, когда парсинговая структура построена на вершине Tk-1 и вновь предсказанного слова wk; запись II обозначает конкатенацию; Nk-1 - число операций, выполняемых "Конструктором" на позиции k входной строки перед передачей управления "Словопредсказателю" (Nk -я операция на позиции k - нулевой переход, причем Nk представляет собой функцию от T); pk обозначает i-е действие "Конструктора", выполненное в позиции k строки слова, и представляется следующим образом:

(< / s >, TOP')

Предсказывать слова

(< /s >,TOP)

(< s >, SB) (w _1, t _1)...................(w _ n, t _ n)(< /s >, SE)

Нуль V / Тег слова

КОНСТРУКТОР

Прим^1кать_(налево, направо)

Рис. 3. Полный парсинг

Рис. 4. Взаимодействия модулей системы парсингового кодирования

pk е {(adjoin - left, NTag), (adjoin - right, NTag), (uniray, NTag)} ,1 < i < Nk, pk = null, i = Nk .

Заметим, что каждое (Wk_1Tk-1,wk,tk,pf ...pki_l), i = 1,...Nk, определяет значащий k-префикс слова-парсинга WkTk в позиции k в предложении.

7. Алгоритм оптимизации компонентов модели распознавания, контроля достоверности и поиска словоформ. Для гарантирования надлежащей вероятностной модели по набору полных парсингов для любого предложения W, вероятностям "Конструктора" и "Предсказателя слова" необходимо задать определенные значения. Набор ограничений на значения вероятностей компонентов различных моделей совместим со следующим алгоритмом:

1. P(null | WkTk) = 1, ifh _{-1}.word =< 5 > и h _{0} Ф (< /s >, TOP'), т. е. перед предсказанием < /s > гарантируется, что (< S >, SB) примыкает к последнему (прошлому) шагу процесса парсинга;

2. P((adjoin - right, TOP) | WkTk) = 1, если h _0 = (< /s >,TOP') и h _{-1}.word =< s > ;

3. P((adjoin - right,TOP') | WkTk) = 1, если h _0 = (< /s >,TOP') и h _{-1}.word Ф< s > .

Шаги 2, 3 гарантируют, что парсинг, произведенный моделью, совместим с определением полного парсинга;

4. 3 е> 0s.t.V Wk-1Tk-1,P(wk =< /s >| Wk-1Tk-1) >е . На этом шаге обеспечивается остановка модели. Как только конец символа предложения < /s > сгенерирован, модель заканчивает парсинг с вероятностью, равной единице.

7.1. Оптимизация работы "предсказателя". Рассмотрим иерархическую схему и алгоритм построения стеков для нахождения нового слова - объекта контроля. Предположим, что каждый стек содержит частичные парсинги -гипотезы, которые были построены одним и тем же числом операций "Предсказателя" и "Конструктора". Частичный парсинг в каждом стеке оценивается согласно принятому критерию ln(P(W, T)) начиная с самой высокой вершины.

На рис. 5 показана схема действий алгоритма, связанных с просмотром нового слова Wk+1. (Здесь Pk - максимальное число операций примыкания для k-кратного префикса слова; так как дерево двоично, Pk = k -1.)

Процедура поиска строится на основе двух параметров:

- максимальная глубина стека -максимальное число гипотез, которые стек может содержать в любое данное время;

- порог лог-вероятности - различие между оценками лог-вероятности наиболее вероятной и наименее вероятной гипотез в любом данном состоянии стека, причем порог лог-вероятности не может быть больше заданного значения.

Заключение. Таким образом, теоретические и практические исследования проблемы построения компьютерной системы текстовой информации, проведенные с целью разработки методов и алгоритмов контроля и коррекции орфографии на основе n-граммной модели естественного языка позволили определить закономерности распределения n-граммных ошибок; оценить досто-

Рис. 5. Цикл расширения поиска

верность информации при равномерных и неравномерных гипотезах n-кратных искажений; провести парсинговое кодирование и моделирование структуры слова на основе словоформ; оценить качество распознавания, кластеризации, поиска элемента текста; моделировать процессы реализации алгоритмов эквивалентной классификации. Полученные вероятностные модели парсингового представления слов, кодирования и поиска позволяют оценить качество распознавания, эффективно моделировать процессы реализации алгоритмов эквивалентной классификации в системах контроля и коррекции орфографических ошибок.

Предложены методы и алгоритмы оптимизации параметров функционирования компонентов системы контроля орфографии, которые реализованы в виде самостоятельных программных модулей, соответствующих требованиям разработки пакетов прикладных программ. Полученные теоретические положения исследований позволили построить программную систему контроля и коррекции орфографии узбекского языка на основе n-граммной модели, которая показала высокое качество функционирования в системах электронного документооборота предприятий различных форм собственности.

Список литературы

1. Ахатов А. Р. Повышение достоверности информации систем электронного документооборота на прикладных уровнях теле-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

коммуникационных сетей // Техника и технология. 2008. № 4. С. 25-32.

2. Ахатов А. Р., Жуманов И. И., Джураев М. К. Метод проверки орфографических ошибок в текстах на естественных язы-

ках // Материалы XIV Междунар. Центрально-Азиатской науч. конф. "Математические методы в технике и технологиях -ММТТ-16", Ташкент (Узбекистан), 22-24 окт. 2003 г. Ташкент: Изд-во Ташкент. химико-технолог. ин-та, 2003. С. 86-89.

3. Ахатов А. Р. Алгоритмы программной системы контроля текстовой информации на основе n-граммной языковой модели //

Актуальные проблемы современной науки. 2009. № 3. С. 156-161.

4. Akhatov A. R., Jumanov I. I., Kurbanov M. M., Karshiev Z. A. Use of N-gram statistics for checking of the texts transfer quality

in intellectual information systems // Proc. of the 5th World conf. on intelligent systems for industrial automation. Tashkent (Uzbekistan), 25-27 November, 2008. b-Quadrat Verlag-86916 Kaufering, 2008. P. 153-160.

5. Charniak E. Statistical parsing with a context-free grammar and word statistics // Proc. of the 14th National conf. on artificial intelli-

gence, Menlo Park (CA), 19-24 Jul. 1997. AAAI Press/MIT Press, 1997. P. 598-603.

6. Ахатов А. P. Программные методы контроля достоверности информации в структуре пактов передачи данных систем элек-

тронного документооборота // Вестн. Сиб. гос. ун-та телекоммуникаций и информатики. 2008. № 2. С. 3-20.

Камилов Мирзоян Мирзаахмедович - д-р техн. наук, проф. акад. АН Республики Узбекистан, зав. лаб. Ин-та математики и информационных технологий АН РУз; Ахатов Акмал Рустамович - канд. техн. наук, доц. Самаркандского гос. ун-та;

тел. (8366) 220-6881, e-mail: akmalar@rambler.ru

Дата поступления - 29.10.2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.