Научная статья на тему 'Информационные системы обработки и сжатия текста'

Информационные системы обработки и сжатия текста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
709
62
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА СИМВОЛЬНОЙ ИНФОРМАЦИИ / СЖАТИЕ ИНФОРМАЦИИ / СИСТЕМЫ ПРОДУКЦИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ефремов В. В., Ефремова И. Н., Серебровский В. В., Черепанов А. А.

Рассматривается использование продукционного направления обработки изображения для задач сжатия символьной информации и методику для оценки корректности таких систем продукций, повышающий безопасность вычислительных систем для исследуемой проблематики.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ефремов В. В., Ефремова И. Н., Серебровский В. В., Черепанов А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Информационные системы обработки и сжатия текста»

182

НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2014 № 1 (172). Выпуск 29/1

УДК 004

ИНФОРМАЦИОННЫЕ СИСТЕМЫ ОБРАБОТКИ И СЖАТИЯ ТЕКСТА

В.В. СЕРЕБРОВСКИЙ А.А. ЧЕРЕПАНОВ

В.В. ЕФРЕМОВ И.Н. ЕФРЕМОВА

Рассматривается использование продукционного направления обработки изображения для задач сжатия символьной информации и методику для оценки корректности таких систем продукций, повышающий безопасность вычислительных систем для исследуемой проблематики.

Юго-Западный

государственный

университет

Ключевые слова: обработка символьной информации, сжатие информации, системы продукций.

е-таіі:

[email protected] ЄКа84 @таі1.ги

В настоящее время методы технической обработки изображения, находят все большее применение в задачах народного хозяйства. Среди типичных задач обработки изображения особо стоит выделить распознавание текста. Распознавание текста широко используется для конвертации книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице. Распознавание позволяет редактировать текст, осуществлять поиск слова или фразы, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь.

На сегодняшний момент во многих задачах обработки символьной информации эффективно применяется продукционный подход [1]. Указанный подход может найти важное применение в проблеме сжатия символьной информации, которая занимает важное место среди задач обработки символов. В связи с этим, известные способы сопоставления с множеством эталонных объектов, например приведенных в источнике [2], при проверке соответствия условиям параллельных продукционных систем не учитывают особенности задачи сжатия [3]. Предлагается применять продукционную систему для сжатия, задавая аналогично множественному поисковому запросу - т образцов, и одновременно для адаптивного сжатия определяя т соответствующих им модификаторов. Такая методология повысит результативность сжатия символьной информации, например, при применении на продукционных машинах.

Анализ достоверности системы продукций для сжатия имеет свои особенности, связанные со следующими условиями корректности.

Система продукций обеспечивает полную модификацию.

Каждый символ входного слова модифицируется не более одного раза.

Допустим существует служебный алфавит А* , каждому символу которого приведено в соответствие последовательность символов(в искомую последовательность может входить даже один единственный символ), в обрабатываемом алфавите А, который состоит из анализируемых символов, можно вставить любое слово.

Определение. Систему продукций будем считать нормальной, если антецеденты однозначно соответствуют символам алфавита А*.

Теорема 1. Система продукций выполнит полную модификацию только тогда, когда она будет нормальной.

Доказательство. Допустим образцы не составляют нормальный класс и существует символ ^ отличный от пустого слова Л, принадлежащий алфавиту А* и графически не

равный ни одному образцу 52 , где i=(l..n), п — количество образцов.. Допустим слово

51 = 52 % 52. Тогда аннуляция вхождений образцов £2 приведет к слову 51= %.

Серия История. Политология. Экономика. Информатика.

2014. №1 (172). Выпуск 29/1

Модификация по определению будет полной тогда, когда % = Л или существует образец графически равный ^. Оба условия противоречат условиям теоремы. Теорема доказана.

Рассмотрим все возможные варианты пересечения образцов, приводящие к двукратному нахождению вхождения символов слова.

1.52 = 52] ^2 (вхождение слева),

гу _т со!

2. 5 2 = 5 2 (вхождение справа),

3. 52 = Я1522 Я2 (вхождение по центру),

4. 52* =521 (пересечение), где Rl, R2 - произвольные слова в алфавите А;

52'к,51 - соответственно, конечный и начальный фрагмент слов 52 и 522.

Варианты 1, 3 и 4 вызывают неправильную модификацию при параллельном выполнении рассматриваемой системы продукций с ее спецификой в связи с тем, что графическое равенство фрагментов входного слова вхождению образцов друг в друга или их пересечению, приведет к двукратной модификации. Вариант 2 отличается тем, что конечные позиции вхождения образцов будут одинаковы. В этом случае для обеспечения корректности нужно ввести разные уровни приоритетов для образцов - высший » для

более длинного 52, согласно которым срабатывает продукция с более высоким приоритетом »>{]}.

Теорема 2. Система продукций является неправильной для параллельного выполнения и однонаправленного потока данных, когда верно условие:

(5 2 = 5 2 2Д2^

V (5 21 = Д15 21Д2^

V 2* = 5 2/Н ) V

V [(^ 2г = Д15 22 )&({/}<{/})]= 1

Доказательство. Предположим, что верным является первый член дизъюнкции 1 и система является корректной, т.е. каждый символ модифицируется только один раз.

Предположим, что слово 51 = 5 2^^2. Для слова 51 будет детектировано вхождение образов

521 и 52 и фрагмент слова 52 причислен к обоим из них, т.е. будет модифицирован дважды, что противоречит условию корректности 2.

Предположим, что верным является второй член дизъюнкции 1 и система является

корректной. Предположим, что слово 51 = ^521^2. Для слова Sl будет детектировано

вхождение образов 5 21 и 5 2, а участок слова 5 21 причислен к обоим из них, т.е. будет модифицирован дважды, что противоречит условию корректности 2.

Предположим, что 52 =К1 52 =% К2 (верным является третий член

дизъюнкции 1) и система является корректной. Предположим, что слово 51 = ^1% ^2. Для

слова Sl будет детектировано вхождение образов 521 и 52, а участок слова S2 соответствует обоим, т.е. будет модифицирован дважды, что противоречит условию корректности 2.

Предположим, что верным является четвертый член дизъюнкции 1 и система

является корректной. Допустим слово 51 = ^ 521. Для слова Sl будет зафиксировано

вхождение образов 521 и 52 и фрагмент слова 521 соотнесен к обоим из них. Если ®={]} фрагмент будет модифицирован дважды, что противоречит условию корректности 2. Если » < {]}, фрагмент слова Rl не будет модифицирован, что противоречит условию корректности 1. Теорема доказана.

Рассмотрение всех возможных вариантов пересечения образцов является основанием для следующего высказывания.

Следствие теоремы 2. Если условие 1 не выполняется, параллельная система продукций модифицирует каждый символ входного слова не более одного раза.

НАУЧНЫЕ ВЕДОМОСТИ

184

НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2014 № 1 (172). Выпуск 29/1

Таким образом, система продукций, удовлетворяющая условию теоремы 1 и условию следствия теоремы 2, является корректной для процедуры сжатия, а сами теоремы являются инструментальным базисом для проверки корректности систем продукций для сжатия символьной информации.

1. Довгаль В.М. Методы модификации формальных систем обработки символьной информации. Курск, 1996. 115 с.

2. Керекеша В.В. Ассоциативные устройства для реализации систем продукций: автореф. ... дис. канд. техн. наук. Курск, 1995.

3. Е.Г. Жиляков. Об эффективности алгоритма субполосного выделения контуров на изображении Е.Г. Жиляков, А.А. Черноморец, В.А. Голощапова, А.Н. Заливин // Научные ведомости Белгородского государственного университета № 15 (158) 2013, Выпуск 27/1. С.128-134.

Список литературы

INFORMATION SYSTEMS OF PROCESSING AND TEXT COMPRESSION

V.V. EFREMOV I.N. EFREMOVA V.V. SEREBROVSKY A.A. CHEREPANOV

Use of the productional direction of processing of the image for problems of compression of symbolical information and a technique for an assessment of a correctness of such systems of the produktion, raising safety of computing systems on investigated perspectives is considered.

Southwest State University

e-mail:

[email protected]

[email protected]

Key words: processing of symbolical information, compression of information, system of produktion.

i Надоели баннеры? Вы всегда можете отключить рекламу.