Научная статья на тему 'Использование ассоциативных правил для восстановления зашумленных изображений'

Использование ассоциативных правил для восстановления зашумленных изображений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
253
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АССОЦИАТИВНЫЕ ПРАВИЛА / ВОССТАНОВЛЕНИЕ ДАННЫХ / ASSOCIATION RULES / DATA RECOVERY / DATA MINING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Белим С. В., Майоров-зильбернагель А. О., Селиверстов С. А.

Предложен алгоритм выявления и исправления случайных точечных дефектов изображений, основанный на построении ассоциативных правил. Рассматриваются точечные дефекты, возникающие вследствие гауссова шума. В качестве транзакций рассматриваются различные неиспорченные части изображения. Предложено два алгоритма. Первый алгоритм позволяет восстанавливать изображение по известной матрице повреждений. Компьютерный эксперимент показал, что эффективность данного алгоритма составляет около 95 %. Второй алгоритм позволяет выявлять точечные дефекты. Эффективность выявления дефектов около 90 %. Ложные срабатывания составляют 5 %. Также предложена методика устранения обнаруженных шумов на основе ассоциативных правил, построенных по незашумленной части изображения

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Белим С. В., Майоров-зильбернагель А. О., Селиверстов С. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Using Association rules for restoration of noisy images

An algorithm for identifying and restoration of random point defect of images based on construction of association rules is suggested in the article. Point defects resulting from Gaussian noise is considered. Different safe parts of the image are considered as the transactions. We proposed two algorithms. The first algorithm allows restoring the image on the well-known damage matrix. Computer experiment showed that the effectiveness of the proposed algorithm is about 95 %. The second algorithm can detect the point defects. The effectiveness of defect detection is about 90 %. False operations are 5 %. Also, the technique of removing the detected noise on the basis of association rules, built on the part of noisy-free image is offered

Текст научной работы на тему «Использование ассоциативных правил для восстановления зашумленных изображений»

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Вестн. Ом. ун-та. 2013. № 4. С. 197-200. УДК 51(083)

С.В. Белим, А.О. Майоров-Зильбернагель, С.А. Селиверстов

ИСПОЛЬЗОВАНИЕ АССОЦИАТИВНЫХ ПРАВИЛ ДЛЯ ВОССТАНОВЛЕНИЯ ЗАШУМЛЕННЫХ ИЗОБРАЖЕНИЙ

Предложен алгоритм выявления и исправления случайных точечных дефектов изображений, основанный на построении ассоциативных правил. Рассматриваются точечные дефекты, возникающие вследствие гауссова шума. В качестве транзакций рассматриваются различные неиспорченные части изображения. Предложено два алгоритма. Первый алгоритм позволяет восстанавливать изображение по известной матрице повреждений. Компьютерный эксперимент показал, что эффективность данного алгоритма составляет около 95 %. Второй алгоритм позволяет выявлять точечные дефекты. Эффективность выявления дефектов - около 90 %. Ложные срабатывания составляют 5 %. Также предложена методика устранения обнаруженных шумов на основе ассоциативных правил, построенных по незашумленной части изображения.

Ключевые слова: ассоциативные правила, восстановление данных, Data mining.

Введение

Метод ассоциативных правил как один из инструментов интеллектуального анализа данных получил широкое распространение в экономических задачах [1]. Его основное преимущество состоит в возможности выявления логических связей между объектами по набору статистических данных. Отсюда вытекает его наиболее частое применение к планированию продаж товаров. В этом случае ассоциативные правила позволяют определить предпочтения покупателей в формировании набора товаров. В данной статье предлагается использование методов формирования ассоциативных правил для решения двух новых задач: выявления ошибочных данных в таблицах и заполнения пропущещенных данных в таблицах. В качестве таблиц выбраны растровые изображения.

Проблема восстановления пропущенных данных в таблицах может решаться на основе нескольких принципиально разных подходов. Однако во всех случаях алгоритмы опираются на предположение о наличии взаимосвязей между табличными элементами. В большинстве случаев данное предположение даже сужается до тезиса о локальной взаимосвязности элементов, т. е. требуется взаимосвязь только с ближайшими соседними ячейками.

Наиболее простым является правило заполнения пропущенных ячеек по средним [2]. Данный подход дает хорошие результаты на достаточно плавно изменяющихся данных. Применение метода «заполнение по регрессии» [3] существенно зависит от выбранной регрессионной модели. Метод сплайн-интерполяции [4] предполагает, что дискретные данные являются значениями непрерывной функции в некоторых точках. Данный метод дает хорошие результаты при достаточном большом удалении пропусков друг от друга. Использование методов факторного анализа [5] дает хорошие результаты, однако обладает высокой трудоемкостью, что накладывает серьезные требования на вычислительную базу. Кластерный анализ [6] по сравнению с предыдущими методами дает возможность выявить ситуацию, когда восстановление данных невозможно. Алгоритмы семейства ZET [7; 8] направлены на обработку экспериментальных данных и основываются на гипотезе об их избыточности. Широкое применение к данным задачам нашли и искусственные нейронные сети [9; 10].

© С.В. Белим, А.О. Майоров-Зильбернагель, С.А. Селиверстов, 2013

В качестве одного из видов таблиц могут быть рассмотрены растровые изображения. Пропуски в них могут возникать вследствие наличия шумов в сетях передачи данных. В этом случае задача заполнения пропусков осложняется необходимостью поиска пропущенных данных. Проблема подавления шума является одной из самых актуальных на сегодняшний день, поэтому разработано большое количество методов ее решения. Остановимся только на некоторых из них. В большинстве случаев устранение шума производится с помощью применения фильтров. Фильтр де Хаана [11] производит пересчет значения каждого пикселя на основе взвешенной суммы значений соседних пикселей. Широкое распространение нашли фильтры с использованием направленных вейвлетов [12; 13]. Также широко применяется метод главных компонент [14], позволяющий выделить основную структуру не-зашумленных данных.

Целью данной статьи ставится построение алгоритма выявления одиночных ошибочных данных в таблицах и их заполнения на основе методов построения ассоциативных правил, а также тестирование предложенных методов для восстановления за-шумленных изображений.

Алгоритм устранения точечных дефектов

Будем считать, что изображение задано в виде таблицы размером М*М в ячейках которой расположены значения цветов соответствующих пикселей. В этом случае испорченные пиксели можно смоделировать как незаполненные ячейки таблицы. В этом разделе будем исходить из предположения, что нам известны координаты испорченых пикселей, которые хранятся в некоторой структуре данных. Задача выявления ис-порченых пикселей сама по себе достаточно сложная, и один из способов ее решения будет предложен в следующем разделе этой статьи. В этом же разделе будем считать, что положение дефектов известно.

Для применения методики построения ассоциативных правил необходимо выделить транзакции, на основе которых будут формироваться ассоциативные правила. Будем обрабатывать каждый из испорченных пикселей отдельно. Также будем исходить из предположения о локальной взаимосвязи соседних пикселей. А именно: считаем, что цвет любого пикселя может быть определен из анализа соседних точек. Данное предположение оправдано для изображений, так как они строятся, как правило, из некоторых элементов, по размеру превосходящих один пиксель: линии, прямоугольные области и т. д. Поэтому в качестве транзакций выберем всевозможные наборы пикселей, находящиеся по вертикали и горизонтали. Длину набора будем обозначать к. То-

гда одна транзакция для данного пикселя есть набор из k-l, пикселей расположенных левее испорченного пикселя, и l пикселей, расположенных правее испорченного пикселя, либо из k-l пикселей, расположенных выше испорченного пикселя, и l пикселей, расположенных ниже испорченного пикселя (l пробегает значения от 0 до k). Таким образом для каждого пикселя строится k + 1 транзакция. Из полученных транзакций сформируем наборы из k пикселей, обозначаемые в дальнейшем F. Далее для каждого набора цветов пикселей Fi необходимо определить величину поддержки (support):

Supp(F) = D(F) / N1, где D(Fi) - количество транзакций, содержащих набор Fi; N1 - общее количество транзакций. В расматриваемом случае N = 2(k + 1). Из полученных наборов строим ассоциативные правила для каждого из встречающегося света пикселя cj в наборе Fi:

{Ci,C2,...,CH,C/+i,...,Ck} => Cj.

Для каждого из ассоциативных правил необходимо рассчитать величину, называемую достоверностью:

conf(Fi,Cj) = D(Fi) / DC), (j = 1,...,k), где D(Fi) - количество транзакций, содержащих набор Fi; D(cj) - количество транзакций, содержащих пиксель с цветом Cj. Достоверность лежит в интервале от 0 до 1.

Оставляя ассоциативные правила с поддержкой не ниже некоторого значения Supp_min мы выбираем наиболее часто встречающиеся сочетания цветов в области, окружающей испорченный пиксель. Из оставленных ассоциативных правил отбираем то, которое имеет наибольшую достоверность, считаем его наиболее вероятным. Заполняем испорченный пиксель цветом, присутствующим в качестве следствия в наиболее вероятном ассоциативном правиле.

Повторяем описанную выше процедуру для всех испорченных пикселей. Легко понять, что трудоемкость данного алгоритма -O(n), где n - количество поврежденных пикселей.

Алгоритм выявления точечных дефектов

Теперь применим методику построения ассоциативных правил для формирования списка испорченных пикселей. Будем исходить из предположения, что повреждения изображения точечные и распределены по изображению случайным образом. Цвет пикселей, поврежденных случайными шумами, также является случайной величиной. Исходя из этого предположения будем строить алгоритм выявления поврежденных пикселей. Неповрежденные точки образуют некоторые структуры на изображении, вследствие чего они взаимосвязаны друг с другом. Поврежденные же пиксели имеют

Использование ассоциативных правил для восстановления зашумленных изображений

199

случайный цвет и выпадают из общих закономерностей.

Будем анализировать последовательно все точки изображения. Как и в случае восстановления, описанном в предыдущем разделе, для каждого пикселя будем строить транзакции из окружающих его точек. Но в этом случае необходимо учитывать и сам пиксель, так как неизвестно, поврежден он или нет.

На первом шаге анализируем изображение в целом. Строим всевозможные транзакции из к точек, расположенных друг за другом по горизонтали или по вертикали.

Пошагово проходим все пиксели изображения. Для отдельно выбранного пикселя с цветом в] строим 2(к + 1) наборов из точек, расположенных выше, ниже, правее и левее выбранного пикселя. Строим ассоциативные правила вида

{вЪ02,...,СН,С/+1,...,вк} => в].

Для каждого из этих правил рассчитываем поддержку с учетом всех транзакций, сформированных для изображения в целом. Если поддержка оказывается ниже некоторого порогового значения Бо, то пиксель считается поврежденным. Для поврежденных пикселей используем алгоритм восстановления, описанный в предыдущем разделе.

Как видно из описания, в алгоритме присутствуют два параметра - к и Бо, которые задаются произвольно. Наилучшим способом их задания является компьютерный эксперимент, который необходимо проводить с учетом размеров и структуры изображения. Эти параметры нужно выбирать в каждом отдельном случае в зависимости от того, что важнее в каждом конкретном случае. Увеличение Бо приводит к более эффективному поиску испорченных пикселей, но и одновременно увеличивает количество ложных срабатываний. С параметром к ситуация еще более сложная. Его увеличение ведет прежде всего к увеличению скорости работы алгоритма. Кроме того, параметр к

должен выбираться с учетом характерных размеров деталей изображения.

Компьютерный эксперимент

Предложенные методы были апробированы с помощью компьютерного эксперимента. Растровое изображение зашумлялось с помощью генератора случайных чисел с равномерным распределением. Причем случайным образом выбиралось как положение точки, так и ее цвет. Уровень зашумленности составлял 10 %. Для размера транзакций было выбрано значение к = 5. Для порогового значения Бо = 0.2.

На рис. 1 представлены результаты обработки изображения по первому алгоритму с известной матрицей поврежденных пикселей.

Как видно из рисунка, алгоритм хорошо справляется с восстановлением испорченных пикселей, расположенных на больших одноцветных областях, и достаточно часто ошибается, если пиксель близок к резкой границе перехода между областями. Поточечное сравнение показало, что правильно восстанавливается в среднем 95 % пикселей.

Эффективность применения алгоритма поиска испорченных пикселей совместно с алгоритмом восстановления продемонстрирована на рис. 2.

Как и в предыдущем эксперименте, погрешности метода обнаруживаются в областях изображения с резкими переходами и наличием большого количества мелких деталей. Тогда как в областях с небольшим градиентом изменения цвета алгоритм демонстрирует приемлемые результаты. Численное сравнение показывает, что алгоритм верно идентифицирует 90 % поврежденных точек. Следует отметить, что присутствуют ложные срабатывания в объеме около 5 %, которые обусловлены наличием очень мелких деталей, которые алгоритм принимает за повреждения. Из найденных повреждений верно восстановлено также около 95 %.

V

а) б) в)

Рис. 1. Результат работы алгоритма по восстановлению пропущенных пикселей с известной матрицей повреждений

для искусственного изображения: а) исходное изображение; б) изображение, зашумленное на 10 %; в) восстановленное изображение

Рис. 2. Результат работы алгоритма по восстановлению пропущенных пикселей с известной матрицей повреждений

для фотографий:

а) исходное изображение; б) изображение, зашумленное на 10 %; в) восстановленное изображение

Выводы

Таким образом, алгоритмы поиска и восстановления поврежденных пикселей, предложенные в данной статье, на основе формирования ассоциативных правил дают достаточно хорошие результаты для несильно зашумленных изображений. Компьютерный эксперимент показал применимость предложенного подхода к реальным задачам. Предложенные алгоритмы могут использоваться как совместно, так и по отдельности.

ЛИТЕРАТУРА

[1] Agrawal R., Imieliñski T., Swami A. Mining association rules between sets of items in large databases // SIGMOD '93 Proceedings of the 1993 ACM SIGMOD international conference on Management of data. 1993. P. 207-216.

[2] Литл Р. Дж. А., Рубин Д.Б. Статистический анализ данных с пропусками. М. : Финансы и статистика, 1990.

[3] Демиденко Е. З. Линейная и нелинейная регрессия. М. : Финансы и статистика, 1981.

[4] Ларионов И. Б. Восстановление изображений при помощи многомерных линейных многообразий // Проблемы обработки и защиты информации. Кн. 2. Анализ графической и текстовой информации : коллективная монография / под общей ред. д-ра физ.-мат. наук. С. В. Белима. Омск : КАН, 2010. С. 43—57.

[5] Россиев А. А. Моделирование данных при помощи кривых для восстановления пробелов в таблицах. Методы нейроинформатики / под ред. А. Н. Горбаня. Красноярск : КГТУ, 1998.

[6] Двоенко С. Д. Неиерархичесий дивизимный алгоритм кластеризации // Автоматика и телемеханика. 1999. № 4. С. 117-124.

[7] Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск : Изд-во ин-та математики, 1999.

[8] Загоруйко Н. Г., Елкина В. Н., Тимеркаев В. С. Алгоритм заполнения пропусков в эмпирических таблицах (алгоритм Zet) // Эмпирическое предсказание и распознавание образов. Новосибирск, 1975. Вып. 61: Вычислительные системы. С. 3-27.

[9] Круглое В. В., Борисов В. В. Искусственные нейронные сети. Теория и практика. М. : Горячая линия - Телеком, 2002.

[10] Ларионов И. Б. Карты Кохонена как способ восстановления мультимедийной информации // Журнал радиоэлектроники. 2010. № 10. С. 29.

[11] De Haan G., Kwaaitaal-Spassova T.G., Ojo O.A. Automatic 2-D and 3-D noisefiltering for high-quality television receivers // International Workshop on HDTV. 1994. 4-B-2.

[12] Velisavijevic V., Beferuii-Lozano B., Vetterli M., Dragotti P. L. Discrete Multi-Directional Wavelet Bases // Proc. IEEE International Conference Of Image Processing (ICIP2003). 2003. P. 231-236.

[13] Fernandes F. C. A., Spaendonck R. L. van, Bur-rus C. S. A directional, shift-insensitive, low-redundancy, wavelet transform // Proc. IEEE International Conference Of Image Processing (ICIP2001). 2001. P. 178-191.

[14] Muresan D. D., Parks T. W. Adaptive principal components and image denoising // Proc. IEEE International Conference Of Image Processing (ICIP2003). 2003. P. 352-361.

i Надоели баннеры? Вы всегда можете отключить рекламу.