ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И СИСТЕМЫ
УДК 004.932.2
А. С. Потапов
Санкт-Петербургский государственный университет информационных технологий, механики и оптики
ВЫБОР ПРЕДСТАВЛЕНИЙ ИЗОБРАЖЕНИЙ НА ОСНОВЕ МИНИМИЗАЦИИ РЕПРЕЗЕНТАЦИОННОЙ ДЛИНЫ
ИХ ОПИСАНИЯ
Для принципа выбора модели данных путем минимизации длины их описания, использующегося в целях определения критерия качества моделей, предложено уточнение — принцип репрезентационной минимальной длины описания для построения методов интерпретации изображений и исследования их представлений.
Введение. Одна из основных задач компьютерного зрения заключается в создании теоретически обоснованного подхода к синтезу методов обработки и распознавания изображений для решения возникающих в данной области задач [1], как правило, плохо формализуемых. Для исследования задач анализа изображений и распознавания образов необходимо привести их к единой формулировке.
Методы анализа изображений и распознавания образов характеризуются используемым представлением изображений и критерием, в соответствии с которым осуществляется выбор их моделей. Это характерно и для общей задачи индуктивного вывода.
Наиболее широко задачу индуктивного вывода можно определить как проблему выбора такой модели из некоторого множества, которая наилучшим образом описывает исходные данные [2], что формально выражается следующим образом. Пусть задан элемент d некоторого множества А, где d трактуется как набор исходных данных, и задано множество Н, которое трактуется как множество моделей (или гипотез о содержании данных d). Пусть задана
*
также функция r: АхН^R, называемая критерием качества модели. Требуется найти h eH,
такое что r(d, h*) максимально, т.е. h = argmax r(d, h) .
heH
Любой алгоритм анализа изображений или распознавания образов можно трактовать как алгоритм, осуществляющий индуктивный вывод (при этом выбор модели изображения будем называть его интерпретацией). Однако основной вопрос заключается в том, каким образом выбирается само пространство Н и критерий качества r (d, h).
Одним из наиболее широко распространенных подходов к заданию критерия качества является байесовский подход [3]. При его реализации выявляется проблема определения априорных вероятностей [4], связанная с произвольностью их задания. Эта проблема решается с привлечением принципа выбора модели данных путем минимизации длины их описания (далее — принцип
МДО) [5], который активно используется в последние годы [6]. При этом считается, что принцип МДО предпочтителен по сравнению с правилом Байеса. Однако реализация данного принципа не решает вторую проблему синтеза методов анализа изображений — проблему выбора представления изображений. Вследствие этого в известных методах анализа используются эвристически введенные схемы кодирования изображений, служащие для оценки длин их описания.
В настоящей статье обсуждаются причины, по которым применение принципа МДО к задачам анализа изображений ограничено, и предлагается принцип репрезентационной МДО, позволяющий решить две проблемы: выбор представления и задание адекватного критерия. В результате возможно строго сформулировать проблему выбора представления изображений и ввести корректный критерий качества представлений.
Принцип МДО. Формально принцип МДО вводится следующим образом. Пусть U — универсальная машина Тьюринга (УМТ). Алгоритмическая сложность строки ß определяется как KU (ß) = min[/(a)|U (а) = ß], где l (а) — длина программы а. Индекс U далее опустим
а
для упрощения записи формул. Программа УМТ играет роль модели источника данных ß .
Строку а удобно представить конкатенацией двух строк: а = |5, где | интерпретируется как программа (модель или регулярная составляющая), а 5 — как данные к этой программе (случайная составляющая). Тогда
K(ß) = min [(|д)+1(5) | U(|5) = ß] = min (/(|д)+min [l(5)| U(|5) = ß]j = min [(|д)+K(ß | |д)], (1)
д5 | I 5 ) |
где K (ß 11) — условная алгоритмическая сложность строки ß при данном значении |, l(|) — длина описания модели | .
Выбор модели в рамках данного подхода осуществляется путем обращения задачи оптимального кодирования [7]: в шенноновской теории на основе модели источника сообщений выводились оптимальные коды, здесь же наилучшая модель определяется как модель, обеспечивающая оптимальное кодирование:
= arg min [K(ß 11)+1(|)]. (2)
Отсюда следует принцип МДО [5]: наилучшей является модель, которая позволяет минимизировать сумму длины описания модели l (|) и длины описания данных в рамках модели K (ß 11) .
Выбор модели на основе принципа МДО соответствует задаче индуктивного вывода, в которой используются следующие обозначения: d = ß, h = |, r(d, h) = -(K(ß 11)+1(|)), пространство моделей H — множество программ УМТ.
Принцип репрезентационной МДО. Если некоторый метод анализа изображений применяется независимым образом к каждому изображению, выбор УМТ может существенно повлиять на результат выбора модели, причем обоснование использования конкретной УМТ отсутствует. Иными словами, критерий (2) не обеспечивает возможности выбора действительно лучшей модели. Обоснуем это утверждение, для чего рассмотрим два случая: совместное описание набора изображений и их независимое описание (именно этот случай характерен для условий функционирования оптико-электронных приборов).
Пусть заданы две УМТ: U и V, а также строка v, такая что Уа U(уа) = V(а). Известно, что строка v существует для любых U и V. Обозначим ее длину l(v) = C. Рассмотрим случай
совместного описания n изображений: f1, ..., fn . При = arg min (l(|)| f1...fn = V(|)) получим
*
Ku(fi ..fn)-1(v| ) = Kv(f\...fn)+C, где fj...fn — конкатенция п изображений. Аналогично
можно установить, что Ку (/1.../п)<Ки(/¡.../п)+С', т.е. алгоритмическая сложность п изображений при использовании УМТ и и У отличается не больше, чем на константу, не зависящую ни от содержания изображений, ни от их числа.
Как правило, алгоритмическая сложность возрастает с увеличением длины строки, поэтому при увеличении п относительное различие между Ки (/1.../п ) и Ку (/.../п ) будет стремиться к нулю и им можно пренебречь. Выбор конкретной УМТ мало влияет на значение критерия качества при совместной интерпретации большого числа изображений. При этом подразумевается, что вся имеющаяся информация подается на вход системы индуктивного вывода, а априорная информация, как таковая, отсутствует [8]. Именно в этих условиях критерий (2) корректен.
Однако ситуация меняется, если описание изображений осуществляется независимо.
п п
Тогда ^ Ки (/ ) Ку (/ )+пС . Разница между суммарными длинами описания для двух
Ы I =1
различных УМТ будет возрастать с увеличением числа изображений. Таким образом, аргумент, используемый для обоснования предположения об индифферентности выбора УМТ, оказывается ложным.
Отсюда становится понятно, почему при практическом применении принципа МДО в задачах анализа изображений вместо универсального пространства моделей, задаваемого некоторой УМТ, используются эвристические схемы кодирования: выбор той или иной схемы кодирования действительно существенным образом влияет на критерий качества модели, а значит, и на эффективность соответствующего метода анализа.
Поскольку формальное выражение (2) принципа МДО оказывается неприемлемым в реальных условиях, а эвристическое задание схем кодирования плохо обосновано с теоретической точки зрения, требуется расширить содержание принципа МДО, объединив в нем теоретический и практический аспекты. При этом ключевым фактором является описание изображений независимым образом. Поскольку изображения содержат некоторую взаимную информацию, она повторяться в каждом независимом описании. Именно эта общая информация и фиксируется в эвристических схемах кодирования, хотя осуществляется эта операция зачастую неявным образом. Для ее формализации введем следующее определение.
Определение. Программу £ для УМТ и будем называть представлением для мно-
* *
жества изображений ^ = { £1,..., /п}, если V/ е ¥, Зц, 5е{0,1} и (£ц5) = /, где {0,1} — множество битовых строк произвольной длины. Строку ц5 будем называть описанием изображения / в рамках представления £.
Вернемся к задаче независимого описания п изображений /1,..., /п . Предполагая, что для всех п изображений используется одно представление £, и руководствуясь принципом МДО, можно получить для них следующее выражение, характеризующее минимальную длину описания:
(
X = min
Л
Viи (£ щ 5;) = /
у
{ } /(£)+£/(цД)
£ А}г=1 V 1=1
Отсюда получаем выражение для оптимальных элементов общего описания:
( п
|= ш^т 1 (£)1 (щ 5г) £ { А} V ;=1 Выражение (3) преобразуется к виду
Л
Viи (£ щ 5;) = /
(3)
(4)
( п \
X = ш1п
5
7(5)ш1п((5,-5,) = £) = ш1п /(5)+^К(£.\5)
Г и Л
5
5=1
,-=1 м
Условную алгоритмическую сложность изображения / при данном представлении 5 — К (£ \ 5) — обозначим через (£) и будем называть минимальной длиной описания изображения £ в рамках представления Отсюда следует, что задача оптимизации (4) разбивается на две части: поиск наилучшего описания изображения в рамках заданного представления и поиск наилучшего представления для заданного набора изображений. Это позволяет ввести следующий принцип репрезентационной МДО (РМДО) как уточнение принципа МДО для задачи анализа изображений.
1) Наилучшей моделью м изображения £ в рамках представления 5 является модель, для которой достигается минимум суммы длины описания модели / (м) и длины описания изображения в рамках модели К5 (£ \ м).
Критерий качества и лучшая модель при этом определяются выражениями
*
^(£, М) = К5(£ \ М)+7(М), М = агБш1п (£, м).
м
2) Лучшим представлением 5 для данной выборки изображений Е = {£1,..., £п} является представление, для которого минимизируется сумма длины представления /(5) и суммы длин
п
описаний изображений в рамках представления V К(£- \ 5).
,=1
Критерий качества и лучшее представление определяются как
ЦЕ, 5)=/(5)+£ К05! , (5)
,=1
5 = аг§шт ДЕ, 5).
5
Утверждение 1. Для любых УМТ и, V и для любого представления 5 для УМТ и существует представление Т для УМТ V, такое что У£ ^ (£ \ Т) = Ки (£ \ 5).
Доказательство. Пусть имеется строка и, такая что Уа V (иа) = и (а) . Построим новое представление Т = и5. Очевидно, что Уа V(Та)^(и5а) = и(5а), откуда
^ (£ \ Т) = ш1п[/(а) \ V (Та) = £ ] = ш1п[/(а) \ и (5 а) = £ ] = Ки(£ \ 5). ■
а а
Следовательно, принцип РМДО, в отличие от принципа МДО, позволяет конструировать такой критерий выбора описания изображений при разработке методов их интерпретации, который действительно не зависит от выбора УМТ. Построение описания зависит не от выбранного формализма УМТ, а от представления 5 изображений. Это позволяет абстрагироваться от того, в рамках какой комбинаторной системы функционирует данное представление, коль скоро в рамках любой другой комбинаторной системы можно найти эквивалентное представление.
Утверждение 2. Если 5 — оптимальное представление для выборки изображений Е, минимизирующее критерий (5), то верно неравенство К5 (£) < К(£), где К5 (£) = -¡7^ V К5 (£) и
\П\ £еЕ
1
К(£)=Е V К(£) — средние значения.
I £ еЕ
Доказательство. Рассмотрим пустое представление Л, для которого L(F, Л) = = l(Л) + £ K(f | Л) = £ K(f) . Поскольку для S достигается минимум критерия (5), то
feF feF
L( F, Л) > L(F, S). Следовательно, £ K (f ) = L( F, Л) > L( F, S) = l(S) + £ K5 (f) > £ K5 (f) и
f eF feF feF
Ks (f) < K(f) . Неравенство является строгим при l(S) > 0 . ■
Как видно из этого утверждения, принцип РМДО по сравнению с исходным принципом МДО позволяет не только избежать зависимости критерия качества от выбранного формализма, но и повысить в среднем эффективность алгоритмов интерпретации изображений при независимом их описании (уменьшить общую длину описания).
Проведенный анализ показывает, что принцип РМДО может использоваться для задания критерия выбора из множества представлений, которые ранее вводились эвристически, а также для теоретического исследования проблемы выбора представления (к примеру, для установления зависимости представления от предметной области, связей между представлениями, построенными для более узких и более широких предметных областей, и т.д.). Однако эти вопросы требуют отдельного рассмотрения. Примеры практического применения принципа РМДО к проблеме выбора представления изображений приведены в статье, запланированной к публикации в одном из последующих номеров журнала.
СПИСОК ЛИТЕРАТУРЫ
1. Фурман Я. А., Кревецкий А. В., Передреев А. К. и др. Введение в контурный анализ и его приложения к обработке изображений и сигналов / Под ред. Я. А. Фурмана. М.: ФИЗМАТЛИТ, 2002.
2. Baxter R. A. Minimum message length inference: Theory and applications // PhD Thesis. Monash Univ. Clayton, Australia, 1996.
3. Kopparapu S. K., Desai U. B. Bayesian approach to image interpretation // The Springer Intern. Series in Engineering and Computer Science. 2001. Vol. 616.
4. LiM., Vitanyi P. Philosophical issues in Kolmogorov complexity // Proc. ICALP'92, Invited Lecture. 1992. P. 1—15.
5. Vitanyi P., Li M. Minimum description length induction, Bayesianism, and Kolmogorov complexity // IEEE Trans. on Information Theory. 2000. Vol. 46, N 2. P. 446—464.
6. Потапов А. С. Распознавание образов и машинное восприятие: общий подход на основе принципа минимальной длины описания. СПб.: Политехника, 2007.
7. Solomonoff R. The discovery of algorithmic probability // J. of Computer and System Sciences. 1997. Vol. 55, N 1. P. 73—88.
8. SolomonoffR. The universal distribution and machine learning // The Computer J. 2003. Vol. 46. P. 598—601.
Рекомендована кафедрой Поступила в редакцию
компьютерной фотоники 26.02.08 г.