Применение модели память-предсказание к решению задачи распознавания образов

Болотова Юлия Александровна; Спицын Владимир Григорьевич

ПРИМЕНЕНИЕ МОДЕЛИ "ПАМЯТЬ-ПРЕДСКАЗАНИЕ" К РЕШЕНИЮ ЗАДАЧИ РАСПОЗНАВАНИЯ ОБРАЗОВ

Ю. А. Болотова, В. Г. Спицын, А. Э. Фомин

Институт кибернетики Национального исследовательского Томского политехнического университета, 634034, Томск, Россия

УДК 004.931

Предложена система распознавания образов с использованием модели память-предсказаниеание, разработанной в Редвудском институте нейробиологии как новый подход к созданию искусственного интеллекта, основанный на структуре и принципах функционирования мозга млекопитающих. Модель имитирует работу органов чувств человека и может быть использована для решения задач распознавания образов, речи и прогнозирования.

Ключевые слова: иерархическая временная память, распознавание образов, паттерны, ней-росети.

This paper describes the Hierarchical temporal memory model. This model is based on hierarchical architecture of mammal's brain and allows using temporal component in artificial vision process. The model could be used for pattern and speech recognition and also for such tasks as forecasting. Article investigates abilities of the model in the area of pattern recognition.

Key words: hierarchical temporal model, pattern recognition, learning sample, neuronets.

В настоящее время при решении задачи распознавания образов используется активно развивающийся подход - нейронные сети, широкое распространение которого объясняется структурным сходством нейронных сетей с головным мозгом. Этот подход открыл новые возможности для создания искусственного интеллекта, однако достигнутые результаты все еще очень далеки от реальной работы человеческого мозга. Модель память-предсказаниеание, разработанная американскими учеными-нейрофизиологами [1], имеет не только структурное, но и функциональное сходство с работой головного мозга человека. По сути, модель является синтезом нейронных сетей, сетей Байеса и цепей Маркова.

В основе модели лежат два принципа, характерных для человеческого зрения в процессе обучения и восприятия изображений: учет временной составляющей в функции зрения и иерархичность процесса восприятия [2]. Целью настоящей работы являются анализ модели и реализация системы распознавания образов на ее основе.

Структура системы. Система организована в виде иерархической сети, включающей несколько уровней (рис. 1). Каждый уровень состоит из набора узлов. Узлы одного уровня не связаны между собой, каждый узел последующего уровня получает информацию с нескольких узлов предыдущего уровня, за счет чего область рецептивного поля узлов увеличивается с увеличением номера уровня.

Узлы могут находиться в двух состояниях: обучения и тестирования. Оба этапа начинаются с разбиения входного изображения на равные подобласти. В каждой подобласти формируется вектор признаков, который передается в определенный узел первого уровня. При работе с бинарными изображениями вектор представляет собой значения пикселей, при анализе полутоновых изображений - значения фильтров Габора. В узле проводится анализ вектора признаков, результаты которого передаются на следующий, более высокий уровень. На рис. 1 представлена сеть, включающая три уровня. Вектор признаков

Структура узла. Основной особенностью Рис. 1. Структура модели

модели является включение временной составляющей в процесс обучения и тестирования сети. Обязательным условием является представление входной информации (независимо от уровня иерархии) в виде последовательности равномерно смещающихся объектов. Модель была обучена на видеопоследовательностях, полученных горизонтальным, вертикальным и спиральным смещением объекта. Лучшие результаты получены при спиральном смещении [3].

На этапе обучения в узле сохраняются уникальные входные векторы X" (пространственные центры), содержащие информацию о пространственном расположении пикселей внутри рецептивного поля узла. Затем отслеживается частота следования пространственных центров друг за другом. Центры с наибольшей частотой следования объединяются во временные группы. Связь пространственного центра ег с временной группой gj сохраняется в матрице РСО[г^ [4]. Таким образом, в каждом узле содержатся:

- множество С пространственных центров ег, г = 1,...,ис;

- множество G временных групп gj■, j = 1,...,^;

- матрица РСО размером пе х п^

На этапе распознавания в узле выполняются две

операции: анализ пространственного расположения элементов изображения и проверка инвариантности к смещению. Пространственный анализ осуществляется выбором пространственного центра, соответствующего входному вектору. Проверка инвариантности предполагает выбор временной группы, в которую входит выбранный пространственный центр (рис. 2).

Х+

РСв

Матрица

Я,

Временные группы

У

Пространственные центры

К

Рис. 2. Пример узла первого уровня

Пространственный анализ входных векторов. Пространственный анализ необходим для фильтрации и компрессии входных данных и их первичного обобщения. При обучении сети в узлах сохраняются уникальные входные векторы. Размерность пространственных центров зависит от номера уровня. Для узлов входного уровня размерность пространственных центров равна размерности входного вектора. При поступлении очередного вектора на вход происходит его сопоставление с уже сохраненными пространственными центрами (паттернами) по формуле

Р = а2,

где Ф - евклидово расстояние между входным вектором и ¡-м паттерном; а - параметр, характеризующий степень вариации от центра квантизации (пропорционален степени зашумления выборки).

Для узлов остальных уровней каждый элемент паттерна сг[] является индексом временной группы-победителя в дочернем узле сЫ1ф(Ы). Таким образом, размерность паттернов равна количеству дочерних узлов данного узла. Например, если узел N принимает на вход вектор из четырех дочерних узлов, то его пространственный центр может иметь вид ^=[5, 3, 1, 1]. Здесь 5, 3, 1, 1 - номера групп-победителей в соответствующих дочерних узлах сИШ^ сЫШ2, сЫШ3, сЫЫ4 [5].

Временной анализ входных векторов. Даже незначительное смещение объекта на изображении приводит к существенным изменениям пространственного расположения его пикселей. Временной анализ необходим для того, чтобы достичь инвариантности к смещению объектов. Временная группа представляет собой подмножество пространственных центров, которые часто следуют друг за другом и, следовательно, относятся к одному и тому же объекту (рис. 3).

Матрица РСО размерности пё х пс представляет собой матрицу соответствия пространственных центров временным группам. Элемент PCG[/,/] = Р(с^) определяет условную вероятность принадлежности сг группе gj. РСО нормируется по группам gj [6]:

ТР(с>& ) = 1.

г=1

Метрика объединения центров в группы. Пусть g1,...,gn - набор временных групп, с1,...,с3 - множество пространственных центров. Степень связанности центров внутри группы gj определяется по формуле

с = ~~2 ЕЕ Т (к, т),

П1 к^г т

где пг - число пространственных паттернов в группе к - текущий паттерн в момент времени I - 1; т - текущий паттерн в момент времени Т(к,т) - число следований паттернов к и т друг за другом.

Чем большее количество раз будет появляться та или иная последовательность внутри кластера, тем больше будет значение 1с. Таким образом, имеем целевую функцию

1 ^

з (О) = — Е с gk).

ng к=1

Необходимо создать набор временных групп {0}г=1,..,п, при котором целевая функция принимает максимальное значение [3].

а

б

ННВЕЕИ ШЕ

□ЕЕНШП

ан

□□□

8б: шва 87:шсваа

аши

ЛЕЕ

г 10: ИНН ,11: ша

812:Ш

нааншщвнн нннненснна] няиаввшавя

тгтпнпппнги

аввваанаши □ппЕппяааш

вяввнниннв

□□□ИШШЕЕНИ

□пшанаавнн

ЕЕЕЕЕИВНПП ШкПИНПИГДНПН

□□аааагоян пшшпшл

81 82 §3 §4 §5

88 е9

Рис. 3. Узел первого уровня: а - пример пространственных паттернов; б - пример разбиения пространственных центров на временные группы gl + g12 Режим тестирования. После того как все уровни сети были последовательно обучены, начинается процесс тестирования. Тестовое изображение разбивается на подобласти. Из каждой подобласти формируется вектор признаков X, который подается на вход узлов первого уровня. Внутри узла рассчитывается вероятность совпадения входного вектора с существующими пространственными центрами у[/]. Интуитивно у[/] может быть представлен как уровень активации соответствующего пространственного центра для данного входного вектора. Вид формулы для расчета у зависит от номера уровня. Для узлов первого уровня имеем

Г-н -IIС -Ц\2/ у[/] = е 11' 11 ,

для узлов других уровней входной вектор представляет собой распределение вероятностей между группами-победителями дочерних узлов

т

у[ ] = П^- V ]],

з=1

где т - количество дочерних узлов.

Найденный вектор у умножается на матрицу смежности Р(С\С) для получения выходного вектора распределения вероятности по временным группам Х+:

^ [ з ] = £ур ] РСО[1, з ].

I=1

н= т т I I н н Б Б г г Е Е □ Б Е

с п н □-П £ а а й й -сЭ -сЗ га 1 1

Рис. 4. Пример обучающей выборки

Р N (и 1 1 к К. 7 3 Г т 1 и н Б с Г

Г Е Е □ □ и с Я я о-о В-0 а а [1

й н 1=1 1=1 т г 1

Рис. 5. Примеры правильно классифицированных изображений Узлы верхнего уровня не содержат временных групп. В случае возникновения нового паттерна он автоматически добавляется в группу категории объекта. Таким образом, распределение вероятности по пространственным центрам верхнего уровня служит классификацией изображений по категориям [5].

Результаты тестирования системы. Лучшие результаты на цифровой выборке были получены в случае двухуровневой конфигурации сети: 64 узла на первом уровне, 1 узел на втором. Сеть была обучена на 10 категориях цифр с 30 изображениями для каждой категории. Из каждого изображения формируется видеопоследовательность, состоящая из 100 кадров. Обучающая выборка составляет 30 000 изображений. Вторая выборка [7] состоит из 90 категорий изображений с двумя изображениями для каждой категории, для каждого изображения также формируется видеопоследовательность, содержащая 100 кадров. Обучающая выборка составляет 18 000 изображений. Примеры тестовой и обучающей выборок приведены на рис. 4, 5.

Система была протестирована на 300 изображениях цифр. Для зашумленных и искаженных тестовых данных достигнута точность распознавания 97,7 %. Для тестирования картинок использовалось 100 изображений для 40 категорий объектов и 200 изображений для 90 категорий. Точность распознавания для тестовой выборки составила 53,8 и 47,8 % соответственно (см. таблицу).

Результаты распознавания цифр и картинок двухуровневой сетью НТМ

Тип изображений Время обучения, ч Время тестирования, ч Точность распознавания

в обучающей выборке, % в тестовой выборке, %

Цифры 00:12:09 00:02:30 100 97,7

Картинки (40 категорий) 00:01:18 00:00:11 100 53,8

Картинки (90 категорий) 00:07:58 00:00:59 100 47,8

Снижение точности при распознавании картинок можно объяснить малым количеством обучающих данных, представленных только в двух вариантах масштаба.

В результате работы реализована модель память-предсказаниеание в виде двухуровневой сети. Сеть апробирована на задаче распознавания цифр и картинок. Результаты, полученные на широко представленной выборке цифр, оказались положительными (точность распознавания -97,9 %). Обнаружено, что устойчивость сети зависит от качества и разнообразия представленных для обучения изображений: чем больше и обширнее выборка, тем точнее результат распознавания.

На следующем этапе работы предполагается повысить точность распознавания за счет введения в сеть обратной связи, а также саккадных движений.

Список литературы

1. HAWKINS J. On intelligence / J. Hawkins, S. Blakeslee. N.Y.: Times Books, 2004. 272 с.

2. WOLPERT D. The lack of a priori distinctions between learning algorithms // Neural Comput. 1996. V. 8, N 7. P. 1341-1390.

3. БОЛОТОВА Ю. А., СПИЦЫН В. Г., ФОМИН А. Э. Анализ и оптимизация модели HTM для распознавания цифр / // 17-й Междунар. симп. "Оптика атмосферы и океана. Физика атмосферы": Сб. тр. [Электрон. ресурс]. Томск: ИОА СО РАН, 2011. 1 электр.-опт. диск CD-ROM.

4. DILEEP G., GEORGE D., Jaros B. The HTM learning algorithms / // http://www.numenta.com: сайт компании Нумента. 2006. http://numenta.com/htm-overview/education/ Numenta_HTM_Learning_Algos.pdf.

5. MALTONI D. Pattern recognition by hierarchical temporal memory: DEIS Techn. rep. // http://bias.csr.unibo.it: сайт Болонского университета. 2011. http://bias.csr.unibo.it/maltoni/-HTM_TR_v10.pdf.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. HAWKINS J., GEORGE D. Temporal memory concepts, theory, and terminology http://www.numenta.com: сайт компании Нумента. 2006. http://numenta.com/htm-overview /education/Numenta_HTM_Concepts.pdf.

7. DILEEP G. How the brain might work: A hierarchical and temporal model for learning and recognition numenta.com: сайт компании Нумента. 2007. http://www.numenta.com/htm_overview/education /DileepThesis.pdf.

Болотова Юлия Александровна - асп. Института кибернетики Томского политехнического университета; тел. (382-2) 70-16-09; e-mail: [email protected];

Спицын Владимир Григорьевич - д-р техн. наук, проф. Института кибернетики Томского политехнического университета; тел. (382-2) 70-16-09; e-mail: [email protected]

Фомин Арсений Эдуардович - асп. Института Кибернетики Томского политехнического университета, e-mail: [email protected]

Дата поступления - 31.10.11

Применение модели память-предсказание к решению задачи распознавания образов Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Болотова Юлия Александровна, Спицын Владимир Григорьевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Болотова Юлия Александровна, Спицын Владимир Григорьевич

Текст научной работы на тему «Применение модели память-предсказание к решению задачи распознавания образов»