SCIENCE TIME
РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИИ НА ОСНОВЕ ПЕРСЕПТРОНА
Горин Вадим Владимирович, Новосибирский государственный университет экономики и управления
E-mail: [email protected]
Аннотация. В статье рассмотрена проблема распознавания изображений на основе простой модели искусственной нейронной сети -персептрона Розенблатта. Приведены результаты распознавания изображений букв алфавита при использовании гладкой, дифференцируемой функции активации при обучении персептрона.
Ключевые слова: искусственные нейронные сети, распознавание изображений, персептрон, нейрон.
Искусственные нейронные сети (ИНС) используются для решения различных задач, например, распознавания изображений [1-2], оценке и классификации земель [3-5], прогнозировании, управлении динамическими процессами.
К настоящему времени разработано большое разнообразие алгоритмов распознавания изображений. Одним из первых алгоритмов, используемых для этих целей является персептрон, который обучил в 1957г. американский ученый Фрэнк Розенблатт. Эта простая модель ИНС основана на работе нейрона У МакКаллока и В. Питса. Ученые опубликовали статью в 1943 г., в которой изложили модель искусственного нейрона как некоторого абстрактного устройства, функционирующего по принципу биологического нейрона. В своей работе авторы обобщили результаты пятилетних исследований ученых Чикагского университета (США) в области нейромоделирования и описали логику вычислений на основе подходов нейрофизиологии и математического аппарата [1]. Система обработки информации состояла из простых вычислителей, каждый элемент имел входы и выходы (рис.1).
SCIENCE TIME
Рис. 1 Модель нейрона Мак-Калокка-Питса
Входные сигналы хг (1=1,2,3,...К) суммируются с учетом соответствующих весов синаптических связей wiJ■ в сумматоре:
п
5 = Х + , (1)
1=1
Положительные значения wiJ■ соответствуют возбуждающим синапсам, а отрицательные - тормозящим, при wiJ■=0 связь между г-м и у-м нейронами отсутствует. Результат работы сети или выходной сигнал нейрона уг рассчитывается по формуле:
п
У = / (Е + ^ о) , (2)
]=1
В модели МакКаллока-Питса используется простая - пороговая функция активации, когда нейрон имеет определенное значение порога и выходной сигнал уу нейрона рассчитывается в соответствии с формулой:
Го,5 < 0
У = /(5) = 11 0, (3)
[1,5 > 0
Если сумма больше заданного порогового уровня, то выход равен единице, в противном случае - нулю. Поэтому нейрон считается бинарным элементом. При этом значение 1 соответствует превышению порога возбуждения нейрона, а значение 0 - возбуждению нейрона ниже порогового уровня. Поэтому модель нейрона МакКаллока-Питса является дискретной моделью, когда состояние нейрона в момент времени (1+1) рассчитывается по значениям его входных сигналов в предыдущий момент времени (1) определяется влиянием остальных
нейронов как взвешенная линейная комбинация ^
Дискретная модель нейрона, функционирующая по правилу «все или ничего» основана на рефракции биологических нейронов и заключается в
i=1
10 9
SCIENCE TIME
возможности изменять свое состояние с конечной частотой. При этом длительность периодов воздействия на нейроны зависит от частоты срабатывания.
Персептрон Розеблатта был смоделирован на компьютере IBM 704, первом нейрокомпьютере Mark-1 в Корнелльской университете в лаборатории аэронавтики и использовался для распознавания изображений. Первоначально персептрон был способен распознавать отдельные буквы английского алфавита.
В настоящей работе приведен пример работы программы по распознаванию отдельных букв русского алфавита при использовании персептрона (рис.2).
Рис. 2 Пример работы программы по распознаванию изображений на основе персептрона (для искаженного изображения)
Несмотря на свою простоту, персептрон способен обучаться и решать довольно сложные задачи. Однако нейронная сеть такого типа имеет существенное ограничение, описанное в работе М. Минского и С. Пайперта, и состоит в неспособности нейрона решать логическую задачу «исключающее или» (рис.3, табл.1).
*2
Рис. 3 Линейная неразделимость функции «исключающего или» (XOR)
Таблица 1
Входные данные и значения функции «Исключающее ИЛИ»
Точки Значения входов Значение выхода
х1 х2 У
А1 0 0 0
А2 1 1 0
В1 1 0 1
В2 0 1 1
Множество решений сети нельзя разделить на два класса для операции «исключающее ИЛИ» (рис.3). Если размерность входного сигнала п=3, то разделяющей поверхностью является плоскость, при п>3 разделяющей поверхностью является гиперплоскость. В многомерных случаях, персептроны оказываются не способны разделить пространство плоскостью, или гиперплоскостью и поэтому используется для классификации линейно-разделимых сигналов. Геометрическая интерпретация задачи обучения персептрона приведена на рис.4.
Гранина решений
Гранина решении
Рис. 4 Граница решений для линейно-разделимых и нелинейно-разделимых классов сигналов
Пусть имеется обучающий набор 2-х компонентных входных векторов х= (х\, х2). Каждый вектор принадлежит к одному из двух классов С1 или С2. При обучении нейрон строит на плоскость прямую (для случая п-мерного пространства нейрон строит гиперплоскость). При обучении нейрона входные векторы будут отнесены в конкретную полуплоскость. При этом вид прямой будет зависеть от настраиваемых значений весовых коэффициентов wiJ■ и порога w0 . Эффективность метода обучения при большом количестве обучающих выборок небольшая, длительность обучения быстро возрастает. С выходом работы М. Минского и С. Пайперта в литературе [1-2] связывают потерю
SCIENCE TIME
интереса к нейронным сетям, длившуюся вплоть до середины 1980-х годов.
Для устранения недостатков можно использовать непрерывную функцию активации, как в сигмоидальном нейроне. В этом случае ошибка распознавания уменьшается (рис.5, рис.6).
Рис. 5 Результат распознавания буквы с использование сигмоидальной функции
активации (для эталонного изображения)
Рис. 6 Результат распознавания буквы с использование сигмоидальной функции
активации (для искаженного изображения)
Одним из недостатков персептрона, предложенного Розенблаттом является использование пороговой функции активации. На практике искаженное изображение недостаточно точно распознаваться при использовании простых функций активации, когда результат обучения сети выдается в виде только 0 или 1. При использовании нелинейной функции активации невозможно учесть
SCIENCE TIME
информацию об изменении значения yt (т.е. величину производной), т.к. обучение персептрона производится по методу безградиентной оптимизации. Поэтому гладкие функции такие, как сигмоидальная и гиперболический тангенс позволяют снять ряд ограничений персептрона.
Литература:
1. Хайкин С. Нейронные сети: полный курс = Neural Networks: A Comprehensive Foundation. - М.: Вильямс, 2006. - 1104 с.
2. Осовский С. Нейронные сети для обработки информации. - Москва : Финансы и статистика, 2004. - 343 с.
3. Павлова А.И., Каличкин В.К. Автоматизированное картографирование сельскохозяйственных земель с помощью нейронной экспертной системы, интегрированной с ГИС // Достижения науки и техники АПК. - 2011. - № 1. - С.
4. Павлова А.И., Каличкин В.К. Картографирование эрозионных земель с помощью ГИС и нейронной экспертной системы // Интерэкспо Гео-Сибирь. -Новосибирск: СГГА, 2013. - Т.3. - №4. - С. 170 - 173.
5. Павлова А. И. Применение нейронной экспертной системы и ГИС для классификации эрозионных земель // Современные информационные технологии и ИТ-образование / Сборник избранных трудов IX Международной научно-практической конференции под ред. проф. В.А. Сухомлина. - М.: ИНТУИТ.РУ, 2014. - № 10. - С.312-319.
5 - 8.