УДК: 621.317
DOI: 10.24412/2071-6168-2023-12-533-534
ОБОСНОВАНИЕ МЕТОДА РАСПОЗНАВАНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ КОНТРОЛЯ СОДЕРЖИМОГО ДАННЫХ О СОСТОЯНИИ ТЕХНИКИ СВЯЗИ СПЕЦИАЛЬНОГО НАЗНАЧЕНИЯ
Р.И. Кочубей, М.М. Бычковский, Н.Н. Зайкин, Е.В. Фатьянова, А.В. Свидло, О.В. Чуприков
В статье представлена классификация методов распознавания. Приведено обоснование выбранного метода распознавания для решения задачи контроля содержимого данных о состоянии техники связи специального назначения.
Ключевые слова: распознавание, экстенсиональные методы, интенсональные методы.
На сегодняшний день существуют достаточно большое количество различных типологий методов распознавания. Тем не менее, большинство из них не учитывает одну очень существенную характеристику, которая отражает специфику способа представления знаний о предметной области с помощью какого-либо формального алгоритма распознавания.
Используемая в [1] классификация методов распознавания образов предполагает три группы методов:
интенсональные методы, основанные на операциях с признаками;
экстенсиональные методы, основанные на операциях с объектами;
коллективы решающих правил.
Отличительной особенностью интенсиональных методов является то, что в качестве элементов операций при построении и применении алгоритмов распознавания образов они используют различные характеристики признаков и их связей. Такими элементами могут быть отдельные значения или интервалы значений признаков, средние величины и дисперсии, матрицы связей признаков и т.п., над которыми производятся действия. При этом сами объекты, подлежащие распознаванию, как целые информационные единицы в данных методах не рассматриваются, а выступают в роли индикаторов для оценки взаимодействия и поведения своих атрибутов.
В составе интенсиональных методов следует выделить следующие.
1. Методы, основанные на оценках плотностей распределения значений признаков.
Эти методы распознавания образов заимствованы из классической теории статистических решений, в которой объекты исследования рассматриваются как реализации многомерной случайной величины, распределенной в пространстве признаков по какому-либо закону. Они базируются на байесовской схеме принятия решений, апеллирующей к априорным вероятностям принадлежности объектов к тому или иному распознаваемому классу и условным плотностям распределений значений вектора признаков.
2. Методы, основанные на предположениях о классе решающих функций.
В данной группе методов считается известным общий вид решающей функции и задан функционал ее качества. На основании этого функционала по обучающей последовательности находят наилучшее приближение решающей функции. Функционал качества решающего правила обычно связывают с ошибкой классификации.
3. Логические методы.
Логические методы распознавания образов базируются на аппарате алгебры логики и позволяют оперировать информацией, заключенной не только в отдельных признаках, но и в сочетаниях значений признаков. В этих методах значения какого-либо признака рассматриваются как элементарные события. В общем виде логические методы можно охарактеризовать как разновидность поиска по обучающей выборке логических закономерностей и формирование некоторой системы логических решающих правил, каждое из которых имеет свой собственный вес.
4. Лингвистические (структурные) методы.
Данные методы основаны на использовании специальных грамматик, порождающих языки, с помощью которых может описываться совокупность свойств распознаваемых объектов. Для различных классов объектов выделяют атомарные элементы (признаки) и возможные отношения между ними. Грамматикой называют правила построения объектов из этих непроизводных элементов. Таким образом, каждый объект представляет собой совокупность производных элементов, соединенных между собой теми или иными способами, определенными грамматикой построения объектов. Путем синтаксического анализа объекта определяется его синтаксическая правильность или, что эквивалентно, может ли некоторая фиксированная грамматика, описывающая класс, породить имеющееся описание объекта.
В группе экстенсиональных методов, в отличии от интенсионального направления, каждому изучаемому объекту в большей или меньшей мере придается самостоятельное диагностическое значение. Основными операциями в распознавании образов с помощью этой группы методов являются операции определения сходства и различия объектов.
В составе экстенсиональных методов следует выделить следующие.
1. Метод сравнения с прототипом.
В данном методе для классификации неизвестного объекта находится ближайший к нему прототип. В качестве меры близости могут применяться различные типы расстояний.
2. Метод ¿-ближайших соседей.
В этом методе для классификации неизвестного объекта находится заданное число (к) геометрически ближайших к нему в пространстве признаков других объектов (ближайших соседей) с уже известной принадлежностью к ближайшим классам. Решение об отнесении неизвестного объекта к тому или иному диагностическому классу принимается путем анализа информации об этой известной принадлежности его ближайших соседей, например, с помощью простого подсчета голосов.
3. Методы вычисления оценок.
Принцип действия данных методов состоит в вычислении приоритетов (оценок сходства), характеризи-рующих близость распознаваемого и эталонного объектов путем анализа некоторой подгруппы или подпространства признаков. Используемые сочетания подгрупп признаков называются опорными множествами или множествами
533
Известия ТулГУ. Технические науки. 2023. Вып. 12
частичных описаний объектов, также вводится понятие обобщенной близости между распознаваемым объектом и объектами обучающей выборки, которые называют эталонными объектами. Эта близость представляется комбинацией близостей распознаваемого объекта с эталонными объектами, вычисленная на основании подгрупп признаков.
В силу того, что различные методы распознавания проявляют себя по-разному на одной и той же контрольной выборке, коллективы решающих правил представляют собой синтез этих методов, адаптивно используя сильные стороны этих методов. В синтетическом решающем правиле применяется многоуровневая схема распознавания. Наиболее распространенные способы такого объединения основаны на выделении областей компетентности того или иного частного алгоритма распознавания.
В табл. 1 представлена краткая характеристика различных методов распознавания образов, содержащая краткую характеристику по следующим параметрам [1,2]:
классификация методов распознавания;
области применения методов распознавания;
классификация ограничений методов распознавания.
Процесс распознавания форматов данных помимо перечисленных общих этапов имеет ряд особенностей, обусловленных спецификой файла как объекта распознавания и спецификой процесса предъявления значений его признаков при обработке файла в узле получателя [3].
1. Рассмотрение содержимого файлов как десятичных значений байтов в диапазоне [0,255]. Это позволяет рассматривать содержимое файла как сигнал с фиксированным числом уровней квантования, а в качестве основного первичного распознавания использовать амплитуду (уровень) этого сигнала. Подобное рассмотрение делает возможным применение известных методов анализа сигналов, к числу которых относятся многомерный статистический анализ и хорошо зарекомендовавшие себя Байесовские критерии [4,5,6].
2. Переменная длина анализируемого файла и недетерминированный характер содержимого файлов одного формата, что делает процесс распознавания файла вероятностным;
3. Контекстная зависимость соседних значений байт, которая обусловлена форматом данных, что позволяет описывать процесс распознавания с помощью аппарата марковских цепей.
4. Необходимость принятия решения о наличии аномальной вставки в исследуемом файле в реальном масштабе времени, т.е. принятие решения о принадлежности наблюдаемого фрагмента (сегмента) файла к одному из известных форматов.
5. Возможность предъявления для распознавания сложных «гибридных форматов», что делает необходимым непрерывную сегментации исследуемого файла на участки однотипных форматов с постоянной адаптацией порогового уровня.
Характеристика методов распознавания образов
Классификация методов распознавания Область применения Ограничения (недостатки)
Интенсиальные методы распознавания Методы, основанные на оценках плотностей распределения значений признаков (или сходства и различия объектов). Задачи с известным распределением, как правило, нормальным, необходимость набора большой статистики. Необходимость перебора всей обучающей выборки при распознавании, высокая чувствительность к непредставительности обучающей выборки и артефактам.
Методы, основанные на предположении о классе решающих функций. Классы должны быть хорошо разделяемы, система признаков-ортонормированной. Должен быть заранее известен вид решающей функции. Невозможность учета новых знаний о корреляциях между признаками.
Логические методы. Задачи небольшой размерности пространства признаков. При отборе логических решающих правил (коньюнкций) необходим полный перебор. Высокая вычислительная трудоемкость.
Лингвистические (структурные) методы. Задачи небольшой размерности пространства признаков. Задача восстановления (определения) грамматики по некоторому множеству высказываний (описаний объектов), является тредно формализуемой. Нерешенность теоретических проблем.
Экстенсиональные методы распознавания Метод сравнивания с прототипом. Задачи небольшой размерности пространства признаков. Высокая зависимость результатов классификации от меры расстояния (метрики). Неизвестность оптимальной метрики.
Метод ¿-ближайших соседей. Задачи небольшой размерности по количеству классов и признаков. Высокая зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Вычислительная трудоемкость.
Алгоритмы вычисления оценок (АВО). Задачи небольшой размерности по количеству классов и признаков. Зависимость результатов классификации от меры расстояния (метрики). Необходимость полного перебора обучающей выборки при распознавании. Высокая техническая сложность метода.
Коллективы решающих правил (КРП). Задачи небольшой размерности по количеству классов и признаков. Очень высокая техническая сложность метода, нерешенность ряда теоретических проблем, как при определении областей компетенции частных методов, так и в самих частных методах.
С учетом перечисленных особенностей, можно сделать вывод что для решения задачи контроля содержимого данных о состоянии техники связи специального назначения из множества предложенных методов, представленных в табл. 1, предлагается использовать метод КРП путем построения двухуровневой системы распознавания форматов данных на основании синтеза интенсионального и экстенсионального методов.
Список литературы
1. Чабан Л.Н. Теория и алгоритмы распознавания образов. М.: МИИГАиК, 2004. 70 с.
2. Чабан Л.Н. Тематическая классификация многозональных (многослойных) изображений: методические указания для лабораторного практикума. М.: МИИГАиК, 2006. 44 с.
3. Дж.Ту, Р.Гонсалес. Принципы распознавания образов. М.: Мир, 1978. 411 с.
4. Новиков Ф.А. Дискретная математика для программистов. - СПб.: Питер, 2001. - 304 с.
5. Айзерман М. А., Браверманн Э. М., Метод потенциальных функций в теории машин. М.: Наука, 1970.
384 с.
6. Загоруйко Н. Г. Методы распознавания и их применение. М., 1972. 208 с.
Кочубей Руслан Иванович, преподаватель, kochubey_ri@mail. ru, Россия, Санкт-Петербург, Военная академия связи,
Бычковский Михаил Михайлович, преподаватель, [email protected], Россия, Санкт-Петербург, Военная академия связи,
Зайкин Николай Николаевич, преподаватель, [email protected], Россия, Санкт-Петербург, Военная академия связи,
Фатьянова Елена Валентиновна, преподаватель, [email protected], Россия, Санкт-Петербург, Военная академия связи,
Свидло Александр Владимирович, преподаватель, [email protected], Россия, Санкт-Петербург, Военная академия связи,
Чуприков Олег Валерьевич, преподаватель, [email protected], Россия, Санкт-Петербург, Военная академия связи
JUSTIFICATION OF THE RECOGNITION METHOD FOR SOLVING THE PROBLEM OF MONITORING THE CONTENT OF STATUS DATA SPECIAL PURPOSE COMMUNICATION TECHNICIANS
R.I. Kochubey, M.M. Bychkovsky, N.N. Zaikin, E.V. Fatyanova, A.V. Svidlo, O.V. Chuprikov
The article presents a classification of recognition methods. The justification of the chosen recognition method for solving the problem of monitoring the content of data on the state of special-purpose communication technology is given.
Key words: recognition, communication technology, control, data.
Kochubey Ruslan Ivanovich, lecturer, [email protected], Russia, St. Petersburg, Military Academy of Communications,
Bychkovsky Mikhail Mikhailovich, lecturer, [email protected], Russia, Saint Petersburg, Military Academy of Communications,
Zaikin Nikolay Nikolaevich, lecturer, [email protected], Russia, St. Petersburg, Military Academy of Communications,
Fatyanova Elena Valentinovna, lecturer, [email protected], Russia, Saint Petersburg, Military Academy of Communications,
Svidlo Alexander Vladimirovich, lecturer, [email protected], Russia, St. Petersburg, Military Academy of Communications,
Chuprikov Oleg Valerievich, lecturer, [email protected], Russia, St. Petersburg, Military Academy of Communications