Научная статья на тему 'Необходимость единообразного подхода к задаче распознавания жестов для управления человеко-машинным интерфейсом'

Необходимость единообразного подхода к задаче распознавания жестов для управления человеко-машинным интерфейсом Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
56
10
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Садыков Т.Р.

Рассматриваются современные проблемы средств ввода информации и управления в человеко-машинных интерфейсах жестами. Кроме того, затронута сама проблема взаимодействия жестами. В результате определен набор параметров для эффективного моделирования систем ввода информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Садыков Т.Р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE NECESSITY OF A UNIFORM APPROACH TO THE PROBLEM OF GESTURE RECOGNITION IN ORDER TO CONTROL THE HUMAN MACHINE INTERFACE

The paper deals with contemporary issues of data input and management of human-machine interface by gestures. Besides, a problem of gestures interaction is touched upon. As a result, a set of parameters for efficient simulation of systems to information input is defined.

Текст научной работы на тему «Необходимость единообразного подхода к задаче распознавания жестов для управления человеко-машинным интерфейсом»

Решетневские чтения

На сегодняшний день существует несколько основных методов вычисления движения на соседних кадрах (вычисления оптического потока):

- метод Лукаса-Канаде;

- метод Хорна-Шунка;

- метод вычисления оптического потока для группы пикселей (блоков).

Последние два метода вычисляют так называемый «плотный поток», т. е. для каждого пикселя изображения (или блока) находят вектор движения (смещение или переход элемента во втором кадре относительно первого). Однако на практике не для всех элементов можно вычислить плотный оптический поток (например, если рассматривать движение белого листа бумаги: во втором кадре многие белые пиксели останутся белыми, изменения будут заметны только на краях листа, расположенного перпендикулярно направлению движения). По этой причине методы, вычисляющие плотный оптический поток, должны включать методы интерполяции для вычисления потока в сложных ситуациях, что негативно сказывается на производительности метода в целом. Альтернативой «плотному потоку» является «разреженный поток» - методы, отслеживающие движение не всех элементов изображения, а лишь некоторого набора точек, обладающих определенными свойствами, однако результатом будет относительно надежное и достоверное вычисление смещения объекта. В качестве основного метода для отслеживания движения

применяется метод Лукаса-Канаде - типичный метод вычисления «разреженного потока».

Таким образом, алгоритм сверхразрешения для видеопоследовательности может быть разбит на несколько этапов:

1) работа с каждым кадром в отдельности (устранение шума, цветовая коррекция и т. д.);

2) работа с последовательностью кадров (поиск характерных точек и вычисление оптического потока);

3) анализ текущего и соседних кадров для получения более детальной информации;

4) накопление кадров;

5) непосредственно увеличение разрешения видео.

Основным режимом работы алгоритма является

повышение разрешения несжатого видео или получение отдельных снимков необходимой части видеопоследовательности в режиме реального времени. Непосредственно после запроса алгоритм переходит в режим накопления и предварительных вычислений. Эти вычисления могут проводиться не в режиме реального времени. Затем алгоритм переходит в режим работы в реальном времени: при появлении каждого следующего кадра изменения учитываются в результирующем изображении повышенного разрешения. Результатом работы алгоритма является видеопоследовательность повышенного разрешения, причем частота кадров равна частоте кадров изначального видеопотока.

A. L. Rusakov

Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk

THE VIDEO QUALITY IMPROVEMENT WITH THE HELP OF THE SUPER-RESOLUTION METHOD

The algorithm of the super-resolution for video quality improvement is considered. The basic complexities algorithm realization are considered. The review of some methods of calculation of an optical stream is presented.

© Русаков А. Л., 2010

УДК 519.876.2

Т. Р. Садыков

ООО «Научно-производственное объединение „ОптимаИнформ"», Россия, Уфа

НЕОБХОДИМОСТЬ ЕДИНООБРАЗНОГО ПОДХОДА К ЗАДАЧЕ РАСПОЗНАВАНИЯ ЖЕСТОВ ДЛЯ УПРАВЛЕНИЯ ЧЕЛОВЕКО-МАШИННЫМ ИНТЕРФЕЙСОМ

Рассматриваются современные проблемы средств ввода информации и управления в человеко-машинных интерфейсах жестами. Кроме того, затронута сама проблема взаимодействия жестами. В результате определен набор параметров для эффективного моделирования систем ввода информации.

Для начала рассмотрим объективно проблему эффективно с учетом всех условий среды. Для этого

управления оператором интерфейса. Не все мышцы необходимо определить критерии эффективности для

человека анатомически предназначены для частых устройств ввода в самом общем случае - как средств

(например, сердце и пальцы) периодических сокра- информационного обмена (или ввода команд) в чело-

щений в силу их строения, веса или длины. веко-машинных интерфейсах. Беглый анализ различ-

Таким образом, необходимо найти предметные ных источников не дал результатов. Следовательно,

области, в которых управление жестами - наиболее для решения данной задачи необходимо описать и по-

Информационно-управляющие системы

строить математическую модель, описывающую устройства ввода, оператора и их взаимодействие. Тогда адекватность применения будет определяться путем решения системы уравнений. Это позволит определить эффективность как существующих средств ввода информации, так и будущих, и их «слабые места».

В первую очередь нужно понятийный аппарат для описания задачи и ее решения, а также переменные. Кроме того, необходимо исключить все производные переменные, так как некоторые включены конкретно для задач распознавания образов.

Дадим объяснения понятиям и терминам:

1. Интеллектуальный комплекс - центральное понятие, включающее все прямые (клавиатура, джойстик) и косвенные (звук, видеокамера) средства ввода информации и управляющих воздействий на интеллектуальный объект или их систему.

2. Объект управления (ОУ).

3. Оператор интеллектуального комплекса (ОИК или оператор ИК).

4. Контроллер (К) - собственно устройство или метод ввода оператором ИК в ОУ.

5. Аналитическая система - в общем случае драйвер или алгоритм, анализирующий действия К и преобразующий их в команды, понятные ОУ. Например, обработка нажатия на клавишу или распознавание голоса или жеста.

Охарактеризуем переменные:

1. Максимально информативная степень свободы ОИК - дискретная, интегральная, количественная характеристики, вычисляемые сложением степеней свободы, области действия и их максимально возможным количеством сочетаний.

2. Максимально необходимая интенсивность взаимодействия с ОУ - количество команд в единицу времени, необходимое для поддержания связи с АС.

3. Минимально необходимая интенсивность взаимодействия с ОУ - количество команд в единицу вре-

мени, необходимое для поддержания работоспособности ОУ.

4. Минимально достаточный объем информации в единицу времени - минимально необходимое количество действий для формирования команды контроллером.

5. Атомарный предел ОУ - минимально адекватный набор команд, необходимый для эффективного взаимодействия системой. Атомарный - потому что все команды могут быть разбиты до минимальных единиц (как в азбуке морзе) или 0 и 1 (а атом - на электрон протон и т. д.). Например: а) для телевизионного пульта - (цифры от 0 до 9) + (канал вверх/вниз) + (громче/тише) + меню; б) для мыши -(вверх/вниз) + (влево/вправо) + (3 кнопки).

6. Информативность (достаточность) контроллера -количество информации, передаваемое контроллером за единицу времени. Например: а) для клавиатуры -максимум 3 кнопки (теоретически все); б) для мыши -X, У и кнопка.

7. Плоскость действия контроллера - минимально/максимально допустимые смещения в плоскости, воспринимаемые К. Вероятно, они нужны только для задач распознавания образов. Например, пять пальцев левой руки, ладонь которой повернута к стандартной вебкамере (с обычной оптикой и матрицей), будут в большинстве случаев восприниматься в качестве алгоритма (все будет зависеть от освещения) так же, как пять пальцев правой руки, обращенной к камере тыльной стороной. А на распознавание звука будет влиять расстояние и окружение.

8. Обратная связь - возможность системой или контроллером передавать информацию оператору ИК. Например - сигнал №тЬоск, вибрация мыши или руля, визуальное определение положения своей руки человеком.

На основе представленных понятий, терминов и переменных формируется математическая модель устройства ввода.

T. R. Sadykov

Research-and-production association «OptimaInform», Russia, Ufa

THE NECESSITY OF A UNIFORM APPROACH TO THE PROBLEM OF GESTURE RECOGNITION IN ORDER TO CONTROL THE HUMAN MACHINE INTERFACE

The paper deals with contemporary issues of data input and management of human-machine interface by gestures. Besides, a problem of gestures interaction is touched upon. As a result, a set of parameters for efficient simulation of systems to information input is defined.

© CagtiKOB T. P., 2010

i Надоели баннеры? Вы всегда можете отключить рекламу.