Научная статья на тему 'АНАЛИЗ ЭФФЕКТИВНОСТИ ОПТИМИЗАЦИОННЫХ АЛГОРИТМОВ ОТБОРА ИНФОРМАТИВНЫХ ПРИЗНАКОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ПОЛА И ВОЗРАСТА ЧЕЛОВЕКА'

АНАЛИЗ ЭФФЕКТИВНОСТИ ОПТИМИЗАЦИОННЫХ АЛГОРИТМОВ ОТБОРА ИНФОРМАТИВНЫХ ПРИЗНАКОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ПОЛА И ВОЗРАСТА ЧЕЛОВЕКА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
16
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОПТИМИЗАЦИЯ ИНФОРМАТИВНЫХ ПРИЗНАКОВ / РАСПОЗНАВАНИЕ ПОЛА И ВОЗРАСТА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лосева Елена Давидовна

Повышение производительности диалоговых систем, основанных на естественном языке, является актуальной научно - технической задачей. Распознавание пола и возраста человека на основе речевого сигнала представляет собой подход, способный улучшить качество работы таких систем посредством определения критических точек в диалоге между человеком и компьютером для адаптации диалога. Для повышения качества распознавания информации в этой статье рассматривается применение различных алгоритмов для оптимизации процесса отбора информативных признаков. Проведен сравнительный анализ эффективности стандартного метода и оптимизированного различными алгоритмами. По результатам исследования применение оптимизационных алгоритмов показало эффективные результаты, точность распознавания была повышена.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лосева Елена Давидовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EFFECTIVENESS ANALYSIS OF OPTIMISATION ALGORITHMS FOR FEATURE SELECTION IN TASK OF RECOGNITION HUMAN`S GENDER AND AGE

Increased productivity dialogue systems based on natural language is an actual scientific - technical problem. Recognition of gender and age of the person based on speech signal is an approach that can improve the performance of such systems by identifying critical points in the dialogue between humans and computers for adapt the dialogue. For improving effectiveness of recognition in this article presented different optimization algorithms for feature selection. Have been done the comparative analysis of standard method of classification and optimized with different algorithms. After research, application of different optimization algorithms showed effectiveness, accuracy of recognition was increased.

Текст научной работы на тему «АНАЛИЗ ЭФФЕКТИВНОСТИ ОПТИМИЗАЦИОННЫХ АЛГОРИТМОВ ОТБОРА ИНФОРМАТИВНЫХ ПРИЗНАКОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ПОЛА И ВОЗРАСТА ЧЕЛОВЕКА»

(<2а'-2 (1) ' " '(D' ' " ' aa'(k) ' " ^k)

is an oblique element for a, that is

- -l

a (aa'-2(l) (D'" " •' aa'-2(k) ■ ))

Supposing in consequence 3.6 that l =k +

a = (12 „.k)

v ', we obtain

Consequence 3.7. [3]. If A is a group, then for any

element a = (ai'"' ak ) of a (k +1) -ary group <A'[ >

a = (ci'"'Ck), where

the

element

1 „-1 „-1

a, = a, ,.. .a, a, ...a

j 1... ^k •• • +i

, j = 1'k, is

oblique for

a

The consequences for the case J i1,2, ■••'k} were formulated above for each of theorems 3.1-3.6. Similar consequences are true for the sets J = N and J = Z.

References

1. Post, E.L. Polyadic Groups / E.L. Post // Trans. Amer. Math. Soc. - 1940. - Vol. 48, № 2. - P. 208-350.

2. Galmak A.M. Polyadic Associative Operations on Cartesian Powers. Proceedings of Belarus National Academy. - 2008. - №3. - P. 28-34.

3. Galmak A.M. Polyadic Operations on Cartesian Powers. - Minsk: the BSU Publishing Centre, 2009. P. - 265.

4. Galmak A.M. About the operation [ 'a'k. Proceedings of A. Kuleshov Mogilev State University. - 2010 - № 2. P.34-38.

5. Kulazhenko Yu. I. On Semi-Centers of l -ary Groupoids / Problems of physics, mathematics and technology. -2013. -№2(15). - P. 76-80.

6. Kulazhenko Yu.I. On Centers of l -ary groupoids / Proceedings of Masherov Vitebsk State University. -2013. -№3(75). P. 5-11.

АНАЛИЗ ЭФФЕКТИВНОСТИ ОПТИМИЗАЦИОННЫХ АЛГОРИТМОВ ОТБОРА ИНФОРМАТИВНЫХ ПРИЗНАКОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ПОЛА И ВОЗРАСТА ЧЕЛОВЕКА

Лосева Елена Давидовна

Магистрант Сибирского государственного аэрокосмического, университета имени академика

М. Ф. Решетнева, г. Красноярск

EFFECTIVENESS ANALYSIS OF OPTIMISATION ALGORITHMS FOR FEATURE SELECTION IN TASK OF RECOGNITION HUMAN'S GENDER AND AGE

Loseva Elena, Master of Siberian State Aerospace University named after academician M. F. Reshetnev, Krasnoyarsky АННОТАЦИЯ

Повышение производительности диалоговых систем, основанных на естественном языке, является актуальной научно - технической задачей. Распознавание пола и возраста человека на основе речевого сигнала представляет собой подход, способный улучшить качество работы таких систем посредством определения критических точек в диалоге между человеком и компьютером для адаптации диалога. Для повышения качества распознавания информации в этой статье рассматривается применение различных алгоритмов для оптимизации процесса отбора информативных признаков. Проведен сравнительный анализ эффективности стандартного метода и оптимизированного различными алгоритмами. По результатам исследования применение оптимизационных алгоритмов показало эффективные результаты, точность распознавания была повышена. ABSTRACT

Increased productivity dialogue systems based on natural language is an actual scientific - technical problem. Recognition of gender and age of the person based on speech signal is an approach that can improve the performance of such systems by identifying critical points in the dialogue between humans and computers for adapt the dialogue. For improving effectiveness of recognition in this article presented different optimization algorithms for feature selection. Have been done the comparative analysis of standard method of classification and optimized with different algorithms. After research, application of different optimization algorithms showed effectiveness, accuracy of recognition was increased.

Ключевые слова: Оптимизация информативных признаков; распознавание пола и возраста; звуковой сигнал Keywords: Optimization of feature selection; recognition of human's age and gender; sound signal

Повышение качества диалоговых систем остается актуальной научно - технической задачей на сегодняшний день. Использование процедуры идентификации улучшает качество распознавания информации на основе речевого сигнала говорящего, так как становится возможным построение моделей эмоций конкретного человека, а, следовательно, улучшает качество взаимодействия человека и системы. Что позволяет сделать взаимодействие

в режиме «человек - машина» более комфортным и продуктивным. Выбор подходящих параметров речевых сигналов и алгоритма моделирования для задач идентификации говорящего остаются важными проблемами [1, с. 398-423]. Цель любого разработчика той или иной программы - это достижение поставленной задачи с максимальной точностью. Средства достижения цели могут быть различными: оптимизация отбора информативных признаков (англ.Миге selection) [2, с. 81], так же выбор

функций пригодности или нескольких функций пригодности (если речь идет о многокритериальности). В этой статье рассматривается применение алгоритмов для оптимизации процесса отбора информативных признаков, что позволит повысить точность распознавания, а, следовательно, повысить надежность системы [3, с. 81-84]. Применение оптимизационных алгоритмов позволяет отобрать наиболее релевантные признаки [4, с. 607]. Полученный набор данных (признаков) участвует в классификации. Что позволяет не только повысить точность классификации, но и экономить вычислительные ресурсы [5, с. 273-324].

Так как задача распознавания звуковых сигналов предполагает наличие выборочных данных, представляющих собой характеристики звуковых волн, то для создания базы данных необходимое количество звукозаписей 150. Для распознавания возраста человека была создана база данных RSDB - A (англ. Russian Sound Data Base - Age), которая состоит из голосов людей от 14 лет до 18 и от 19 до 60 лет. Для распознавания пола человека была создана RSDB - G (англ. Russian Sound Data Base - Gender), которая состоит из голосов людей мужского и женского пола. Обработка звукозаписей проводилась с использованием программных пакетов: Notepad++ [6, с. 1459-1462], Praat («script») [7, с. 341-345.], Excel 97-2003. Алгоритм создания баз данных RSDB - A, RSDB - G:

_Оформление базы

1. На первом этапе проводится предобработка звукозаписей в программе Praat с дополнительным модулем «script». Извлекаются следующие характеристики звуковых волн: time, pitch, intensity, formant 1, formant 2, formant 3. Для загрузки звукозаписей выбирается «Read from File», «Open Praat script», далее выбирается «Create Table». Через опцию «Run» запустить программу. Указать место хранения звукозаписей: «input» (например, «C:\Users\DNS\...») и место, куда будут сохранены обработанные данные: «output» (например, «C:\Program Files (x86)\...»). Эта процедура проводится для каждой звукозаписи.

2. Для оформления извлеченных звуковых характеристик в базу данных формата «xls». В программе Notepad++ открыть все созданные файлы «N.xls» с данными и провести замену формата числа с точки на запятую. Копировать полученные данные в программу Excel, удалить первый столбец с наименованием «time». Вычислить среднее значение по остальным пяти столбцам. Полученные средние значения расположить построчно с указанием номера класса («0» или «1»). Пример приведен в таблице 1 и 2.

Таблица 1

ных RSDB- G

woman1 100 63,15 604,23 1907,05 3041,63 0

womanN 86,12 160,52 1110,12 2052,48 3350,78 0

man1 40,56 57,62 829,73 2035,27 3282,73 1

manN 94,25 108,56 1100,89 1959,98 4093,55 1

Таблица 2

Оформление базы данных RSDB - A_

adult1 100 63,15 604,23 1907,05 3041,63 0

adultN 86,15 160,52 1110,12 2052,48 3350,78 0

young1 40,56 57,623 829,73 2035,27 3282,75 1

youngN 94,25 108,56 1100,89 1959,98 4093,55 1

Таблица 3

Характеристики звуковых БД_

БД Язык Объем базы данных Количество классов Объем БД, мин. Средняя продолжительность речевого сигнала, сек.

RSDB- A Русский 600 Совершеннолетний, несовершеннолетний человек 29,7 1284

RSDB- G Русский 800 Мужской, женский пол 38,9 1929

3. Так как реализация распознавания пола и возраста спикера в этой статье проводилась в программе Rapid Miner v.5.3 [8, с. 26-485], то созданные базы данных необходимо прикрепить к общей структурной схеме с помощью блока «Read Excel». Загрузка производится с помощью «Import configuration Wizard». В открывшемся окне на шаге 1 - 3 все параметры остаются без изменения, а на 4 шаге указываются следующие характеристики: в первой

колонке «ID» указывается binominal, id и в последней колонка «Class» указывается binominal, label. Полученный блок «Read Excel» прикрепить к общей схеме.

Звуковые сигналы, сформированные в базах данных, имеют следующие характеристики (таблице 3).

Для процесса оптимизации информативных признаков были выбраны следующие алгоритмы [9, с. 5-20]:

Optimize Selection (Evolutionary): отбор признаков с использованием генетического алгоритма [10, с. 19-23].

Optimize Weights (Evolutionary): оптимизация весовых коэффициентов с использованием генетического алгоритма.

Optimize Weights (Forward): оптимизация весовых коэффициентов.

Optimize Weights (PSO): оптимизация весовых коэффициентов с определением каждому решению меры качества.

° Forward Selection: выбор оптимальных признаков (производительность оценивается с помощью внутренних операторов (перекрестной проверкой).

° Backward Elimination: выбор оптимальных признаков (производительность оценивается с использованием внутреннего оператора исключения). Предложенные алгоритмы оптимизации классификации пола и возраста были протестированы с использованием метода последовательной мини - оптимизации Дж. Платта (англ. Sequential Minimal Optimisation - SMO).

Таблица 4

Надежность работы, %

База Д анных

Алгоритм Начальные установки RSDB- A RSDB-G

Optimize Selection (Evolutionary) Количество особей: 60, поколений: 120, селекция:турнир 91,18 94,25

Optimize Weights (Evolutionary) Количество особей: 60, поколений: 120, селекция:турнир 91,18 94,8

Optimize Weights (Forward) оптимизация весовых коэффициентов 94,12 92,05

Optimize Weights (PSO) Количество индивидуумов = 80, Количество поколений = 120, селекция: рулетка. Min weight = 0, Max weight = 1 92,18 92,04

Forward Selection Speculative round =15, Max round of attributes=15 94,18 94,5

Backward Elimination Speculative round =15, Max round of elimination=15 94,56 92,78

Усредненные показатели надежности классификации с применением алгоритмов оптимизации, % 91,98 93,2

Усредненные показатели надежности стандартной классификации, % 82,52 83,2

Улучшение, % 9,98 10,4

о

О

о

О

В таблице 4 приведены результаты эффективности работы стандартной классификации и результаты классификации с применением различных алгоритмов оптимизации. Для вычисления надежности работы классификаторов было взято количество прогонов - 15, в расчете использовались результаты с точностью классификации не ниже 75%. Каждая база данных делилась на наборы объемом 20% и 80% для теста и обучения, соответственно. Необходимые ресурсы, выделенные для работы оптимизационных алгоритмов, указаны в таблице 4.

Анализ полученных результатов показал, что оптимизация процесса отбора информативных признаков повышает качество распознавания. В сравнении со стандартным методом показатели надежности имеют значительные преимущества и составляют в среднем для распознавания пола: 10,4 %, а для распознавания возраста: 9,98%. Очевидно, что точность классификации, а, следовательно, и надежность работы алгоритма сильно зависит от количества речевых данных для каждого класса, а также выбора алгоритма оптимизации.

Для повышения качества работы диалоговых систем необходимо совершенствовать технологии, основанные на «человеко-машинной» коммуникации. Процесс взаимодействия в таком режиме практически лишен «живого» общения, что негативно сказывается на взаимопонимании между человеком и системой (машиной). Распознавание информации о спикера, его психоэмоциональном состоянии или его личности, представляет собой актуальное направление развития диалоговых систем. Во-первых, ориентация на человека, учет его эмоций позволят сделать процесс взаимодействия менее искусствен-

ным. Что в свою очередь, поможет вызвать дополнительный интерес к данной форме коммуникации. Кроме того, использование информации о спикере позволяет строить более точные модели для распознавания речи человека. Поэтому, предложенный в этой статье метод направлен на повышение точности распознавания информации. В ходе экспериментов была продемонстрирована высокая эффективность работы подхода. Что может позволить в дальнейшем применить этот подход для интеграции интеллектуальных модулей в диалоговую систему, предназначенных для распознавания разных психотипов человек, а также идентификации спикера по голосовому сигналу.

Литература

1. Haq S., Jackson P. Machine Audition: Principles, Algorithms and Systems, chapter Multimodal Emotion Recognition // IGI Global, Hershey PA. Aug. 2010.

2. Christopher Winship, David J. Harding. The overall strategy for the identification of age, period. Cohort model: mechanisms approaches: Harvard University, 2004.

3. Местецкий Л. М. Математические методы распознавания образов: курс лекций. Москва: МГУ, 20022004.

4. Прикладная статистика: Классификации и снижение размерности: справ. изд./ С. А. Айвазян [и др.]; под ред. С. А. Айвазяна. М.: Финансы и статистика, 1989.

5. Kohavi R., John G. H. Wrappers for feature subset selection // Artificial Intelligence, 97. 1997.

6. Eyben F., Wollmer M., Schuller B. Opensmile: the munich versatile and fast opensource audio feature

extractor // Proceedings of the Intern. Conf. on Multimedia, 2010. ACM.

7. Boersma P. Praat, a system for doing phonetics by computer. Glot international, 5(9/10), 2002.

8. Fareed Akthar, Caroline Hahne. Rapid Miner 5: Operator reference// Dortmund, 2012.

9. Hall M. [et al.]. The WEKA Data Mining Software: An Update, SIGKDD Explorations. 2009. Vol. 11, iss. 1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. Daridi F., Kharma N., Salik, J. Parameterless genetic algorithms: review and innovation // IEEE Canadian Review. 2004, (47).

ПОНЯТИЕ ПОПОЛНЕНИЯ В АБСТРАКТНЫХ КЛАССАХ СХОДИМОСТИ

Ловягин Юрий Никитич

доцент, кандидат физико-математических наук, доцент кафедры информатики Санкт-Петербургского

Государственного университета, г. Санкт-Петербург.

CONCEPT REPLENISHMENT IN ABSTRACT CONVERGENCE CLASS

Lovyagin Yuri Nikitich, docent, candidat of mathematik, assistant professor, Saint Petersburg State University, Saint Petersburg.

АННОТАЦИЯ

Исследуется вопрос о необходимых и достаточных свойствах сходимости для существования пополнения. ABSTRACT

The question of the necessary and sufficient for the existence of convergence properties of replenishment. Ключевые слова: сходимость, полнота, пополнение. Keywords: convergence, completeness.

Все рассматриваемые в заметке понятия являются общепринятыми или обобщениями общепринятых.

Напомним, что направлением называется частично

упорядоченное множество А, в котором любые два элемента имеют общего последователя:

Ух е А У у е А Зz е Ах < z & у < z

Декартово произведение А хв двух направлений А и в считаем упорядоченным покоординатно:

Ц,А) <Ц, А)

а1<а1& А <А

тогда и только тогда, когда

чение в

менте

а

п х„ а е A

Если имеется две последовательности а и

yßße В

, то считаем, что обе они заданы на направлении

A х В

так, что

X

= Х a' yaß = yß (ае A' ße В)

х„ а е A

если а последовательности класса

A^ A -- конфинальное поднаправление, то последовательность Уа Х(а, где i: A^ A -- каноническое вло-

77 lim у. = lim x„

жение, принадлежит классу s, при этом 7а а;

- если ® -- коммутативная ассоциативная обратимая бинарная операция на множестве X,

Ха УР eS

Zaß = Ха® УР

Ха.х еX,аеА,

Обобщенной последовательностью а( а ),

в дальнейшем просто последовательностью, называется функция, заданная на направлении и принимающая зна-

х, при этом Ха есть значение функции на эле-

Пусть X -- некоторое множество, S -- класс последовательностей в X. Пусть, далее, определена функция lim , заданная на S и принимающая значение в X. Функцию lim будем называть функцией сходимости, а её

lim xa xa

значение а - пределом последовательности а.

Класс S будем называть классом сходимости, если выполнены условия:

а х = x x es limx = x если для каждого a , то a и a ;

то

принадлежит классу lim Zaß = lim Ха Фlim У

последовательность при этом

Ф

vß.

если ^ -- коммутативная ассоциативная обратимая бинарная операция на множестве х, Ха ,

-- операция обратная к Ф и

Ф „ yaß= Х

= X ^ х

ß

то

aß и *aß , где ® -- нейтральный

yaße^ „ lim yaß = ®

элемент операции Ф .

если Р -- бинарное отношение на X, Ха ' ya

„ Ха Р у а

рого

lim xaß = х если aß , то

а r у а при всех а e ^ таких, что для некото-а0 e A а0 Р а, то lim xа Р Уа ;

lim (lim = x

ß , точнее, пусть

уß limXaß при фиксированном ß, тогда lim у ß = x

Принципом диагонали назовём следующее свой-

x„

ство последовательности

aß.

i Надоели баннеры? Вы всегда можете отключить рекламу.