Научная статья на тему 'КЛАССИФИКАЦИЯ ЭЛЕМЕНТОВ РЕЧИ ЕСТЕСТВЕННОГО ЯЗЫКА СЕТЬЮ КОХОНЕНА'

КЛАССИФИКАЦИЯ ЭЛЕМЕНТОВ РЕЧИ ЕСТЕСТВЕННОГО ЯЗЫКА СЕТЬЮ КОХОНЕНА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
22
4
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Леонов Александр Владимирович

Предложена модель и описана технология создания систем классификации элементов речи естественного языка, в том числе независимых от голоса диктора.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The are offered model and the creation technology speech elements classification of natural language, including independent of an voice announcers.

Текст научной работы на тему «КЛАССИФИКАЦИЯ ЭЛЕМЕНТОВ РЕЧИ ЕСТЕСТВЕННОГО ЯЗЫКА СЕТЬЮ КОХОНЕНА»

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

УДК 004.934

КЛАССИФИКАЦИЯ ЭЛЕМЕНТОВ РЕЧИ ЕСТЕСТВЕННОГО ЯЗЫКА СЕТЬЮ КОХОНЕНА

A.B. Леонов

Нахождение эффективного способа классификации фонетических единиц, являющихся характерными элементами для конкретного естественного языка, при машинном распознавании речи имеет решающее значение при последующем формировании письменной фоомы. Работа существующих систем распознавания речи для русского языка критична при смене диктора. Поиск методов, обеспечивающих надежное обобщение параметров речевого сигнала, сохраняет свою актуальность С этой целью было проведено исследование варианта классификации элементов речи с применением сети нейронов кохонена. В качестве учебного материала использована 15 часовая запись радиоспектакля «Мастер и Маргарита» М.Булгакова. Файлы аудиозаписи были предварительно обработаны утилитой sox (ОС Linux) для получения однокаиального сигнала с частотой дискоетизации 16000 Гц. В записи спектакля музыкальное сопровождение и специальные эффекты занимают незначительную часть, текст читается разными актерами С учетом частотного диапазона человеческого голоса и присутствия в записи нескольких женских, и мужских голосов, материал можно считать приемлемым для цели исследования.

Сигнал записи предварительно обрабатывался скользящим окном для выявления наиболее значимых участков и нормализованные значения преобразования Хаара [1] подавались на вход сети Кохонена, состоящей из 5С0 нейронов. Размер скользящего окна был скорректирован в сторону уменьшения с 1024 до 128 отсчетов, что позволило повысить чувствительность системы к высокочастотным составляющим сигнала. Количество нейронов сети Кохонена подбиралось начиная с большего значения по соображениям ограниченной вычислительной мощности компьютера, чтобы обеспечить приемлемое время обучения. При использовании ПК с процессором AMC Sempron 2500 суммарное время обучения составило менее 3 часов, общее количество эпох не превысило 8 миллионов

После завершения обучения осуществлялась проверка обученной сети для отдельных звуков речи русского языка одним диктором на способность к классификации Запись звуков производилась с использованием микрофона Naiko М22РС и Realtek АС'97 Audio. Звуки произносились раздельно так, как они звучат в слове, а не как при произнесении алфавита. Номера выигрывавших нейронов для рассмотренных звуков приведены в таблицах 1-4.

Открытые гласные получили наибольшее количество признаков в качестве выигравших нейронов, что позволяет не только выполнить классификацию звуков но при наличии образцов разных дикторов можно выявлять принадлежность голоса Согласные звуки определяются с меньшим количеством признаков. Это объясняется меньшей чувствительностью испытываемой системы к верхней полосе частот и меньшей мощностью звукового сигнала (уровень записи для всех звуков не менялся).

Номера выигравших нейронов для отдельных звуков

А О У Ы И Э Я Ё Ю Е И

3 43 43 107 51 21 51 21 198 51 6

22 51 124 126 66 51 66 22 25Р 66 33

36 66 162 159 107 56 68 51 33 107 107

51 72 194 162 162 66 93 52 43 124 162

60 107 198 182 173 72 104 66 51 126 182

66 109 213 194 182 87 107 100 66 159 194

68 124 299 198 194 100 124 104 107 162 198

76 126 307 213 19Ь 107 126 107 159 173 258

88 154 320 223 204 124 154 109 162 182 299

89 159 348 258 223 126 158 126 182 198 303

93 162 350 299 232 133 159 159 194 204 307

94 173 367 303 258 154 162 162 257 223 314

ЮС 182 390 348 299 159 172 173 299 258 348

104 194 407 350 303 162 173 182 303 261 369

107 198 477 367 320 173 182 191 307 268 373

12Ь 204 481 373 348 182 198 194 316 272 413

158 214 496 390 386 19Ь 199 198 320 299 471

159 223 182 407 407 204 223 204 332 303 481

162 232 258 471 471 209 227 214 348 307 488

173 246 488 48С 481 223 23? 222 350 314 496

174 258 481 496 227 254 223 390 318

182 261 496 232 258 232 407 327

191 268 246 261 233 453 348

198 269 254 272 252 480 349

204 272 258 283 258 496 386

210 294 261 286 261 407

218 294 268 294 268 413

222 318 269 299 269 454

246 320 272 308 274 471

252 348 294 314 281 472

254 349 299 318 294 481

258 413 300 322 299 488

261 453 301 327 308 496

268 454 308 348 318

272 471 314 349 322

280 472 318 359 348

281 481 322 360 407

294 488 324 412 453

306 497 327 453 454

314 34« 454 471

326 349 471 472

327 386 472 488

348 396 481 496

357 400 488

360 407 496

374 454

382 466

386 471

397 472

406 4/3

407 478

106

Вестник УО «В!~ТУ»

Номера выигравших нейронов дль отдельных звуков

А О У ы и э Я £ Ю £ И

412 481

462 488

471 496

472

477

488

496

Таблица 2 - Глухие и звонкие согласные

Номера чыиг равших нейронов для отдельных звуков

Б В г д П Ф . , К Р М Н

¿4 36 159 162 43 94 94 9 38 162

43 51 162 198 66 107 104 24 51 36

51 107 182 107 194 194 107 36 66 38

6« 109 198 159 198 198 158 43 94 51

93 159 2о8 181 208 208 159 51 15А 94

107 4 62 43 194 246 257 162 56 159 107

126 182 107 208 258 258 182 107 162 173

159 194 173 223 299 35и 194 124 173 182

162 198 194 258 307 367 198 159 181 198

194 223 208 299 367 373 208 162 198 208

198 252 257 307 390 390 222 182 204 224

204 258 299 350 454 480 258 191 208 249

249 263 303 367 480 487 299 194 213 257

258 268 316 390 496 4й8 303 198 232 258

263 272 320 407 496 327 204 257 274

281 281 348 480 Л 359 223 258 299

299 299 367 487 33 367 232 2^4 303

303 306 407 496 51 390 246 299 316

316 316 418 162 407 257 303 325

318 318 453 348 412 258 314 32/

350 407 471 413 477 268 325 367

404 436 480 I 496 480 272 32/ 373

488 453 488 107 488 281 367 407

496 471 496 159 496 292 373 413

472 18? 306 407 418

Т 480 194 307 413 471

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

107 481 198 332 418 488

182 488 223 350 453 496

488 496 258 367 471

268 368 496

322 390

436 393

486 407

48Н 471

477

480

481

487

488

496

Однако это не мешает выполнить их классификацию за исключением звука «Т». Заметно больше признаков обнаружилось для звонких согласных в сравнении с глухими. Малое количество признаков обнаружилось для «Ц», «Ч», «С» Остальные шипящие согласные могут быть классифициоованы.

Таблица 3 - Шипящие согласные звонкие и глухие

Номера выиг оавших нейронов для отдельных звуков

3 Ж ц Ш Щ

107 66 107 63 107

159 107 4Ъ8 91 182

173 159 107 327

182 162 Ч 110 386

19Л 173 107 159 488

198 182 488 173

258 198 182 X

299 204 С 186 107

303 223 107 327 182

488 221 488 359 198

496 232 38ö 246

233 488 471

258 481

261 488

269

299

314

348

471

472

488

Для мягких согласных звуков «Ть», «СЬ» «КЬ», «ХЬ» обнаружено малое количество признаков классификации. В некоторых слуиаях недостаток признаков мпжет быть преодолен при проверке слов в словаре, но словарь существенно увеличивает объем кода для системы распознавания.

Таблица 4 - Мягкие согласные

Номера выигоавших нейронов для отдепьных звуков

БЬ вь ДЬ НЬ МЬ ФЬ РЬ ТЬ

43 159 159 43 51 107 66 488

159 162 162 44 107 162 154 107

162 198 173 51 154 182 162 198

194 258 182 173 159 191 191

198 272 194 198 162 194 198 Зо

258 413 198 213 173 198 258 107

299 453 258 258 182 204 314 159

303 496 299 299 194 208 349 162

307 320 303 198 258 488 173

316 ГЬ 488 320 213 299 496 198

348 107 496 407 232 303 258

413 162 413 258 350 ЛЬ 4ö8

480 258 ПЬ 496 272 386 51

488 51 173 107 299 39U 66 СЬ

496 159 182 159 303 454 162 198

198 198 162 316 480 299 258

Номера выигравших нейронов для отдельных звуков

Бь вь ДЬ Hb МЬ ФЬ РЬ ТЬ

КЬ 299 258 182 318 4ö8 496 471

107 316 327 194 407 496 107 488

348 386 272 413 198

ХЬ 496 407 318 471 258

107 488 472 481 471

488 496 488

В целом некоторые имеющиеся недостатки классификации преодолимы Полученная в результате обучения систэма классификации элементов ре^и может быть использована при создании программного обеспечения распознавания оечеього сигнала, в том числе может являться прототипом для систем независимых от голоса диктора.

Список использованных источников

1. Леонов A.B. Оконный метод сегментации речевого сигнала // Вестник ВГТУ , 2005, вып. 7 с. 122-124

2. Rabiner L R Schafer R.W. Digital processing of speech signals. - Prentice Hall Inc., 1978 -265 p.

SUMMARY

The are offered model and the creation technology soeech elerrents classificat in of natural language, including independent of an voice announcers.

i Надоели баннеры? Вы всегда можете отключить рекламу.