Научная статья на тему 'СИНТЕЗ ПЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА'

СИНТЕЗ ПЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
100
25
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Цирульник Лилия Исааковна, Ломов А. С.

Работа посвящена описанию реализации синтеза пения для русского языка. Приводится информация о певческом голосе, показаны основные тембральные и просодические особенности певческих голосов. Приведена общая структурная схема системы синтеза пения, описаны алгоритмы и принципы работы блоков системы, а именно, блока обработки музыкальной нотации, блока фонетических преобразований, блока синтеза речевой волны. Описанные алгоритмы языконезависимы и могут применяться для синтеза пения на других языках.The paper describes the implementation of the singing synthesis software system for Russian language. The information about singing voice is outlined, and the general timbral and prosodic characteristics of singing voices are shown. The paper presents the achitecture of the singing synthesis system and descibes the algorithms and principles of operation of the system components such as the music notation processing, speech phonemic processing, and speech wave synthesis units. The given algorithms are language independent and could be applied for creating singing synthesis systems for other languages.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «СИНТЕЗ ПЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА»

Синтез пения для русского языка

Л.И. Цирульник,

кандидат технических наук

А.С. Ломов,

магистрат

Работа посвящена описанию реализации синтеза пения для русского языка. Приводится информация о певческом голосе, показаны основные тембральные и просодические особенности певческих голосов. Приведена общая структурная схема системы синтеза пения, описаны алгоритмы и принципы работы блоков системы, а именно, блока обработки музыкальной нотации, блока фонетических преобразований, блока синтеза речевой волны. Описанные алгоритмы языконезависимы и могут применяться для синтеза пения на других языках.

Abstract

The paper describes the implementation of the singing synthesis software system for Russian language. The information about singing voice is outlined, and the general timbral and prosodic characteristics of singing voices are shown. The paper presents the achitecture of the singing synthesis system and descibes the algorithms and principles of operation of the system components such as the music notation processing, speech phonemic processing, and speech wave synthesis units. The given algorithms are language independent and could be applied for creating singing synthesis systems for other languages.

Введение

Система синтеза пения может использоваться при обучении вокалу, для демонстрации правильного исполнения песни или развития музыкального слуха. Такой компьютерный инструментарий будет полезен композиторам и продюсерам для создания демонстрационных версий песен, добавления в уже имеющиеся записи бэк-вокала и получения других эффектов. Эта система может найти широкое применение в качестве средства для генерации заставок на радио, интерактивной рекламы, звуковых дорожек к различным видеоматериалам.

101

Таблица 1

Идея цифрового синтеза качественного певческого голоса начала привлекать внимание исследователей с 50-х годов прошлого века. Первый синтезированный певческий голос — синтез песни «Daisy Bell» — был создан американским учёным Максом Мэтьюзом [2], который разработал технологию синтеза вокала на основе вокодера. Первой полностью автоматической компьютерной системой, осуществляющей синтез пения, стала программа VocalWriter от компании KAE Labs [3], выпущенная в 1998 году для операционной системы MacOS. К настоящему моменту существуют компьютерные системы, осуществляющие синтез пения на японском языке: программа Vocaloid компании Yamaha [4], на французском, португальском, итальянском языках: программа компании Myriad [5], на немецком языке: программа Virsyn Cantor [6] и вышеназванная программа компании Myriad. Кроме того, все перечисленные программы осуществляют синтез пения на английском языке.

Для русского языка до сих пор не существует профессиональных программных продуктов, осуществляющих синтез пения. Созданные к настоящему моменту системы, одна из которых описана в работе [7], имеют ряд недостатков, в частности, они не реализуют особые правила преобразования «буква-фонема» на стыках слов, не используют при синтезе речевые отрезки длительностью более одного аллофона, а также не работают с наиболее распространёнными форматами записи музыкальной нотации. Эти недостатки влекут сильное снижение качества синтезированного певческого голоса и требуют предварительных преобразований существующих музыкальных нотаций в формат текста и MIDI-файла. В данной работе описана система синтеза пения для русского языка, лишённая указанных недостатков и позволяющая синтезировать высококачественный певческий голос.

1. Общая информация о певческом голосе

Существует множество систем классификации певческих голосов. Одни учитывают силу голоса, другие — насколько подвижен, виртуозен, отчётлив голос певца. Чаще всего используется классификация, учитывающая диапазон голоса

певца [1]. Под вокальным диапа-

Классификация певческих голосов по диапазону

Название группы голосов Частотный диапазон, Гц

Бас S0-330

Баритон 110-440

Тенор 130-520

Контральто 165-700

Меццо-сопрано 220-SS0

Сопрано 260-1050

102

зоном обычно понимают набор музыкально полезных звуков, которые доступны певцу. «Полезными» называют те звуки, которым певец может придать необходимую длительность, силу и окраску. Как показано в таблице 1, частотный диапазон певческого голоса составляет 80-1050 Гц [1], что в интервальном исчислении составляет четыре октавы. Каждый певческий голос занимает две и более октавы, в то время как диапазон изменения частоты основного тона (ЧОТ) при устной речи, как правило, не превышает одной октавы.

Другая характеристика голоса — тембр. Подвижный тип резонаторов голосового тракта обеспечивает возможность изменения тембра в процессе пения или речи и, наряду с изменением высоты и силы голоса, используется для выражения эмоций певцом, лектором, драматическим актёром.

Для того чтобы синтезировать голос с хорошими вокальными данными, нужно выделить отличия профессионального пения от любительского. Наиболее заметное отличие проявляется в более чётком выделении первой, второй и третьей форманты у профессиональных певцов. Кроме того, обученные певцы создают резонанс после 3000 Гц [8]. Эти явления продемонстрированы на рис. 1 на примере партии голоса эстрадной песни «Красная смородина» двух учениц музыкальной студии, одна из которых имеет хорошие вокальные данные и пятилетний опыт музыкальных занятий, другая только начала обучение вокалу. Рисунок демонстрирует, насколько профессиональное пение обогащено дополнительными обертонами выше границы в 4 кГц, в какой степени форманты имеют более чёткую структуру.

Для моделирования певческого голоса с большим уровнем естественности звучания следует остановить внимание на приёмах, которые используются при пении. Один из широко распространённых и часто используемых вокальных приёмов как в академической школе, так и при эстрадном исполнении — вибрато. Вибрато — это периодическое изменение ЧОТ в течение фрагмента речи. Частота изменения ЧОТ обычно 5-8 Гц, а глубина модуляции изменяется в пределах 50-150 центов (под центом в музыке понимается логарифмическая единица измерения относительного изменения частоты, при этом в одной октаве содержится 1200

центов. Две частоты / и / отличаются на 1 цент, если их отношение / // равно

21/1200) 1 2 1 2

Опытные певцы исполняют вибрато с большей частотой и глубиной [8]. Известно, что исполнители баритоном с наиболее приятными голосами поддерживали вибрато в течение 80% времени пения.

Рис. 1. Спектрограммы исполнения одного и того же песенного фрагмента опытным вокалистом (сверху) и певцом без подготовки (снизу)

103

300- к

50 100 ll'5Ö 200 250 300 350 400 450 500 ..... 550 600

Время (мс)

Я

о со 3"

250 -

200 - mi 11| 11 и 11111 м i и 1111| м i lili 11| м i и i м || м 111 м 11| 111 и 11111 м mi i Mil.........

50 1100 N50 200 250 300 350 I400 450 500

Время (мс)

Рис. 2. Графики зависимостей ЧОТ от времени при исполнении вибрато опытным вокалистом (сверху) и певцом без подготовки (снизу)

На рис. 2 показаны графики изменения ЧОТ при исполнении с помощью вибрато последнего гласного /с/ в слове «домой» певицы с достаточно хорошо поставленным голосом (сверху) и начинающей певицы (снизу). На верхнем графике ЧОТ имеет более выраженные периодические изменения, с большей амплитудой и частотой.

Кроме вибрато, во время пения используются такие приёмы извлечения

звука, как пение в грудном регистре и фальцетом. Как известно, в образовании звука главную роль играют поперечные колебания голосовых складок. Именно они в полном объёме имеют место при грудном регистре. Фальцет — это способ формирования высоких звуков, превышающих по частоте естественный грудной регистр [1]. При фальцетном регистре голосовые складки расслабляются, колеблются лишь их края; голосовая щель закрыта не полностью, имеет эллипсоидную форму.

2. Система синтеза пения

Одно из главных отличий пения от устной речи заключается в форме его представления. Музыкальная нотация явно определяет просодические характеристики звуков, в отличие от синтеза речи по тексту, при котором интонацию высказывания нужно определить, для чего используются различные модели и алгоритмы.

Музыкальная нотация имеет множество представлений — от обычно используемых нотных и табулатурных записей до таких необычных нотаций, как невмы [9] и «abc» [10]. Однако общее правило — каждому слогу или звуку сопоставляется последовательность записей, которые определяют высоту тона, длительность и другие параметры звука [11]. Такое представление подаётся на вход системы (рис. 3), затем из него выделяется музыкальная нотация и текст песни.

Далее текст поступает на вход фонетического преобразователя, а нотное представление песни переводится в набор целевых (требуемых при синтезе) просодических параметров: частоты основного тона (F), амплитуды (A), длительности (T) для каждой ноты в музыкальной нотации.

Рис. 3. Общая схема работы системы синтеза пения

Результатом обработки текста фонетическим анализатором становится аллофонная транскрипция слов песни. В модуле синтеза сигнала на основе полученной транскрипции и целевых просодических параметров генерируется звуковой сигнал. При этом модуль использует речевую базу данных (БД), содержание которой определяется методом синтеза речи.

2.1. Обработчик музыкальной нотации

Задача обработки музыкального представления песни заключается в переводе из формата представления музыкальной нотации в целевые значения просодических параметров речи: F0, A, T. Существует множество форматов представления музыкальных произ-ве-дений в электронном виде, например, такие как gtp [12], MIDI и kar [13], NIFF и SMDL [14]. Однако каждый из них разрабатывался для определённых узких целей, кроме того, большинство из них — коммерческие закрытые форматы. Поэтому в качестве внутреннего формата был выбран MusicXML [14], который является открытым. Этот формат понятен человеку, знакомому с теорией музыки, и редактируется вручную. Формат MusicXML быстро развивается и поддерживается большинством коммерческих и открытых нотных редакторов.

При вычислении целевых просодических параметров на основе нотации в формате MusicXML частота основного тона вычисляется в зависимости от ступени ноты по формуле:

F = f • 2"\12 , (1)

0 J 0

где f — частота исходной ступени,

n — количество ступеней от ноты до исходной ступени [11].

Длительность звучания ноты T вычисляется по формуле

T = 4 • r • t , (2)

0

где r — относительная длительность текущей ноты (половинная, четвертная, восьмая и т.п.);

105

£ — длительность четвертной ноты в миллисекундах, определяемая темпом произведения [14].

Коэффициент интенсивности вычисляется на основе знаков динамики, присутствующих в нотной записи, например, таких как крещендо, диминуэндо, сфорцандо, меццо-форте, пианиссимо и др. [11].

2.2. Фонетический преобразователь

На вход фонетического обработчика подаётся текст, разделённый на слоги. Внутри процессора он проходит три этапа: расстановку ударений, преобразование «буква-фонема» и преобразование «фонема-аллофон». Выходные данные — последовательность аллофонов, разделённая на слоги.

Слова песни

О

Расстановка ударений

Словарь ударений

Текст с ударениями

О

Преобразование «буква-фонема»

Последовательность фонем

О

Преобразование «фонема-аллофон»

Транскрипция

О

Рис. 4. Схема работы фонетического анализатора

106

На первом этапе в поступившем на вход тексте расставляются ударения, для чего используется словарь ударений. Затем размеченный текст преобразуется в последовательность фонем с использованием стандартных правил преобразования «буква-фонема» [15]. При преобразовании «фонема-аллофон» генерируются, в отличие от соответствующего преобразования в системе синтеза речи по тексту, аллофоны только полноударных и частично ударных гласных.

2.3. Модуль синтеза речевого сигнала

Несмотря на то, что пение отличается от устной речи, синтез пения имеет много общего с синтезом речи по тексту. Для синтеза речи по тексту используются такие подходы, как ар-тикуляторный, формантный, компиляционный (конкатенативный) и корпусный синтез [16]. В качестве модели для синтеза певческого голоса был выбран компиляционный метод из-за простоты реализации и достаточно хорошего конечного качества.

На вход модуля синтеза речевого сигнала (рис. 5) поступает аллофонная транскрипция текста и набор целевых просодических характеристик: Г , А, Т для каждого аллофона. На первом этапе обработки происходит выбор из речевой БД требуемых речевых сегментов и их конкатенация. При компи-ляционном синтезе речи БД может содержать не только аллофонные, но и диаллофонные (состоящие из последовательности двух аллофонов) и ал-лослоговые сегменты, причём использование более длинных сегментов улучшает качество синтезированной речи. В работе [16] показано, что для

достижения наиболее высокого качества синтезированной речи необходимо осуществлять поиск и извлечение из БД диаллофонов в соответствии со следующим приоритетом: ГГ, СГ, СС, ГС (где Г обозначает гласный, С — согласный).

При синтезе пения, однако, поиск и извлечение диаллофонов происходят по другим правилам. Не осуществляется поиск в БД диаллофонов типа ГГ и диаллофонов типа СГ в случае, если согласный — сонорный. Связано это с тем, что в обоих вариантах сложно определить точную границу между двумя звуками. Точное определение границы, однако, очень важно и в первом, и во втором случаях. В первом случае это значимо потому, что две гласные принадлежат к разным слогам и имеют в большинстве случаев разные целевые значения Г . Во втором случае определение точной границы необходимо потому, что длительность гласных в процессе просодической модификации меняется, в то время как длительность сонорных согласных остаётся неизменной. Как показал опыт разработки системы синтеза пения, искажения, возникающие из-за неточного определения границ двух звуков, заметно ухудшают качество синтезированного пения. Таким образом, из речевой БД осуществляется выбор только следующих типов сегментов: СГ (где С не является сонорным), СС и ГС.

Рис. 5. Схематическое представление модуля синтеза сигнала

Сформированный сигнал подаётся в блок акустической обработки, выполняющий модификацию значений Го, А, Т речевой волны в соответствии с входными значениями просодических параметров. При этом могут использоваться различные алгоритмы модификации сигнала: TD-PSOLA [17], алгоритм плавной сшивки [16], модель «гармоники плюс шум» [18]. В описываемой системе используется алгоритм плавной сшивки, достоинства которого — достаточно хорошее качество модифицированного сигнала, а также линейная вычислительная сложность алгоритма.

Модификация речевой волны при увеличении периода основного тона осуществляется по периодам. Результирующий сигнал одного периода основного тона &(п) вычисляется в соответствии с формулой:

!(п) = к(п)э(п)+ (1 - к(п))$(п + АТ), п = (1Т) , (3)

где !(п) — отрезок исходного сигнала длительностью в один период основного тона;

— АТ — разность между требуемой длительностью периода основного тона Т и исходной длительностью периода Т' : АТ = Т - Т ;

107

Цирульник Л.И., Ломов А.С. Синтез пения для русского языка

k(n) — кусочно-линейная функция, которую можно выразить формулой:

(4)

Ниже приведён пример увеличения длительности одного из периодов основного тона фонемы /в/. В этом случае длительность периода увеличивается с 241

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

до 361 отсчётов.

а)

б)

в)

yVvwv-—

д)

е)

/wY^

^ *АТ То Т

ж)

1ГО

Го2"

Рис. 6. Иллюстрация последовательной обработки исходного сигнала 5(Ь) методом «плавной сшивки» при увеличении длительности периода основного тона: а) исходный сигнал з(Ь); б) кусочно-линейная функция к(Ь); в) первое слагаемое результирующего сигнала з(Ь)*к(Ь); г) сдвинутый сигдал б(Ь+АТ); д) кусочно-линейная функция к'(Ь); е) второе слагаемое результирующего сигнала к '(Ь) *з(Ь+АТ); ж) результирующий сигнал

При уменьшении длительности периода основного тона лишний участок удаляется и «накладывается» на предшествующий участок по тому же принципу, что и при увеличении длительности.

Алгоритм даёт возможность с хорошим качеством изменять длительность периода основного тона на 50% от длины исходного периода. Изменение ЧОТ при этом находится в интервале от 70% до 200% от исходной частоты.

Изменение длительности в соответствии с целевым значением T происходит только на гласных фонемах. При этом в гласном дублируется или удаляется целое число периодов основного тона. Изменение аллофона начинается с его середины, чтобы сохранить переходные участки между звуками как можно более неизменными.

108

3. Особенности программной реализации системы

Описанная выше система реализована на языке программирования С++ с использованием инструментария Qt для создания интерфейса. Для работы со звуком выбрана библиотека DirectSound. Программа работает в операционной среде Windows. В качестве входных данных программа использует файлы MusicXML. Результат можно сохранить в файл с расширением wav.

На рис. 7 приведён пример внешнего вида программы. Информация о словах песни, их транскрипция и осциллограмма синтезированного звука отображаются

друг под другом на разных линейках.

Программа может устанавливаться в виде расширения для редактора музыкальных нотаций MuseScore [19]. В этом случае синтезатор озвучивает составленную в редакторе нотную запись.

В системе используется речевая БД мужского голоса, содержащая 3000 речевых отрезков. Среднее значение ЧОТ вокализованных элементов БД — 100 Гц. Таким образом, в

соответствии с используемым алгоритмом изменения ЧОТ — алгоритмом плавной сшивки — высокое качество синтезированного пения может быть получено в пределах диапазона изменения ЧОТ от 70 до 200 Гц, что полностью соответствует большой октаве. Это значит, что диапазон качественного синтеза системы меньше, чем диапазон любого певческого голоса, но достаточен для исполнения народных, детских и некоторых эстрадных песен.

Рис. 7. Внешний вид окна программы синтеза пения

Заключение

В работе описана система синтеза пения для русского языка, реализованная впервые. Описанные алгоритмы языконезависимые и могут применяться для синтеза пения на других языках при добавлении в систему речевой БД соответствующего языка, правил преобразования «буква-фонема» и «фонема-аллофон», а также словаря ударений.

Использование компиляционного метода синтеза и алгоритма «плавной сшивки» для модификации ЧОТ накладывает ограничения на частотный диапазон синтезируемой песни. Эти ограничения могут быть расширены путём пополнения речевой базы несколькими экземплярами вокализованных аллофонов с различными значениями ЧОТ либо же использованием корпусного метода синтеза речи.

Литература

1. Иванов А. Искусство пения. / А. П. Иванов. Голос-Пресс, 2006.

2. Max Mathews [Электронный ресурс]. Электронные данные. Режим доступа: http://en.wikipedia.org/wiki/Max_Mathews. Дата доступа: 01.06.2010.

3. KAE Labs Site [Электронный ресурс]. Электронные данные. Режим доступа: http://www.kalabs.com/index.html. Дата доступа: 01.06.2010.

4. Vocaloid official web site [Электронный ресурс]. Электронные данные. Режим доступа: http://www.vocaloid.com/en/index.html. Дата доступа: 01.06.2010.

5. Myriad: Music Notation Software [Электронный ресурс]. Электронные данные. Режим доступа: http://www.myriad-online.com/en/index.htm. Дата доступа: 01.06.2010.

109

ш

ш

6. E_CANTOR Site [Электронный ресурс]. Электронные данные. Режим доступа: http://www.virsyn.de/en/E_Products/E_CANTOR/ e_cantor.html. Дата доступа: 01.06.2010.

7. Жадинец Д.В. Система пения на основе синтеза речи / Д.В. Жадинец, В.В. Киселёв // Известия Белорусской инженерной академии. 2004. № 1. Т. 3. С. 81-84.

8. Matthew L. Acoustic Models for the Analysis and Synthesis of the Singing Voice. / Georgia Institute of Technology, 2005.

9. Wikipedia, the free encyclopedia [Электронный ресурс]. Электронные данные. Режим доступа: http://en.wikipedia.org/wiki/Neume. Дата доступа: 01.06.2010.

10. The ABC Music project [Электронный ресурс]. Электронные данные. Режим доступа: http://abcnotation.com/. Дата доступа: 01.06.2010.

11. Вахромеев В. Элементарная теория музыки. / В.А. Вахромеев. М.: Музыка, 1975.

12. Guitar Pro File Format (.gtp,.gp3,.gp4) [Электронный ресурс]. Электронные данные. Режим доступа: http://www.music-

notation.info/en/formats/GuitarProFormat.html. Дата доступа: 01.06.2010.

13. MIDI Manufacturers Association [Электронный ресурс]. Электронные данные. Режим доступа: http://www.midi.org/. Дата доступа: 01.06.2010.

14. MusicXML 2.0 Tutorial [Электронный ресурс]. Электронные данные. Режим доступа: http://www.recordare.com/xml/tutorial.html. Дата доступа: 01.06.2010.

15. Цирульник Л.И. Алгоритм генерации фонемной последовательности по орфографическому тексту в системе синтеза речи / Л.И. Цирульник // Информатика. 2006. № 4. С. 61-70.

16. Лобанов Б.М. Компьютерный синтез и клонирование речи. / Лобанов Б.М., Цирульник Л.И. Минск, Белорусская наука, 2008.

17. Moulines E, Charpentier F. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones // Speech Communication. 1990. Vol. 9. P. 453-467.

18. Laroche J., Stylianou Y, Moulines E. HNS: Speech modification based on a harmonic + noise model // Acoustics, Speech, and Signal Processing: proceedings of IEEE International conference ICASSP-93, Minneapolis, USA, 27-30 April 1993. Minneapolis, 1993. P. 550-553.

19. MuseScore Project Official Website [Электронный ресурс]. Электронные данные. Режим доступа: http://musescore.org/. Дата доступа: 01.06.2010.

Цирульник Лилия Исааковна —

окончила факультет прикладной математики и информатики Белорусского государственного университета. Кандидат технических наук, старший научный сотрудник лаборатории распознавания и синтеза речи Объединённого института проблем информатики Национальной академии наук Беларуси, автор более 50 научных работ по проблемам компьютерного синтеза и клонирования речи. Область научных интересов — методы автоматического анализа и синтеза речевых сигналов, человеко-машинные системы речевого общения, речевые компьютерные технологии. E-mail: [email protected]

Ломов А.С. —

окончил факультет информационных технологий и управления Белорусского государственного университета информатики и радиоэлектроники. Магистрант Института подготовки научных кадров Национальной академии наук Беларуси по специальности прикладная математика. Область научных интересов — теория цифровой обработки сигналов, методы синтеза речи по тексту, речевые

110

компьютерные технологии. E-mail: [email protected]

ЗАО НТЦ «Поиск-ИТ» представляет систему анализа речи на основе технологии фонемного поиска

Информационное пространство, в котором функционируют современные организации, существенно изменилось за последние годы. Крайне высокими темпами растут объёмы создаваемой и хранимой информации, так в 2006 году объём хранимой в мире в цифровом виде информации составлял 161 экзабайт, в то время как в 2010 году, по экспертным оценкам, эта цифра составила уже 988 экзабайт, причём большую часть накопленной в мире информации — около 85% — составляют неструктурированные данные, среди которых наиболее быстрыми темпами растут объёмы аудиовизуальных данных.

В связи с этим за последнее время бурное развитие, как в фундаментальном, так и в прикладном плане получают технологии, позволяющие производить поиск и анализ неструктурированных, и в первую очередь, аудиовизуальных данных.

Научно-технический центр «ПОИСК-ИТ» находится на переднем крае таких исследований и представляет мощное, легко масштабируемое решение для анализа речи, позволяющее за короткое время извлекать и анализировать значимую информацию непосредственно из массивов аудио данных. В данном решении реализована непрерывно совершенствуемая технология фонетического поиска, позволяющая:

• производить поиск любых слов и выражений непосредственно в речевой составляющей файла;

• создавать логически сложные поисковые запросы, позволяющие максимально точно находить нужные сведения;

• проводить статистический анализ результатов поиска, извлекая таким образом новые знания из массивов аудио-данных.

Принципиальной особенностью системы является её способность производить высококачественный поиск по материалам низкого качества (зашумленным записям, записям речи по телефону и пр.).

Немаловажной характеристикой системы является её быстродействие. Так, например, аудио-архив общей продолжительностью звучания 600 часов может быть доступен для поиска менее чем за один час. Непосредственно поиск выполняется со скоростью в 1 000 000 раз превышающей реальное время звучания.

Применение фонемного поиска позволяет значительно повысить эффективность поиска по аудио-данным и открывает пользователям богатейший источник информации.

Предлагаемая технология находит своё применение в различных областях человеческой деятельности, начиная от служб безопасности объектов разного уровня и заканчивая контакт-центрами, обладающими аудио-архивами наибольших объёмов. Применение предлагаемого решения, реализующего технологию фонетического поиска, в контакт-центрах позволяет значительно повысить их эффективность и расширить услуги, предлагаемые заказчикам и абонентам, за счёт возможности содержательного анализа записанных телефонных разговоров, а комбинация такого анализа с традиционными статистическими методами и встроенные аналитические отчёты позволяют поднять на новый уровень качество управления контакт-центром.

111

ПРЕДСТАВЛЯЕМ КНИГУ

Теория нейронных сетей, развитие которой в значительной степени определяет уровень решения сложных научно-технических задач, связанных с развитием высоких технологий в самых различных отраслях промышленности, народном хозяйстве и военной технике, является важным разделом современных научных исследований.

В августе 2007 г. в издательстве «Springer» вышла из печати на английском языке монография доктора технических наук, профессора А.И. Галушкина «Neural networks Theory», которая содержит результаты многолетних исследований автора в области теории нейронных сетей — логической основы построения принципиально новых, по сравнению с классическими, вычислительных систем — нейрокомпьютеров.

В 2010 г. в издательстве «Горячая Линия — Телеком» опубликована монография А.И. Галушкина «Нейронные сети: основы теории», которая является переводом монографии, выпущенной издательством «Springer».

Монография является одной из немногих, если не единственной монографией российского ученого, в которой представлены предисловия трёх известных учёных с мировым именем:

• Роберта Хехт-Нильсена — ведущего разработчика нейрокомпьютеров в США;

• Лотфи Заде — автора концепции размытой логики;

• Шун-иши Амари — директора института Исследований мозга в Японии.

В частности, Роберт Хехт-Нильсен отмечает следующее: «Эта книга представляет собой долгожданный панорамный обзор советской и российской нейросетевой традиции. Книга является кладезем важных идей и значительных результатов, которые не доступны более нигде в английском варианте. Автор, доктор А.И. Галушкин, является ведущим российским экспертом в области нейронных сетей и был ведущим советским и российским разработчиком нейронных сетей с 1970 г. В этот период доктор А.И. Галушкин имел доступ ко всем важным западным публикациям по нейросетевой тематике. Поэтому ценность этой книги удваивается, так как она написана не просто экспертом, но и человеком, который знает и ссылается на интеллектуальные достижения западной школы. Монография «Нейронные сети: основы теории» является наиболее значимым вкладом в литературу по нейросетевой тематике. Этот найденный клад должен быть использован тысячами исследователей и практиков по всему миру, у которых до сих пор не было возможности воспользоваться плодами советских и российских исследований в области нейронных сетей. Доктора Галушкина следует поздравить и поблагодарить за написание этой монументальной работы — книги, которую мог написать только он. Это по-настоящему дар всему миру».

Лотфи Заде пишет: «Монография профессора А.И. Галушкина имеет множество уникальных свойств, которые в общей сложности делают его работу важным вкладом в литературу по теории нейронных сетей. Он и его издатель заслуживают щедрых благодарностей и поздравлений от всех, кто всерьёз имеет интерес к созданию, развитию и текущему положению дел теории нейронных сетей».

А профессор Амари отмечает: «Профессор А.И. Галушкин, ведущий специалист по теории нейронных сетей в России, использует математические методы в комбинации с теорией сложности, нелинейной динамикой и оптимизацией, а также другими концепциями, крепко укоренившимися в российской научной школе. Его теория очень обширна: она охватывает не только традиционные аспекты, такие как архитектура сети, но также рассматривает континуальные нейронные сети в пространствах функций. Я с большим удовольствием воспринял выход книги, в которой эта теория описана во всей своей полноте. Огромная ценность самой теории и используемого автором метода описания такого сложного явления, как нейросетевая система, не может вызывать никаких сомнений».

От редакции: необходимо отметить, что изданная «Springer» монография является естественным продолжением большого числа работ, опубликованных автором за сорок лет работы в этой области. Результаты работ автора в области теории нейронных сетей стали основой для развития нейроматематики — нового раздела вычислительной математики, связанного с решением сложных математических задач в нейросетевом логическом базисе, а также основой для развития нейроуправления — нового раздела теории управления, ориентированного на сложные нелинейные, многомерные объекты управления с переменными параметрами и структурой.

i Надоели баннеры? Вы всегда можете отключить рекламу.