Научная статья на тему 'Повышение оперативности принятия решений при определении качества речевых сигналов'

Повышение оперативности принятия решений при определении качества речевых сигналов Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
322
48
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Изилов Роман Юноевич

Предложен метод оперативного контроля качества речевых сигналов, основанный на использовании сведений об изменении разборчивости в зависимости от уровня сигнала и шума в сочетании с их многомерным представлением, полученным компьютерными методами анализа и обработки информации, позволяющий упростить и ускорить (в сравнении с артикуляционным контролем, регламентированным ГОСТ Р 50840-95, ГОСТ Р 51061-97) процесс принятия решений при определении качества речевых сигналов в условиях ограниченного объема экспериментальных (речевых) данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Increasing efficiency of decision-making in estimation of speech signals quality

This article considers proposed operative quality speech signals control method, based on application intelligibility dependences according to signal and noise level variation combined with multidimensional representation by computer methods analysis and data processing, allowing to simplify and to increase efficiency of decision-making during estimation speech signals quality (comparing with the articulation control accepted in GOST R 50840-95, GOST R 51061-97) in conditions of the limited experimental (speech) material volume

Текст научной работы на тему «Повышение оперативности принятия решений при определении качества речевых сигналов»

ОБРАБОТКА ИНФОРМАЦИИ И УПРАВЛЕНИЕ/

УДК 681.3

ПОВЫШЕНИЕ ОПЕРАТИВНОСТИ ПРИНЯТИЯ РЕШЕНИЙ ПРИ ОПРЕДЕЛЕНИИ КАЧЕСТВА РЕЧЕВЫХ СИГНАЛОВ

Р. Ю. Изилов,

аспирант

Санкт-Петербургский государственный политехнический университет

Предложен метод оперативного контроля качества речевых сигналов, основанный на использовании сведений об изменении разборчивости в зависимости от уровня сигнала и шума в сочетании с их многомерным представлением, полученным компьютерными методами анализа и обработки информации, позволяющий упростить и ускорить (в сравнении с артикуляционным контролем, регламентированным ГОСТ Р 50840-95, ГОСТ Р 51061 -97) процесс принятия решений при определении качества речевых сигналов в условиях ограниченного объема экспериментальных (речевых) данных.

This article considers proposed operative quality speech signals control method, based on application intelligibility dependences according to signal and noise level variation combined with multidimensional representation by computer methods analysis and data processing, allowing to simplify and to increase efficiency of decision-making during estimation speech signals quality (comparing with the articulation control accepted in GOST R 50840-95, GOST R 51061 -97) in conditions of the limited experimental (speech) material volume

Введение

Проводимая в настоящее время подготовка к переходу сетей речевой связи России на повременную оплату приводит к необходимости оперативно получать сведения о качестве речевых сигналов (РС), передаваемых и принимаемых по каналам связи.

Вследствие этого, у абонентов, оплачивающих услуги связи, и у операторов, которые их предоставляют, появляется потребность в использовании средств объективного контроля качества РС. Они позволят устанавливать справедливые взаимные расчеты между потребителями и производителями таких услуг в зависимости от изменения качества передаваемых и принимаемых РС. Для создания средств контроля качества РС требуются соответствующие методы, в основе которых - использование информации, полученной по объективным данным, а не по данным восприятия речи.

При оценке качества РС, с одной стороны, важным является их звуковое восприятие. С другой стороны, сам термин «восприятие» вносит неопределенность при принятии решений о качестве речи. Например, операторы могут утверждать, что РС являются высококачественными, а потребители - что качество РС неудовлетворительное и их звуковое восприятие неприемлемо.

По этим причинам разработка методов контроля, позволяющих оперативно принимать решения о

качестве РС, становится актуальной проблемой.

Предлагаемый в работе метод контроля качества (МОКК) РС позволяет оперативно устанавливать моменты срыва связи, присутствие в сигнале шума и характер изменения во времени его амплитудно-частотных характеристик. Метод может использоваться для тестирования различной аппаратуры связи и обработки речевых сообщений общего и специального назначения; для осуществления специальных экспертиз (например, направленных на поиск монтажных признаков в речевом сигнале); для оценки возможностей систем обработки, приема и передачи речевых сообщений без проведения сложных и дорогостоящих измерений.

МОКК РС могут применяться операторами связи при выборе средств, повышающих качество речи (например, программно-аппаратных систем компенсации помех), в целях увеличения как количества абонентов, так и длительности осуществляемых ими разговоров и, следовательно, уровня доходов от реализации услуг речевой связи. Известно, что из-за шума в РС 20 % разговоров продолжаются меньше, чем могли бы длиться [1]. Компании, предоставляющие услуги связи, только по этой причине упускают значительную часть дохода.

Оперативное определение качества речи требуется для ускорения процессов поиска и устранения причин, снижающих качество каналов речевой связи. В настоящее время из 100% существующих

коммутируемых каналов примерно 15 % имеют неудовлетворительное качество [2], К этому приводит повышенное значение шума (67 %), срывы связи, амплитудные и частотные искажения сигнала (33 %) [2].

МОКК РС также могут применяться в диспетчерских службах организации движений, например, на железнодорожных или авиалиниях. В таких службах использование высококачественной речевой связи особенно актуально, что обусловлено следующими причинами. Шум повышает раздражительность и утомляемость человека. Эти факторы могут приводить к запаздываниям или к неточностям в действиях пилота или машиниста, что недопустимо при управлении воздушными или наземными транспортными средствами. Шум оказывает влияние на центральную нервную систему человека и приводит к разнообразным физическим (сердцебиение, повышение кровяного давления и т. д.) и психологическим (ослабление внимания, нервозность) нарушениям [3]. Методы контроля качества РС могут применяться для формирования рекомендаций при разработке соответствующих средств снижения помех.

Методы и технические решения, позволяющие оперативно определять качество РС, могут использоваться научно-производственными организациями, специализирующихся на создании новых и совершенствовании существующих технологий мультимедиа, человекомашинных систем с речевым взаимодействием, голосовой идентификации [4-6], звукотехнических средств различного назначения, в том числе средств приема, передачи и обработки РС.

Использование МОКК РС в целях совершенствования речевых технологий также весьма актуально. В настоящее время наблюдается рост производства средств речевого взаимодействия, что, с одной стороны, обусловлено техническим прогрессом, а с другой - потребностью людей общаться и получать доступ к информационным ресурсам на основе такого естественного для человека способа обмена информацией, как речь. По данным Министерства информационных технологий и связи РФ, количество абонентов мобильной связи в России к 2010 году превысит 70 млн человек [7]. Вместе с тем, по данным РИА «РосБизнесКонсалтинг», свыше 60 % от общего объема передаваемой информации приходится на речевые сообщения [8], значимость которых сохранится и в будущем. Это объясняется тем, что такому универсальному инструменту человеческого общения, как речь, обладающему уникальными особенностями передачи мысли, индивидуальности характера личности, эмоциональной окраски, аутентификации и другими, присущими только данному коммуникативному процессу, трудно найти какую-либо эквивалентную замену во многих системах связи и передачи информации.

Таким образом, технический прогресс с одной стороны, и с другой - потребность людей общаться и получать доступ к информационным ресурсам на основе речевого взаимодействия приводит к необходимости совершенствования речевых технологий

и создания для этого новых методов оперативного контроля качества РС.

Термины и определения

Речевыми сигналами следует считать акустические колебания, информационным содержанием которых являются звукосочетания, слова и фразы [6,10].

Под качеством речевых сигналов следует понимать параметр, характеризующий оценку звучания речи, выраженную в баллах по пятибалльной шкале или в процентном соотношении [13]. Для оценки качества РС могут использоваться эталонные данные (эталонные РС) [13].

Эталонные РС - сигналы, качество которых является известным и приемлемым [13].

Искусственные сигналы (ИС) - сигналы, изменяющиеся в соответствии с известным математическим законом, об-ладающие известной длительностью, формой, амплитудой и другими характеристиками [6,10].

Шум (помеха) - мешающее звучание (необязательно белый шум), воспринимаемое совместно с РС.

Искажения - изменения, которые могут снижать разборчивость и приводить к частичной или полной утрате амплитудо-частотных и временных фрагментов речи.

Срыв связи - отсутствие сигнала либо неудовлетворительное значение разборчивости речи [11].

Разборчивость - мера качества (звукового восприятия) сигнала, т. е. отношение количества правильно принятых к количеству переданных звукосочетаний, слов или выражений [9-13].

Современное состояние

Процесс определения качества речевых сигналов имеет свои особенности. Если качество (или результат обработки) искусственного сигнала можно оценить непосредственно по его небольшим интервалам, то для речевых сигналов такую оценку можно получить лишь в среднестатистическом отношении на большом количестве тестов с применением методов артикуляционных измерений (артикуляционного контроля) [9-13].

В работах [9-13] качество речи оценивается по разборчивости, выраженной в процентном соотношении. Измерение разборчивости осуществляется артикуляционными группами, состоящими из операторов, передающих и принимающих артикуляционные таблицы (АТ) - таблицы слогов, слов и выражений. Артикуляционный контроль состоит в передаче одной группой дикторов слогов, слов и выражений (произнесенных специальным образом), согласно АТ, в систему обработки (или передачи) РС и в записи другой группой (слушающих операторов) полученных на приеме данных в новую АТ. Переданные и записанные данные сравниваются для выявления в них отличий. Чем больше отличий, тем меньше разборчивость. Артикуляционные таб-

лицы содержатся в приложении государственного стандарта «Передача речи по трактам связи» [11,

12]. Такие таблицы также приводятся в работе [9]. Их общий объем достигает 67 страниц печатного текста [9]. Для расчета разборчивости, кроме передачи и приема АТ, проводятся и тренировочные измерения, в целях уменьшения неточностей в работе артикуляционной группы [9-12]. Все это показывает как трудоемкость принятия решений о качестве РС (методов или систем обработки речи), так и их длительность, которая, согласно государственному стандарту, не должна превышать 4 ч [9, 11-13].

Таким образом, расчет качества РС (или систем обработки речи) методом артикуляционных измерений (принятым в ГОСТ Р 50840-95, ГОСТ Р 51061-97 ) требует значительного объема экспериментальных данных, формирование и обработка которых приводит к большим затратам времени. В результате появляется потребность в новых методах контроля, позволяющих оперативно принимать решения о качестве РС при ограниченном объеме экспериментального (речевого) материала.

Метод оперативного контроля качества речевых сигналов

Оперативным контролем качества (ОКК) будем называть метод определения качества речи (или системы обработки РС), основу которого составляет анализ объективных данных - многомерных графических представлений (рис. 1, рис. 2) с последующей интерпретацией их в соответствии с таблицами 1 - 3 [9 -14]. На рис. 1 и рис. 2 показаны многомерные представления РС в форме осциллограммы, спектрограммы, энергии и числа нулевых переходов, которые получены с помощью программного комплекса (ПК) «Звукоинженер» [14, 15]. Они позволяют принимать решения о качестве РС в условиях ограниченного объема экспериментальных (речевых) данных. Фон спектрограммы является показательным индикатором качества РС. Он наглядно показывает шум и характер изменения его во времени, по амплитуде и частоте. На практике в сигнале могут присутствовать различные виды шумов, а сведения о них, как правило, заранее неизвестны. В этой

связи исследования фона спектрограммы позволяют получить необходимые сведения об изменении шума и выработать соответствующие рекомендации для создания новых и совершенствования существующих систем снижения помех. Если в сигнале содержится так называемый белый шум, то в спектрограмме будет присутствовать фон, равномерно распределенный как по времени, так по амплитуде и частоте. Если в сигнале содержится любой другой шум, то спектрограмма покажет, как именно изменяются во времени его амплитудно-частотные характеристики. Если в сигнале шум не содержится, то спектрограмма покажет отсутствие фона. На-рис. 1 и 3 фон отсутствует, а на рис. 2, 4, 5 - почти совпадает с полезным сигналом. Насыщенность фона характеризует плотность шума - чем темнее фон, тем выше плотность. Кроме этого, при исследовании качества РС важным показателем является диапазон изменения частот. Передаваемые и принимаемые по каналам связи РС (или сигналы до и после обработки их некоторой системой) должны сохранять диапазон частот в интервале Гт1п<Р<Ртах. Минимальное значение частоты определяется в интервале Рт|Пе (20-300 Гц), а максимальное -

Гтах - где (8000-44100 Гц) - частота диск-

ретизации [6, 10]. Если в сигнале после обработки отсутствуют некоторые (верхние, нижние или другие) частоты, то спектрограмма покажет сокращение интервала Гт|п<Г<Ртах или отсутствие отдельных частотно-временных фрагментов речи. Отсутствие таких фрагментов означает, что в полезном сигнале содержатся искажения.

Графики осциллограммы (ось абсцисс - время, ось ординат - уровень квантования сигнала), спектрограммы (ось абсцисс - время, ось ординат - частота, ось аппликат - амплитуда, измеряемые в герцах и в децибелах соответственно), энергии (ось абсцисс - время, ось ординат - уровень сигнала, измеряемый в децибелах) и числа нулевых переходов [16] позволяют установить в сигнале моменты начала и окончания интервалов речевой активности (РА). Под интервалами РА понимаются временные интервалы, содержащие речевые единицы (звукосочетания, слова или фразы). По интервалам РА изме-

■ Таблица 1. Эксперементальная таблица - градации качества речевого сигнала

Оценка качества РС Мотивация Численное представление

Неудовлетворительное Искажения спектра сигнала значительны. Шум (фон спектрограммы) наблюдается отчетливо либо незначительно, либо полностью отсутствует вместе с отсутствием (например, в связи с утратой) полезного сигнала. Динамический диапазон не превышает 8 дБ. Энергия сигнала находится на уровне 38 дБ и ниже 1

Низкое Искажения спектра сигнала присутствуют, шум (фон спектрограммы) наблюдается отчетливо. Динамический диапазон составляет 8-10 дБ 2

Удовлетворительное Искажения спектра сигнала выявить можно, при этом шумы (фон спектрограммы) незначительны. Динамический диапазон сигнала составляет 10-15 дБ 3

Хорошее Искажения спектра сигнала незначительны, шум (фон спектрограммы) не наблюдается. Динамический диапазон сигнала составляет 15-25 дБ 4

Отличное Искажения спектра сигнала отсутствуют или незначительны, шум (фон спектрограммы) не наблюдается. Динамический диапазон сигнала превышает 25 дБ 5

( I М< « РФ- <£> |

■ Рис. 1. Пример 1: многомерное представление речевого сигнала без помех (сверху вниз: осциллограмма, спектро-грамма, энергия, число нулевых переходов)

Энергия Перехсуды чеч>®» ноль Обший |

ТООС1 2000

\ зоорп.о | ^опоп.п-| 10000,0 [ 0-0-1-10000,0

Зашумленный РС

Шум

За

нный РС

Шум

щ 1 I 'V

речевогосигаала \фон/г речевого сигна

\ N. спектрограммы / \

Рис. 2. Пример 1: многомерное представление речевого сигнала (см. рис. 1) с шумом (сверху вниз: осциллограмма, спектро-грамма, энергия, число нулевых переходов)

ряется уровень сигнала, а по интервалам неречевой активности - уровень шума (см. рис. 2, 5).

Данные об уровне речи и шума (см. рис. 2, 5) используются при принятии решений о качестве РС согласно табл. 1-3. По графику энергии (см. рис. 1-5) определяется динамический диапазон. Речевой сигнал считают сигналом с высоким качеством, если его динамический диапазон соответствует уровню 40-57 дБ, и сигналом с достаточным качеством, если динамический диапазон находится в интервале 20-40 дБ [10].

Уровень энергии сигнала 120-130 дБ называют порогом болевого восприятия, а уровень 40 дБ - порогом слышимости речи [10]. Энергия речевых сигналов изменяется внутри интервала, ограниченного указанными порогами - в диапазоне от 40 дБ до 97,5 дБ. Часто (для удобства) энергию РС рассматривают в сравнении с нулевым уровнем. Для этого в соответствующих расчетах производится вычитание верхней границы 97,5 дБ, которое приводит к формированию нового диапазона изменения энергии с максимальным значением, равным уровню 0 дБ.

«

►►

Рис. 3. Пример 2: многомерное представление речевого сигнала без помех (сверху вниз: осциллограмма, спектро-грамма, энергия, число нулевых переходов)

► г г ич ►► ш

■ Рис. 4. Пример 2: многомерное представление речевого сигнала (см. рис. 3) с шумом (сверху вниз: осциллограмма, спектро-грамма, энергия, число нулевых переходов)

■ Таблица 2. Зависимость слоговой разборчивости от разности уровней речи и шума

Разность уровней сигнала и шума, дБ Диапазон слоговой разборчивости речи, %

40 и выше, 85-97

30-40 80-85

25-30 75-80

20-25 70-75

15-20 55-70

10-15 40-55

8-10 25-40

6-8 20-25

0-6 0-20

в Рис. 5. Многомерное представление зашумленного РС (сверху вниз: осциллограмма, спектро-грамма, энергия, число нулевых переходов)

В работе [10] указываются границы изменения средних значений энергий речевых сигналов: от -60 до -20 дБ. Если энергия речевого сигнала изменяется от нижнего до верхнего значения указанных границ, то сигнал характеризуется как высококачественный (динамический диапазон 20-40 дБ). Данные о закономерностях изменения разборчивости в зависимости от различных уровней речи и шума (см. табл. 2) показывают следующее [9, 10]. Если разность уровней сигнала и шума составляет 40 дБ и выше, то слоговая разборчивость речи в процентном соотношении будет находиться в интервале 85-97 %, если 30-40 дБ. то слоговая разборчивость находится в диапазоне 80-85 % (см. табл. 2) [9, 10].

При расчете качества РС принято устанавливать именно разборчивость слогов, а не слов или фраз, так как в отличие от слогов последние обладают смыслом, который позволяет в ряде случаев (например, когда разобрать содержание РС возможно с большим трудом) точно записывать слова и выражения. Вместе с тем, для того, чтобы установить разборчивость в любом языке, достаточно располагать сведениями о любой разборчивости, например, звуков, слогов, слов или выражений. Их процентные уровни связаны между собой (см. табл. 3) [9, 11-13].

В государственных стандартах указывается, что качество речи (или, например, систем обработки,

приема и передачи РС) следует характеризовать не только слоговой разборчивостью (табл. 2), но и соответствующим классом качества (см. табл. 3) [9, 11-

13]. Данные табл. 3 приводятся в ГОСТ Р 50840-95 и ГОСТ Р 51061-97, регламентирующих артикуляционные измерения [11-13], а сведения о зависимости слоговой разборчивости от уровня речи и шума (см. табл. 2) - в работах [9, 10].

Порядок определения качества речи включает следующие этапы.

1. Проверка громкости. Перед измерением качества речевого сигнала (системы обработки или приема-передачи РС) устанавливается громкость по индикатору уровня записи (воспроизведения) речи. Производится пробная загрузка ранее записанных (или обработанных) речевых сигналов. Выбранные уровни громкости фиксируются в последующих измерениях.

2. Загрузка ранее записанного речевого сигнала.

3. Определение разности уровня сигнала и уровня шума. На основе использования ПК «Звукоинже-нер» [15] сигнал представляется в виде осциллограммы, спектрограммы, энергии и числа нулевых переходов. Эти графики позволяют выявить фрагменты речевой и неречевой активности. По результатам измерений определяется разность уровней сигнала и шума (см. рис. 2).

4. Поиск диапазона разборчивости. Позначенню

■ Таблица 3. Класс качества речевого сигнала

Разборчивость Класс качества

IV III II I Высший

качество неудовлетворительное качество низкое качество удовлетворительное качество хорошее качество отличное

Слоговая, % менее 25 25-40 40-55 55-80 80 и выше

Звуковая,% менее 64 64-75 75-82 82-93 93 и выше

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Слов.. % менее 75 75-87 87-93 93-98 98 и выше

Фраз, % менее 90 90-95 95-97 97-99 99 и выше

разности уровней сигнала и шума (п. 3) в табл. 2 [9, 10] находят диапазон слоговой разборчивости.

5. По найденному диапазону слоговой разборчивости (п. 4) в табл. 3 [9, 11-13] определяется класс качества РС. ПК «Звукоинженер» позволяет по графикам (п. 3) сопоставить полученный результат (класс качества) с данными табл. 1 [9-15].

На рис. 1-5 приведены примеры графических представлений РС, полученных с помощью ПК «Звукоинженер» [15]. Возможности ПК «Звукоинженер» позволяют выводить графики в любом удобном масштабе и получать по каждому из них сведения о значениях сигнала с точностью до четырех знаков после запятой [15].

На рис. 2, 4 и 5 приведены примеры зашумленных РС. Графики спектрограммы наглядно показывают искажения и шум, содержащиеся в сигналах.

Принятие решений о качестве речи (или, например, о качестве системы обработки, приема и передачи речевых сообщений) осуществляется по результатам оценки сигналов (см. рис. 1-5) согласно данным табл. 1-3.

В ГОСТ Р 50840-95 и ГОСТ Р 51061-97 указывается, что речевым сигналам (или системам обработки, приема и передачи РС) необходимо присваивать соответствующий класс качества [12, 13]. Следуя требованиям государственных стандартов, в настоящей работе приводится табл. 3 [9, 11-13]. Однако перед тем как определить класс качества по табл. 3 [9, 11-13], нужно поданным табл. 2 [9, 10] установить диапазон слоговой разборчивости на основе сведений о разности уровней сигнала и шума [9. 10]. Далее значение разборчивости, найденное по табл. 2, сопоставляется с данными табл. 3 для определения класса качества речи.

Сравнительный анализ времени определений класса качества речевых сигналов методами артикуляционного и оперативного контроля

Класс качества устанавливается по разборчивости [9-13]. Расчет разборчивости методом артикуляционного контроля (АК) содержит следующие этапы:

1. Формирование артикуляционной группы из 10 человек - 5 дикторов и 5 слушающих операторов. Решение о включении кандидата в группу принимается по результатам тестирования. Если кандидат систематически показывает результаты, значительно отличающиеся от других, то он исключается из группы.

2. Проверка громкости. Перед началом измерений дикторами проводится пробная передача данных для настройки (по соответствующему индикатору) громкости, с которой будет осуществляться прием артикуляционных таблиц.

3. Предварительное измерение. Перед основными измерениями артикуляционная группа проводит передачу АТ для ознакомления с методом измерений и выработки у операторов правильного произношения, внимательности и способности поддерживать постоянный уровень речи.

4. Передача и запись АТ. Измерение разборчивости состоит в передаче АТ группой дикторов, в записи группой слушающих операторов принятых данных в бланки АТ и в обработке полученных результатов. Время работы артикуляционной группы, занятой измерениями, с учетом небольших перерывов, не должно превышать 4 ч [9, 11, 12].

5. Сравнение переданных и принятых АТ. Сравнение производится для подсчета количества правильно принятых речевых единиц из числа произнесенных.

6. Определение величины разборчивости. Определение разборчивости включает расчет процента правильно принятых слогов каждым слушающим по каждой АТ, расчет средних значений разборчивости и среднеквадратических отклонений.

7. Корректировка величины разборчивости. Уточнение результатов измерений состоит в учете и в устранении случайных, переменных и постоянных частей систематических отклонений. Такие отклонения возможны из-за ошибок при произношении (замена одних звуков другими, неясное произношение), при записи (пропуск некоторых звуков из-за невнимательности, неправильная запись услышанных звуков ит. д.). При расчете разборчивости подобные ошибки включаются в средний результат. Для уменьшения числа неточностей принято увеличивать объем правильно записанных звукосочетаний за счет включения в их состав записей, разных по написанию, но близких по звучанию (например, передано «сан», а записано «сам»). Производится исключение сомнительных (отличающихся в ту или другую сторону от большинства других) измерений. Выпадающие точки (измерения), не входящие в некоторый интервал среднего значения, не используются при расчете разборчивости. Для проверки таких точек используют правило «трех сигма»: если значение разборчивости для одной таблицы отклоняется от среднего по всем таблицам более чем на три сигма (три среднеквадратических отклонения), то такое значение исключается и производится заново расчет среднего значения разборчивости. Для повышения достоверности расчетов дополнительно проводят тренировочные измерения, передачу и запись новых АТ, что увеличивает общее время расчета разборчивости и класса качества речи [9, 11, 12].

8. Определение класса качества. По найденной величине разборчивости (п. 6 и п. 7) и данным табл. 3 устанавливается класс качества РС.

Порядок расчета качества речи методом оперативного контроля рассмотрен выше. Сравнительный анализ времени определения класса качества РС методами АК и ОКК приводится в табл. 4.

Определение класса качества производится в стационарных условиях, т. е. РС передаются либо при отсутствии среды, имитирующей шум, либо в шуме. АК предусматривает передачу каждым диктором не менее 10 таблиц слогов (одна таблица состоит из 50 слогов) [9, 11, 12]. Перед передачей таблицы диктор должен сообщить слушающему оператору номер АТ. Передача слогов осуществляется ровным

* Таблица 4. Сравнительный анализ времени определения класса качества речевых сигналов методами артикуляционного и оперативного контроля

Наименование этапа Время, мин

АК ОКК

Формирование артикуляционной группы 60 -

Проверка громкости 5 5

Предварительное измерение 15 -

Передача и запись данных АТ (для АК) 30 -

Сравнение переданных и принятых АТ 30 -

Загрузка ранее записанного (или обработанного) РС (для ОКК) - 5

Определение разности уровня сигнала и уровня шума - 5

Определение величины разборчивости 40 10

Корректировка величины разборчивости 40 -

Определение класса качества 2 2

Итого: 222 27

голосом, без подчеркивания и без растягивания звуков. в одном ритме - 20 слогов в минуту [9]. Перед началом измерения для подготовки операторов производится пробная передача данных в течение 2-3 мин [9]. Для передачи и записи АТ требуется 28-30 мин (с учетом времени на сообщение номера АТ). Время, необходимое для сравнения переданных и принятых данных, сопоставимо со временем передачи и записи АТ. Выполнению этапа передачи и записи АТ предшествует этап предварительных измерений. Он производится для выработки у операторов внимательности в произношении, в записи АТ, способности поддерживать постоянный темп и уровень речи. В табл. 4 указывается время, равное 15 мин. Однако оно может быть и более продолжительным, так как предварительные измерения осуществляются до тех пор, пока средние величины разборчивости, устанавливаемые отдельными слушающими операторами, не будут систематически отклоняться от средней величины разборчивости артикуляционной группы в целом более чем на 8-10 % [9, 11].

Литература /

1. ВВС, http://news.bbc.co.uk.

2. Даньшова Н. П. Опыт внедрения эксплуатационных норм на электрические параметры коммутируемых каналов сети ТфОП //Тезисы доклада руководителя НТЦ-7 ЦНИ-ИС на семинаре-совещании «Состояние и пути повышения эффективности метрологического обеспечения средств связи» 10-16 мая 2000 года. - М.: МТУСИ, http:/ /www.analytic.ru/ftproot/pub/byb_art/cns2000.pdf.

3. Влияние шума на человека, http://mpfmma. rusmedserv. com/noise.htm.

4. IBM совершенствует речевые технологии: Интернет-издание, 2001, http://www.utro.ru/news.

5. IBM Systems, http://www.IBM.com.

6. Косарев Ю. А. Естественная форма диалога с ЭВМ. - Л.: Машиностроение, 1989. - 143 с.

7. Министерство информационных технологий и связи РФ, http://www.minsvyaz.ru.

8. РИА «РосБизнесКонсалтинг», http://www.rbc.ru.

9. Покровский Н. Б. Расчет и измерение разборчивости речи - М.: Связьиздат, 1962. - 391 с.

Продолжительность измерений и корректировки величины разборчивости обусловлена необходимостью обработки значительного объема экспериментального материала - переданных и записанных АТ. Для того чтобы уменьшить влияние утомляемости на результаты измерений, общее время работы артикуляционной группы не должно превышать 4 ч. При этом после каждого часа работы предусматривается 10-15 мин перерыв [9, 11, 12].

Класс качества речи устанавливается сопоставлением рассчитанного значения разборчивости со значениями, приведенными в табл. 3.

Таким образом, сравнительный анализ показал, что предложенный метод позволяет упростить и ускорить (до 8,2 раза быстрее в сравнении с артикуляционным контролем - ГОСТ Р 50840- 95 и ГОСТ Р 51061-97) процесс принятия решений при определении класса качества речи или системы обработки, приема и передачи РС.

10. Калинцев Ю. К. Разборчивость речи в цифровых вокодерах. - М.: Радио и связь, 1991. - 220 с.

11. ГОСТ 16600-72. Передача речи по трактам радиотелефонной связи. - М.: Госстандарт, 1972.

12. ГОСТ Р 50840-95. Государственный стандарт РФ. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. - М.: Госстандарт России, 1997.

13. ГОСТ Р 51061 -97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1998.

14. Изилов Р. Ю. и др. Критерии оценки качества речевых сигналов // Научно-технические ведомости СПбГТУ. -Изд. СПбГТУ. - 2002. - № 3 (29). - С. 110-114.

15. Изилов Я. Ю. Программный комплекс «Звукоинженер» для интерактивной работы с речевыми сигналами в среде Microsoft Windows // Вычислительная техника, автоматика, радиоэлектроника: Труды СПбГТУ. - 2000. - № 480. -С. 180-183.

16. Рабинер Л. Р. и др. Цифровая обработка речевых сигналов - М.: Радио и связь, 1981.

i Надоели баннеры? Вы всегда можете отключить рекламу.