Научная статья на тему 'СИСТЕМА РАСПРЕДЕЛЁННОГО АВТОМАТИЗИРОВАННОГО ДОКУМЕНТИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ'

СИСТЕМА РАСПРЕДЕЛЁННОГО АВТОМАТИЗИРОВАННОГО ДОКУМЕНТИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
20
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПРЕДЕЛЁННОЕ ДОКУМЕНТИРОВАНИЕ / ОБНАРУЖЕНИЕ ИЗМЕНЕНИЯ ДИКТОРА / ОПРЕДЕЛЕНИЕ ГОЛОСОВОЙ АКТИВНОСТИ / РЕЧЕВАЯ СЕГМЕНТАЦИЯ СИГНАЛА / ШУМОПОДАВЛЕНИЕ

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Крак Юрий Васильевич, Загваздин А.С.

В статье рассматривается система автоматизированного компьютерного стенографирования, которая включает в себя механизмы предварительной обработки сигнала и сегментацию сигнала, основанную на определении голосовой активности в сигнале. Предварительная обработка сигнала включает в себя уменьшение уровня шума и возможность изменения скорости воспроизведения сигнала без изменения его акустических характеристик. Система также предоставляет возможность сегментации голосового сигнала на основании позиций изменения диктора. Система позволяет распространять сегменты голосового сигнала между операторами-стенографистами, что позволяет повысить продуктивность стенографирования в сравнении со стандартными способами стенографирования. ·A system for distributed automated transcription is described. The system features auto-mated speech signal pre-processing and segmentation based on voice activity detection. Signal pre-processing includes the noise reduction and the ability to change the speech rate of the signal without affecting its acoustical characteristics. The system also allows to segment the signal based on the speaker change. The system allows to automatically distribute the signal segments among the members of the group of transcriptionists that allows to increase the transcription performance compared to the standard transcription methods. ·

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Крак Юрий Васильевич, Загваздин А.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «СИСТЕМА РАСПРЕДЕЛЁННОГО АВТОМАТИЗИРОВАННОГО ДОКУМЕНТИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ»

Система распределённого автоматизированного документирования речевых сигналов Крак Ю.В., доктор физико-математических наук, профессор Загваздин А.С., научный сотрудник В статье рассматривается система автоматизированного компьютерного стенографирования, которая включает в себя механизмы предварительной обработки сигнала и сегментацию сигнала, основанную на определении голосовой активности в сигнале. Предварительная обработка сигнала включает в себя уменьшение уровня шума и возможность изменения скорости воспроизведения сигнала без изменения его акустических характеристик. Система также предоставляет возможность сегментации голосового сигнала на основании позиций изменения диктора. Система позволяет распространять сегменты голосового сигнала между операторами-стенографистами, что позволяет повысить продуктивность стенографирования в сравнении со стандартными способами стенографирования. • стенографирование • распределённое документирование • обнаружение изменения диктора • определение голосовой активности • речевая сегментация сигнала • шумоподавление. 43

A system for distributed automated transcription is described. The system features automated speech signal pre-processing and segmentation based on voice activity detection. Signal pre-processing includes the noise reduction and the ability to change the speech rate of the signal without affecting its acoustical characteristics. The system also allows to segment the signal based on the speaker change. The system allows to automatically distribute the signal segments among the members of the group of transcriptionists that allows to increase the transcription performance compared to the standard transcription methods. • distributed transcription • speaker change detection • voice activity detection • speech signal segmentation • noise reduction. Текстовая стенограмма заседания — необходимая составляющая в работе многих организаций. Как правило, процесс создания и расшифровки стенограмм достаточно продолжителен и попытки его ускорения путём расширения персонала, вовлечённого в процесс, представляются неэффективными. Для автоматизации процесса создания стенограмм заседаний предлагается система распределённого компьютерного документирования. Поскольку стенографирование заседаний — задача, которая может быть достаточно просто распределена между многими исполнителями, система распределённого стенографирования должна поддерживать однопользовательский и многопользовательский режимы работы. На сегодняшний день в мире существует несколько систем распределённого документирования. В качестве примеров можно привести модуль стенографирования, входящий в состав системы поддержки принятия решений «Рада-3» [1], которая

Крак Ю.В., Загваздин А.С.

СИСТЕМА РАСПЕДЕЛЁННОГО АВТОМАТИЗИРОВАННОГО ДОКУМЕНТИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ

используется для обеспечения законодательной деятельности Верховной Рады Украины и некоторых местных законодательных органов; системы стенографирования фирмы SRS (г. Киев) [2], которые широко используются для обеспечения протоколирования судебных заседаний; систему документирования «Нестор» фирмы «Центр речевых технологий» (г. Санкт-Петербург) [3] и некоторые другие.

Однако практически всем существующим в настоящее время системам свойственен ряд недостатков. Основной недостаток существующих систем стенографирования заседаний заключается в том, что они предъявляют высокие требования к аппаратному обеспечению, на котором работает серверная часть системы, и требует существенных затрат на внедрение системы в целом. Как правило, такие системы документирования устанавливаются стационарно в залах, где проходят заседания, и имеют жёсткую привязку к звукозаписывающему оборудованию зала, а также требуют установки отдельных серверов для обеспечения распределённого документирования, сервера звукозаписи и т.п. Также, как правило, в составе подобных систем документирования присутствует ещё и выделенный сервер баз данных. Очевидно, что системы, реализованные в соответствии с подобной архитектурой, требуют значительных усилий с точки зрения системного администрирования. Такие ограничения делают внедрение подобных систем стенографирования практически невозможным в небольших организациях, организациях с ограниченным ИТ бюджетом, а также для индивидуальных пользователей. Наличие серверной части в таких системах также делает практически невозможной мобильную работу с системой и требует постоянного подключения к локальной сети.

Ещё одним общим недостатком существующих систем является недостаток внимания, уделяемого разработчиками средствам повышения продуктивности работы операторов-стенографистов. Сегментация входящего звукового сигнала, как правило, осуществляется на фрагменты фиксированной длины. Фрагмент может обрываться на середине слова или фразы, возможности по предварительной цифровой обработке сигнала (шумоочистке, изменению скорости воспроизведения сигнала, и т.д.) также зачастую ограничены. В общем, основные недостатки существующих систем распределённого документирования могут быть сформулированы следующим образом:

• высокая стоимость внедрения и сопровождения, высокие требования к аппаратным ресурсам;

• недостаточная интеллектуальность при сегментации и распределении фрагментов входящего речевого сигнала;

• недостаточные возможности по предварительной цифровой обработке сигнала;

• отсутствие либо недостаточная развитость средств повышения продуктивности работы операторов-стенографистов.

Ниже предлагается к рассмотрению система распределённого компьютерного документирования речевых фонограмм, в основе программной архитектуры которой лежит концепция, не требующая реализации основных функций системы на выделенных серверах, где среди рабочих станций операторов, стенографистов одна может быть выделена как главная. На главной рабочей станции будет проводиться предварительная обработка звука, его сегментация и распределение между операторами. Таким образом, предложенная система сможет быть развёрнута на нескольких персональных компьютерах. В предложенной системе также поддерживается однопользовательский режим работы, при котором все функции системы будут

44

реализованы на одном компьютере.

Требования к системе распределённого документирования

Рассмотрим основные требования, которые выдвигаются к системе распределённого компьютерного документирования:

• Система должна иметь возможность работать с входящим речевым сигналом из различных источников звуковой и видеоинформации. В упрощённом варианте система должна поддерживать различные форматы звуковых и видео файлов в качестве источников речевого сигнала (wav, mp3, wma, avi, mpeg и другие). Речевой сигнал также может сопровождаться видеосигналом, и при воспроизведении звуковой и видеосигнал должны быть синхронизированы.

• Система должна иметь возможность сегментации входящего звукового сигнала на равноценные сегменты, при этом они не должны начинаться и заканчиваться на середине слов. Длина сегментов не должна быть меньшей определённого значения, но при этом сегменты должны быть достаточно короткими для удобного запоминания, чтобы в процессе стенографирования сводилась к минимуму необходимость повторного воспроизведения сегмента. Алгоритм сегментации должен надёжно работать в условиях нестационарного шума, который может присутствовать во входящем сигнале.

• При сегментации сигнала должна учитываться информация об изменении диктора, момент изменения диктора в сигнале должен совпадать с началом нового сегмента.

• В системе должны быть реализованы следующие функции предварительной цифровой обработки сигнала: уменьшение уровня шума, усиление уровня сигнала и изменение скорости воспроизведение сигнала, причём последнее не должно вызывать изменение тембра голоса говорящего.

• Интерфейс рабочего места оператора-стенографиста должен быть простым и интуитивно понятным и не требовать высокого уровня компьютерной грамотности от операторов системы. Это позволит сократить сроки обучения пользованию системой и получить более высокую продуктивность работы.

• Система должна иметь возможность работы как в однопользовательском, так и в многопользовательском режимах, при этом она не должна требовать комплексного внедрения и администрирования. Все компоненты системы должны иметь возможность быть установленными на распространённом компьютерном оборудовании. При этом скорость обработки сигнала и выполнения основных операций системы должны быть достаточно высокими для обеспечения комфортной работы с системой.

• В многопользовательском режиме фрагменты входящего речевого сигнала должны автоматически распределяться между операторами-стенографистами. Система должна иметь возможность работы с любым количеством операторов, которые могут подключаться к системе через локальную сеть или по сети Интернет.

• Исходя из особенностей восприятия человеком информации и кратковременной памяти человека [4], длина фрагментов, на которые разбивается входящий звуковой сигнал, должна составлять в среднем 5-9 слов. Аналогично количество основных элементов управления программы рабочего места оператора не должно превышать 9.

• Для повышения продуктивности работы операторов в системе должны быть реализованы функции автоматической проверки орфографии, автозамены и автоподстановки, автоматические всплывающие подсказки для наиболее часто встречающихся слов.

Ниже будут рассмотрены особенности реализации системы распределённого компьютерного документирования, удовлетворяющей перечисленным выше требованиям, которая была создана в Институте кибернетики НАН Украины им. В.М. Глушкова.

Сегментация входящего речевого сигнала

Одной из важнейших задач системы распределённого компьютерного документирования является сегментация сигнала: разделение входящего речевого сигнала на равноценные сегменты. Для сегментации сигнала в рассматриваемой системе используется инфор-

45

мация о паузах, присутствующих в сигнале, а также о позициях в звуковом сигнале, где происходит смена диктора.

Для качественного определения пауз в сигнале предлагается алгоритм определ-ния пауз, устойчивый к нестационарному уровню шума в сигнале. Поиск фрагментов сигнала, где присутствуют паузы, проводится путём сравнения энергии в анализируемом фрейме с пороговым значением. Для этого по сигналу проходим прямоугольным окном продолжительностью 50 мс таким образом, чтобы начало каждого последующего окна приходилось на середину предыдущего. Такая относительно большая продолжительность окна обусловлена тем, что для поиска пауз в речи нецелесообразно использовать паузы короче 50 мс, а большая продолжительность окна позволяет сократить общее количество итераций алгоритма. Таким образом, на каждом шаге алгоритма сигнал задаётся как

sk И =

\s[i], 0.05* D * к < i < 0.15* D * к

0,

else

(1)

Здесь Б — частота дискретизации сигнала, а к — номер шага алгоритма.

Полагаем, что на участке сигнала, длиной 10 с должна быть по крайней мере одна пауза. Следовательно, для адаптации алгоритма к текущему соотношению «сигнал/шум» будем использовать информацию о предыдущих 10 с звучания сигнала. Также, будем считать, что уровень энергии сигнала в участках, соответствующих паузам, ниже, чем в участках, где присутствует голосовая активность. Энергию сигнала определим как дисперсию амплитуды сигнала в заданном окне:

Ek = l0gl

1 N

- Y s, [i]2 -

N kLJ

f 1 N Л2

- Y sk [i]

(2)

На рис. 1 и 2 приведены графики амплитудно-временного представления зашум-ленного сигнала и соответствующий ему график уровня энергии в сигнале. Уровень энергии в участке, который соответствует паузе, существенно ниже.

Рис. 1. АЧП зашумленного сигнала с паузой

46

Рис. 2. Энергия сигнала, рассчитанная как дисперсия амплитуды

Для устранения негативного влияния случайных возмущений на измерения к полученным уровням энергии применяется метод медианного сглаживания 5-го порядка в соответствии с формулой:

s[i] = med{s[i - 2], s[i - 1], s[i + 1], s[i + 1]}.

(3)

Для принятия решения о том, соответствует ли анализируемый фрейм паузе, значение энергии в этом фрейме сравнивается с порогом. Поскольку окружающие условия и уровень шума в сигнале могут меняться со временем, существует необходимость динамического расчёта порога в процессе обработки сигнала. Предложен следующий алгоритм адаптивного вычисления порога энергии для пауз.

На участке сигнала протяжённостью 10 с, предшествующем анализируемому фрейму, находятся минимальный и максимальный уровни энергии для данного участка: £тти Етах. Далее, уровень энергии в текущем фрейме сравнивается с полученными минимальным и максимальным значениями. Решение о том, что текущий фрейм принадлежит паузе, принимается, если выполняется следующее условие:

E - E

E < Emm v-min-

E„

E„

< 0.2

(4)

Минимальное и максимальное значения уточняются на каждом шаге алгоритма с учётом предыдущих 10с звучания. Фреймы с низким уровнем энергии, расположенные последовательно один за другим, объединяются в одну паузу. Паузы, длина которых меньше некоторой заданной длины, исключаются из рассмотрения, так как они наиболее вероятно соответствуют участкам с низкой энергией в середине слова (например, шипящим согласным).

Графически работа алгоритма адаптивного вычисления порога проиллюстрирована на рис. 3.

Рис. 3. Адаптивный порог при поиске пауз в сигнале

Для повышения интеллектуальности сегментации сигнала целесообразно учитывать позиции в сигнале, где происходит изменение диктора. Для нахождения таких позиций предлагается подход, рассмотренный ниже.

Полагаем, что изменение диктора в сигнале происходит в районе паузы. Иными словами, после того, как заканчивает говорить первый диктор и начинает говорить второй, есть

47

48

пауза. На практике это не всегда так, и дикторы могут перебивать друг друга, однако, такие ситуации сложно учитывать при сегментации сигнала, и в данной работе они не рассматриваются.

Положим, что X = {х х ..., хп} — множество характеристических векторов, которые соответствуют участку сигнала до паузы, а У = {у у ..., уп} — множество характеристических векторов, которые соответствуют участку сигнала между текущей паузой и последующей. N и N — соответственно количество точек в первом и втором множествах. Характеристические векторы в данном случае представляют собой 13 мел-кепстральных коэффициентов, рассчитанных на участке сигнала продолжительностью 30 мс, и частота основного тона в качестве 14-го элемента вектора.

Пусть 2 = X и У — объединение множеств характеристических векторов с количеством точек N = Nx + N. Множества X и У сравниваются при помощи некоторой меры различия, и если они отличаются значительно, принимается положение о том, что в анализируемом участке сигнала присутствует изменение диктора.

Задачу определения наличия изменения диктора можно сформулировать в виде задачи проверки гипотезы. Пусть Н0 — гипотеза о том, что изменение диктора отсутствует, а Н1 — гипотеза о том, что происходит изменение диктора. Положим также, что векторы, из которых состоят множестваXи У являются независимыми и имеющими одинаковое распределение случайными величинами. Пусть 02 — параметры распределения для множества 2, рассчитанные при помощи метода максимального правдоподобия. В таком случае логарифмическое соотношение правдоподобия для множества наблюдений 2 при условии выполнения гипотезы Н0 запишется как:

Nz NУ

Lo =Х lo§ p(X I 0Z ) + X log P(y I ©z )

Здесьp(x I 0) — вероятность того, что x выполняется при условии 0. Функция плотности распределения находится при помощи метода Gaussian Mixture Models (GMM).

Для проверки гипотезы H рассчитываются параметры индивидуальных распределений для наборов наблюденийXи Y, которые соответственно обозначаются как 0X и 0Y . При этом логарифмическое отношение правдоподобия для гипотезы запишется как:

Nx Ny

L =Х log p(x 10X) + X log p(y | 0Y)

i =1 i=1 (6)

Меру различия для множеств X и Y, в таком случае, можно задать как байесовский информационный критерий:

d1 = L1

L

LL

2 AK log N

(7)

Здесь Д2 = Nx - N, а X — параметр, который подбирается экспериментально. Решение о наличии изменения диктора в анализируемом участке сигнала принимается, если заданная таким образом мера различия превышает некоторый порог, который задаётся экспериментально.

Далее в процессе сегментации сигнала учитывается информация о найденных паузах и позициях изменения диктора. Процесс сегментации показан на рис. 4.

Обнаружение пауз Для каждой паузы определяется, происходит ли изменение диктора Сегментация с учётом пауз и изменение диктора

А 1' i t

Для каждого фрейма: Расчёт энергии и пороговых

значений. Если текущая энергия не превышает порог — то есть пауза

Для участков сигнала до и после паузы: БПФ -> МРОО + Питч ->

-> вММ -> > сравнение при помощи _БИК_у

Для каждой паузы: Если расстояние от начала сегмента до паузы <= или в районе паузы есть изменение диктора — начинается новый сегмент

Рис. 4. Процесс сегментации сигнала

Предварительная цифровая обработка сигнала

В рассматриваемой системе в качестве метода предварительной цифровой обработки сигнала реализованы методы уменьшения уровня шума и изменения скорости воспроизведения звукового сигнала без изменения тембра голоса говорящего.

Шумы, которые, как правило, присутствуют в сигналах, подаваемых на вход системы распределённого документирования, могут считаться аддитивными в спектральной области, Следовательно, для фильтрации таких шумов могут быть применены распространённые методы спектрального вычитания или виннеровской фильтрации. В случае виннеров-ской фильтрации фильтр задаётся следующим образом [5]:

Н (ю) =

(ю) + ^ (ю)

Здесь (ш) — спектр сигнала, а ^ (ш) — спектр шума. Функция фильтрации для фрейма т может быть задана как:

£х(т)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(8)

f (^т )

Sx (m) + SN (m) (9)

Если спектр шума известен, то спектр очищенного от шума сигнала можно рассчитать как

^ (m) = ||Y(т)|2 -Sn(m), Y(т)|2 > Sn(т)

Х I0 else

Отсюда функция фильтрации шума может быть записана следующим образом:

Y(m)2 - Sn (m)

(10)

f (Y (m)) =

Y (m)\

0, else

Y(m), Y(m)|2 > Sn(m)

(11)

Для работы описанного метода фильтрации необходимо знать спектр шума. Предположим, что участки сигнала, которые соответствуют паузам, содержат только шум. Следовательно, для аппроксимации шума можно использовать паузы, которые были найдены при помощи алгоритма, описанного в «Сегментации речевого сигнала».

Для изменения скорости воспроизведения сигнала с сохранением тембра голоса диктора необходимо убедиться, что продолжительность сигнала изменяется, но частота основного тона говорящего сохраняется. Обеспечить это возможно при помощи использования ал-

49

50

горитмов типа PSOLA (pitch-synchronous overlap and add), которые широко применяются в системах искусственного синтеза речи. Для реализации таких алгоритмов сперва решается задача обнаружения периодов псевдопериодичности в звуковом сигнале (питч-периодов). Для этого исходный звуковой сигнал пропускается через низкочастотный и высокочастотный фильтры с конечными импульсными характеристиками. На рис. 5 и 6 приведен пример слога «ма» до и после фильтрации соответственно.

Рис. 5. Слог «ма» до фильтрации

Рис. 6. Слог «ма» после фильтрации

Далее для сглаживания сигнала каждый элемент вектора исходного сигнала заменяется на взвешенное среднее четырёх окружающих его элементов по формуле:

d[i] =

3x[i - 2] + x[i -1] - x[i +1] - 3x[i + 2] 10

(12)

К полученному сигналу применяется медианное сглаживание порядка у = 199 (каждый элемент вектора заменяется на медиану вектора, состоящего из п элементов, окружающих текущий элемент). Вид сигнала после сглаживания представлен на рис. 7.

Рис. 7. Слог «ма» после фильтрации и медианного сглаживания

После этого в полученном сигнале обнаруживаются точки, где последовательность, состоящая из элементов вектора сигнала, изменяет знак с «-» на «+» и такие точки обозначаются как границы питч-периодов. Среди определённых таким образом границ обнаруживаются и исключаются точки, расположенные слишком близко друг к другу, а для участков сигнала, где нет явной псевдопериодичности назначаются условные границы с некоторым постоянным интервалом.

Крак Ю.В., Загваздин А.С.

СИСТЕМА РАСПЕДЕЛЁННОГО АВТОМАТИЗИРОВАННОГО ДОКУМЕНТИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ

После определения границ периодов псевдопериодичности можно изменять акустические характеристики сигнала. Исходный сигнал можно представить в виде функции периодов основного тона х[п] :

ф] = X X [n - ta [ /]] ,

(13)

где 1[] — границы периодов псевдопериодичности сигнала, т.е. разница между двумя соседними границами Ра[/] = ] - - 1] равняется периоду основного тона в момент времени 1а[г ] . Питч-период определим через исходный сигнал помноженный на оконную функцию:

х.[п] = ж[п]х[п], где окна ^ удовлетворяют условию:

X^[п - 1а [/]] = 1 ,

(14)

(15)

что достигается использованием оконных функций типа Хэннинга или трапециевидным окном длиной в два периода основного тона.

В результате работы алгоритма необходимо получить сигналу[п], который имеет одинаковые с х[п] спектральные характеристики, но отличается от него основным тоном и/или продолжительностью. Чтобы достичь этого, заменяем аналитические границы питч-периодов ] границами 1ъ[г], а аналитические периоды основного тона х.[п] — периодами у [п] согласно

y[n] = X Уj[n - tb [J]].

(16)

Таким образом, достаточно лишь задать границы 1ъ[г] , соответствующие продолжительности и основному тону, которые необходимо получить. Результирующий период основного у [п] тона получаем подстановкой ближайшего соответствующего аналитического периода х [п]. Графически работа алгоритма представлена на рис. 8.

Рис. 8. Схема работы алгоритма для модификации продолжительности и основного тона

51

Крак Ю.В., Загваздин А.С. СИСТЕМА РАСПЕДЕЛЁННОГО АВТОМАТИЗИРОВАННОГО ДОКУМЕНТИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ

Программная реализация системы

Программная архитектура рассматриваемой системы распределённого компьютерного документирования построена без использования централизованного сервера. Такой подход обеспечивает высокую мобильность системы и невысокие требования к аппаратному обеспечению. Система состоит из двух типов модулей: главного модуля и модулей, которые являются рабочими местами операторов-стенографистов. На главном модуле осуществляется получение звукового сигнала, его предварительная обработка и сегментация. Также главный модуль управляет распределением сегментов между операторами. На нём осуществляется компоновка полученных от операторов результатов обработки сегментов в единый результирующий документ-стенограмму. В процессе обработки фонограммы оператор главного модуля может также отслеживать текущие статусы сегментов. Кроме всех перечисленных функций, в главном модуле системы доступны все функции, которые доступны прочим операторам-стенографистам: прослушивание звукового сигнала, редактирование текстового представления сегмента, изменение скорости воспроизведения и т.д.

На рабочем месте оператора-стенографиста доступны функции: получения по сети следующего доступного сегмента от главного модуля, прослушивание сегмента, редактирование текстового представления сегмента, отправка результата на сервер. Для повышения продуктивности работы операторам предоставляется возможность автоматической проверки орфографии, автозамены и автоподстановки, а также автоматических всплывающих подсказок для длинных слов.

Как главный модуль, так и рабочие места операторов могут быть установлены на обычных компьютерах под управлением ОС Microsoft Windows XP, Vista или Windows 7.

Распределение сегментов между операторами-стенографистами осуществляется следующим образом: при подключении к главному модулю системы оператор получает следующий необработанный сегмент из очереди. При этом на главном модуле системы такой сегмент помечается как «находящийся в обработке», и он становится заблокированным и недоступным для других пользователей системы. После завершения обработки фрагмент может принять один из статусов «завершён успешно» или «при обработке возникла проблема». Сегмент также может стать доступным автоматически для других операторов системы в случае отключения оператора, который его заблокировал.

После реализации прототипа системы был проведён эксперимент, целью которого было сравнение эффективности работы одного стенографиста и группы стенографистов при использовании предложенной системы и без такового, т.е. при использовании лишь традиционных средств (таких как Windows Media Player для воспроизведения звукового сигнала и Microsoft Office Word для набора текста стенограммы). В качестве входящего речевого сигнала для эксперимента была выбрана запись защиты докторской диссертации продолжительностью около 2 часов. В результате эксперимента получены следующие результаты:

• При работе одного оператора-стенографиста на стенографирование записи с использованием предложенной системы было потрачено около 4 часов. Для стенографирования этой же записи при использовании стандар-

Выводы

52

тных средств оператор тратит в среднем 12-16 часов.

• Группе стенографистов из 5 человек для обработки записи понадобилось около 40 минут, после чего полученный текст стенограммы был направлен на обработку корректору. Вместе с коррекцией в общей сложности расшифровка стенограммы заняла около 1 часа.

Проведённый эксперимент демонстрирует эффективность предложенной системы в сравнении с традиционными средствами. Вместе с остальными преимуществами, среди которых отсутствие необходимости администрирования и внедрения, простота в использовании и качественная предварительная обработка сигнала, предложенная система является достаточно эффективным средством для автоматизации процесса создания и расшифровки стенограмм заседаний для небольших и крупных организаций, а также для индивидуальных пользователей.

Литература

1. Морозов АО. «Рада-3» — система пщтримки прийняття ршень для законотворчого процесу ВерховноТ Ради УкраТни та рад Ыших рiвнiв. / А.О. Морозов, Л.Б. Баран, В.В. Ко-пейчиков, В.Л. Косолапов // Математичн машини i системи. 2008. № 1. С. 3-22.

2. Система стенографирования SRS Report. Сайт компанп SRS. Электронный ресурс. Режим доступа: http://srs.kiev.ua/index.php?option=com_content&view=article&id=43%3Asrs-report&catid=3%3A2009-07-15-06-10-55&Itemid=13&lang=ru

3. Система распределённого компьютерного документирования устной речи Нестор. Общее описание системы. Электронный ресурс. Режим доступа : http://www.speechpro. ru/sites/default/files/product/docs/description.pdf

4. MillerG. The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information. // The Psychological Review. 1956. Vol. 63. P. 81-97.

5. Rabiner L. A comparative performance study of several pitch detection algorithms. / L.R. Rabiner, M.J. Cheng, A.E. Reseonberg, C.A. McGonegal // IEEE Tran. on. Acoustics, Speech and Signal Processing. № 24(5), 1976. P. 399-418.

Сведения об авторе

Юрий Васильевич Крак —

доктор физико-математических наук, профессор Киевского национального университета имени Тараса Шевченко, старший научный сотрудник института кибернетики им.В.М.Гпушкова НАН Украины. Специалист в области искусственного интеллекта, анализа и синтеза голосовой и жестовой коммуникационной информации. Автор около 300 научных работ.

Александр Сергеевич (Семёнович) Загваздин —

закончил факультет кибернетики в 2007 году. Научный сотрудник института кибернетики им. В.М.Глушкова НАН Украины. Круг научных интересов включает цифровую обработку речевых сигналов, синтез и распознавание речи.

53

i Надоели баннеры? Вы всегда можете отключить рекламу.