Научная статья на тему 'Возможности использования встроенных звуковых кодеков операционной системы (ОС) Windows в системах IP-телефонии'

Возможности использования встроенных звуковых кодеков операционной системы (ОС) Windows в системах IP-телефонии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
63
38
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нопин С. В., Шахов В. Г.

В статье рассматриваются возможности реализации компрессии/декомпрессии звука с помощью встроенных в ОС Windows звуковых кодеков при разработке систем передачи речи через сеть Internet/Ethernet.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Potentials to use windows os built-in sound codecs for ip-telephony

The paper considers a potential to do sound compression/decompression by means of Windows OS built-in sound codec. It could be used for developing of a system of speech transmission via the Internet/Ethernet networks.

Текст научной работы на тему «Возможности использования встроенных звуковых кодеков операционной системы (ОС) Windows в системах IP-телефонии»

еще и широкий спектр дополнительных возможностей по защите системы и предоставлению доступа к сервисам. Правильная настройка системы позволит эффективно использовать весь комплекс инструментов.

Библиографический список

1. Э. Немеет, Г. Снайдер, С. Сибасс, Т. Хейн. UNIX: руководство системного администратора. Для профессионалов. 3-еизд. СПб.: Питер; К.: издательская rpynnaBHV, 2003. + 925с.:ил.

2. Д. Бэндл. Защита и безопасность в сетях Linux. Для профессионалов. СПб.: Питер, 2002. + 480 е.: ил.

ВОЛКОВ Виктор Евгеньевич, аспирант. ШАХОВ Владимир Григорьевич, к.т.н., профессор кафедры автоматики и систем управления.

Дата поступления статьи в редакцию: 13.02.06 г. ©Волков В.Е., Шлхов В.Г.

В. Г. ШАХОВ

Омский государственный технический университет Омский государственный университет путей сообщения

ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ ВСТРОЕННЫХ ЗВУКОВЫХ КОДЕКОВ ОПЕРАЦИОННОЙ СИСТЕМЫ (ОС) WINDOWS

В СИСТЕМАХ IP-ТЕЛЕФОНИИ

В статье рассматриваются возможности реализации компрессии/декомпрессии звука с помощью встроенных в ОС Windows звуковых кодеков при разработке систем передачи речи через сеть Interhet/Ethernef.

По прогнозам западных консалтинговых компаний, например, Frost & Sullivan [8] объем рынка IP-телефонии (Internet Protocol) в среднем будет возрастать на 130-140 % ежегодно. В 2005 году предполагается рост трафика IP-телефонии до 33%, особенно возрастет число звонков на дальние расстояния (около 70% трафика междугородних и международных переговоров). По данным Frost & Sullivan, в 2003 г. совокупный объем мирового трафика VoIP (Voice IP) составил 75 млрд мин, в 2004 году он вырос до 160 млрд мин, а в 2005 г. прогнозируется его увеличение до 265 млрд мин. Если в 2000 г. доходы от услуг Интернет-телефонии в мире составили 74 млн долларов, то по прогнозам к 2006 году они достигнут почти 40 млрд. долл.

Компрессия звука в IP-телефонии является необходимой при передаче речи в реальном времени по каналам связи с ограниченной пропускной способностью и желательной при передаче речи в реальном времени по высокоскоростным каналам связи. В первом случае сжатие обеспечивает устойчивую связь без искажений и потерь полезного речевого сигнала, во втором - существенно сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги

IP-телефонии и привлекать новых пользователей цифровой телефонии.

Современные IBM-совместимые компьютеры, как правило, обладают аппаратной возможностью вводить-выводить звук с помощью стандартной звуковой карты [3]. Во всех версиях ОС Windows (начиная с Windows 95) присутствует специальный интерфейс, предназначенный для преобразования форматов звуковых данных. Он называется (АСМ) Audio Compression Manager (диспетчер сжатия звука) (4). Интерфейс позволяет изменять частоту, разрядность, количество каналов, а также тип сжатия звуковых данных (format tag). При достаточной мощности процессора преобразование может выполняться в реальном времени.

АСМ включает в себя набор кодеков, выполняющих необходимые преобразования. Кодеки, компрессоры/декомпрессоры, представляют собой исполняемые файлы с расширением '.асш. Они находятся в системной папке C:\Windows\system. Как правило, кодек позволяет осуществить не только сжатие, но и распаковку звуковых данных, то есть восстановление исходного сигнала. Пользователь может самостоятельно удалять ненужные ему кодеки и устанавливать новые, что придает системе

гибкость. После установки кодека все программы, пользующиеся системой АСМ, получают возможность работать с этим форматом звуковых данных. Оцифровка, компрессия/декомпрессия, реализация сетевых протоколов TCP/IP, UDP и воспроизведение звука на уровне функций и процедур управляется с помощью средств application programming interface (API) ОС Windows либо другой альтернативной ОС. Современные среды программирования С+ + Builder, Delphi, Visual С -I- + , и др. обладают возможностью использования интерфейса API и, соответственно, могут применяться для создания программ ввода, компрессии/декомпрессии, воспроизведения звука и передачи потока сжатой речи по IP сети.

Целью исследования явилось выявление возможностей управления встроенными звуковыми кодеками операционной системы (ОС) Windows с помощью средств API ддя компрессии-декомпрессии звука при разработке программного обеспечения для передачи речи в IP сетях.

Для исследования возможностей АСМ ОС Windows в среде С + + Builder 5.0 [1], [2] разработана программа CONVERTER (рис. 1).

Она функционирует следующим образом. Открывается файл с записанной ранее речью, например, со следующими характеристиками: формат PCM (Pulse-Code Modulation - импульсно-кодовая модуляции) моно, 8000 Гц, 8 бит. Далее пользователь выбирает формат преобразования звука, например, GSM6.10, моно, 8000 Гц и указывает новое имя файла, который будет получен в результате преобразования. После этого нажимается клавиша "Начать". Программа CONVERTER пытается с

помощью звукового кодека преобразовать звуковые данные из исходного формата в требуемый, в данном случае из формата РСМ в формат GSM 6.10. Если преобразование было успешным, то программа предлагает преобразовать еще один файл.

Исследование возможности применения встроенных кодеков ОС Windows для компрессии-декомпрессии звука проводилось в следующем порядке: 1) В ОС Windows ХР (сборка 2600) с помощью ранее разработанной программы ШИФРАТОР[5] была записана речь (фразы, команды по ГОСТ 16600-72 [3]) в файлы формата wav (формат для хранения несжатого оцифрованного звука) [2]); 2) Полученные 10 файлов общей длительностью 356 секунд и объемом 2846452 байта с помощью программы Converter были преобразованы кодеками ОС Windows во все доступные для преобразования форматы. 3) Для сжатых файлов вычислялся средний коэффициент сжатия и битрейт (bitrate) - количество единиц информации, необходимых для хранения (передачи) одной секунды потока звуковых данных. Исходный формат звука: формат РСМ, моно, частота дискретизации 8000 Гц, 8 двоичных разрядов на отсчет, битрейт 64000 бит/сек, — был выбран исходя из минимальной достаточности динамического диапазона и полосы частот, необходимых для передачи человеческой речи [9].

Апробация разработанной программы CONVERTER показала эффективность ее применения для управления кодеками при компрессии/декомпрессии речи. В таблице 1 представлены результаты проведенных экспериментов.

Из приведенной таблицы видно, что часть кодеков ОС Windows с указанными атрибутами не смог-

Мзстср преобразования форматок

- jr

V ,

я' 1

м i -i

л. « í

ktt

Указание имени исходного Файла я У казание типа преобразования * Указание имени результирующего Файла Преобразование данных

/ /

ЗФайл "Тест 1.wav", размер 301634 байт, имеет формат РСМ, 8,000 кГц; 8 бит; Моно

Укажите имя исходного файла: |С:\1 Мест 1.wav

Обзор...

У >*

"И Назад

Вперед \ X Отмена

156

Рис. 1. Главное окно программы CONVERTER

Таблица 1

Тип кодека Атрибуты Работоспособность Средний коэффициент сжатия Bitrate, бит/с Субъективное качество

РСМ 8,000 кГц; 1 бит; Moho Да 1 64000 4.1

DSP Group TrueSpeech™ 8,000 кГц; 1 бит; Moho Да 7,50 8529 3.5 - 4,0

GSM 6.10 8,000 кГц; Moho Да 4,92 1jC08 3,7

IMA ADPCM 8,000 кГц; 4 бит; Moho Да 1.97 32428 3,8

Microsoft ADPCM 8,000 кГц; 4 бит; Моно Да 1.95 32769 3,8

MPEG Layer-3 8kBit/s; 8,000 кГц;Моно Да 8,06 7940 2.5 - 3,0

16kBit/s; 8,000 кГц,Моно 4,02 15939 2,5 - 3.0

ССГГ A-Law 8,000 кГц; 8 бит; Моно Да 1 64000 4,1

CC1T u-Law 8,000 кГц; 8 бит; Моно Да 1 64000 4,1

Alex AC3 Audio - 5 kbps; 8kHz; mono Да 12,81 4996 2,5 - 3,0

6 kbps; 8kHz; mono 10,68 5995 2,5 - 3,0

8 kbps; 8kHz; mono 8,01 7993 2.5 - 3,0

ACELP.nel 5 kbps; 8kHz; mono Нет -

6,5 kbps; 8kHz; mono

8,5 kbps; 8kHz; mono

Microsoft G723.1 8 кГц; Моно; 6400 бит/с Нет - -

8 кГц; Моно; 5333 бит/с

Windows Media Audio VI 5 kbps; 8kHz; mono Нет - -

6 kbps; 8kHz; mono

8 kbps: 8kHz; mono

Windows Media Audio V2 5 kbps; 8kHz; mono Нет - -

6 kbps; 8kHz; mono

8 kbps: 8kHz; mono

ла выполнить преобразования форматов. Это означает, что они имеют либо нестандартные алгоритмы управления, либо несовместимы с установленной операционной системой. Анализ работоспособных кодеков показывает, что оптимальным по критерию качество[6,7]-битрейт среди встроенных звуковых кодеков является кодек DSP Group TrueSpeech™ (8529 бит/сек), а по критерию оптимальный битрейт -Alex АСЗ Audio (4996 бит/сек).

Таким образом, разработанная программа CONVERTER и исходные коды к ней могут быть использованы при компьютерном моделировании передачи речевой информации по IP-каналам связи. С помощью программы можно исследовать эффективность реализации различных цифровых алгоритмов компрессии/декомпрессии речи (в составе кодеков) в режиме реального времени. На практике используемые алгоритмы управления кодеками могут применяться при разработке программного обеспечения для дуплексной передачи речи по IP-каналам связи.

Библиографический список

1. Архангельский А.Я. С++ Builder 6. Справочное пособие. Книга 1. Язык С + +. / А.Я. Архангельский - М.: Бином-Пресс, 2002. - 544 с.

2. Гордеев О. Программирование звука в Windows. Руководство для профессионалов / О. Гордеев — СПб.: BHV -Санкт- Петербург, 1999. — 364 с.

3. ГОСТ 16600-72. М.: Издательство стандартов, 1972.

4. Гук М. Аппаратные средства IBM PC. Энциклопедия. / М.Гук - СПб.: Питер, 2000. - 816 с.

5. Нопин C.B. Моделирование защиты речевой информации с помощью персонального компьютера. / C.B. Нопин, В.Г. Шахов.//Омский научный вестник. 2004. - №4(29). - С. 124-126.

6. http://arcw.comptek.ru/telephony/tnotes/tt l-12.html

7. http://framerelay.nm.ru/liter/voip.htm

8. http://www.irost.com

9. ITU-T Recommendation G.7U. Pulse Code Modulation of 3kHz Audio Channel.-1988

НОПИН Сергей Викторович, программист ОНИИП, аспирант.

ШАХОВ Владимир Григорьевич, к.т.н., профессор кафедры автоматики и систем управления.

Дата поступления статьи в редакцию: 16.01.06 г. © Нопин C.B., Шахов В.Г.

i Надоели баннеры? Вы всегда можете отключить рекламу.