УДК 004.724.4
МОДЕЛЬ УЗЛА КОММУТАЦИИ КОРПОРАТИВНОЙ МУЛЬТИСЕРВИСНОЙ
СЕТИ СВЯЗИ
THE COMPANY MULTISERVICE NETWORK NODE MODEL
И.А. Саитов, О.О. Басов, О.В. Романюк, Д.В. Шелковый I.A. Saitov, O.O. Basov, O.V. Romanyuk, D.V. Shelkovyy
Федеральное государственное казённое военное образовательное учреждение высшего образования «Академия Федеральной службы охраны Российской Федерации», Россия, 302034, г. Орёл, ул. Приборостроительная, д. 35
Federal state military educational institution of higher professional education "Academy of the Federal security service of the Russian Federation", 35 Priborostroitelnaya St, Orel, 302034, Russia
e-mail: [email protected], [email protected], [email protected], [email protected]
Аннотация
С целью повышения степени использования арендуемого у операторов связи канального ресурса транспортного уровня корпоративной мультисервисной сети связи требуется совершенствование существующих и разработка новых механизмов управления трафиком. При этом сложность в практической реализации таких механизмов возникает из-за отсутствия подходящих математических моделей сетевых узлов, позволяющих учесть особенности функционирования и обработки шифрованного трафика в таких сетях. В данной статье представлена модель узла коммутации корпоративной мультисервисной сети связи, отличающаяся от существующих учетом зависимости качества обслуживания трафика от параметров входящих потоков и характеристик загруженности исходящих каналов связи. Представлены результаты исследования разработанной математической модели на адекватность и состоятельность получаемых оценок в среде имитационного моделирования AnyLogic Professional v.6.
Abstract
In order to increase the degree of using of the channel resource leased from telecom providers in corporative multiservice communication network, it is necessary to improve existing and develop new traffic management mechanisms. Moreover, the complexity in the practical implementation of such mechanisms arises from the lack of suitable network node mathematical models that allow to take into account the features of the functioning and processing of encrypted traffic in such networks. This article presents a model of the corporate multiservice communication network node, which differs from the existing ones considering the dependence of the quality of the traffic servicing on the parameters of the incoming streams and the characteristics of the congestion of the outgoing communication channels. The results of a studying the developed mathematical model on the adequacy and consistency of the obtained estimates in the simulation environment AnyLogic Professional v.6 are presented.
Ключевые слова: корпоративная мультисервисная сеть связи, узел коммутации, качество
обслуживания, криптотуннель, эффективно предоставляемая пропускная способность.
Keywords: the company multiservice network, node, quality of service, cryptotunnel, effective bandwidth.
В настоящее время в целях повышения конкурентоспособности, эффективности и результативности функционирования крупных компаний и корпораций, а также минимизации угроз для бизнеса за счет сохранности передаваемой и хранимой информации создаются защищенные корпоративные мультисервисные сети связи (КМСС). Данные сети строятся в соответствии с основными положениями концепции сетей связи следующего поколения (NGN - Next Generation Networks) [Бакланов И.Г., 2008; Рекомендация МСЭ-Т Y. 2001].
Согласно данной концепции можно выделить 3 основных уровня КМСС: уровень доступа, транспортный уровень, уровень услуг и управления.
Уровень доступа обеспечивает подключение оконечных терминалов пользователей, агрегацию пользовательских потоков и передачу их с применением различных технологий до транспортной сети. Канальный и коммутационный ресурс данного уровня чаще всего принадлежит корпорации.
Транспортный уровень обеспечивает передачу агрегированных потоков сетей доступа между территориально распределенными сегментами (филиалами) КМСС с требуемым уровнем качества обслуживания (КО) [Recommendation Y.1540; Recommendation Y.1541].
Немаловажным остается факт, что канальный ресурс данного уровня, в силу предъявляемых к нему требований по протяженности и пропускной способности (ПС), зачастую арендуется у операторов связи в виде виртуальных каналов (VPN - Virtual Private Networks).
Узлы коммутации (УК) транспортного уровня КМСС представляют собой отказоустойчивые кластеры за счет физического и логического резервирования маршрутов передачи данных.
Уровень услуг и управления обеспечивает управление услугами во время установления сеансов связи и их разъединения.
Для защиты информации, циркулирующей в КМСС, применяются программные и аппаратные средства криптографической защиты информации (СКЗИ) - криптошлюзы (КШ). Функционирование данных устройств, как правило, осуществляется в туннельном режиме, что приводит к установлению шифрованных логических соединений -криптотуннелей (КТ) между взаимодействующими КШ [Приказ ФСТЭК РФ от 05.02.2010 N 58]. Типичная структура КМСС представлена на рисунке 1.
Шифрованный трафик доступа к ресурсам Интернет
Открытый трафнк КМСС
Рис. 1. Вариант обобщенной структуры КМСС Fig. 1. The version of the generalized structure of the CMSN
Анализ существующих решений построения КМСС показал, что зачастую наряду с предоставлением услуг реального времени (IP-телефония, видеоконференцсвязь, IP-TV и др.), требующих гарантированного уровня обслуживания, как правило, предоставляется услуга отложенной передачи данных - выход в Интернет.
Настройка механизмов КО на пограничных маршрутизаторах (Customer edge (CE) -маршрутизаторах со стороны узла клиента, которые непосредственно подключается к маршрутизаторам оператора связи - Provider edge (PE)), подробно описанных в [Польщиков К.А., 2015], возлагается на администратора КМСС.
С целью недопущения перегрузок и поддержания работоспособного состояния предоставляемых услуг применяются соответствующие механизмы ограничения трафика (Token Bucket/Traffic Shaper) и приоритетного обслуживания пакетов (LLQ, PQ и др.), ориентируемые на пиковую нагрузку. Данные механизмы являются статичными, несогласованными между собой и не способными без вмешательства администратора адаптироваться под изменения текущей нагрузки и состояния загруженности арендуемых КС. Это приводит зачастую к недозагруженности дорогостоящего арендуемого ресурса КС КМСС и, как следствие, к экономической неэффективности его использования.
Вышеизложенное свидетельствует об острой актуальности задач совершенствования программных средств обеспечения КО трафика в УК КМСС на основе научно-обоснованных подходов к формальному описанию процессов обслуживания сообщений различного вида в условиях применения КШ. Для этого с использованием имеющегося в предметной области задела [Евсеева О.Ю., 2007; Симонина О.А., 2005] требуется разработка как моделей УК КМСС, так и соответствующих механизмов управления трафиком, позволяющих существенно повысить степень использования ресурсов арендуемых КС.
Разработка модели узла коммутации корпоративной мультисервисной сети связи
С целью выполнения требований по доступности и непрерывности предоставляемых услуг КМСС, предлагается один из подходов к разработке модели УК КМСС, учитывающей зависимость КО трафика от параметров входящих потоков и характеристик загруженности исходящих КС. Данная модель (в перспективе при реализации в виде ПО) должна обеспечить решение следующих задач:
- распределение поступающих потоков между отдельными логическими очередями выходных КС УК;
- выделение части ПС интерфейса для каждой логической очереди в зависимости от поступающей нагрузки;
- превентивное ограничение интенсивности поступающих на интерфейс потоков данных.
Исследования показали, что модель предотвращения перегрузки с активным
управлением очередями, предложенная в [Лемешко А.В., Семеняка М.В., 2014], при адаптации к специфике КМСС позволит решать поставленные выше задачи и может быть практически реализована на УК КМСС (рис. 2).
Из всего множества предоставляемых услуг в КМСС можно выделить подмножество услуг 51, трафик которых не чувствителен к задержкам, но чувствителен к потерям, подмножество 52 - услуги, трафик которых чувствителен как к задержкам, так и потерям.
Например, к подмножеству 51 относятся услуги передачи данных (файловый обмен, выход в Интернет), в то время как к подмножеству 52 - услуги IP-TV, IP-телефония, видеоконференцсвязь и др.
Одной из отличительных особенностей предлагаемой модели является возможность ограничения интенсивности трафика КМСС подмножества 51 за счет применения алгоритмов ограничения трафика. С этой целью в предлагаемую модель вводится
51
управляющая переменная первого типа - аnj- е [0,1], которая характеризует долю допущенного n-го потока услуги подмножества 51 ( n = 1,N ) для обслуживания в j-й очереди ( j = 1, J ) к-го исходящего КС ( к = 1, K ).
Рис. 2. Обобщенная схема обеспечения требуемого КО трафика КМСС Fig. 2. A generalized scheme for the required QoS traffic providing in CMSN
По своему физическому смыслу переменные a j численно определяют скорость генерации жетонов алгоритма "дырявого ведра". Условие aj = 0 означает запрет на
обработку потоков данных некоторой услуги в j-й очереди к-го исходящего КС.
В отличие от услуг подмножества S1, под потоками данных услуг подмножества S2 понимаются криптотуннели, трафик в которых представляет собой мультиплексированный поток пользовательских соединений защищаемого сегмента КМСС. Ограничение интенсивности агрегированного потока данных, поступающего в транспортную сеть, может привести к разрыву установленных сеансов связи в одном или нескольких криптотуннелях за счет превышения допустимой задержки обработки пакетов в сети, количества потерянных пакетов.
В таком случае, несмотря на то, что часть ресурсов пропускной способности арендуемого КС все же выделяется для предоставления услуг подмножества S2, данные ресурсы расходуются неэффективно с точки зрения обеспечения требуемого КО. В связи с
S 2
этим в предлагаемую модель вводится переменная второго типа - ß mJk е [0,1], каждая из которых характеризует допуск или запрет на обслуживание m-го криптотуннеля ( m = 1,M ) в j-ой очереди ( j = 1, J ) k-го исходящего КС ( к = 1, K ).
Трафик, передаваемый в криптотуннеле, должен быть допущен к обслуживанию лишь при наличии доступных канальных ресурсов для его обслуживания с требуемым качеством.
Особенности функционирования КШ не позволяют расщеплять трафик, передаваемый
S1 S 2
в криптотуннеле, в связи с этим в каждой n-й и m-й строках матриц a j и ßmJk не допустимо
наличие двух и более ненулевых элементов.
Предоставляемые услуги в КМСС характеризуются уn(m) - интенсивностью
поступления пакетов (скоростью передачи блоков данных) n-го (m-го) потока. С целью достижения максимального эффекта от применения предлагаемой модели УК КМСС под интенсивностью трафика необходимо рассматривать эффективную скорость передачи блоков данных [Степанов С.Н., 2010].
В рамках предлагаемой модели обеспечение требуемого КО трафика, обслуживаемого в каждой j-й очереди ( j = 1, J ) к-го исходящего КС ( к = 1, K ), достигается за счет выполнения условия, что суммарная интенсивность поступления трафика от сегмента КМСС не превышает интенсивности его обработки:
N M
Кля +Е jm2 <®Jj ■ ct, (1)
n=1 m=1
где ®к е [0,1] представляет собой управляющую переменную третьего типа, характеризующую долю пропускной способности интерфейса, выделяемую для обслуживания трафика, поступающего в j-ю очередь планировщика ( j = 1J) k-го исходящего КС (к = 1K), Ск - пропускная способность k-го исходящего КС (к = 1K ) КМСС.
Согласно физическому смыслу на переменную накладывается следующее
ограничение:
X < * 1, (2)
>1
Искомые переменные всех трех типов удобно представить в виде соответствующих управляющих векторов:
а" ßSj" 4
as; ßj2 4
a* ßJ 4 4 4
a21; ajjj ,ßsl = '^mit ßS2 ßt 4 =
aN1t _ ßs 2 HMJt 4 _
(3)
Тогда обобщенный вектор управляющих переменных можно представить в следующем
виде:
Y =
а
ßsl г mit
(4)
Размер вектора Y определяется структурой векторов (3), т. е. зависит от количества потоков, поступающих на обслуживание в УК КМСС, количества очередей и имеющихся исходящих КС.
Расчет управляющего вектора Y (4) целесообразно осуществить в ходе решения оптимизационной задачи, связанной с максимизацией обслуживания с требуемым КО предложенной нагрузки и использования ресурсов ПС каналов связи:
max F. (5)
aS 1 ßS2 4 nit mit k
В [Лемешко А.В., Семеняка М.В., 2014] предложена линейная целевая функция вида:
K f N M \
f=i \Жа:г? ^ihCß-jm2), (6)
k=1 V n=1 m=1 J
S1
где ha — условная стоимость (метрика) ограничения поступающей нагрузки услуги связи КМСС подмножества S1, h^j— условная стоимость (метрика) обслуживания m-го потока трафика услуги связи КМСС в j-й очереди, h4 — уловная стоимость (метрика) предоставления
доли ПС КС для обслуживания трафика в j-й очереди. Метрики h
hp
> m, j
и h 4 должны
напрямую зависеть от приоритета предоставляемых услуг связи КМСС.
Линейная целевая функция обладает хорошей наглядностью и относительно невысокой сложностью вычисления, что существенно упрощает реализацию данной модели. Также наиболее значимым достоинством ЦФ данного вида является возможность в условии перегрузки, связанной с отказом одного из КС, предоставлять требуемое КО услугам КМСС с более высоким приоритетом за счет ресурсов выделяемых для менее приоритетных; в отсутствие перегрузок и наличии незадействованных ресурсов, резервируемых для высокоприоритетных услуг, предоставить их в интересах менее приоритетных.
Исследования показали, что значительным ограничением применения данной модели на практике является отсутствие математического аппарата, позволяющего оперативно оценивать требуемые ресурсы ПС КС при изменении интенсивностей поступающих потоков. От правильной оценки данных ресурсов непосредственно зависит не только КО потоков данных предоставляемых услуг, но и степень использования канальных ресурсов КМСС.
С учетом вышеизложенного особую актуальность приобретает задача разработки моделей оценивания требуемых ресурсов ПС КС для обслуживания поступающих на УК потоков данных услуг связи КМСС с требуемым уровнем КО.
Формальное решение задачи оценивания эффективно предоставляемой пропускной способности для обслуживания трафика групп криптотуннелей
Исходными данными для оценивания требуемых ресурсов ПС КС КМСС выступают количество терминального оборудования, предоставляющего услуги связи в КМСС, возможные информационные направления и вероятности их выбора, параметры кодеков, требования приложений к КО трафика при их передаче по сети оператора связи, а также интенсивности установления соединений. Данные параметры определяются по результатам предварительной статистической обработки предоставляемых услуг связи. В настоящее время, на основании вышеуказанных исходных данных оценка требуемых ресурсов ПС КС КМСС производится по методикам, ориентированным на возможную пиковую нагрузку, что приводит к завышенным результатам и низкой степени использования ПС КС.
С учетом вышеизложенного актуальность приобретает разработка математической модели (ММ), позволяющей оценить требуемые ресурсы ПС для обслуживания трафика наблюдаемой группы активных криптотуннелей. Далее под активным понимается такой КТ, время отсутствия нагрузки в котором не превышает заданного. Возможные состояния криптотуннеля представлены на рисунке 3.
В [S. Floyd, 1996] предложена ММ оценивания эффективно предоставляемой пропускной способности (ЭППС) для обслуживания агрегированного потока данных, состоящего из n отдельных потоков с заданным качеством:
где р1 - максимальная скорость передачи 1-го потока данных, - управляющий параметр, характеризующий вероятность потерь пакетов, г - значение средней скорости передачи агрегированного потока данных.
Согласно данной ММ параметр пиковой скорости передачи считается известным, а средняя скорость передачи данных измеряется на некотором промежутке времени. При этом в качестве ограничения данной модели скорость передачи потоков данных предоставляемых услуг должна представлять собой одномерный стационарный случайный процесс (СП).
Учитывая данные ограничения, применение данной ММ к потокам данных, передаваемых в криптотуннелях, в явном виде невозможно, что приводит к необходимости ее адаптации под условия функционирования КМСС.
С целью анализа байтовой интенсивности трафика в криптотуннеле на стационарность была создана имитационная модель (ИМ) в среде программирования AnyLogic 6 (рис. 4).
Рис. 3. Диаграмма возможных состояний криптотуннеля Fig. 3. The diagram of a cryptotunnel possible states
(7)
Функционирование данной ИМ производилось при следующих допущениях: интенсивность поступления соединений, количество терминального оборудования и средняя длительность устанавливаемых соединений в КМСС остаются постоянными величинами.
Анализ функционирования ИМ позволяет сделать вывод о том, что временной ряд изменения скорости трафика в криптотуннеле на коротком временном интервале, равном средней длительности устанавливаемых соединений, представляет собой нестационарный СП. Однако на интервалах времени более 30 мин, при условии активности криптотуннеля, СП можно рассматривать как стационарный с неизменными параметрами математического ожидания (средней скорости передачи) и дисперсии на некотором доверительном интервале, определяемом задаваемой надежностью получаемых оценок [Сухов А.М., 2006].
В данных условиях, оперативную оценку ЭППС можно получать с помощью выше предложенной ММ, при выборе ограничений по минимально достаточному количеству криптотуннелей в группе и максимально допустимой вероятности потери пакетов.
О 0Т--Т7й
Оый^к.".
OSiSüft..««. О «Ö О
^ о
5 №"ннчт»и [?/j£-. JZ1 ЯЛ. С(М1
Of" ™
Д-Т uMMpwiin'm И.»1*г Гр.»—.1
О alis О t ¿УЙЛ15-™
-Jf.Sllt Сртт— »ля
1
1 11 iiLu.. . .
ш
а.г <> Э 0.4
iih_
ÜILJ
Рис. 4. Имитационная модель статистического оценивания вероятностно-временных характеристик
трафика, передаваемого в криптотуннелях КМСС Fig. 4. The simulation model of statistical estimation the probabilistic and temporal cryptotunnel traffic
characteristics in CMSN
В целях проверки ММ на адекватность и непротиворечивость получаемых результатов, в среде программирования AnyLogic Professional v.6 была разработана ИМ (рис.
переполнения буфера
Рис. 5 Обобщенная схема имитационной модели УК КМСС Fig. 5. The generalized scheme of CMSN node simulation model
Исходные данные при исследовании услуги видеотелефонии представлены в таблице 1.
Таблица 1 Table 1
Услуга КМСС Кол-во терминалов, ед Кол-во криптотуннелей, ед Интенсивность установления сеансов, сеансов/с Мин. длительность сеанса, мин Макс. длительность сеанса, мин Мин. длина пакета, Байт Макс. длина пакета, Байт Кодек
Видеотелефония 30 100 0,000277 5 30 1600 1600 G.726
46 1280 H.263
Результаты функционирования ИМ отражены на рисунке 6.
На графике крестиками отображены значения измеренной в течение 30 мин средней скорости передачи группы криптотуннелей на протяжении 600 минут модельного времени. По данным выборкам были получены интервальные оценки средней скорости передачи данных в группе КТ с задаваемой надежностью 0,99, методика вычисления которых подробно описана в [Савченко В.В., 2015]. Верхние границы полученных статистических оценок применялись в качестве средней скорости передачи трафика группы криптотуннелей.
гитГ" !
. * к
Кол-во KT в группе, ед
■ — Выделение ресурса ПС по пиковым значениям трафика в KT
-------Оцененые значения ЭППС
---------- Пиковые значения скорости трафика в ГКТ
Рис. 6. Оценивание ЭППС с помощью параметров трафика, полученных на имитационной модели
функционирования УК КМСС Fig. 6. The effective bandwidth estimation using the traffic parameters obtained on the CMSN node
simulation model
При количестве криптотуннелей менее 15, значение ЭППС оказывается выше, чем при выделении ресурса по пиковым скоростям, однако при количестве криптотуннелей в группе менее 5 позволяет в отличие от оценки по пиковым значениям обеспечить требуемое КО.
Вывод: В данной статье предложена модель узла коммутации КМСС, учитывающая зависимость качества обслуживания трафика от параметров входящих потоков и характеристик загруженности исходящих КС. Для применения данной модели на практике предложены дополнительные формальные средства оценивания параметров потоков трафика и требуемых для их обслуживания ресурсов. С помощью ИМ доказана адекватность получаемых оценок ЭППС для трафика группы криптотуннелей.
Заключение
Направлением дальнейших исследований видится разработка алгоритма управления, позволяющего с учетом задаваемых приоритетов услуг КМСС и условных стоимостей на ограничения трафика и ресурсов достичь максимальной производительности сети при обслуживании трафика с требуемым качеством.
Список литературы References
1. Recommendation Y.1541. Networks Performance Objectives for IP Based Services ITU-T. 2000.
2. Recommendation Y.1540. IP Packet Transfer and Availability Performance Parameters ITU-T. 1999.
3. Приказ ФСТЭК РФ от 05.02.2010 N 58 "Об утверждении Положения о методах и способах защиты информации в информационных системах персональных данных" (Зарегистрировано в Минюсте РФ 19.02.2010 N 16456.
Prikaz FSTJeK RF ot 05.02.2010 N 58 "Ob utverzhdenii Polozhenija o metodah i sposobah zashhity informacii v informacionnyh sistemah personal'nyh dannyh" (Zaregistrirovano v Minjuste RF 19.02.2010 N 16456.
4. Бакланов И.Г., 2008. NGN: принципы построения и организации. Москва, Эко-Трендз, 400.
Baklanov I.G., 2008. NGN:principy postroenija i organizacii. Moscow: Jeko-Trendz, 400.
5. Рекомендация МСЭ-Т Y. 2001. Сети последующих поколений - Структура и функциональные модели архитектуры. Международный союз электросвязи - Сектор телекоммуникаций. 2004.
Rekomendacija MSJe-T Y. 2001. Seti posledujushhih pokolenij - Struktura i funkcional'nye modeli arhitektury. Mezhdunarodnyj sojuz jelektrosvjazi - Sektor telekommunikacij. 2004.
6. Польщиков К.А., 2015. Анализ применимости методов обеспечения QoS для повышения производительности мобильной радиосети специального назначения. Научные ведомости БелГУ. Сер. История. Политология. Экономика. Информатика. 1(198): 148-157.
Pol'shhikov K.A., 2015. Analysis of the QoS methods applicable to improve performance of mobile radio network for special purpose. Nauchnye vedomosti BelGU. Istoriya. Politologiya. Ekonomika. Informatika. [Belgorod State University Scientific Bulletin. History Political science Economics Information technologies]. 1(198): 148-157.
7. Евсеева О.Ю., 2007. Мультиструктурная модель и метод управления в самоорганизующейся телекоммуникационной сети. Радиотехника: Всеукр. межведомств. науч.-техн. сб. 151: 98-105.
Evseeva O.Ju., 2007. Mul'tistrukturnaja model' i metod upravlenija v samoorganizujushhejsja telekommu-nikacionnoj seti. Radiotehnika: Vseukr. mezhvedomstv. nauch.-tehn. sb. 151: 98-105.
8. Симонина О.А., 2005. Модели расчета показателей QoS в сетях следующего поколения, диссертация на соискание степени кандидата технических наук, ГУТ им. проф. М.А. Бонч-Бруевича, Санкт-Петербург
Simonina O.A., 2005. Modeli rascheta pokazatelej QoS v setjah sledujushhego pokolenija, dissertacija na soiskanie stepeni kandidata tehnicheskih nauk, GUT im. prof. M.A. Bonch-Bruevicha, Sankt-Peterburg
9. Лемешко А.В., Семеняка М.В., 2014. Модель и метод предотвращения перегрузки с активным управлением очередью на узлах телекоммуникационной сети. Проблемы телекокоммуникаций. 91-104.
Lemeshko A.V., Semenjaka M.V., 2014. The model and method of preventing overload with active queue management on the nodes of the telecommunications network. Problems of telecommunications. 91-104.
10. Степанов С.Н., 2010. Основы телетрафика мультисервисных сетей. Москва, Эко-Трендз, 392.
Stepanov S.N. , 2010. Basics of teletraffic of multiservice networks. Moscow, Jeko-Trendz, 392.
11. S. Floyd, 1996. Comments on measurement - based admission controlled - load services. Lawerence Berkeley Laboratory Technical Report.
12. Савченко В.В., 2015. Определение объема контрольной выборки в условиях априорной неопределенности по принципу гарантированного результата. Научные ведомости БелГУ. Сер. Экономика. Информатика. 1(198): 74-78.
Savchenko V.V., 2015. The determination of sample size in conditions of a priori uncertainty on the principle of guaranteed result. Nauchnye vedomosti BelGU. Istoriya. Politologiya. Ekonomika. Informatika. [Belgorod State University Scientific Bulletin. History Political science Economics Information technologies]. 1(198): 74-78.
13. Сухов А.М., 2006. Моделирование нагрузки на участке высокоскоростной сети. Телекоммуникации. 2: 23-29.
Suhov A.M., 2006. Modeling the load on the high-speed network segment. Telekommunikacii. 2: 23-29.
УДК 004.934.8:159.9.072.52
ИНФОРМАЦИОННАЯ ТЕХНОЛОГИЯ РЕЧЕВОГО ПРОФАЙЛИНГА
INFORMATION TECHNOLOGY OF SPEECH PROFILING
В.В. Савченко, Д.Ю. Акатьев V.V. Savchenko, D.Yu. Akatyev
Нижегородский государственный лингвистический университет им Н.А.Добролюбова Россия, 603155, Нижний Новгород, ул. Минина, 31А
Nizhniy Novgorod state linguistic university of N.A. Dobrolyubov, 31A Minina st, Nizhniy Novgorod,
603155, Russia
e-mail: [email protected]
Аннотация
На основе теоретико-информационного подхода ставится и решается задача разработки и исследования новой технологии бесконтактного профайлинга по данным фонетического анализа речи тестируемого лица. Рассмотрено ее программное обеспечение, поставлен и проведен натурный эксперимент. Показано, что главными преимуществами речевого профайлинга по сравнению с его аналогами являются полная автоматизация, оперативность и безусловная приватность процедуры тестирования - в расчете на массового пользователя и широкое практическое применение.
Abstract
Based on information-theoretical approach is posed and solved the problem of development and research of new contactless profiling technologies according to the phonetic analysis of speech of the tested person. The software is considered and the full-scale experiment is set and fulfilled. It is shown that the main advantages of voice profiling compared to its counterparts are full automation, efficiency and absolute privacy of testing procedures aimed at an ordinary user and a wide practical application.
Ключевые слова: профайлинг, речевой профайлинг, анализ речи, речевой сигнал, речевые технологии, проблема малых выборок, теоретико-информационный подход.
Keywords: profiling, voice profiling, speech analysis, speech signal, speech technology, problem of small samples, information-theoretical approach.
Введение
Под "профайлингом" (от англ. profile - профиль, профилирование) специалисты понимают [Кузьмина, 2016; Пелюх, 2013] совокупность психологических методов и методик оценки и прогнозирования поведения человека на основе анализа информативных признаков вербального и невербального характера. На протяжении многих лет профайлинг применяется в мире в качестве мощного средства борьбы с терроризмом и преступностью. Причем, в последние годы область его практического применения стала существенным образом расширяться, в частности, по направлению создания новых систем и технологий управления [Марцева, 2014]. Известны также попытки специалистов [Потапова, 2015; Родькина, Никольская, 2016] использовать профайлинг в целях обеспечения личной безопасности граждан. Однако в данном направлении существует ряд серьезных ограничений, главным образом, этического и юридического характера. Согласно действующему в России законодательству граждане имеют право на приватность своей личной жизни. А это принципиальным образом ограничивает [Сказывалова, Васкэ, 2016] распространение на практике инструментальных методов профайлинга, основанных на детекторе лжи. Поиску путей преодоления указанной проблемы на основе речевой технологии профайлинга в расчете на его широкое применение и посвящена настоящая статья. В основу проведенного
далее исследования положена известная [Савченко, Васильев, 2014а, б; Лебедева, Каримова, 2014] взаимозависимость между психоэмоциональным состоянием личности и фонетическим качеством ее речи в его строгом, теоретико-информационном определении [Savchenko БаусЬепко Л.У, 2016; БаусЬепко, 2015].
1. Постановка задачи
Современные методы фонетического анализа речи основываются [Савченко, Васильев, 2014] на последовательном членении речевого сигнала на короткие (10-15 мс) сегменты (п-векторы) данных x = (х х^,..,хп) длиной в одну минимальную (не членимую
более) речевую единицу (МРЕ) и на их последующем сопоставлении по тонкой структуре, в частности, в спектральном представлении [Savchenko, 2015], с существующими эталонами. Главной проблемой здесь является выбор и обоснование используемого множества фонетических эталонов {х*}. Ее принципиальным решением может служить [Савченко,
Васильев, 2014] задание каждой отдельной МРЕ не одним, а одновременно несколькими допустимыми образцами (аллофонами) xг ^, ] = 1; , где г = 1; Я, а R - объем фонетической
базы данных. При этом каждый конкретный диктор в процессе речеобразования выбирает для себя наиболее удобный и достижимый вариант xг ^ эталонного произношения.
Одновременно становится понятным и собственно критерий качества формируемого (на выходе речевого тракта диктора) сигнала: он должен войти в границы 3г - множества
вариантов рассматриваемой МРЕ Хг как полноправный, (3г +1) -й его элемент. Задача
переходит, в таком случае, в сугубо предметную плоскость: сначала по каждой из МРЕ требуется сформировать множество (кластер) ее допустимых образцов - на этапе обучения диктора. И после этого в процессе речеобразования тестировать текущий сигнал x согласно правилу близости
3
— 1 г
3 1 Ъ Р^ / x .) <р (1)
г, г, г 0
] = 1
в некоторой метрике р^ / xг ^). При достаточной степени малости порогового уровня р 0 и
выполнении требования (1) качество речи диктора на фонетическом уровне можно оценить как достаточно высокое. И, наоборот, при нарушении данного требования соответствующая (текущая) МРЕ должна быть забракована наблюдателем (условным слушателем) как ошибка речеобразования.
2. Информационный критерий качества
Отметим важную отличительную особенность правила (1): в каждый момент времени решение может быть принято в пользу либо одной, либо двух, а вообще говоря, и нескольких МРЕ из используемой диктором фонетической базы данных {Хг}; либо вообще не принято -
для сигналов x нечеткой (маргинальной) структуры. И это точно соответствует теории и практике речеобразования [Информационная система, 2013]: в ней не исключаются сбои и, как их результат, брак.
В вычислительном отношении проще, однако, задаться аналогичным (1) условием [Савченко, Васильев, 2014]
Рг (*) <Р0 (2)
в отношении расстояния от сигнала x до «центра массы» рассматриваемого кластера:
J J
r I r
A
x* = x : J 1 £ p(x ./ x ) = min J 1 £ p(x ./ x .) = p*. (3)
r r,v r л r, j r,V r r л r, j r,l r '
J = 1 l < Jr J = 1
В режиме реального времени (в процессе восприятия речи) вместо J >> 1 расстояний
д *
из (1) здесь вычисляется только одно расстояние p (x) = p(x / x*) в пределах кластера Xr: до
* д
его центра x* (символом = обозначено равенство по определению). Указанный центр - это обобщенный эталон данного кластера, или эталон соответствующей фонемы. А множество таких эталонов {**} - экономный способ задания фонетической базы данных конкретной
личности. В информационной теории [Savchenko V.V., Savchenko A.V, 2016] в роли расстояний между аллофонами в (3) используются величина информационного рассогласования по Кульбаку-Лейблеру [Kullback, 1997], которая, как известно [Savchenko, 2016], наилучшим образом сочетается с нормативными аудиторскими оценками ФКР.
Нетрудно заметить, что в рамках информационной модели (2) ФКР диктора в
количественном отношении может быть охарактеризовано величиной p* из правой части
выражения (3). Указанная величина - это средний радиус фонетического кластера Xr, который в нашем случае используется для оценки вариативности одноименной МРЕ. При ее увеличении в процессе речеобразования можно говорить об ухудшении ФКР за счет
увеличения вариативности речи диктора. При уменьшении p* фонетическое качество,
напротив, улучшается - за счет повышения степени однородности речевых единиц в пределах одного речевого потока.
Таким образом, в форме выражения (3) определяется информационный критерий ФКР по конечному набору образцов r-й МРЕ. Его практическая реализация в принципиальном отношении не вызывает никаких проблем, о чем подробно сказано в работах по фонетическому декодированию речи [Savchenko V.V., Savchenko A.V, 2016; Savchenko, 2016]. Отталкиваясь от их рекомендаций, далее на основе критерия (3) предлагается технология профайлинга принципиально нового типа - по конечному фрагменту устной речи диктора. Его программная реализация в своем пилотном варианте базируется на авторском программном решении "Voice Self-Analysis" [Савченко В.В., 2017].
3. Программная реализация
Главное окно программы показано на рис. 1.
Показатель текущего ФКР из выражения (3) формируется (оценивается) в программе в режиме скользящего окна - в пределах отрезка речевого сигнала x ограниченной (20 сек.) длительности (см. нижнюю временную диаграмму в ее главном окне). На экран компьютера этот показатель выводится в своем относительном (процентном) выражении
8 = х, %. (4)
г Л1
График в верхней части окна отображает динамику ФКР от одного отрезка речевого сигнала к другому в процессе чтения диктором контрольного текста. Для анализа ФКР в программе используются шесть гласных звуков русской речи (случай R=6), а именно: "А", "О", "У", "И", "Ы" и "Э" - как наиболее информативные среди всех других МРЕ в акустико-артикуляционном смысле [Родькина, Никольская, 2016; Савченко, Васильев, 2014].
Индикатор в правой части окна (рис. 1) предназначен для автоматической фиксации успеха в процессе непрерывного чтения диктором контрольного текста (см. соответствующее сообщение в средней части рисунка). В программе данное событие определяется на интервале в три последних отрезка речевого сигнала, суммарной длительностью 1 мин. - по допустимой (в рассматриваемом случае на уровне 10%)
амплитуде колебаний показателя ФКР в динамике. Отметим, что 1 мин. - это минимально возможное время работы пользователя с программой, если психокоррекция ему не требуется. Во всех других случаях процедура была ограничена по времени интервалом в 100 сек. (5 последовательных отрезков речевого сигнала). При этом минимум ФКР фиксировался, как правило, в самом начале периода чтения текста диктором, когда последний был недостаточно хорошо настроен. Что же касается максимума ФКР, то его положение во времени сильно варьировалось у разных студентов в зависимости от их психоэмоционального состояния. Отметим, что зафиксированные на рис. 1 абсолютные значения показателя характеризуют индивидуальные особенности конкретной личности.
VoiceSelfAnalysis _ и х
Файл Вид Сервис 1
Фонетическое качество речи, % ИНДИКАТОР
Вашего состояния
0123456789 10
Номера отрезков вашей речи Сброс ~| Цель достигнута, Все в порядке!
Последний отрезок Вашей речи
Время, с
I I
Рис.1. Главное окно программы Fig. 1. Main window of the program
При проведении эксперимента длительность всех отрезков (рис. 1) была установлена равной 20 сек. При частоте дискретизации сигнала 8 кГц это дало 160 тысяч отсчетов на один отрезок, или не менее L=80 тысяч отсчетов (50 %) в расчете на гласные звуки. В пересчете к каждой из гласных на интервале квазистационарности речевого сигнала (10-15) мс в среднем получаем порядка 100 ее аллофонов (J > 100 ) на каждый отрезок. В таком случае точность оценки информационного показателя (4) может быть охарактеризована [Савченко, 2015] погрешностью измерений порядка 10 % на уровне значимости 0,1 и ниже, что очень неплохо при заданной длительности одного отрезка речевого сигнала. По существу, это означает успешное преодоление острейшей в задачах автоматической обработки речи [Savchenko, 2015] проблемы малых выборок. Эффективность рассмотренной технологии исследуется далее экспериментальным путем.
4. Программа и методика экспериментального исследования
Для экспериментальных исследований была сформирована контрольная группа дикторов из 52 студентов с первого по четвертый курсы бакалавриата Нижегородского государственного лингвистического университета (НГЛУ). Каждым из них трижды подряд (в три сеанса или три попытки с минимальными интервалами между ними) был прочитан один и тот же художественный текст - из первой главы романа А.С. Пушкина "Евгений Онегин" -
в объеме, достаточном для достижения успеха, но не превышающем 1000-1200 печатных знаков. В итоге объем экспериментальной выборки в сумме составил 156 наблюдений. Известно [Савченко, 2015а, б], что для большинства задач статистической обработки информации этого вполне достаточно для получения точных и надежных оценок с доверительной вероятностью 0,9 и выше.
Результаты экспериментального исследования фиксировались наблюдателями в виде времени, затраченного каждым студентом на достижение успеха при работе с программой, его финального в каждом сеансе значения показателя ФКР, а также пульса студента - до и после эксперимента - в качестве характеристики степени напряженности его психологического состояния.
Все вычисления в дальнейшем проводились на современном ноутбуке Asus N61D, 4 Гбайт ОЗУ, Windows 10. Кроме того, использовался комплекс специальных аппаратных и программных средств, в том числе внешний микрофон Sony и пульсометр марки Xiaomi Mi Band 2. Частота дискретизации встроенного АЦП была установлена равной 8 кГц - это ее стандартное значение при обработке речевого сигнала в расчете на стандартный телефонный канал связи. Полученные результаты отражены и обсуждаются в следующем разделе.
На рис. 2 показаны три гистограммы распределения студентов по категориям - в зависимости от длительности их сеансов работы с программой. Здесь номера категорий расставлены пропорционально времени достижения студентом успеха в его относительном выражении: 1-я категория - минимум времени (3 последовательных отрезка речевого сигнала, или 1 мин.), 2-я категория - 4 отрезка, или 1 мин. 20 сек. и, наконец, 3-я категория -1 мин. 40 сек. - максимальная длительность одного сеанса. Отметим, что гистограммы для разных сеансов довольно сильно разнятся между собой.
Из рисунка видно, что по мере увеличения числа попыток (сеансов) работы с программой доля студентов первой категории неуклонно уменьшается. А доли второй и, особенно, третьей категории, напротив, увеличиваются. Это явный признак накопления студентами усталости и снижения концентрации их внимания в процессе непрерывного чтения. Из этого факта можно заключить, что степень утомляемости студентов, точнее, скорость, с которой она повышается, существенным образом зависит от их текущих психоэмоциональных состояний: в напряженном состоянии утомляемость студентов нарастает быстрее.
Рис. 2. Гистограммы распределения студентов по времени достижения успеха в трех разных сеансах Fig. 2. Histograms of student distribution according to time of success in three different sessions
5. Основные результаты
2
Категории студентов
L-р / Сеанс 2
m I Сеанс 1
3
Сеанс 3
Данный эффект имеет прямое отношение к идее речевого профайлинга [Савченко, 2017]. Поэтому он и был выбран в качестве предмета экспериментального исследования на втором этапе. И полученные результаты в полной мере подтвердили выдвинутую выше гипотезу. Это следует, в частности, из представленных на рис. 3 а) и б) двух скриншотов экрана ноутбука: с временными диаграммами ФКР двух типичных студентов с относительно высокой и с низкой степенью волнений соответственно. Из их сопоставления хорошо видно, что признак отрицательного тренда в динамике ФКР явно коррелирует с высокой степенью волнений студента в процессе его тестирования. Тестируя речевой сигнал по знаку тренда ФКР в динамике, исследователь может с определенной уверенностью судить о текущем психоэмоциональном состоянии диктора.
ИНДИКАТОР
[ Сброс 1
Поспг-днмй отргаок ПлинчД
01 23456789 10
Нонора отрллкоп ьпшпй рочи
I Сброс I
а) б)
Рис. 3. Динамика ФКР для двух студентов: с пульсом 86 (а) и 65 (б) ударов в минуту
Fig. 3. Dynamics of FKR for two students: with a pulse of 86 (a) and 65 (b) beats per minute
Таким образом, признаком возбужденного психологического состояния тестируемого лица может служить отрицательный тренд его ФКР в динамике. Согласимся, это ценный довод в обоснование речевого профайлинга.
Отметим при этом устойчивость данного признака в ее строгом, статистическом смысле [Савченко, 2015]. Она была далее подтверждена экспериментально - с использованием двух связанных бинарных выборок объема 156 каждая (по числу проведенных тестирований). Они были сформированы из исходного статистического ряда данных согласно двум признакам: 1) пульс студента A=0 \ 1 (меньше или больше 72 ударов в минуту) и 2) динамика его ФКР B=0 \ 1 (неотрицательная или отрицательная). Здесь символом ( \ ) обозначена функция выбора "ИЛИ".
Полученные выборки отражены в таблице сопряженности рассматриваемых признаков ниже. По ней был вычислен в дальнейшем коэффициент фи-сопряженности Пирсона флп= (26 х 19 - 2 х 3)/>/29 х 21х 28 х 22 « 0,76 в роли выборочного коэффициента
AB
корреляции [Muller et al, 1976] двух бинарных последовательностей. Полученный результат 0,76 - это свидетельство высокой степени взаимной коррелированности двух признаков и одновременно строгое теоретическое обоснование валидности речевого профайлинга. А его надежность может быть охарактеризована вероятностью совпадения признаков у разных студентов PAB = P(A = 01B = 0) + P(A = 11B = 1) = (99 + 38) /152 » 0,90 в пределах представительной контрольной группы дикторов. Как видим, указанное совпадение - это практически достоверное [Савченко, 2015а, б] событие.
Таблица Table
Таблица сопряженности признаков Contingency table of characteristics
Признак B ПризнакA Итог
0 1
0 99 7 106
1 8 38 46
Итог 107 45 152