УДК: 519.688
И. Ю. Баженова, Р. К. Потапова, В. В. Потапов
Баженова И. Ю., кандидат физико-математических наук, доцент кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики английского факультета МГЛУ; ВМК МГУ им. М. В. Ломоносова; e-mail: birina748@rambler.ru
Потапова Р. К., доктор филологических наук, профессор, академик Международной академии информатизации, заведующая кафедрой прикладной и экспериментальной лингвистики, директор Института прикладной и математической лингвистики английского факультета МГЛУ; e-mail: RKPotapova@yandex.ru Потапов В. В., доктор филологических наук, главный научный сотрудник НИР кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики английского факультета МГЛУ; ст. научный сотрудний филологического факультета МГУ им. М. В. Ломоносова; e-mail: RKPotapova@yandex.ru
СРАВНИТЕЛЬНЫЙ АНАЛИЗ РАЗЛИЧНЫХ МЕХАНИЗМОВ РАБОТЫ С ИНТЕГРИРОВАННОЙ РЕЧЕВОЙ БД В ОБЛАЧНОМ ХРАНИЛИЩЕ ДАННЫХ1
Облачные хранилища данных предоставляют удобную инфраструктуру для организации удаленной работы с речевыми базами данных. Для формирования наиболее оптимальной концептуальной модели хранения информации речевых баз данных в облачном хранилище данных был проведен ряд модельных экспериментов на базе применения облачной инфраструктуры Microsoft Azure.
Ключевые слова: облачные технологии; облачные хранилища данных; речевые базы данных.
Bazhenova I. U.
Candidate of Physical and Mathematical Sciences (PhD); Associate Professor, Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the Humanities and Applied Sciences, MSLU; S. Researcher, CMC Lomonosov Moscow State University
Potapova R. K.
D. Sc., Professor, Member of the International Academy of Informatization, Head of the Department of Applied and Experimental Linguistics, Director of Institute of Applied and Mathematical Linguistics, Faculty of the Humanities and Applied Sciences, MSLU; e-mail: RKPotapova@yandex.ru
1 Исследование выполнено в рамках Задания № 34.1254.2014К Министерства образования и науки России. Научный руководитель - доктор филологических наук, профессор Р. К. Потапова.
Potapov V. V.
D. Sc., Principal Research Fellow, Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the Humanities and Applied Sciences, MSLU; e-mail: RKPotapova@yandex.ru
COMPARATIVE ANALYSIS OF DIFFERENT MECHANISMS OF WORK WITH THE INTEGRATED SPEECH DATABASE IN THE CLOUD DATA STORAGE
Cloud data storage provides a convenient framework for organizing remote work with speech databases. A series of simulation experiments based on the use of Microsoft Azure cloud infrastructure was performed in order to form a conceptual model of the optimal data storage speech database in the cloud data store. Key words: cloud technology; cloud storage data; speech databases.
I. Введение
Облачное хранилище данных предоставляет широкий спектр возможностей по хранению и обработке речевых данных. Однако данный вид информации обладает своей спецификой, влияющей на требования, предъявляемые к концептуальной модели данных для интегрированной речевой базы данных. С целью выявления наиболее оптимальных характеристик хранения речевой информации и формирования эффективных алгоритмов обработки таких данных был создан программный комплекс (ПК) [6], позволивший провести ряд оценочных тестов.
В качестве облачного хранилища данных была выбрана база данных SQL Azure, которая наиболее полно удовлетворяет следующим критериям [3]:
• возможность хранения в LOB-полях больших объемов данных, что характеризует речевые БД, содержащие в своей основе звуковые файлы;
• масштабируемость базы данных;
• унифицированное использование альтернативных хранилищ данных, расположенных в различных дата-центрах;
• доступность интегрированного хранения данных в облачном и серверном хранилище данных;
• удобство управления и обработки данных в облачном хранилище посредством применения стандартизированного языка работы с данными;
• обеспечение механизмов защиты хранимых данных;
• предоставление широкого спектра программных интерфейсов для взаимодействия с информацией из речевой базы данных, размещенной в облачном хранилище[4];
• возможность унификации механизмов доступа к данным, размещенным как в облачном хранилище, так и в традиционной серверной базе данных;
• предоставление продвинутых средств администрирования облачного хранилища данных.
База данных SQL Azure [2] является составной частью платформы Windows Azure, которая предоставляет широкий набор сервисов для работы с данными:
• вычислительные сервисы, реализующие контейнеры для приложений с поддержкой современных технологий разработки, включая NET, Java, PHP, Python, Ruby on Rails [1];
• сервисы хранения данных, представляющие собой масштабируемую распределенную систему хранения данных, поддерживающую табличные структуры, BLOB-объекты, очереди;
• сервисы обеспечения безопасности, реализующие управление доступом и интеграцию с существующими системами управления идентификацией.
Windows Azure может служить контейнером для масштабируемых веб-приложений. В технологии .NET основой веб-приложения является веб-роль, взаимодействующая через протоколы HTTP и HTTPS. Веб-роль доступна внешним клиентам и веб-браузерам, и для нее определяется номер порта и имя. Точка входа HTTPS, также доступная внешним клиентам и веб-браузерам, имеет кроме имени и номера порта имя SSL-сертификата. Точка входа HTTP, которая используется для внутреннего доступа для других ролей, выполняющихся в рамках данной службы, также имеет имя. Хостинг web-роли осуществляется на веб-сервере IIS, развернутом в Windows Azure.
II. Постановка задачи
Платформа Windows Azure предлагает различные сервисы хранения данных, позволяющие размещать информацию в надежном масштабируемом хранилище данных в облаке.
Для хранения речевой информации можно применять два типа хранилищ данных:
• Windows Azure Storage - используется для хранения таблиц, больших объектов и очередей [5];
• SQL Azure - реализуется как полнофункциональная база данных.
Для удаленной работы с речевыми данными, хранимыми в облаке, Windows Azure поддерживает широкий набор программного инструментария, используемого для взаимодействия с информацией из баз данных.
Для решения совокупности задач по взаимодействию с облачной интегрированной речевой базой данных был сформирован исследовательский стенд, позволяющий провести ряд оценочных тестов. Проведение таких экспериментов позволяет определять наиболее эффективные алгоритмы обработки речевых данных, а также выявлять наиболее оптимальные характеристики хранения речевой информации. Для получения наиболее достоверной информации тесты должны выполняться на реальных сформированных базах данных.
III. Выполнение сравнительного анализа различных механизмов работы с речевыми файлами
Процесс разработки распределенной интегрированной мобильной системы для удаленной работы с интегрированной лингвистической базой данных на основе применения облачных вычислений и облачных хранилищ данных состоит из пяти основных этапов.
На первом этапе происходит формирование концептуальной модели конкретной интегрированной речевой базы данных применительно к использованию ее в облачном хранилище данных. Проведение модельных экспериментов на данном этапе позволяет выработать набор требований к структуре используемых таблиц, а также ряд задач, которые следует решать посредством хранимых функций и процедур.
На втором этапе выполняется исследование универсальных подходов для развертывания интегрированной речевой БД в облачном хранилище данных, а также определяются задачи, решаемые для синхронизации данных в интегрированной речевой БД.
На третьем этапе происходит выбор программного инструментария, используемого для создания сервисов наполнения речевой базы данных и разработка самих сервисов.
На четвертом этапе выполняется анализ базового требуемого функционала для обработки данных из интегрированной речевой БД и реализуется тестирование выбранного программного инструментария для конкретного функционала.
На завершающем, пятом, этапе на основе проведенных модельных экспериментах и с учетов данных, полученных в результате тестирования, для выполнения поисковых запросов и выборки требуемой информации из речевой базы данных создается набор сервисов, использующий выработанные эффективные алгоритмов обработки данных.
Для решения поставленных задач был проведен ряд тестов, позволяющих выявить зависимость скорости выполнения запроса лингвистических речевых данных от от ряда параметров (см. рис. 1).
. | «МЫ и III».
С [[NlLa LUl^JllllL-iakl Lka« Source'|У<\ I cnflt lljbiluhc Yimhflit ШЛ.1шш14 JliLiv IJH \|(ilt I I.PfmnrScvluiri IllL- In* * ll> 'чвд^1 i'ii<nlrt*nl Г i*^™ Til ллггглгл
1Ш 1.1. Нна f 441 ft РйКЧП + 411»
UUhl UULL LvhE >■ ■■ II, Mill 11 1ШГ£Г1|И1Ш
Рис. 1. Веб-приложение, используемое для получения временных характеристик запроса речевых данных
В таблице 1 приведены данные, полученные при сравнении скорости выполнения запроса от веб-приложения на удаленном вебсервере, расположенном в Москве, к серверным хранилищам данных SQL Azure, расположенных в дата-центрах в Западной Европе и в центральной части США.
Таблица 1
Размер речевого файла в байтах Время выполнения запроса (сек)
SQL Azure в Западной Европе SQL Azure в центральной части США БД на удаленном MS SQL Server
4291630 1,586 5,091 0,14
9100334 4,939 20,737 0,16
11280430 8,572 30,59 0,24
16039982 9,674 39,139 0,26
В таблице указано среднее значение времени запроса, полученное при проведении эксперимента, состоящего из серий по 10 запросов для каждого речевого файла в каждой облачной базе данных.
Результаты, приведенные в таблице 1, демонстрируют зависимость скорости получения данных от их размера и от региона расположения дата-центра.
В таблице 2 приведены данные, полученные при сравнении скорости выполнения запроса к серверному хранилищу данных SQL Azure, расположенному в дата-центре в центральной части США, от веб-приложения, размещенного в том же облаке, и от веб-приложения, размещенного на удаленном веб-сервере.
Таблица 2
Размер речевого файла в байтах Время выполнения запроса (сек)
Веб-приложение расположено в одном облаке с SQL Azure Веб-приложение расположено на удаленном веб-сервере
4291630 0,295 5,091
9100334 0,375 20,737
11280430 0,515 30,59
16039982 1,39 39,139
Результаты, приведенные в таблице 2, выявляют степень зависимости взаимного расположения сервисов данных и облачного хранилища данных.
Формируемая интегрируемая устно-речевая база данных содержит информацию в формате звуковых файлов. Для выполнения поисковых запросов лингвистической информации в создаваемую устно-речевую базу данных включены аннотированные данные, описывающие хранимые в базе данных звуковые файлы. Наличие аннотированных данных позволяет реализовывать эффективные механизмы поиска фрагментов звучащей речи в устно-речевых базах данных.
С целью определения зависимости скорости выполнения запросов фрагментов звучащей речи от механизма получения данных на сформированном исследовательском стенде были проведены тесты с двумя различными облачными хранилищами данных (см. табл. 3).
Таблица 3
Размер речевого файла в байтах Доступ посредством запроса SELECT (сек) Доступ с обработкой данных в хранимой процедуре (сек)
SQL Azure в Западной Европе SQL Azure в центральной части США SQL Azure в Западной Европе SQL Azure в центральной части США
4291630 1,586 5,091 7,283 3,02
9100334 4,939 20,737 9.027 22,07
11280430 7,174 30,59 17,096 24
16039982 7,52 39,139 19,877 27,1
С целью определения зависимости скорости чтения одного байта речевого файла от размера файла и взаимного размещения веб-сервиса и облачного хранилища данных был проведен ряд тестов, результат которых приведен на графике 1. о.кнши
O.utimxw 1 U.oorawi o.flooatus
О.ООО ПО!
и.оолсюл1,
D
График 1. Зависимость времени чтения одного байта от размера файла
Как видно из приведенного графика, при больших размерах речевых файлов относительная скорость чтения единицы данных уменьшается для сервисов, расположенных на удаленных веб-серверах.
Разработанный программный комплекс, использующий SQL Azure как основу для хранения речевой БД, позволяет тестировать следующие механизмы доступа:
• доступ к SQL Azure из кода хранимых процедур и функций;
• доступ к SQL Azure из кода, работающего на инфраструктуре Windows Azure. Удаленные приложения взаимодействует с облачными сервисами через стандартные интернет-протоколы (HTTP / HTTPS, SOAP, REST), а облачные сервисы реализуют доступ к SQL Azure;
• доступ к SQL Azure из кода, располагаемого на стороне клиента (МГЛУ);
• доступ к SQL Azure как из кода, работающего на инфраструктуре Windows Azure, так и из кода, работающего на инфраструктуре МГЛУ. Код на стороне клиента также может обращаться к SQL Azure напрямую или через облачные сервисы.
Заключение
Для оценки ряда параметров, таких как производительность обработки конкретной информации из речевой базы данных, был сформирован исследовательский стенд, позволяющий решить задачу получения оценочных статистических данных для различных операций взаимодействия с конкретной лингвистической базой данных. Разработанный программный комплекс может быть использован для определения наиболее оптимального дата-центра для выбранного облачного хранения данных, а также для исследования производительности различных механизмов доступа к лингвистическим устно-речевым базам данных.
СПИСОК ЛИТЕРАТУРЫ
1. Баженова И. Ю. Применение облачных технологий при дистанционном обучении языкам программирования // Современное речеведение -агрегация междисциплинарных знаний. - М. : ФГБОУ ВПО МГЛУ, 2014. - С. 45-52. - (Вестн. Моск. гос. лингвист. ун-та; вып. 13(699). Сер. Языкознание).
2. Баженова И. Ю. Разработка приложений баз данных для облачных хранилищ данных. - М. : LAP LAMBERT Academic Publishing, 2013. - 212 c.
3. Потапова Р. К., Баженова И. Ю., Потапов В. В., Бобров Н. В. Применение облачных хранилищ данных для работы с речевой базой данных // Речевая коммуникация в информационном пространстве: коллективная монография / под ред. Р. К. Потаповой. - М. : УРСС, 2016. - С. 59-66.
4. Потапова Р. К., Баженова И. Ю., Потапов В. В., Бобров Н. В. Разработка пакета облачных web-сервисов для сопровождения и использования интегрированной речевой БД в облачном хранилище данных //
Речевая коммуникация в информационном пространстве: коллективная монография / под ред. Р. К. Потаповой. - М. : УРСС, 2016. - С. 51-58.
5. Abu-Libdeh H., Princehouse L., Weatherspoon H. RACS: a case for cloud storage diversity // SoCC '10: Proceedings of the 1st ACM symposium on Cloud computing. 2010. - С. 229-240.
6. Potapova R., Potapov V., Bazhenova I. Development of the research cloud technology stand-alone system (regarding integrated speech databases) // Proceedings of the 17th International conference Speech and Computer (SPECOM 2015): University of Patras Press, Patras. - Vol. 2, 2015. -С. 1-7.