Научная статья на тему 'РАЗРАБОТКА ВЕБ-ПРИЛОЖЕНИЯ ИНТЕРПРЕТАТОРА НАТУРАЛЬНОЙ РЕЧИ НА ЖЕСТОВЫЙ ЯЗЫК С КОНВЕЙЕРОМ АНИМАЦИИ ЖЕСТОВ'

РАЗРАБОТКА ВЕБ-ПРИЛОЖЕНИЯ ИНТЕРПРЕТАТОРА НАТУРАЛЬНОЙ РЕЧИ НА ЖЕСТОВЫЙ ЯЗЫК С КОНВЕЙЕРОМ АНИМАЦИИ ЖЕСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
89
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЖЕСТОВЫЙ ЯЗЫК / РАЗРАБОТКА / ВЕБ-ПРИЛОЖЕНИЕ / ИНТЕРПРЕТАТОР

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Павлов И. Р., Кулаков Д. Г., Егоров М. С., Иванов С. И.

Данная работа описывает разработку веб-приложения с интеграцией конвейера анимации для перевода натуральной речи на жестовый язык. В статье рассматриваются принципы работы приложения, выбранные технологии, такие как ASP.NET, Blazor WebAssembly и Unity, а также процесс перевода и взаимодействие с базой данных через API. Описывается важность такого приложения в разрушении коммуникационных барьеров и его потенциальное применение в различных сферах.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF A WEB APPLICATION FOR A NATURAL LANGUAGE TO SIGN LANGUAGE INTERPRETER WITH A GESTURE ANIMATION PIPELINE

This paper describes the development of a web application integrating an animation pipeline to translate natural speech into sign language. The paper discusses the principles of the application, the selected technologies such as ASP.NET, Blazor WebAssembly and Unity, as well as the translation process and interaction with the database via API. It describes the importance of such an application in breaking down communication barriers and its potential application in various fields.

Текст научной работы на тему «РАЗРАБОТКА ВЕБ-ПРИЛОЖЕНИЯ ИНТЕРПРЕТАТОРА НАТУРАЛЬНОЙ РЕЧИ НА ЖЕСТОВЫЙ ЯЗЫК С КОНВЕЙЕРОМ АНИМАЦИИ ЖЕСТОВ»

УДК 004.418

Павлов И.Р., Кулаков Д.Г., Егоров М.С., Иванов С.И.

Разработка веб-приложения интерпретатора натуральной речи на жестовый язык с конвейером анимации жестов

Павлов Илья Русланович, студент 4 курса бакалавриата факультета цифровых технологий и химического инжиниринга, e-mail: ilyapavlo667@gmail.com;

Кулаков Дмитрий Геннадьевич, студент 4 курса бакалавриата факультета цифровых технологий и химического инжиниринга e-mail: dimacreator1998@gmail.com;

Егоров Матвей Сергеевич, студент 4 курса бакалавриата факультета цифровых технологий и химического инжиниринга, e-mail: m.voroge@bk.ru;

Иванов Святослав Игоревич, к.т.н., руководитель отдела разработки #3 ООО "КристалД"

Российский химико-технологический университет им. Д.И. Менделеева, Москва, Россия 125480, Москва, ул.

Героев Панфиловцев, д.20

Данная работа описывает разработку веб-приложения с интеграцией конвейера анимации для перевода натуральной речи на жестовый язык. В статье рассматриваются принципы работы приложения, выбранные технологии, такие как ASP.NET, Blazor WebAssembly и Unity, а также процесс перевода и взаимодействие с базой данных через API. Описывается важность такого приложения в разрушении коммуникационных барьеров и его потенциальное применение в различных сферах. Ключевые слова: жестовый язык, разработка, веб-приложение, интерпретатор

Development of a web application for a natural language to sign language interpreter with a gesture animation pipeline

Pavlov I.R., Kulakov D.G., Egorov M.S., Ivanov S.I.

Russian University of Chemical Technology named after DI. Mendeleev, Moscow, Russia/ This paper describes the development of a web application integrating an animation pipeline to translate natural speech into sign language. The paper discusses the principles of the application, the selected technologies such as ASP.NET, Blazor WebAssembly and Unity, as well as the translation process and interaction with the database via API. It describes the importance of such an application in breaking down communication barriers and its potential application in various fields.

Keywords: gesture language, development, web application, interpreter

Введение

Глухие люди имеют ограниченный доступ к информации, которая передается звуковыми сигналами, такими как речь. Более 5% населения мира страдает от инвалидизирующую потери слуха, что приводит к необходимости использования других способов коммуникации, таких как жестовый язык. Однако, не все глухие люди владеют жестовым языком на должном уровне, что может привести к проблемам в получении образования, коммуникации, потреблении контента и восприятия информации. Для решения этой проблемы необходимо создать переводчик, который бы переводил натуральную речь на жестовый язык.

Термины

• Веб-приложение - приложение, которое работает веб-браузере и доступно через интернет. В данной работе речь идет о разработке веб-приложения для перевода натуральной речи на жестовый язык.

• Конвейер анимации - механизм, используемый для создания и отображения анимации. В данной статье конвейер анимации используется для отображения жестов, соответствующих переведенным словам или фразам.

• Натуральная речь — естественный способ общения людей, основанный на голосе, интонации, жестах и мимике. В данной работе разработано веб-

приложение, которое переводит натуральную речь на жестовый язык.

• Жестовый язык - система коммуникации, использующая жесты и мимику для передачи сообщений. В данной статье фокусируется на переводе натуральной речи на жестовый язык с помощью веб-приложения.

• API (Application Programming Interface) — набор программных инструментов и протоколов, который позволяет различным приложениям взаимодействовать между собой. В данной статье API используется для связи между веб-приложением, базой данных и конвейером анимации.

• ASP.NET - кроссплатформенный фреймворк разработки веб-приложений, использующий язык программирования C# и различные инструменты для создания высокопроизводительных приложений. В данной работе используется ASP.NET для разработки серверной части веб-приложения.

• Blazor WebAssembly - фреймворк для создания интерактивных пользовательских интерфейсов на C# веб-приложениях. В данной работе Blazor WebAssembly выбран для разработки клиентской части веб-приложения.

Описание проблем восприятия информации глухих людей и почему нужен переводчик

Начнем с того, что по данным Всемирной организации здравоохранения [1], более 5%

населения мира - 360 миллионов человек (328 миллионов взрослых людей и 32 миллиона детей) -страдают от инвалидизирующую потери слуха, которая определяется как потеря слуха в слышащем лучше ухе, превышающая 40 дБ у взрослых людей и 30 дБ у детей. Данные цифры говорят о том, что проблема глухоты является достаточно распространенной и требует поиска альтернативных средств коммуникации для глухих людей.

Для слышащих людей основным средством коммуникации является звук. Однако для глухих людей зрение является основным и единственным средством коммуникации. Глухие люди вынуждены использовать невербальные языки, в том числе жестовый язык, для общения.

Учитывая тот факт, что вербальные языки могут быть перенесены в текст, что является информацией, доступной для глухих людей, вопрос о ее восприятии может быть не столь явным. Тем не менее, данная интерпретация вербального языка подходит лишь для глухих, которые обладают достаточным уровнем владения им. В России большое количество глухих выпускников не владеют вербальным языком достаточно хорошо для того, чтобы понимать информацию в виде текста [2].

Следовательно, необходимость в создании новых методов и технологий для перевода вербального языка на жестовый является актуальной задачей, которая может значительно улучшить доступность и коммуникацию глухих людей в современном мире.

Существующие решения перевода жестового языка

В настоящее время проблема коммуникации глухих людей решается путем найма сурдопереводчиков, которые переводят жестовый язык на нужный вербальный язык. Несмотря на то, что в России существует всего один вуз, готовящий бакалавров переводчиков РЖЯ, это недостаточно, чтобы удовлетворить потребности глухих в переводе и обеспечить его качество. ВОГ сообщает о нехватке около 4 тысяч переводчиков с жестового языка глухих в России. Проблема остро ощущалась во время пандемии, когда слабослышащие люди не могли получать оперативную и достаточную информацию. Нехватка сурдопереводчиков связана с трудностью обучения квалифицированных специалистов и сложностью самого процесса перевода, который требует физической нагрузки для переводчика, что препятствует долгому и беспрерывному процессу перевода.

Для решения проблемы человеческих ресурсов может быть использована вычислительная техника и компьютерные технологии, которые могут разрабатывать сервисы, помогающие

жестоговорящему населению. Некоторые такие сервисы уже существуют, например, российский сервис «Адаптис», который связывает жестоговорящих людей и сурдопереводчиков, сокращая затраты времени сурдопереводчика на дорогу до клиента и время поиска нужного специалиста клиентом. Тем не менее, этот подход не

решает проблемы нехватки сурдопереводчиков, а только уменьшает её.

Другой сервис, бразильский «Hand Talk», предоставляет переводчик, который напоминает классические онлайн переводчики от компаний Яндекс или Google. Однако, у этого сервиса есть свои ограничения, такие как отсутствие большого количества языков и сложности добавления новых языков, которые требуют работы аниматора и процесса анимирования 3D анимации. Кроме того, этот сервис ограничен по количеству символов

Описание предлагаемого решения

Для решения проблем, связанных с существующими сервисами, предлагается создание системы, которая удовлетворяет ряду критериев:

• удобство использования;

• простоту добавления жестов новых языков;

• возможность работы с различными форматами данных (видео, аудио, текст);

• качество отображения;

• качество перевода;

Одним из ключевых критериев является удобство использования. Для достижения этой цели предлагается создание различных инструментов для перевода, таких как веб-приложение с внедрением конвейера анимации жестов. Такой подход позволит пользователям получать быстрый и точный перевод жестов на вербальный язык, сокращая время и усилия, затрачиваемые на поиск и общение с сурдопереводчиками.

В контексте создания такой системы важно обеспечить высокое качество перевода и отображения жестов, что можно достичь путем использования передовых технологий и методов машинного обучения. Также необходимо предусмотреть возможность перевода различных форматов данных, включая видео, аудио и текст.

Таким образом, создание системы с учетом всех вышеуказанных критериев может значительно упростить процесс перевода жестов на вербальный язык для людей с ограниченными возможностями слуха и речи.

Результаты разработки

Как было сказано выше, для сервиса необходимо, чтобы было обеспечено удобство в использовании. Одним из вариантов выполнения требования является разработка Web-приложения. Где приложение разделяется на клиентскую часть, то есть Single Page Application и серверную часть - REST API.

Почему именно Web-приложение? На текущий момент существует 3 типа приложений, (рис. 1)

Рисунок 1. Типы приложений Разработка десктопных приложений

подразумевает установку клиента на компьютере

пользователя, что может приводить к проблемам совместимости с различными характеристиками железа (тип операционной системы, процессора, видеокарты и прочее), а также к необходимости скачивания постоянных обновлений. Мобильные приложения, в свою очередь, ориентированы на определенную операционную систему (Android, iOS и т.д.), что также создает проблемы для разработчиков. В то же время, Web-приложения являются наиболее динамично развивающимся типом приложений, так как для их работы достаточно установленного браузера на устройстве пользователя. Это делает их практически независимыми от характеристик железа, что упрощает их разработку и сопровождение. Кроме того, по функционалу Web-приложения скоро смогут сравняться с десктопными аналогами.

Web-приложения функционируют на основе двух компонентов: серверной (backend) и клиентской (frontend) частей. Разработка клиентской части приложения требует создания HTML-разметки, таблиц стилей CSS и JavaScript-скриптов, а для упрощения процесса разработки используются специальные frontend-фреймворки, включая Angular, React, Vue и Blazor.

Разработка серверной части приложений связана с использованием ряда языков программирования, таких как Java, Python, C#, C++, а для упрощения процесса разработки серверной части часто применяются backend-фреймворки, такие как Django, Asp.Net и веб-серверы, например, Nginx.

При разработке серверной части приложения используют архитектурный стиль проектирования Application Programming Interface (API) и протокол передачи данных HyperText Transfer Protocol (HTTP), который известен как Representational State Transfer (REST). REST API используется для предоставления данных с сервера пользователю веб-приложения и отличается большой гибкостью.

Для реализации серверной части прототипа Web-приложения был выбран кросс-платформенный фреймворк ASP.NET[3], основанный на языке

программирования C#, который обеспечивает высокую производительность REST API[4] для различных клиентов и позволяет использовать микросервисную архитектуру.

Для хранения большого объема сгенерированных файлов анимации, представленных в формате JSON объектов, была выбрана NoSQL СУБД MongoDB.

Для реализации клиентской части был выбран UI-фреймворк Blazor WebAssembly от компании Microsoft, который позволяет создавать многофункциональные интерактивные

пользовательские интерфейсы на C# вместо JavaScript, использовать совместно серверную и клиентскую логику приложений, отображать пользовательский интерфейс в виде HTML-страницы с CSS для широкой поддержки браузеров, а также интегрироваться с современными платформами размещения, такими как Docker. Благодаря Blazor также возможно создание гибридных классических и мобильных приложений с помощью .NET.

Для визуализации жестов в реальном времени, используемых в жестовом языке, в переводчике применяется конвейер анимации на основе движка Unity. Движок Unity использует фреймворк Mono для компиляции кода под различные платформы и задачи, что позволяет его легко адаптировать к различным условиям. Например, он, может быть, нативно скомпилирован для мобильных устройств или скомпилирован в формате WebGL для использования в веб-приложениях. Благодаря этому, конвейер анимации можно легко внедрить в переводчик.

В рамках разработки прототипа Web-приложения с использованием перечисленных технологий был разработан функционал, позволяющий пользователю посмотреть демо-фразы, а также ввести свой текст для перевода.

На странице переводчика есть демо фразы, которые можно посмотреть, как пример перевода, а также присутствует форма для ввода своего текста (рис 2.). Страница содержит словарь жестов, которые сейчас есть в базе данных сервиса.

Эс

I Резидент фонда Сколком с 2022 гада

ш

СоСе

GORILLA GEST

Главная Переводчик

Введите текст для перевода на жестовый язык

Привет, я интерпретатор Образование дает знания натуральной речи на жестовый язык

Демо фразы

Хвчу пояять искусство

Ребята рассказывали об интересном научном журнале

Словарь слов

Русский English

See how I interpret this phrase

What is your name

бежать бизнес

без

6ЛИЗКИЙ

безопастность близкий

белый бог

белый боевой борьба

Рисунок 2. Страница переводчика

берег боевой бояться

На серверной части реализовано взаимодействие с базой данных, а именно:

• получение фразы для перевода

• получение жеста

• получение словаря жестов

• добавления фразы для перевода

• добавления SRT файла для перевода

• получение информации SRT файла Документация для API можно посмотреть, через

инструмент Swagger (рис. 3). В нем же можно отправить запрос и посмотреть результат обработки (рис. 4). _

DtellHwyWoiin > SctBl«» »

Рисунок 3. Swagger. Документация API

Рисунок 4. Swagger. Пример получения словаря жестов

Процесс перевода в веб-приложении инициируется вводом фразы пользователем. После

этого создается уникальный идентификатор запроса на перевод, который используется для сохранения фразы и ее идентификатора в базе данных через API. Затем пользователь перенаправляется на страницу перевода, где отображается идентификатор запроса. На этой странице интегрирован конвейер анимации, в котором происходит дальнейшая логика перевода. Конвейер использует идентификатор запроса для получения фразы для перевода и ее отображения из базы данных через API. Фраза разбивается на слова, и для каждого слова конвейер запрашивает соответствующий файл анимации. Затем пользователю предоставляется перевод с помощью анимации.

Вывод

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Разработка веб-приложения, оснащенного конвейером анимации для перевода натуральной речи на жестовый язык, представляет собой важный шаг в направлении преодоления коммуникативных препятствий в современном обществе. Разработанное приложение обладает потенциалом не только для облегчения коммуникации, но и для применения в образовательных, профессиональных и

развлекательных целях.

Список литературы

1. Всемирный доклад по проблемам слуха: резюме [World report on hearing: executive summary]. Женева: Всемирная организация здравоохранения; 2021 г. Лицензия: CC BY-NC-SA 3.0 IGO

2. Анна Комарова: Отсутствие переводчика жестов закрывает для глухих доступ к информации. // RDRU: сайт. — URL: https://rg.ru/2012/05/12/komarova.html (дата обращения: 05.03.2023).

3. Техническая документация .NET. — Текст: электронный // Техническая документация Microsoft Learn: [сайт]. — URL: https://learn.microsoft.com/ru-ru/docs/ (дата обращения: 15.03.2023).

4. Арно, Л. Проектирование веб-API / Л. Арно. —: ДМК Пресс, 2020. — 440 c. — Текст: непосредственный

i Надоели баннеры? Вы всегда можете отключить рекламу.