Научная статья на тему 'КОМПЬЮТЕРНАЯ МОДЕЛЬ РУССКОГО ЖЕСТОВОГО ЯЗЫКА'

КОМПЬЮТЕРНАЯ МОДЕЛЬ РУССКОГО ЖЕСТОВОГО ЯЗЫКА Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
214
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РУССКИЙ ЖЕСТОВЫЙ ЯЗЫК / КОМПЬЮТЕРНЫЙ СУРДОПЕРЕВОД / СЕМАНТИЧЕСКИЙ АНАЛИЗ / СРЕДСТВА РАСПОЗНАВАНИЯ ЖЕСТОВОЙ РЕЧИ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гриф Михаил Геннадьевич, Козлов Андрей Николаевич, Мануева Юлия Сергеевна

В статье проведен анализ существующих систем сурдоперевода, определены их преимущества и недостатки. Рассмотрена технология компьютерного перевода русского текста на русский жестовый язык. Определены основные этапы анализа текста: морфологический, синтаксический и семантический. Морфологический и синтаксический анализ проводится на основе системы Диалинг. Разработан модуль семантического анализа текста. Основная задача работы модуля заключается в разрешении проблемы омонимии. Работа семантического модуля основана на словаре В.А. Тузова. Работа модуля завершается, когда каждому слову соответствует единственное значение и определяется соответствующий жест. В статье приведена схема семантического анализа имени существительного. Проведен сравнительный анализ правильности определения значений слов в разработанной системе семантического анализа с системой «Сурдофон». Значения слов более качественно определяются в системе семантического анализа. Перевод текста на жестовую речь осуществляется с помощью алгоритма анализа синтаксических конструкций исходного языка и целевого языка. На основе данного анализа определяется соответствие синтаксических конструкций, в котором сложные предложения разбиваются на более простые. В ходе преобразования исходное предложение подвергается определенным дополнительным модификациям. В частности, причастие заменяется соответствующим глаголом. Разработана соответствующая библиотека для определения синтаксических конструкций.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Гриф Михаил Геннадьевич, Козлов Андрей Николаевич, Мануева Юлия Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A COMPUTER MODEL OF THE RUSSIAN SIGN LANGUAGE

The paper analyzes existing computer sign language interpretation systems, their advantages and disadvantages being revealed. The technology of computer translation from sounding Russian into the Russian sign language is considered. The main steps of text analysis are described: morphological, syntactic and semantic analysis. Morphological and syntactic analysis is carried out on the basis of Dialing system. A module of semantic analysis is developed. The main objective of the module is to solve the problem of homonyms. The semantic module work is based on V. Tuzov dictionary. The work module is completed when only one meaning corresponds to each word and the corresponding gesture is determined. The paper describes a semantic analysis scheme of the noun. A comparative analysis of the correctness of word meanings in the developed semantic analysis module with the Surdophone system is carried out. A more qualitative definition of word meanings is made by the semantic analysis module. Translations of texts the in Sign language are carried out by analyzing the syntax construction of the source language and the target language. On the basis of this analysis the correspondence of syntax constructions is determined, in which complex sentences are devided into simple ones. During the initial conversion a sentence undergoes certain additional modifications. In particular, the participle is replaced the corresponding verb. An appropriate library to determine the syntax is developed.

Текст научной работы на тему «КОМПЬЮТЕРНАЯ МОДЕЛЬ РУССКОГО ЖЕСТОВОГО ЯЗЫКА»

_ДОКЛАДЫ АН ВШ РФ_

2017_январь-март_№ 1(34)

- ТЕХНИЧЕСКИЕ НАУКИ -

УДК004.82

КОМПЬЮТЕРНАЯ МОДЕЛЬ РУССКОГО ЖЕСТОВОГО ЯЗЫКА

М.Г. Гриф, А.Н. Козлов, Ю.С. Мануева

Новосибирский государственный технический университет

В статье проведен анализ существующих систем сурдоперевода, определены их преимущества и недостатки. Рассмотрена технология компьютерного перевода русского текста на русский жестовый язык. Определены основные этапы анализа текста: морфологический, синтаксический и семантический. Морфологический и синтаксический анализ проводится на основе системы Диалинг. Разработан модуль семантического анализа текста. Основная задача работы модуля заключается в разрешении проблемы омонимии. Работа семантического модуля основана на словаре В. А. Тузова. Работа модуля завершается, когда каждому слову соответствует единственное значение и определяется соответствующий жест. В статье приведена схема семантического анализа имени существительного. Проведен сравнительный анализ правильности определения значений слов в разработанной системе семантического анализа с системой «Сурдофон». Значения слов более качественно определяются в системе семантического анализа. Перевод текста на жестовую речь осуществляется с помощью алгоритма анализа синтаксических конструкций исходного языка и целевого языка. На основе данного анализа определяется соответствие синтаксических конструкций, в котором сложные предложения разбиваются на более простые. В ходе преобразования исходное предложение подвергается определенным дополнительным модификациям. В частности, причастие заменяется соответствующим глаголом. Разработана соответствующая библиотека для определения синтаксических конструкций.

Ключевые слова: русский жестовый язык, компьютерный сурдоперевод, семантический анализ, синтаксические конструкции, средства распознавания жестовой речи.

DOI: 10.17212/1727-2769-2017-1-46-57

Введение

По данным Всероссийской переписи населения, прошедшей в 2010 году, владение русским жестовым языком (РЖЯ) отметили 120 528 человек. Из приведенной статистики следует, что разработка систем перевода со звучащего языка на язык жестов и наоборот имеет особую социальную значимость [1]. Компьютерный перевод на данный момент представляет одно из доминирующих направлений в области прикладной лингвистики [2].

Для перевода РЖЯ на русскую речь необходимо решить проблему распознавания жестовой речи. Все устройства, которые применяются для распознавания жестов, делятся на две группы: устройства, основанные на распознавании видеоданных, и устройства, которые используют датчики: акселерометр, гироскоп и магнетометр. К устройствам первой группы можно отнести: бесконтактный контроллер Kinect, LeapMotion, камеру RealSense F200 [3-6]. Достоинства данных устройств - лучший результат распознавания в отличие от обычных камер, который достигается за счет наличия одного или нескольких сенсоров глубины или инфракрасной камеры, для распознавания жестов на различном расстоянии от камеры. Разработки первой группы распознают отдельные жесты и контур человека на расстоянии 1,8-3,5 метра (Kinect), с точностью до 1/100 миллиметра Leap Motion отслеживает все 10 пальцев, RealSense F200 определяет кисти рук, пальцы, эмоции человека.

© 2017 М.Г. Гриф, А.Н. Козлов, Ю.С. Мануева

Вторая группа устройств, которые могут применяться для распознавания жестов - кольца, перчатки, браслеты с набором датчиков. Функционирование браслета MYO компании Thalmic Labs основано на обработке электрических импульсов мышц руки. На текущий момент ни одно из устройств в полной мере не может решить проблему распознавания жестовой речи. Для достижения более точного распознавания необходимо использовать комбинацию рассмотренных устройств: одно распознает движение кистей и пальцев, другое определяет эмоции, третье распознает более сложные движения, в которых задействованы локтевые и плечевые суставы. Таким образом, перевод с РЖЯ на русскую речь на данный момент представляется очень сложной задачей.

Целью данной статьи является описание способа построения системы компьютерного сурдоперевода с учетом семантической составляющей русского языка на основе словаря семантических отношений В. А. Тузова.

1. Постановка задачи

Основная сложность при реализации системы компьютерного сурдоперевода заключается в качестве перевода на РЖЯ. Под качеством перевода будем понимать правильность передачи смыслового значения предложения (его семантику). На первый взгляд можно ограничиться использованием субтитров, но при более подробном изучении можно сделать вывод, что использование субтитров не решает данную проблему. Во-первых, субтитры представляют собой калькирующую речь, т. е. происходит отображение на экране текста на русском языке, который не учитывает особенностей жестового языка: грамматику, синтаксис, семантику. Вследствие этих особенностей у слабослышащих возникают сложности в понимании субтитров. Во-вторых, на основе поправки к закону «О соцзащите инвалидов в Российской Федерации» от 26 декабря 2012 года русский жесто-вый язык получил статус «языка общения при наличии нарушений слуха и (или) речи, в том числе в сферах устного использования государственного языка», т. е. РЖЯ представляет собой самостоятельную языковую систему. Поэтому возникает необходимость в разработке системы компьютерного сурдоперевода, которая обеспечит достойную замену человеку-сурдопереводчику.

В качестве исходных данных используется текстовая строка, полученная в результате распознавания речи. Для повышения точности перевода разработаны программный модуль семантического анализа и модуль анализа на основе синтаксических конструкций. Суть данного подхода заключается в том, что в алгоритме отбора многозначных слов, имеющих соответствующие жесты, впервые был применен словарь В. А. Тузова, и выделены основные конструкции жестового языка, на основе которых происходит перевод предложения. Таким образом, решается проблема перевода русской речи на РЖЯ.

2. Обзор существующих систем компьютерного сурдоперевода

За последние 10 лет было замечено увеличение количества разработок систем машинного перевода со звучащего языка на язык жестов. Перевод на язык жестов фактически игнорировался общественностью машинных переводов, хотя системы перевода на язык жестов имеют большое значение для людей с ограниченными возможностями по слуху [7]. Рассмотрим системы перевода с английского языка на американский язык жестов и систему перевода с русского языка на русский язык жестов, которые будут описаны ниже.

Система Zardoz является системой перевода с английского языка на язык жестов с использованием языка-посредника (интерлингвы). Из-за большой трудоемкости применение системы возможно только для ограниченного количества

предметных областей. Текущие исследования сосредоточены на разработке всеобъемлющей грамматики, морфологии и лексики для ирландского языка жестов [8]. Система TEAM - это система машинного перевода с английского языка на американский жестовый язык. Перевод в системе TEAM состоит из двух этапов: первый - перевод введенного предложения с английского языка на промежуточное представление с учетом синтаксической, грамматической и морфологической информации, второй - отображение промежуточного представления в виде движения с небольшим набором параметров, которые в дальнейшем преобразуются для управления моделью человека, воспроизводящей жесты. Гибкость системы позволяет адаптировать ее к другим жестовым языкам [9]. Проект ViSiCAST является упрощенной системой, которая фиксирует движения и жесты человека-сурдопереводчика, а затем эти координаты рук переводчика передаются для последующего анализа для получения реалистичного аватара [10].

Ни одна из зарубежных систем не может обрабатывать входную информацию, поступающую в виде голоса. Для систем перевода, которые направлены именно на устный перевод, этот недостаток является существенным. Жестовые языки от звучащих отличаются тем, что используют пространственную информацию вокруг говорящего. Следовательно, в данных системах необходим учет специфики жестового языка. Специфика воспроизведения жестов учитывается только в системе Team. Для более качественного перевода недостаточно только морфологической и синтаксической информации. В системе Zardoz делаются попытки учета семантической составляющей жестового языка. Технология перевода в системе ViSiCAST включает привлечение человека в процесс перевода, что является основным недостатком данной системы. Все системы отображают жесты с использованием аватара, но только в системе ViSiCAST достигнута максимальная реалистичность. Основным недостатком рассмотренных выше систем является отсутствие учета семантической составляющей как звучащего, так и жестового языка. Учет семантической составляющей в процессе перевода является большим преимуществом системы, обладающей таким свойством. Качество перевода заметно повышается за счет этого улучшения. Для достижения наилучшего результата необходимо учитывать особенности семантики исходного языка и язык перевода.

3. Технология компьютерного перевода русской речи

на русский жестовый язык

Модель компьютерного сурдоперевода состоит из трех основных этапов: анализ исходного текста, перевод текста на жестовую речь и визуализация жестовой речи с использованием анимированного персонажа (аватара). Результатом работы системы является демонстрация жестов аватаром. Подготовительным этапом к анализу исходного текста является этап распознавания речи. Работа на данном этапе основана на сервисе распознавания речи компании Google, в качестве выходной информации получаем текстовую строку. Дальнейшие преобразования производятся над текстовой строкой.

Анализ русского текста состоит из следующих этапов.

1. Морфологический анализ слов.

2. Синтаксический анализ структуры предложения.

3. Семантический анализ слов.

Морфологический и синтаксический анализ выполняется на основе системы Диалинг [11]. В системе Диалинг морфологический анализ состоит из морфоана-лиза и лемматизации словоформ. Под лемматизацией будем понимать приведение различных форм слова к словарным, а под морфоанализом - определение морфо-

логических характеристик слова. Работа морфологического модуля основана на использовании трех морфологических словарей: большой словарь, который базируется на грамматическом словаре А. А. Зализняка, словарь имен собственных (например: Петр, Иванович, Иванов), словарь географических слов (например: Москва, Россия). На этапе лемматизации происходит определение начальной формы слова, необходимой для дальнейшей работы со словарями. Морфологическая часть речи определяется традиционным образом. Граммема - это единица морфологического описания. Например, у слова «кошка» будет следующий список граммем: жр, ед, им, од. При анализе реальных текстов необходимо учитывать соседние слова, потому что от выбора конкретной интерпретации зависит выбор интерпретации другого слова. Объем морфологического словаря составляет более 130 тысяч лексем, но и этого оказывается недостаточно. Если в словаре отсутствует данная словоформа, то применяется алгоритм, который ищет в словаре словоформу, максимально совпадающую с конца со входной словоформой.

В качестве входной информации синтаксического анализа поступают результаты морфологического анализа. На выходе получается набор из словосочетаний.

Наибольший интерес в данном случае представляет морфологическая омонимия. В случае с примером «древние стены города» слово «древние» имеет два различных морфологических описания (прилагательное и существительное), как и слово «стены» (существительное женского рода и существительное мужского рода). При построении группы «прил-сущ» были отброшены вторые варианты слов, таким образом, упрощается последующий семантический анализ.

Так как в существующих системах перевода отсутствует модуль, выполняющий семантический анализ, то ниже будет более подробно рассмотрена система семантического анализа.

4. Система семантического анализа русского текста

Значение слова в предложении определяется его соотношением с другими словами. Смысл предложения целиком зависит от смысла входящих в него единиц. Качество перевода с одного языка на другой в большей степени определяется корректностью работы семантического модуля. Для разрешения проблемы лексической многозначности необходимо проанализировать омонимы и фразеологизмы в предложении. Омонимия - это совпадение по звучанию и написанию различных слов: ласка - животное и ласка - проявление нежности, такса - собака и такса -тариф. Словарь омонимов русского языка О.С. Ахмановой содержит более 2000 словарных статей, содержащих группы или пары омонимов. Фразеологизмы отличаются от обычных сочетаний слов тем, что общее значение фразеологического оборота не равно сумме отдельных значений слов. Например, фразеологизм «авгиевы конюшни» имеет значение «очень грязное место».

Информация, полученная на этапах морфологического и синтаксического анализа, является входной информацией для семантического анализа. Разработанный модуль семантического анализа основывается на словаре, разработанном В. А. Ту-зовым [12]. В.А. Тузов каждое слово определил как валентную структуру, состоящую из набора актантов. Каждый актант состоит из набора характеристик, описанных формулой

4 = {СМ,, ЕЬ}, ББк, ЫБ1, Ст, БРр },

где СЫ, - номер класса, , = 1...М; ЕЬ]- - базисная лексема, ] = 1..М ; ББк - семантическое описание, к = 1...Р ; МЕ>1 - морфологическое описание, I = 1. 5"; Ст - комментарий, т = \...Ь ; БРр - часть речи, р = 1..Ж.

Словарная статья компьютерного семантического словаря содержит заголовочное слово и его толкование на семантическом языке. Большинство слов словаря имеет несколько семантических описаний. В данном словаре предлоги являются частью речи, значение единиц которой может содержать более двухсот значений. В отдельные значения вынесены фразеологические обороты. Например, глагол «идти» имеет 25 словарных статей. Из них 12 значений относятся к фразеологическим оборотам: идти вразрез, впрок, на поправку, ва-банк, замуж и другие. Основная семантическая информация содержится в номере класса. На основе семантического словаря была разработана база данных. Логическая структура базы данных состоит из тринадцати взаимосвязанных таблиц. К основным таблицам отнесем: таблицу «Словарные статьи», таблицу «Семантические описания», таблицу «Слова», таблицу «Жесты», таблицу «Фразеологизмы». Таблица «Словарные статьи» насчитывает 163 903 записи.

Укрупненно алгоритм семантического анализа состоит из следующих этапов (рис. 1).

1. Выделение списка альтернативных лексических значений.

2. Обработка фразеологизмов.

3. Обработка предлогов.

4. Закрепление лексических значений.

5. Поиск соответствующих жестов.

Основная задача семантического анализа - построение списка независимых альтернатив и вычисление семантико-грамматического типа каждой альтернативы, входящей в описание. Эти преобразования выполняются в несколько этапов. На первом этапе происходит поиск всех альтернативных значений для каждого слова в предложении. На втором этапе выполняется следующая вспомогательная работа: нумеруются и идентифицируются все альтернативы каждого слова, выносится номер семантического класса слова, из семантического описания выносятся все аргументы. Построенное описание состоит из набора альтернатив, каждая из которых содержит две основные части: морфологическую с указанием семантического класса слова и семантическую. Первая часть альтернативы содержит информацию о том, к каким словам может присоединиться данное слово, вторая часть - какие слова оно может присоединить. При сборке во взаимодействие вступают две рядом стоящие конструкции.

Следующий этап работы семантического модуля заключается в обработке фразеологизмов. В семантическом словаре фразеологизмы определены в отдельные альтернативы. Для уменьшения количества альтернатив необходимо сначала обработать фразеологизмы и затем удалить лишние альтернативы. Это упростит дальнейшую работу модуля.

Процесс обработки предлогов состоит из двух этапов. Сначала осуществляется поиск предложно-падежных сочетаний. Правильный выбор семантического описания предлога зависит от связанного с ним существительного. В конечном результате каждому предлогу соответствует единственное семантическое описание.

Дальнейшие действия анализатора зависят от вида предложения. Выделим два вида предложений: первый - предложения, в составе которых только одно слово имеет несколько альтернатив, второй - в предложении таких слов несколько. В первом случае цикл отсутствует и анализируется только одно слово. Анализ зависит от части речи многозначного слова. На текущий момент проводится анализ: глаголов, имен существительных, имен прилагательных, инфинитивов, прича-

стий, деепричастий, наречий. Алгоритмы в каждом случае различны. Например, алгоритм обработки имени существительного состоит из следующих шагов.

1. Определяется список всех альтернатив обрабатываемого слова посредством обращения к словарю.

2. Делается заключение, является ли данное слово главным или зависимым в словосочетании.

3. На основе словосочетаний, построенных на предыдущих этапах, определяется часть речи второго слова.

4. Выполняется обработка словосочетания в зависимости от части речи второго слова. В данном случае будет выполняться один из пяти алгоритмов анализа.

5. В результате работы алгоритма остается одно значение имени существительного.

Рис.1 - Блок-схема алгоритма семантического анализа Fig.1 - Semantic analyses flow chart

Во втором случае анализ происходит в цикле. Каждая итерация начинается с проверки количества слов с множеством альтернатив. Предложение просматривается до тех пор, пока у каждого слова не останется только одно семантическое описание. Когда каждому слову соответствует только одно семантическое описа-

ние, то производится поиск соответствующего жеста. Результатом работы системы является список соответствия «слово-жест». Разработан программный комплекс, позволяющий выполнять семантический анализ предложений (рис. 2).

Рис. 2 - Основное окно модуля системы семантического анализа

Fig. 2 - Main form of Semantic analyses system

В программном модуле предусмотрена возможность настройки отображения результатов, полученных на разных этапах проводимого анализа. Доступны для просмотра результаты морфологического анализа, список исходных и конечных альтернатив (рис. 3).

Рис. 3 - Дополнительное окно модуля системы семантического анализа Fig. 3 - Additional form of Semantic analyses system

Последние разработки направлены на увеличение количества жестов и улучшение процесса обработки предложений. Для достижения первой цели были использованы три способа. В первом случае для увеличения количества жестов был использован словарь синонимов. Это позволило переводить большее количество слов звучащего языка на язык жестов. Другой метод заключается в использовании антонимов с отрицанием. Толкование значения слова является третьим способом увеличения количества жестов.

5. Оценка качества работы системы семантического анализа

Для оценки качества перевода необходимо провести сравнительный анализ с системой перевода с русского языка на русский жестовый язык, выполняющей аналогичную задачу. В качестве системы для сравнения была выбрана система «Сурдофон». Цель системы «Сурдофон» заключается в создании современных технических средств для коммуникаций глухих и слышащих людей, необходимые для общения, образования и развития. Рассмотрим фрагмент набора предложений, разобранных двумя системами и сравним полученные результаты (см. таблицу).

Анализ предложений в системе семантического анализа и в системе «Сурдофон» Sentence Analyses in Semantic Analyses System and «Surdophone»

Омоним Значения Предложение Семантический анализатор Сурдофон

Лисичка 1) Лиса 2) Лисичка (гриб) Лисичка убежала в лес 1) Лиса 1) Лиса

Жареные лисички были вкусные 2) Лисичка (гриб) 1) Лиса

Коса 1) Коса (прическа) 2) Отмель 3) Коса (орудие) Девушка заплетала косу 1) Коса (прическа) 1) Коса (прическа)

Девушка шагала по косе 2) Отмель 1) Коса (прическа)

Купить 1) Покупка 2) Обмануть Никита купил у Андрея книгу 1) Покупка 1) Покупка

Никита купил Андрея 2) Обмануть 1) Покупка

Шляпа 1) Головной убор 2) Растяпа Мама надела шляпу 1) Головной убор 1) Головной убор

Шляпа проворонил автобус 2) Растяпа 1) Головной убор

В первом столбце приведены примеры исходных предложений. Во втором столбце выделен омоним в предложении. Далее представлен список возможных значений слова. В четвертом и пятом столбцах отражены результаты проведенного анализа.

Проанализировав результаты работы двух систем, придем к выводу, что система «Сурдофон» только в 30 % случаев правильно определяет значения слов. В то же время система семантического анализа правильно определяет значение слова в 75 % случаев. Таким образом, более качественный перевод предоставляется разработанной системой семантического анализа. Для достижения наилучших результатов планируется провести доработку модуля и внедрить его в систему «Сурдофон».

6. Перевод текста на жестовую речь

Рассмотрим модуль перевода русского текста на РЖЯ. На данном этапе будем опираться на полученные ранее результаты лингвистического исследования русского жестового языка в части особенностей лексики, словообразования, морфологии, синтаксиса и семантики жестового языка глухих и слабослышащих граждан Российской Федерации, которые используются при разработке компьютерного сурдопереводчика русского языка. Цель описываемых синтактико-семантических преобразований - упрощение текста русского языка за счет разбиения предложений, представляющих сложные ситуации, на последовательности более простых предложений. Единицей, над которой осуществляются преобразования, является предложение, содержащее полное причастие.

В результате применения каждого правила преобразования исходное предложение разбивается на две части, каждая из которых обозначает меньшее число ситуаций, чем исходное предложение и в этом смысле является более простым по сравнению с ним. В ходе преобразования исходное предложение подвергается определенным дополнительным модификациям. В частности, причастие заменяется соответствующим глаголом. Данное преобразование применяется к обоим согласованным причастиям. Для указания на идентичность упоминаемых объектов вводятся местоимения.

Предложение разделяется на три части: первая - начало предложения, вторая -выделенная синтаксическая конструкция, третья - конец предложения. В предложении «Плеск дождевых капель, ниспадавших на его поверхность, далеко относил гул» второй фрагмент соответствует части «Плеск капель, ниспадавших на его поверхность».

Правила могут заменять или устранять некоторые части исходного текста, а также изменять порядок следования некоторых частей текста. Общее условие применимости: правила данного типа применимы только в том случае, если в результате предшествующего (морфологического и синтаксического) анализа выделена группа «причастие и существительное», в которой причастие является полным. Данный тип правил представлен шестью вариантами (два правила для причастий действительного залога и четыре правила для причастий страдательного залога). Например, в результате применения правила предложение «Плеск дождевых капель, ниспадавших на его кипящую поверхность, далеко относил гул» будет разделено на два более простых: [дождевые капли ниспадали на его поверхность], [плеск этих капель далеко относил гул].

Нужно заметить, что возможен и перевод на основе базового порядка следования жестов в предложении. Произвольный русский текст (предложение) вводится в программу и подвергается морфологическому, синтаксическому и семантическому анализу. Затем формируется стандартная схема предложения на разговорном русском жестовом языке: подлежащее, определение, обстоятельство, сказуемое, дополнение.

Данная схема последовательно применяется для простых высказываний. Если слову в предложении можно поставить жест, то оно заменяется на гамбургскую систему нотаций для данного жеста. В противном случае перевод осуществляется посредством дактильной азбуки в данной системе нотаций.

Заключение

В данной работе рассмотрена система компьютерного перевода с русского языка на русский жестовый язык. Проведен анализ существующих систем компьютерного сурдоперевода. Описана технология компьютерного перевода русской

речи на русский жестовый язык. Впервые разработан блок анализа исходного текста с учетом семантической составляющей русского языка на основе словаря В. А. Тузова. Разработаны и реализованы алгоритмы семантического анализа для многозначных слов. Приведена схема семантического анализа имени существительного. Анализ текста завершается в случае, когда у каждого слова остается только одно семантическое описание, таким образом решается проблема многозначности. К наиболее приоритетным направлениям модификации модуля семантического анализа можно отнести следующие: расширение базы жестов, осуществление разбора сложных предложений. Проведен сравнительный анализ правильности определения значений слов в разработанной системе семантического анализа с системой «Сурдофон». Значения слов более качественно определяются в системе семантического анализа. Перевод текста на жестовую речь осуществляется с помощью анализа синтаксических конструкций языка перевода и целевого языка. Разработан модуль для определения синтаксических конструкций. В будущем планируется внедрить разработанные технологии в систему «Сурдофон».

ЛИТЕРАТУРА

1. Владение языками населением Российской Федерации [Электронный ресурс]. - URL: http://www.gks.ru/free_doc/new_site/perepis2010/croc/Documents/Vol4/pub-04-05.pdf (дата обращения: 17.04.2017).

2. Прозорова Е.В. Российский жестовый язык как предмет лингвистического исследования // Вопросы языкознания. - 2007. - № 1. - С. 44-61.

3. Andre E. The generation of multimedia presentations // A Handbook of Natural Language Processing: techniques and applications for the processing of language / eds.: R. Dale, H. Moisl, H. Somers. - New York: Marcel Dekker, 2000. - P. 305-327.

4. Foster M.E., White M., Setzer A. Multimodal generation in the COMIC dialogue system // Proceedings of the ACL on Interactive Poster and Demonstration Sessions, 12-14 June 2005. - Morristown, NJ: Association for Computational Linguistics, 2005. - P. 40-48.

5. Kopp S., Tepper P., Cassell J. Towards integrated microplanning of language and iconic gesture for multimodal output // Proceedings of 6th International Conference on Multimodal Interfaces, 6-9 Augast 2004. - State College, USA, 2004. - P. 136-144.

6. Задняя камера Intel RealSense 3D R200 [Электронный ресурс]. - URL: http://geektimes. ru/company/intel/blog/259584/ (дата обращения: 17.04.2017).

7. Гриф М.Г. Методы и технологии компьютерного сурдоперевода: учебное пособие. -Новосибирск: Изд-во НГТУ, 2012. - 71 с.

8. Veale T., Conway A. Cross modal comprehension in ZARDOZ: an English to sign-language translation system // Proceedings of the Seventh International Workshop on Natural Language Generation INLG'94. - Kennebunkport, Maine, 1994. - P. 249-252.

9. Zhao L., Kipper K., Schuler W. A machine translation system from English to American sign language // Lecture Notes in Computer Science. - 2000. - Vol. 1934. - P. 54-67.

10. Wakefield M. VisiCAST Milestone: final report N IST-1999-10500 / Information Societies Technology. - [S. l.], 10 December 2002. - 97 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11. Сокирко А. Семантические словари в автоматической обработке текста: по материалам системы Диалинг: дис. ... канд. техн. наук: 05.13.17 / Российский государственный гуманитарный университет. - М., 2000. - 120 с.

12. Тузов В.А. Компьютерная семантика русского языка: учебное пособие. - СПб.: СПбГУ, 2003. - 391 c.

A COMPUTER MODEL OF THE RUSSIAN SIGN LANGUAGE

Grif M.G., Kozlov ^N., Manueva Yu.S.

Novosibirsk State Technical University, Novosibirsk, Russia

The paper analyzes existing computer sign language interpretation systems, their advantages and disadvantages being revealed. The technology of computer translation from sounding Russian into the Russian sign language is considered. The main steps of text analysis are described: morphological, syntactic and semantic analysis. Morphological and syntactic analysis is carried out on the basis of Dialing system. A module of semantic analysis is developed. The main objective of the module is to solve the problem of homonyms. The semantic module work is based on V. Tuzov dictionary. The work module is completed when only one meaning corresponds to each word and the corresponding gesture is determined. The paper describes a semantic analysis scheme of the noun. A comparative analysis of the correctness of word meanings in the developed semantic analysis module with the Surdophone system is carried out. A more qualitative definition of word meanings is made by the semantic analysis module. Translations of texts the in Sign language are carried out by analyzing the syntax construction of the source language and the target language. On the basis of this analysis the correspondence of syntax constructions is determined, in which complex sentences are devided into simple ones. During the initial conversion a sentence undergoes certain additional modifications. In particular, the participle is replaced the corresponding verb. An appropriate library to determine the syntax is developed.

Keywords: Russian sign language, computer sign language interpretation, semantic analysis, syntax constructions, recognizers of sign language.

DOI: 10.17212/1727-2769-2017-1-46-57

REFERENCES

1. Vladenie yazykami naseleniem Rossiiskoi Federatsii [Languages population of the Russian Federation]. Available at: http://www.gks.ru/free_doc/new_site/perepis2010/croc/Documents/ Vol4/pub-04-05.pdf (accessed 17.04.2017).

2. Prozorova E.V. Rossiiskii zhestovyi yazyk kak predmet lingvisticheskogo issledovaniya [Russian sign language as an object of linguistic research]. Voprosy yazykoznaniya - Problems of Linguistics, 2007, no. 1, pp. 44-61.

3. Andre E. The generation of multimedia presentations. A Handbook of Natural Language Processing: techniques and applications for the processing of language. New York, Marcel Dekker, 2000, pp. 305-327.

4. Foster M.E., White M., Setzer A. Multimodal generation in the COMIC dialogue system. Proceedings of the ACL on Interactive Poster and Demonstration Sessions, 12-14 June 2005. Morristown, NJ, Association for Computational Linguistics, 2005, pp. 40-48.

5. Kopp S., Tepper P., Cassell J. Towards integrated microplanning of language and iconic gesture for multimodal output. Proceedings of 6th International Conference on Multimodal Interfaces, State College, USA, 6-9 August 2004, pp. 136-144.

6. Zadnyaya kamera Intel RealSense 3D R200 [Back camera Intel RealSense 3D R200]. Available at: http://geektimes.ru/company/intel/blog/259584/ (accessed 17.04.2017).

7. Grif M.G. Metody i tekhnologii komp'yuternogo surdoperevoda [Methods and techniques of computer sign language]. Novosibirsk, NSTU Publ., 2012. 71 p.

8. Veale T., Conway A. Cross modal comprehension in ZARDOZ: an English to sign-language translation system. Proceedings of the Seventh International Workshop on Natural Language Generation INLG'94, Kennebunkport, Maine, 1994, pp. 249-252.

9. Zhao L., Kipper K., Schuler W.A. Machine translation system from English to American sign language. Lecture Notes in Computer Science, 2000, vol. 1934, pp. 54-67.

10. Wakefield M. VisiCAST Milestone: final report no. IST-1999-10500. Information Societies Technology, 10 December 2002. 97 p.

11. Sokirko А. Semanticheskie slovari v avtomaticheskoi obrabotke teksta: po materialam siste-my Dialing. Diss. kand. tekhn. nauk [Semantic dictionaries in automatic text processing: based on materials of the DIALING system. PhD eng. sci. diss.]. Moscow, 2000. 120 p.

12. Tuzov V.A. Komp'yuternaya semantika russkogo yazyka [Computer semantics of the Russian language]. St. Petersburg, St. Petersburg State University, 2003. 391 p.

СВЕДЕНИЯ ОБ АВТОРАХ

Гриф Михаил Геннадьевич - родился в 1959 году, д-р техн. наук, профессор, заведующий кафедрой автоматизированных систем управления, Новосибирский государственный технический университет. Область научных интересов: проектирование и оптимизация процесса функционирования человеко-машинных систем, системы искусственного интеллекта, лингвистические и технологические аспекты разработки компьютерного сурдопереводчика. Опубликовано более 200 научных работ. (Адрес: 630073, г. Новосибирск, пр. К. Маркса, 20. E-mail: grifmg@mail.ru).

Grif Mikhail Gennadievich (b. 1959) - Doctor of Sciences (Eng.), professor, head of the automation control systems department, Novosibirsk State Technical University. His research interests are currently focused on computer sign language translation systems for the deaf, designing and optimization of man-machine systems, AI systems. He is author of more than 200 scientific papers. (Address: 20, Karl Marx Av., Novosibirsk, 630073, Russia. E-mail: grifmg@mail.ru).

Козлов Андрей Николаевич - родился в 1990 году, аспирант кафедры автоматизированных систем управления, Новосибирский государственный технический университет. Область научных интересов: системы человеко-машинного взаимодействия. Опубликовано 3 научные работы. (Адрес: 630073, г. Новосибирск, пр. К. Маркса, 20. E-mail: andrey.n.kozlov@gmail.com).

Kozlov Andrei Nikolaevich (b.1990) - postgraduate student, department of automated control systems, Novosibirsk State Technical University. His research interests are currently focused on human-machine communication systems. He is the author of 3 scientific papers. (Address: 20, Karl Marx Av., Novosibirsk, 630073, Russia. E-mail:andrey.n.kozlov@gmail.com).

Мануева Юлия Сергеевна - родилась в 1991 году, аспирант кафедры автоматизированных систем управления, Новосибирский государственный технический университет. Область научных интересов: компьютерный сурдопереводчик. Опубликовано 14 научных работ. (Адрес: 630073, г. Новосибирск, пр. К. Маркса, 20. E-mail: juleno4eknot1@rambler.ru). Manueva Yulia Sergeevna (b.1991), postgraduate student, department of automated control systems, Novosibirsk State Technical University. Her research interests are currently focused on computer sign language translation systems. She is the author of 14 scientific papers. (Address: 20, Karl Marx Av., Novosibirsk, 630073, Russia. E-mail: juleno4eknot1@rambler.ru).

Статья поступила 17 апреля 2016 г.

Received April 17, 2016

To Reference:

Grif M.G., Kozlov A.N., Manueva Yu.S. Komp'yuternaya model' russkogo zhestovogo yazyka [A computer model of the Russian sign language]. Doklady Akademii nauk vysshei shkoly Rossi-iskoi Federatsii - Proceedings of the Russian higher school Academy of sciences, 2017, no. 1 (34), pp. 46-57. doi: 10.17212/1727-2769-2017-1-46-57

i Надоели баннеры? Вы всегда можете отключить рекламу.