Научная статья на тему 'ПАРАМЕТРИЗАЦИЯ ТИПОВ ПРЕДЛОЖЕНИЙ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ СИСТЕМЫ УСТНОГО ФРАЗАРЯ-ПЕРЕВОДЧИКА'

ПАРАМЕТРИЗАЦИЯ ТИПОВ ПРЕДЛОЖЕНИЙ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ СИСТЕМЫ УСТНОГО ФРАЗАРЯ-ПЕРЕВОДЧИКА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
16
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ И ИНТЕРПРЕТАЦИЯ РЕЧИ / ПРЕДМЕТНАЯ ОБЛАСТЬ / ТИП ПРЕДЛОЖЕНИЯ / УКРАИНСКАЯ РАЗГОВОРНАЯ РЕЧЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Яценко Валентина Витальевна

В статье рассматриваются подходы построения системы перевода устного сигнала в рамках предметных областей. Блок интерпретации получает произнесённое предложение в виде последовательности слов, распознанной декодером. На выходе системы принимается решение о принадлежности распознанной последовательности слов типу предложения, задающего тип смысла. Распознавание выполняется с учётом параметров, которые описывают множество возможных вариантов высказываний. Проанализированы альтернативные подходы моделирования ограничений на допустимые последовательности слов. Надёжность распознавания HMM-декодера в условиях сформированных акустической и лингвистической моделей позволила получить приемлемую интерпретацию распознанного сигнала. Это легло в основу разработки демонстрационной системы устного фразаря-переводчика. ·In this paper we describe approaches to build the spoken translation sys-tem within a subject area. The decoded sequence of words enters to the interpretation subsystem, which finally makes decision concerning the sentence type and the respective meaning type for the pronounced sentence. Possible variations of date, time, place etc. that may occur in sentences are parameterized and integrated to the language model. Strict, free and phonetic word based word grammars for speech decoder are analyzed. Acoustic and language models created for the HMM-based decoder shows such performance that allows for understanding response accuracy sufficient for practical application. The demonstration version of the spoken interpreter has been developed and presented.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Яценко Валентина Витальевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ПАРАМЕТРИЗАЦИЯ ТИПОВ ПРЕДЛОЖЕНИЙ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ СИСТЕМЫ УСТНОГО ФРАЗАРЯ-ПЕРЕВОДЧИКА»

А-,!, . *

WT^ '_

m

22

Параметризация типов предложений предметной области для системы устного фразаря-переводчика

Яценко В.В., младший научный сотрудник

В статье рассматриваются подходы построения системы перевода устного сигнала в рамках предметных областей. Блок интерпретации получает произнесённое предложение в виде последовательности слов, распознанной декодером. На выходе системы принимается решение о принадлежности распознанной последовательности слов типу предложения, задающего тип смысла. Распознавание выполняется с учётом параметров, которые описывают множество возможных вариантов высказываний. Проанализированы альтернативные подходы моделирования ограничений на допустимые последовательности слов. Надёжность распознавания HMM-декодера в условиях сформированных акустической и лингвистической моделей позволила получить приемлемую интерпретацию распознанного сигнала. Это легло в основу разработки демонстрационной системы устного фразаря-пе-реводчика.

• распознавание и интерпретация речи • словарь-переводчик • предметная область • тип смысла • тип предложения • украинская разговорная речь.

In this paper we describe approaches to build the spoken translation system within a subject area. The decoded sequence of words enters to the interpretation subsystem, which finally makes decision concerning the sentence type and the respective meaning type for the pronounced sentence. Possible variations of date, time, place etc. that may occur in sentences are parameterized and integrated to the language model. Strict, free and phonetic word based word grammars for speech decoder are analyzed. Acoustic and language models created for the HMM-based decoder shows such performance that allows for understanding response accuracy sufficient for practical application. The demonstration version of the spoken interpreter has been developed and presented.

• apeech recognition and understanding • spoken phrasebook • subject area

• meaning type • sentence type • ukrainian spoken language.

Среди важных практических задач, связанных с распознаванием речи, к которым относятся системы надиктовывания текстов, справочные системы, системы речевого управления оборудованием, системы речевого диалога и т.д., мы выделяем систему устного перевода. Актуальность задачи, в частности, отображается востребованностью автоматизации всем известного бумажного разговорника, в котором пользователь вынужден искать необходимую фразу и озвучивать её перевод. Вместо этого пользователю предлагается

только произнести фразу на родном языке в выбранной теме. Далее система делает всё самостоятельно. Дополнительного внимания требует вопрос моделирования параметров в предложениях, т.е. необходимо предусмотреть все возможные варианты значений для определённого предложения. Например, в вопросе о путешествии в конкретный город параметром будет название города.

Такие системы актуальны в свете использования их при разговоре с носителем другого языка. Пользователь не только получает перевод фразы, но и её озвучивание, что существенно облегчает общение в неродной языковой среде.

При построении систем устного перевода в рамках предметных областей возникает ряд проблем, общих с проблемами задачи понимания речевого сигнала. Необходимо построить модели всех возможных предложений языка диалога, которые выражают один и тот же смысл, смоделировать параметры слов в типах предложений, сгенерировать и найти наиболее правдоподобные эталонные сигналы, учитывая параметры.

Для исследования и спецификации ограничений на допустимые последовательности слов во фразах использовались LISP-структуры [1, 2]. На основе этих структур генерируется большое количество предложений, которые имеют одинаковый смысл с точностью до параметров. Впрочем, существует ряд ограничений на использование этой технологии, связанных как с субъективным фактором при построении LISP-структур, так и с увеличением количества вычислений, обусловленных существенным усложнением графа распознавания.

В качестве альтернативы LISP-структур предлагается способ оценивания принадлежности последовательности слов типам предложений, которые характеризуют смысл [3]. Этот подход требует развития, в частности, с целью учёта возможных ошибок распознавания.

Для моделирования ограничений на порядок следования слов использовались грамматические знания [2]. Для моделирования параметров в типах предложений использовались базы данных и базы знаний. Была сформулирована лингвистическая модель интерпретации распознанного сигнала с учётом параметров.

Общая структура системы устного перевода

в пределах предметных областей

Распознавание и смысловая интерпретация слитной речи выполняются во взаимосвязанном процессе, конечная цель которого — перевод смысла сообщения на другой язык.

Рассмотрим задачи распознавания и интерпретации слитной речи [1, 2] и их взаимосвязь. Распознавание речи — процесс автоматической обработки сигнала с целью определения последовательности слов, которые передаются этим сигналом. Смысловая интерпретация языка — процесс автоматической обработки речевого сигнала с целью выявления смысла, передаваемого сигналом, и представление этого смысла в определённой канонической форме, удобной для дальнейшего использования в системе устного перевода.

Очевидно, что смысловая интерпретация языка является более высокой степенью обобщения информации, чем распознавание. Поскольку каждую мысль можно выразить различными предложениями в языке диалога без изменения содержания, то следует определить некоторые ограничения на допустимые последовательности слов в предложениях. Поэтому, при интерпретации смысла речи различные предложения, которые передают одну и ту же мысль, должны отражаться в один и тот же результат, т.е. ответ распознавания не должен противоречить синтаксису, семантике и прагматике предметной области.

Ввиду этого, предлагается рассмотреть структуру системы устного перевода в рамках предметных областей (рис.1). Задача смысловой интерпретации слитной речи с целью дальнейшего перевода основывается на том, что сначала пользователь должен задать предметную область (далее ПО), с которой он хочет работать. Для этого нужно назвать эту ПО. Вообще рассматривается 15 ПО, с которыми может работать пользователь.

23

24

Активатор выбирает названную ПО и загружает подсловари ПО с соответствующими этой области типами предложений и грамматику, по которой моделируются допустимые ограничения на последовательности слов в предложениях.

I ПО1 I I ПО2 I ... I ПО15 I

Активатор ПО

Язык 2

Рис.1. Структура системы устного перевода в рамках предметных областей

Диктор произносит на языке 1 предложение, которое распознаётся с учётом акустической модели и, построенной согласно словарю соответствующей ПО и грамматики, лингвистической модели (LM). Затем выбирается п лучших последовательностей слов и сравнивается с нагенерированными моделями предложений, которые могут задавать соответствующий тип предложения (далее ТП). Используя вероятностное оценивание, принимается решение о принадлежности распознанной последовательности слов к ТП. По этому ТП определяется тип смысла (далее ТС) и интерпретатор находит соответствующий ТС на другом языке. На выходе мы должны получить текст на языке 2, который озвучивается соответствующей системой озвучивания текстов на языке 2.

В описанной структуре перевода остаётся достаточно сложная задача интерпретации распознанного сигнала. Пути решения этой задачи, описанные в [2], основываются на том, чтобы научиться экономно задавать все допустимые предложения в языке диалога.

Таким образом, автоматический перевод фразы, произнесённой на языке 1, на язык 2 с озвучиванием результата, с помощью предлагаемой структуры устного перевода будет заключаться в том, чтобы сначала для сигнала, который произносится диктором, найти наиболее правдоподобный, возможно, параметризированный, ТП среди всех ТП, задающих ТС. Затем определить сам ТС произнесённого содержательного высказывания и найти для него подходящий ТС в языке 2 с учётом параметров. Наконец, предложение, полученное на языке 2, озвучивается.

Моделирование типов предложений с учётом параметров

Поскольку структура перевода должна работать в рамках ПО, то предлагается рассмотреть определённую иерархию речевых сигналов [2]. Подразумевается, что вся деятельность человека разбивается на ПО по аналогии с бумажным разговорником. Каждая ПО состоит из конечного множества ТС.

В каждый ТС входит множество эквивалентно содержательных ТП. ТП — конструкция, экономно задающая множество предложений, полученных из одного предложения независимыми допустимыми заменами и допустимыми перестановками или выпадением слов и словосочетаний.

В рамках задачи распознавания, интерпретации и перевода речевого сигнала немаловажен вопрос описания параметров слов во фразах, где могут быть разные варианты имён собственных, времени, адресов и т.д. Значение термина «параметр» может иметь разную интерпретацию в зависимости от контекста. В общем параметром называют величину, значения которой служат для различия элементов некоторого множества между собой.

Рассмотрим пример ТП «просьба разбудить человека в определённое время», из ПО «Гостиница». Базовая структура будет иметь вид:

(разбудите)

^меня ^

нас

*

^пожалуйста Л

в $time : app в

лл

через

$time

//

В круглых скобках () указаны подсловари, которые можно переставлять местами, а в квадратных [] — которые нельзя переставлять. Символ * означает пустое слово.

Этой структурой можно сгенерировать много предложений с учётом параметров. Среди этих предложений будут, например, и такие: Разбудите меня, пожалуйста, в семь часов. Пожалуйста, нас разбудите в пять утра. В семь тридцать разбудите меня. Разбудите нас в шесть. Разбудите меня через шесть часов.

Стоит отметить, что предложения разговорной речи тоже необходимо учитывать.

В этом примере параметр — «временное предназначение»: $time:app, $time. Рассмотрим первый параметр $time:app. Он описывает любое время с точностью до, например, минут, в контексте определённого события. Чтобы предусмотреть все варианты и значения этих параметров вводится специально разработанная и описанная параметрическая грамматика словаря на основе формы Бекуса — Наура (BNF). Такую грамматику можно подать в развёрнутом виде (таблицы 1-2).

В приведённом примере базовая структура задаёт 4И-3-2-3=432 параметризированных предложений, допустимых в языке диалога. Если учесть, что каждый параметр содержит большое количество вариантов, то количество предложений значительно увеличится.

Таблица 1

Базовые структуры параметров временного предназначения

Обозначения Пример Параметризация для русского языка

$time:app в шесть $hour:nadj-at

в шесть тридцать $hour:nadj-at [$teen:n 1 $dec:5max]

в шесть часов $hour:nadj-at $hour-i

в шесть часов утра $hour:nadj-at $hour-i $time:post

в шесть тридцать утра $hour:nadj-at [$teen:n 1 $dec:6max] $time:post

в шесть час. тридцать мин. $hour:nadj-at $hour-i $min:n-u

в шесть часов тридцать минут утра $hour:nadj-at $hour-i $min:n-u $time:post

25

*

Таблица 1 (окончание)

$min:n-u одна минута $min:n1 $min1

две минуты; 53 минуты $min:n2 $min2

5 минут; 37 минут $min:n5 $min5

$min:n5 20; 45 $dec:5max [$digit5]

5; 7 $digit5

12; 15 $teen:n

Все предложения языка диалога можно задавать с помощью ТС и соответствующих им ТП, используя структуру, приведённую в примере. С помощью LISP-структур генерируется огромное количество предложений, имеющих одинаковый смысл. Поскольку построение LISP-структур довольно громоздкое, требует много ручной работы, то был разработан автоматизированный спецификатор ПО.

Таблица 2

Описание значений параметров для временного предназначения

$hour:nadj-at первый one

второй two

двадцать третий twenty three

$hour-i часа o'clock

$min:n1 одна one

пятьдесят одна fifty one

$min:n2 две two

три three

пятьдесят три fifty three

$teen:n десять ten

девятнадцать nineteen

$dec:50max двадцать twenty

тридцать thirty

сорок forty

пятьдесят fifty

$digit5 пять five

девять nine

$min1 минута minute

$min2 минуты minute

$min5 минут minute

$time:post утра a.m.

дня p.m.

вечера p.m.

ночи a.m.

26

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для построения всех возможных предложений языка устного диалога можно использовать так называемую ориентированную семантическую сеть (далее ОСС) [1, 2], одновременно задающую ограниченную грамматику порядка следования слов.

Альтернатива этой грамматики — грамматика свободного порядка следования слов. Между этими противоположными, по сути, грамматиками может быть построено множество других относительно свободных или относительно ограниченных грамматик. Мы предлагаем несколько ограничить свободную грамматику за счёт лингвистического понятия о фонетическом слове [2].

Под «фонетическим словом» понимаем слово с неотделимыми от него сопутствующими словами. Например, неотделимыми являются предлог от существительного или прилагательного, частица «не» перед глаголом и частица «б» после него. Предлагаемая нами, относительно свободная грамматика, представлена в виде графа (рис. 2), где рай — слово-пауза в начале и в кон-

це фразы, pcl — проклитик, prep — предлог, w — нейтральное слово, ecl — энклитик.

Впрочем, при такой грамматике принятие решений относительно смысла предложения неочевидно.

Рис. 2. Граф относительно свободной грамматики на основе понятия про лингвистическое слово

Статистическое оценивание принадлежности последовательности слов к типу предложения

При распознавании в условиях грамматики, которая не задаёт строгих ограничений на последовательности слов, очевидно, могут быть получены ответы распознавания, не входящие во множество предложений, которые сгенерированы определённым ТП. Это может быть обусловлено как ошибками при распознавании, так и при формировании ТП экспертом. Кроме того, сам пользователь может произнести предложение с различного рода отклонениями или аграмматизмами, например, повторить некоторое слово дважды.

Поэтому предлагается оценивать вероятность типа предложения ST с ОСС при распознанной

((

,) иобъявлять ответом интерпретации тот тип

последовательности слов предложений ST*, для которого эта вероятность является наибольшей:

8Т* = а^шахР(БТ/w1,w2,..., wn), (1)

Вероятность в левой части (1) может быть записана также по формуле Байеса в следующем виде:

P(ST / w„ W2,..., w) =

P(ST)

PK w2>...> Wn)

PK W2,..., Wn / ST)

(2)

Рассматривая последовательность ((,

w2,..., W

,) как Марковский процесс, отображаем

каждый из множителей условной вероятности в правой части (2) в виде:

27

28

P(wi, w2,..., w„ / ST) = П P(w / ST, Wk_mWk4) ,

k=1

n

P(W1, w2,..., Wn ) =П P(Wk / Wk-m >...> Wk-1) ,

(3)

(4)

k=1

где т > 0 — порядок процесса.

Оценивание каждого из множителей правой части выражений (3) и (4) может производиться различными способами в зависимости от выбранного порядка процесса.

Мы рассматривали наиболее простой случай, когда т = 0. Тогда, учитывая формулу Байеса, выражение (2):

P(ST/W1,W2,...,Wn) = P(ST)ПP(ST/Wk) .

(5)

k =1

Логично сделать предположение относительно равной вероятности всех типов предложений. В действительности, некоторые смыслы встречаются чаще других. Это зависит от предыдущего смысла (контекста). Остаётся рассчитать выражение вида Р(5Г / wk). Для этого рассмотрим ST (ц>к) — множество типов предложений, в которых встречается слово wk. Тогда:

) )|Л еслиST(wk)пST Ф0,

, wk), иначе. (6)

Выражение а(Т, wk) отображает смысл вероятности того, что слово wk распознано ошибочно вместо некоторого слова м: ST(w) Ф 0 . Эту вероятность можно оценить на основе некоторой меры минимальной редакторской

правки й, w), например, расстоянии Левенштейна. При вычислении этой меры штрафуются вставки, удаления и замены символов фонемного текста сравниваемых слов. Таким образом, выражение a(ST, wк) предлагается оценивать как:

a(ST, wk )= max

4 k' ST (w)/0

max^ 1 - ¿HA,o|x|ST(w)"

(7)

L(w)

\ / где L(w) — количество фонем в слове м.

Решение относительно принадлежности распознанной последовательности слов некоторому ТП принимается на основании (1) — (7).

В случае, когда распознанная последовательность слов при таком оценивании совпадает с определённым ТП, принятие решения очевидно. Но может быть так, что некоторые слова распознались ошибочно. Такое предложение можно отбросить, не найдя для него соответствующий ТП. А можно попробовать оценить, к какому ТП ближе распознанная последовательность слов. И определить гипотетический ТП, т.е. который можно объявить ответом интерпретации.

Рассмотрим это на примере. Допустим последовательность распознанных слов.

w2,Wз)=Допомож1ть було маска Обозначим ЭТ1 _ ТП, к которому эта последовательность будет ближе всего.

ST1 = Допоможть мет будь ласка

Яценко В.В.

ПАРАМЕТРИЗАЦИЯ ТИПОВ ПРЕДЛОЖЕНИЙ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ СИСТЕМЫ УСТНОГО ФРАЗАРЯ-ПЕРЕВОДЧИКА

Оценим вероятность принадлежности распознанной фразы (—1, —2,—3) к ТП БТ1 . Воспользуемся формулами (5) — (6).

Р(БТ1 / допоможть, було, маска — )Р{БТ / —2 )Р(Т / —3 )=

w,

wn

w,

= 1-

1

ST (wi)

a(ST, w2 )a(ST, w3).

Поскольку мы предположили, что все ТП имеют одинаковую вероятность, то Р(^Т) = 1. Далее нужно подсчитать значение каждого множителя. Слово — = «допоможть» распозналось правильно, поэтому

Р(^Т1/ -1) = ——. = 1.

Слова «було» и «маска» явно не принадлежат БТ1. Мы предполагаем, что эти слова являются гипотетическими ошибками распознавания.

Чтобы подсчитать вероятность принадлежности распознанной последовательности слов (—1,-2,-3) ТП БТ1, сформируем множество слов из БТ1, которые там остались без учёта правильно распознанного слова — =«допомож^ь». Получится следующее множество: —(8Т1)\ — ={мет, будь, ласка}.

Как было упомянуто выше, оценивать вероятности ошибочно распознанных слов — будем на основе меры Левенштейна — й, а именно используя формулу (7). Нам нужно посимвольно сравнить фонемный текст каждого гипотетически ошибочно распознанного слова (—2, —3)={було,маска} смножеством слов —(8Т1)\ — ={менi,будь,ласка}.Вводит-ся следующая система штрафования: вставки, удаления, замены символов фонемного текста штрафуются одним балом, а совпадение фонем не штрафуется. На рис. 3 представлены результаты сравнения фонемного текста и подсчитаны минимальные расстояния меры Левенштейна.

Рис. 3. Сравнение символов фонемного текста

29

Яценко В.В.

ПАРАМЕТРИЗАЦИЯ ТИПОВ ПРЕДЛОЖЕНИЙ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ СИСТЕМЫ УСТНОГО ФРАЗАРЯ-ПЕРЕВОДЧИКА

Далее для слова w2 = «було» в развёрнутом виде описан подсчёт вероятности по формуле (7):

P(ST1/ w2) = max

ST (w>0

тах

v

[. - ^ .o(x| ST (w)

max max

ST (w>0

{ j1 d( {max<l--1

(меш')

, , ,ojx|ST(MeHi) maxjl- d^,ojx|ST(dydb) Ь(меш) J [ Ь(будъ)

тах|1 - * (( ШСК?\с1х| (ласка)-1} = Ьуласка)

= max j0,ixIST(будь)-1,01.

ST(w>0 I 3 1 71

Аналогично для слова w3 = «маска»:

30

P(ST / w3) = rna}x0^o, 0, 5x |ST(

Мы видим, что для каждого из этих слов существует ненулевая вероятность того, что они могут принадлежать ТП БТ1.

Таким образом, вероятность того, что распознанная фраза w2,Wз) =

= Допоможтъ було маска принадлежит ТП БТ1 будет:

P(ST1 / допоможтъ, було, маска )=1 •

l

-< —

3\ST(будъ) 5\ST(ласка) 15 '

Подсчитав окончательно по формуле (5) вероятность принадлежности распознанной фразы к предполагаемому ТП, мы видим, что гипотеза данного ТП не отбрасывается и при отсутствии других гипотез может быть ответом интерпретации.

Экспериментальные результаты

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Предложенные в работе методы оценивания принадлежности последовательности слов к ТП были экспериментально проверены на фразах из обычного разговорника. В работе для примера рассматривались три ПО: «Повседневные фразы», «Путешествие», «Гостиница». Эти ПО содержат 47 + 102 + 68 = 217 ТС. В среднем на ТС приходится 4,17 базовых предложения.

Акустические модели для декодера разработаны на основе речевого корпуса отдельно произнесённых слов, в котором принимали участие 60 дикторов [2]. Средствами [3] проведено обучение 55 скрытых Марковских моделей фонем. Максимальное количество нормальных законов в смеси — 20.

Для эксперимента произвольным образом было выбрано 500 фраз. Смысловая интерпретация проводилась на основе результата пофонемного распознавания речевых сигналов [4] в условиях свободной и относительно свободной (на основе фонетических слов) грамматик относительно слов [2]. Из результатов проведённого эксперимента (таблица 3) следует, что для двух типов грамматик отклонение смысловой интерпретации не превышает 5%, что является приемлемым для прикладной системы.

В условиях ограниченной грамматики скорость распознавания в 10 раз превышает реальное время, а в условиях свободной и относительно свободной грамматик распознавание происходит быстрее реального времени на ресурсах нетбука.

Таблица 3

Результаты распознавания и смысловой интерпретации 500 предложений из двух предметных областей

Тип грамматики Надёжность распознавания (%)

Ограниченная 96,7 94,1 98,3

Свободная пословная 53,4 4,2 86,1

Относительно свободная 79,1 20,8 96,2

На основе проведённых исследований разработана демонстрационная программная модель для перевода произнесённых предложений с русского языка на английский (рис. 4). При этом последовательность слов в русском предложении может быть любой из допустимых. Предложению, произнесённому на русском языке, ставится в соответствие англоязычный ТС или ТП, а первое предложение этого ТС объявляется результатом перевода.

Spofepn Ih.ilog Studio ■ [jr.onftg.livpj Sd®

IP He Ы" во» Bexfc" >*»> . a *

3 »0 t

УкМ"нсы<» Атмйсма

бажаю Вам приемно Have a good time!

провести час

Рис. 4. Демонстрационное программное обеспечение модели устного фразаря-переводчика

Выводы

Рассматриваемая в работе система устного перевода является электронным аналогом бумажного разговорника, взаимодействие с которым происходит наиболее естественным способом — голосом. При распознавании произнесённой пользователем фразы используются лингвистические и семантические знания по выбранной ПО. Введённые при этом «мягкие» ограничения на порядок следования слов позволяют повысить надёжность распознавания, не повышая требований к вычислительным ресурсам. Разработанное программное обеспечение даёт возможность формировать грамматики следования слов для распознавания слитной речи как на основе ТП, так и на основе лингвистического понятия «фонетическое слово».

Использование параметрических моделей ТП даёт возможность пользователю более свободно и разнообразно общаться, что расширяет сферу использования системы. Предположение, что наблюдаемые последовательности слов — Марковский процесс, дало возможность сформулировать более гибкий способ формирования результата смысловой интерпретации.

На основе экспериментальной модели разработана программная модель устного словаря-переводчика, для перевода с русского языка на английский в рамках предметной области, которая работает в режиме реального времени на ограниченных вычислительных ресурсах.

Одни и те же фразы, произнесённые с различной интонацией, могут выражать как вопросительное предложение, так и повествовательное. Итак, в дальнейшей работе следует исследовать возможность распознавания интонации и ритма (просодики) с целью автоматической расстановки знаков препинания в распознанных фразах.

31

32

В дальнейшем также планируется ставить в соответствие русскоязычной фразе более точный англоязычный аналог среди ТП по ТС.

Литература

1. Vintsiuk T.K. Analysis, Recognition and Understanding of Speech Signals, Kyiv: Naukova Dumka, 1987.

2. Sazhok M, Yatsenko V. Spoken translation system based on speech understanding in subject area // All-Ukrainian Int. Conference on Signal/Image Processing and Pattern Recognition Ukr0braz'2010. Kyiv, 2010. Р. 103-106.

3. Lee, Kawahara T. and Shikano K. Julius — an open source real-time large vocabulary recognition engine. — In Proc. European Conference on Speech Communication and Technology (EUROSPEECH). 2001.Р.1691-1694.

4. Young SJ. et al. HTK Book, version 3.1, Cambridge University. 2002.

Сведения об авторах

Яценко Валентина Витальевна —

работает в Международном научно-обучающем центре информационных технологий и систем в отделе распознавания и синтеза речевых сигналов. Занимается формированием словарей, фраз для словарей-разговорников и интерпритацией распознанных фраз и переводом их на другой язык. Киев. val-yatsenko@yandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.