Научная статья на тему 'Анализ состояния и перспектив развития систем машинного перевода для стран Центральной Азии и Кавказа'

Анализ состояния и перспектив развития систем машинного перевода для стран Центральной Азии и Кавказа Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
347
218
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ состояния и перспектив развития систем машинного перевода для стран Центральной Азии и Кавказа»

Анализ состояния и перспектив развития систем машинного перевода для стран Центральной Азии и Кавказа

Л.А.Гращенко

Институт математики Академии наук Республики Таджикистан

graschenko@mail.ru

1. Введение

С приобретением государственности республиками Центрально-Азиатского региона (ЦАР) и Кавказа после распада СССР, за истекшее с данного события время в них наблюдается существенное изменение языковой обстановки, что проявляется в повсеместном применении национальных языков, в том числе в тех сферах, где ранее их применение было очень ограниченным. Становление государственных суверенитетов стран описываемых регионов происходило неравномерно, в различных общественно-политических условиях, вследствие чего при общем сценарии развития языковых, лингвистических и коммуникационных процессов, языковые ситуации в них различны.

Нормативно-правовой основой данных процессов стали принятые в начале 90-х годов прошлого века национальные законы о государственных языках и государственные программы развития языка, например [1].

Элементами начального этапа указанных тенденций являются пересмотр и оптимизация систем письма, правописания, терминологии, разработка бумажных межъязыковых и толковых словарей (в основном на европейские языки и языки стран общей языковой группы), расширение преподавания национальных языков, увеличение объемов книгопечатания классической литературы и организация национальных СМИ.

На втором этапе начинается разработка и внедрение локализированных версий систем электронного документооборота, шрифтов, разработка электронных словарей, введение национальных языков в повседневную деятельность органов государственной власти, общественных и коммерческих организаций.

Завершающим и наиболее длительным этапом становится разработка автоматизированных систем проверки орфографии, ОСЯ-систем, систем машинного перевода, поиска и анализа информации.

К настоящему времени в странах ЦАР и Кавказа в основном завершены вторые этапы указанной последовательности, а кое-где разрозненно и бессистемно ведутся работы в области создания систем машинного перевода (МП). Назревает переход к активной фазе третьего этапа для всего региона в целом, поэтому актуальной становится задача предварительного анализа текущей языковой ситуации на рассматриваемом географическом и культурном пространстве, выбора и обоснования возможных путей развития средств автоматизации лингвистических процессов. Выбор оптимальной стратегии позволит близким в культурном плане и исторической ретроспективе странам ЦАР и ряде стран Кавказа, не обладающих существенными материальными ресурсами для быстрого создания качественных систем машинного перевода, более эффективно решить указанные задачи, и вследствие этого, повысить уровень межъязыковой коммуникации для региона в целом.

Рис. 1. Распространение групп государственных языков в Центрально-Азиатском, Кавказском и прилегающих к ним регионах

Существенной особенностью рассматриваемого региона является относительная однородность государственных национальных языков. За исключением Таджикистана, национальные языки Казахстана, Узбекистана, Кыргызстана,

г | 1 » С» С» С» С» С»

Туркменистана и Азербайджана принадлежат к одной тюркской семье алтайской макросемьи языков, также распространенной в прилегающей к рассматриваемому региону Турции и в ряде внутренних территорий России и Китая, рис. 1 [7].

В Таджикистане исследования в области автоматизации лингвистических процессов, в частности межъязыковых преобразований текстов, ведутся коллективом ученых под руководством академика АН РТ, профессора, доктора физикоматематических наук Усманова Зафара Джураевича. На базе Института математики АН РТ, Технологического университета Таджикистана и ряда других учебных заведений сложилась возглавляемая им научная школа по прикладной математической лингвистике, в числе достижений которой имеется ряд законченных теоретических и прикладных разработок, выполненных совместно с ведущими филологами Таджикистана [6].

В данной статье предлагается обоснование подхода к разработке средств МП для стран ЦАР и Кавказа, сформированное на основе анализа языковой ситуации в регионе в целом и отдельно по странам, а также выбранной системы показателей, определяющих направления перспективных исследований.

2. Система исходных показателей

Для выбора исходных показателей, характеризующих языковую ситуацию в рассматриваемом регионе, а также существенных для определения содержания и последовательности перспективных научных исследований в области МП, принимались во внимание следующие ограничения:

- минимизация объема исследований, и соответственно их общей ресурсоёмкости,

- достаточность набора перспективных средств межъязыковых преобразований текстов для представленных в ЦАР и странах Кавказа языков,

- максимизация качества межъязыковых преобразований текстов для любой пары языков.

В итоге был получен набор из следующих четырех показателей:

- 94 -

1. Численность носителей языка.

В расчет принимается письменный язык, так как для одного и того же устного языка может существовать более одного варианта системы письма, в зависимости от его применения в той или иной стране. Численность носителей косвенно определяет объем текстовой информации, продуцируемой на данном языке, и соответственно, частоту обращений к межъязыковым преобразованиям текстов. Показатель задается числом в миллионах носителей.

2. Информационные характеристики системы письма.

Под информационными характеристиками системы письма понимается совокупность различных числовых величин, характеризующих систему письма некоторого языка и позволяющих сравнивать между собой системы письма однородных по языковой группе языков. В качестве первичного принимается показатель плотности системы письма D алфавитного языка L, определяемый по аналогии с лексической плотностью [11] как предел обратного отношения длины текста Т в символах (без учета служебных) к длине фонетического представления того же текста (звукоряда - последовательности символов международного фонетического алфавита) FL:

FL

D = lim —- .

\tl T

Так, в отличие от фонетических (D ~ 1), для консонантных систем письма характерна более высокая плотность письма (D > 1) и, следовательно, более высокий процент омографов в текстах, усложняющий автоматический анализ и передачу смысла письменных сообщений. Плотность системы письма может быть непосредственно представлена соответствующим значением, при этом для D < 1 язык будет низкоплотным, для D ~ 1 среднеплотным, а для D > 1 высокоплотным.

Для языков с сопоставимыми значениями мощностей алфавитов и плотностей системы письма дополнительно могут быть вычислены символьная энтропия и ряд величин, характеризующих контекстные символьные ограничения [5].

3. Уровень развития информационных и языковых ресурсов.

Данная характеристика LHH задаётся через степень разработанности инструментария для автоматизированной обработки текстов LH, а также количество и

доступность информационных ресурсов (в том числе в Интернете) для данного языка

іЯ:

LHH = LH+ LH.

И Я

Значения L и L задаются целыми числами в диапазоне от 1 до 5 в соответствии

с нижеприведенными порядковыми шкалами:

И

Шкала для определения значения уровня разработанности языкового инструментария L

Описание уровня Словари представлены бумажными формами, в основном общие двуязычные и толковые. Средств автоматизации практически нет. Множество бумажных словарей, в том числе

узкоспециализированных и отраслевых. Наличие общих

электронных словарей, частотных словарей, корпусов текстов. Развитая система электронных словарей, средства локализации программных продуктов, шрифты.

Практически реализованы системы проверки правописания и электронного документооборота, простейшие системы машинного перевода, ОСЯ-системы.

Развитая система средств автоматизации, машинного перевода, поиска и обработки информации. Наличие теоретических и прикладных разработок перспективных систем обработки информации на естественном языке.

# Уровень

1 Низкий

2 Средний

3 Выше

среднего

4 Хороший

Высокий

Я

Шкала для определения значения уровня количества и доступности языковых ресурсов Ь

Описание уровня Языковые ресурсы представлены в основном бумажными носителями и труднодоступны.

Имеются доступные электронные ресурсы ограниченной тематики незначительного объема.

Имеется значительное количество электронных ресурсов широкой тематики.

В электронном виде доступна значительная часть национального письменного наследия.

Широчайшее представительство и доступность письменных документов на национальном языке.

# Уровень

1 Низкий

2 Средний

3 Выше

среднего

4 Хороший

5 Высокий

Количество и доступность языковых ресурсов также может быть выражена через представительство языка в сети Internet, описываемого показателями числа вебстраниц в домене первого уровня (ccTLD) и отношением числа веб-страниц в домене первого уровня к населению страны [10]. В англоязычной литературе для языков с низкими значениями ЬЯ применяются такие термины как low-density languages,

minority languages или более подходящие resource-poor languages, low-resource languages [9].

4. Совокупность уровней межъязыковых преобразований.

Данный показатель характеризует минимальную сложность средств преобразования текстов, необходимых для организации автоматизированного межъязыкового перевода текстов между языками стран рассматриваемого региона с учетом приведенных ограничений. Уровень задаётся в соответствии с нижеприведенной порядковой шкалой:

Шкала для определения значения уровня сложности межъязыкового преобразования

# Уровень Описание уровня

Отсутствие преобразования. Замена корней на корни,

0 Ккт согласование частот словоупотреблений. Корректор текста между

диалектами одного языка. Пример: коррекция текстов между дари и фарси.

к Конверсия графических систем письма и/или между морфемное

1 преобразование: аффикс ^ аффикс, корень ^ корень. Пример: систем письма

конверсия текстов между таджикским и фарси.

Грамматический Преобразование однотипных языков с незначительными

2 (Лексический) грамматическими различиями, согласование падежей, родов,

преобразователь союзов и аффиксов. Пример: киргизско-узбекский перевод.

3 Морфологический Морфоанализ и морфосинтез, незначительное количество

преобразователь синтаксических преобразований.

4 Синтаксический Морфо- и синтаксические преобразования. Незначительное

преобразователь количество семантических преобразований (идеомы).

5 Семантический Семантические преобразования, контекстный анализ, раскрытие

преобразователь омонимии, неоднозначностей, неологизмов.

Системы машинного перевода, как таковые, занимают диапазон со 2 по 5 уровень. Для приведенной шкалы допустимы уточнения по мере совершенствования типологии систем межъязыкового преобразования текстов. Например, введение уровня прагматического преобразователя.

Теперь, на основе введенной системы признаков, выполним обзор языковой ситуации для каждой из стран ЦАР и Кавказа в отдельности, и далее, для региона в целом.

3. Обзор языковой ситуации в странах ЦАР и Кавказа

3.1. Республика Казахстан

Государственный язык - казахский, относится к кыпчакской подгруппе тюркских языков. Носителей языка - более 8 млн. человек [10]. Используемый алфавит - расширенный кириллический мощностью 42 буквы (ГОСТ 7.79-2000 и СТРК 1048-2002). Казахский язык, кроме того, распространен в России, Китае, Монголии и странах СНГ. Территориальные различия языка выражены слабо и не сказываются на письменных текстах. По фонетике и грамматическому строю близок к киргизскому языку. Относится к агглютинативным языкам с элементами полисинтетизма.

Пользователям доступно большое множество современных бумажных двуязычных словарей (казахско-английских, казахско-арабских, казахско-немецких, казахско-турецких и т.д.), а также специализированных и отраслевых словарей.

Уровень развития средств автоматизации лингвистических преобразований -высокий. Разработки в области автоматизации обработки текстов на казахском языке осуществляются в крупнейших ВУЗах Казахстана: Казахском национальном

университете имени аль-Фараби, Евразийском национальном университете имени Л.Н. Гумилева, Алматинском государственном университете имени Абая, Институте Языкознания при Академии Наук Республики Казахстан.

Также имеется ряд коммерческих разработчиков, таких как «Санасофт» (http://www.sanasoft.kz), «Алтон», «Бимаш» (http://www.bimash.kz), «Изет»

(http://izet.kz). Среди доступных разработок выделяются мощные электронные казахско-русские и русско-казахские словари «Экос» (объемом более 120000 статей), казахско-английские словари, системы проверки орфографии, конвертеры различных кодировок (в том числе с расширенной кириллицы в латиницу и обратно), драйверы клавиатуры, средства локализации. Разработаны пилотные системы русско-казахского машинного перевода «Master Word» фирмы «Санасофт», «Тилмаш» фирмы «Изет». Разработки ведутся при поддержке грантов и тендеров Правительства РК, в том числе Государственной комиссии по дальнейшему развитию казахского языка.

Имеющиеся в настоящее время средства машинного перевода развиты относительно слабо, необходима их верификация на предмет оценки качества передачи смысла текстов. Скорость разработки систем МП сдерживается частичным решением вопросов финансирования.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Представительность Интернет-ресурсов для Казахстана наибольшая в регионе, по состоянию на 2006 год в домене первого уровня на каждую тысячу жителей Казахстана приходилось 423 веб-страницы, рис. 2. Тем не менее, собственно для казахского языка, этот показатель составлял чуть более 6 веб-страниц на каждую тысячу носителей языка [10].

3.2. Киргизская республика

Государственный язык - киргизский, относится к кыпчакской подгруппе тюркских языков. Носителей языка - более 2,6 млн. человек [10]. Используемый алфавит - расширенный кириллический мощностью 36 букв. Киргизский язык, кроме того, распространен в России, Китае, Таджикистане, Узбекистане и Казахстане. Относится к агглютинативным языкам с элементами полисинтетизма.

Уровень развития средств автоматизации лингвистических преобразований -средний. Доступно незначительное количество бумажных словарей, в основном ориентированных на русский язык. К настоящему времени разработаны русско-киргизские электронные словари «Маани» объемом около 30 тысяч слов (http://www.maani.narod.ru), национальные киргизские шрифты. Декларируются планы по разработке средств киргизско-русского машинного перевода, но вследствие нестабильности политической обстановки и сложностей с финансированием прогноз неопределенный.

Представительность Интернет-ресурсов для Киргизии по состоянию на 2006 год в домене первого уровня составляла 142 на каждую тысячу жителей, непосредственно для киргизского языка - чуть менее 6 веб-страниц на каждую тысячу носителей языка [10].

3.3. Республика Узбекистан

Государственный язык - узбекский, относится к семье тюркских языков. Носителей языка - более 21 млн. человек, из них в Узбекистане 18,3 млн. [10]. Используемый алфавит - расширенный латинский мощностью 28 букв. Кроме того, по прежнему широко распространено использование расширенного кириллического алфавита. Узбекский язык, кроме того, распространен в Таджикистане, Афганистане, Киргизии и Туркменистане. Относится к агглютинативным языкам с элементами аналитизма, не имеет категории рода. Морфология характеризуется одновариантностью аффиксов. В значительной мере претерпел влияние со стороны персидского языка, через который заимствовал множество арабизмов.

Уровень развития средств автоматизации лингвистических преобразований -выше среднего. С 1990 года активно реализуется государственная программа по развитию языка и автоматизации лингвистических процессов [1]. В бумажном виде доступно значительное количество разнообразных двуязычных и мультиязычных словарей, в том числе на многие языки Европы (английский, французский, немецкий, русский) и Востока (арабский, фарси, турецкий, уйгурский). Насчитывается до десятка различных электронных словарей, часть из которых выполнена частными лицами (небольшого объема, например UzTranslIt, Dexx Trans), так и разработанные специалистами Института языка и литературы им. А. Навои Академии наук Узбекистана, Национальной библиотеки Узбекистана им. А. Навои, Академии государственного и общественного строительства, Центрального банка, Педагогического университета (например, словарь «IBORA»).

Представительность Интернет-ресурсов для Узбекистана по состоянию на 2006 год в домене первого уровня составляла 84 веб-страницы на каждую тысячу жителей, непосредственно для узбекского языка - чуть более 3 веб-страниц на каждую тысячу носителей языка [10].

3.4. Туркменистан

Государственный язык - туркменский, относится к огузской группе тюркских языков. Носителей языка - около 5,4 млн. человек [10]. Используемый алфавит -

расширенный латинский мощностью 30 букв. Туркменский язык, кроме того, распространен в Иране, Афганистане, Ираке, Узбекистане и Турции. Относится к агглютинативным языкам с элементами аналитизма. По грамматическому строю, морфологии и фонетике наиболее близок азербайджанскому и турецкому языкам [8].

Уровень развития средств автоматизации лингвистических преобразований -низкий. В связи со сложившейся в 90-е годы прошлого века общественнополитической обстановкой, развитие средств автоматизации началось только в последнее время. Доступно незначительное количество бумажных словарей (туркменско-русский, туркменско-английский).

Представительность Интернет-ресурсов для Туркменистана по состоянию на 2006 год в домене первого уровня составляла 16 веб-страниц на каждую тысячу жителей, непосредственно для туркменского языка - чуть более 6 веб-страниц на каждую тысячу носителей языка [10].

3.5. Азербайджан

"1—' с» и и с»

Государственный язык - азербайджанский, относится к огузской группе тюркских языков. Носителей языка - более 30 млн. человек, из них в Азербайджане около 13,9 млн. человек [10]. Используемый алфавит - расширенный арабский в Южном Азербайджане и расширенный латинский мощностью 32 буквы в Северном Азербайджане. Азербайджанский язык, кроме того, распространен в России, Грузии, Ираке, Турции, Сирии, Туркмении. Относится к агглютинативным языкам. По грамматическому строю, морфологии и фонетике наиболее близок туркменскому и турецкому языкам [8].

Уровень развития средств автоматизации лингвистических преобразований -выше среднего. Доступно значительное количество бумажных словарей, имеются электроные азербайджанско-тюркско-русские словари.

Представительность Интернет-ресурсов для Азербайджана по состоянию на 2006 год в домене первого уровня составляла 283 веб-страницы на каждую тысячу жителей, непосредственно для азербайджанского языка - менее 1 веб-страницы на каждую тысячу носителей языка [10].

3.6. Республика Таджикистан

Государственный язык - таджикский, относится к иранской ветви индоиранской группы индоевропейской семьи языков. Носителей языка - около 4,3 млн. человек [10]. Используемый алфавит - расширенный кирилловский мощностью 32 буквы. Таджикский язык, кроме того, распространен в Афганистане и Узбекистане. Относится к агглютинативным языкам с элементами аналитизма. По грамматическому строю, морфологии и фонетике наиболее близок персидскому языку.

Уровень развития средств автоматизации лингвистических преобразований -хороший. В связи со сложившейся в 90-е годы прошлого века общественнополитической обстановкой, развитие средств автоматизации началось только в 2000е годы. Доступно значительное количество двуязычных и многоязычных бумажных словарей, за счет общего таджикско-персидского культурного письменного наследия, представительность языковых ресурсов значительна. За последнее время разработано более десятка различных электронных словарей, драйвера клавиатуры, специализированные шрифты, средства проверки орфографии, конвертеры графических систем письма для таджикско-персидской языковой пары (ТПКГСП) [2]. Ведутся теоретические разработки по построению систем русско-таджикского и русско-узбекского машинного перевода.

Представительность Интернет-ресурсов для Таджикистана по состоянию на 2006 год в домене первого уровня составляла 32 веб-страницы на каждую тысячу жителей, непосредственно для таджикского языка - менее 1 веб-страницы на каждую тысячу носителей языка [10].

3.7. Общая характеристика языковой обстановки

Совокупные характеристики вышеприведенных конкретных языковых ситуаций в странах рассматриваемого региона сведены в таблицу 1.

Графически данные о представительстве государственных языков стран рассматриваемого региона в сети Интернет по показателю числа веб-страниц в национальном домене на тысячу человек населения приведены на рисунке 2.

Язык Число носителей, млн.чел. Алфавит Плотность системы письма ЬИЯ

Казахский 8 Кир. ~1 7

Киргизский 2.6 Кир. ~1 4

Узбекский 21 Лат. + Кир. ~1 5

Туркменский 5.4 Лат. ~1 3

Азербайджанский 30 Лат. + Араб. ~1 5

Турецкий 70 Лат. ~1 10

Таджикский 4.3 Кир. ~1 6

Персидский 65 Араб. > 1 9

Дари 15 Араб. > 1 6

Примечание: Кир. - кирилловский, Лат. - латинский, Араб. - арабский алфавиты.

Рис. 2. Представительство языков ЦАР и Кавказа в Интернете

Совокупность уровней сложности необходимых средств межъязыковых преобразований текстов для указанных языков приведена в таблице 2.

Матрица уровней межъязыковых преобразований

^""••^Язык 2 Язык Казах. Кирг. Узб. Туркм. Азерб. Турец. Тадж. Перс. Дари

Казахский 0 1 2 2 2 2 3 3 3

Киргизский 1 0 2 2 2 2 3 3 3

Узбекский 2 2 0 1 1 2 3 3 3

Туркменск. 2 2 1 0 1 1 3 3 3

Азербайдж. 2 2 1 1 0 1 3 3 3

Турецкий 2 2 2 1 1 0 3 3 3

Таджикский 3 3 3 3 3 3 0 1 1

Персидский 3 3 3 3 3 3 1 0 0

Дари 3 3 3 3 3 3 1 0 0

Примечание: Язык 1 - исходный язык, язык 2 - результирующий язык.

4. Предложения

Приведенные значения выбранных показателей позволяют сделать вывод о возможности разработки многозвенной системы межъязыкового преобразования текстов для рассматриваемого региона с достаточно высоким качеством преобразования текстов между любой парой языков. Это может быть достигнуто за счет минимизации числа преобразований и выбора таких языковых пар для разработки средств машинного перевода, чтобы указанные языки были наиболее близкими.

При этом, для стран ЦАР и Кавказа наиболее актуальной является задача организации машинного перевода на такие языки как русский, английский и другие

и и и и XX

европейские языки, относящиеся к индоевропейской языковой семье. Из языков стран рассматриваемого региона к той же языковой семье относится только таджикский язык, поэтому вполне логично рассматривать именно таджикский язык в качестве основного языка-посредника для преобразования текстов между европейскими языками и языками ЦАР и Кавказа.

Также, Таджикистан, являясь культурным медиатором между персоязычными государствами и тюркоязычным миром, также может претендовать и на роль страны, язык которой является медиатором между двумя языковыми семьями - алтайской и индоевропейской. Это связано, прежде всего, с историческими и географическими

причинами, обусловившими относительную языковую близость таджикского и узбекского языков, в том числе высокий процент пересечения лексики. Предварительные исследования [3, 4] показывают применимость моделей

морфоанализа, используемых для таджикского языка, и для узбекского языка, а также возможность нахождения взаимно-однозначных межморфемных отношений для указанной языковой пары.

Исходя из этого, предлагается следующий вариант реализации многозвенной системы машинного перевода для стран ЦАР и Кавказа, рис. 3

Английский

Турецкий

Азербайджан ский

-f

I

I

-v'

* г

' і

T

і

_і_

Туркменский

Казахский

Master

Word/"

Русский

Тилмаш

Узбекский

ТПКГСП

Киргизский

Дари

Таджикский

со

Реализованные

направления

перевода

Перспективные

направления

перевода

Тюркские

Иранские

языки

Фарси

Рис. 3. Вариант реализации системы средств машинного перевода для региона

Центральной Азии и Кавказа

В соответствии с предложенной схемой, в настоящее время осуществляется комплекс предварительных исследований для разработки систем русско-таджикского и таджикско-узбекского машинного перевода.

Список литературы

1. Государственная программа по обеспечению реализации Закона Республики Узбекистан «О государственном языке». Принята Советом Министров Узбекской ССР от 19 февраля 1990 г. №101 (в редакции постановления Кабинета Министров РУ от 10 сентября 1996 г. №311).

2. Гращенко Л. А. Концептуальная модель таджикско-персидской конверсии графических систем письма // Доклады АН РТ - том 52, №2 - 2009 г. - С. 111-115.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Исмаилов М.А., Шарипов Ш.А. Моделирование процесса морфологического анализа слов узбекского языка, образованных от существительных // Труды ТУТ, выпуск 7, 2001, Душанбе, стр. 4 - 16.

4. Исмаилов М.А., Шарипов Ш.А. Применение алгоритма разбиения таджикских слов на слоги в узбекском языке // Труды ТУТ, выпуск 11, 2005, Душанбе, стр. 33 -36.

5. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. -М.: «Высшая школа», 1977. - 383 с.

6. Усманов З.Д. Об исследованиях 2001-2010 гг. по информатизации таджикского языка // Материалы международной научно-практической конференции «Подготовка научных кадров и специалистов новой формации в свете инновационного развития государств» - Душанбе: «Ирфон», 2010. - С. 339 - 343.

7. Collin R.O. Revolutionary Scripts: The Politics Of Writing Systems. Report presented on Vernacular 2005 Conference on Language and Society. [Электронный ресурс] : http://www.omniglot.com/language/articles/revolutionary_scripts. doc

8. Dutagachi H. Statistical Language Models for Large Vocabulary Turkish Speech Recognition. A thesis submitted in partial fulfillment for the degree of Master of Science in Electrical Electronics Engineering. - Bogazichi University. - 2002. - 104 p.

9. Megerdoomian K. Low-density strategies for Persian and Armenian. In Language Engineering for Lesser-studied languages, Sergey Nirenburg (ed.). IOS Press of Amsterdam, February 2009.

10. Riza M., Moedjiono, Mikami Y. Indonesian Languages Diversity on the Internet. Report

on The Internet Governance Forum Inaugural Meeting, Athens, 2006. - 10 p. [Электронный ресурс]:

http://www.intgovforum.org/Substantive_1st_IGF/Language%20Diversity%20-%20submit.pdf

11. Williamson G. Lexical Density. 2009. [Электронный ресурс] http://www.speech-therapy-information-and-resources.com/lexical-density.html

i Надоели баннеры? Вы всегда можете отключить рекламу.