К вопросу машинного перевода: энтропия языковой системы и способы ее преодоления

Аматов А.М.

ГРАММАТИКА

УДК 81’322.4

А.М. Аматов*

К ВОПРОСУ МАШИННОГО ПЕРЕВОДА: ЭНТРОПИЯ ЯЗЫКОВОЙ СИСТЕМЫ И СПОСОБЫ ЕЕ ПРЕОДОЛЕНИЯ

Ключевые слова: выражение, грамматика, информационная энтропия, лексика, машинный перевод, содержание, уровневая структура языка; content, expression, grammar, information entropy, lexicon, machine translation, strata of the language

В данной статье рассматривается понятие и формальное определение информационной энтропии системы (энтропия Шеннона) в приложении к лексике и грамматике естественного языка. Проанализированы подходы к понятию энтропии языка, разработанные в трудах А.Н. Колмогорова и его последователей. Предлагаемый альтернативный метод расчета энтропии естественного языка подразумевает выявление количественного соотношения между суммами планов выражения и планов содержания. В статье также обосновываются предпосылки для разработки алгоритма порождения и интерпретации высказывания, основанного на формализации грамматики естественного языка через выявление набора дискретных грамматических категорий, присущих каждому элементу лексикона. Разработка подобного алгоритма может быть полезной при создании систем машинного перевода.

The paper deals with Shannon’s formal definition of information entropy and its application to natural language. Approach to the entropy of a language developed by A. Kolmogorov et al. is considered and an alternative method of calculating the entropy of a natural language is proposed, which is applicable to the elaboration of a generative/interpretative grammatical algorithm. The latter can be of use in developing certain issues of machine translation systems and artificial intelligence.

* Аматов Александр Михайлович, доктор филологических наук, Белгородский государственный университет.

71

Проблемами машинного перевода лингвисты и техники стали вплотную заниматься, по сути дела, с тех самых пор, когда появились первые компьютеры. Однако, несмотря на все усилия в этом направлении, следует признать, что вплоть до сегодняшнего дня в распоряжении пользователей нет компьютерных программ, которые, получив на входе связный текст (даже небольшой длины) на одном языке, могли бы давать на выходе также связный текст на другом языке.

Чтобы убедиться в этом, достаточно провести простой эксперимент: введем в программу-переводчик (самую современную, со всеми доступными обновлениями) небольшой текст на русском языке (назовем его Р-1), переведем его с помощью программы на английский, а затем результат (Е-1) при помощи той же программы переведем обратно на русский (получится Р-2). В качестве иллюстрации приведем следующий пример: случайным образом выберем текст научнотехнической специфики, без сложных художественных оборотов и применим к нему вышеописанную процедуру (использовалась программа-переводчик с обновлениями от 06.2007 г.). В результате имеем:

(Р-1) История машинного перевода насчитывает немногим более 50 лет. За это время сменилось несколько поколений систем машинного перевода - от первых программ, использовавших ограниченные ресурсы универсальных компьютеров первого поколения до современных коммерческих продуктов, использующих мощные ресурсы серверов и персональных компьютеров, включая ПК, в которых можно размещать карманные словари, а также компьютерные сети.

(Е-1) The history of machine translation totals the little more than 50 years. For this time some generations of machine translation systems - from

the first programs used limited resources of universal computers of the first generation up to modern commercial products, servers using powerful resources and personal computers, including the personal computer in which it is possible to place pocket dictionaries, and also computer networks were replaced.

(Р-2) История общих количеств машинного перевода эти немного больше чем 50 лет. В течение этого времени некоторые поколения систем машинного перевода - из первых программ использовали ограниченные ресурсы универсальных компьютеров первого поколения до современных коммерческих продуктов, серверы, используя мощные ресурсы и персональные компьютеры, включая персональный компьютер, в который возможное поместить карманные словари, и также компьютерные сети были заменены.

Образец (Р-2), как видим, едва ли попадает под определение текста как такового, и дело даже не столько в громоздкости синтаксических конструкций и грамматических ошибках, сколько в том, что смысл этого произведения вообще невозможно понять. Если слова по отдельности переведены в основном правильно (об исключениях чуть ниже), то связь их между собой практически отсутствует - во всяком случае, такая связь, которая допускается правилами синтаксиса русского языка.

Приблизительно то же самое можно сказать и про образец (Е-1), который также трудно назвать англоязычным текстом по той же самой причине. Оставим в стороне такие «мелочи», как употребление артиклей и перевод предлогов и союзов, и обратим внимание на более серьезные отклонения от нормы. Во-первых, ряд слов переведен хотя и близко, но не точно. Так, русское сменилось переведено как were replaced (вместо were supplanted или succeeded), что, в свою очередь, превратилось в были заменены. Во втором случае, надо признать, перевод вполне адекватен, но согласимся, слова сменились и были

заменены часто означают совсем разные вещи - как и в этой ситуации. Но гораздо хуже, чем с переводом лексики, дело обстоит с построением синтаксических конструкций. Фактически, фразы и предложения на языке перевода, даже если они и правильны, часто просто не соответствуют по своему смыслу построениям в языке оригинала.

Обидно и то, что такая безрадостная ситуация с машинным переводом складывается на фоне стремительного развития электронно-вычислительной техники. Работы отечественных ученых в этой области нисколько не уступали западным достижениям, а порой и превосходили их. Так, в январе 1954 г. состоялась первая публичная демонстрация машинного перевода с русского языка на английский, осуществленного на машине IBM («Джорджтаунский эксперимент»). Сообщение об этом событии было опубликовано в журнале Computers and Automation, 1954, № 2. Однако уже осенью того же года в СССР появляется реферат этого сообщения, сделанный Д.Ю. Пановым (РЖ ВИНИТИ «Математика» 1954, № 10, «Перевод с одного языка на другой при помощи машины: отчет о первом успешном испытании»). Сам Д.Ю. Панов возглавил работы по машинному переводу, и первый опыт перевода с английского языка на русский с помощью машины БЭСМ был получен уже к концу 1955 г. Параллельно в Отделении прикладной математики Математического института АН СССР (ныне ИПМ им. М.В. Келдыша РАН) по инициативе выдающегося советского математика

А.А. Ляпунова велись работы по машинному переводу математических текстов. Первые программы машинного перевода, разработанные этим коллективом, были реализованы на машине "Стрела" [1; 2; 3].

С тех пор произошла немыслимая эволюция компьютерной техники и информационных технологий. Сейчас в домах и на рабочих столах у многих стоят компьютеры, превосходящие по быстродействию

и объемам ОЗУ и ПЗУ совокупную мощность всех ЭВМ какого-нибудь крупного исследовательского института 60-х годов, не говоря уже о мультимедийных свойствах, которые в то время не рождались даже в воображении самых смелых писателей-фантастов (достаточно почитать описание компьютеров у признанного мастера жанра А. Азимова). Однако ничего похожего на стремительное развитие не наблюдается в сфере машинного перевода: у электронных

переводчиков год от года улучшаются интерфейсы, пополняются словари, появляются дополнительные функции, но вот с основной своей функцией - переводом текста - они по-прежнему не справляются.

В этой связи есть основания утверждать (не предполагать, а именно утверждать), что столь скромные успехи в разработке программного обеспечения для перевода текстов не связаны с плохой работой программистов или компьютерных техников, а являются результатом плохой проработки этой проблемы с лингвистической стороны. Ведь программисты наверняка смогли бы написать хорошую программу для перевода (они же пишут хорошие программы для решения самых разных научных и практических задач), если бы они четко знали, на что именно нужно запрограммировать компьютер. Но для этого надо, чтобы система языка (точнее, как минимум двух языков) была формализована настолько, чтобы ее можно было представить в виде последовательности команд, которые необходимо выполнить для получения лексически и грамматически верного высказывания, чтобы эти высказывания можно было связать в цельный текст.

Надо сказать, что и за рубежом ситуация с разработкой формализованных моделей языка едва ли намного лучше, чем в России. Да, во многих западных университетах преподают компьютерную лингвистику, но сводят ее почему-то к лингвистическим

базам данных, то есть, по сути, к электронным словарям и орфографическим справочникам.

Как бы то ни было, но на данный момент с большой долей определенности можно сказать одно: корень подавляющего

большинства проблем машинного перевода лежит в несоответствии систем языков. Причем это несоответствие (как и сами языковые системы) проявляется на разных уровнях. И прежде чем перейти к проблеме несоответствия языковых систем, нелишним будет рассмотреть в общих чертах систему языка в принципе. Это нужно для того, чтобы понять, с чем собственно приходится иметь дело нам, когда мы порождаем собственную речь и интерпретируем речь других, и с чем придется иметь дело электронному переводчику, если мы хотим, чтобы он хотя бы не очень сильно уступал переводчику-человеку.

Нередко приходится слышать мнение о том, что язык подобен живому, постоянно меняющемуся организму. В этом взгляде, надо признать, лирики больше, чем здравого смысла, а сама идея, судя по всему, берет свое начало у А. Шлейхера, вдохновленного успехами быстро развивающейся биологической науки и появлением теории эволюции Ч. Дарвина. Конечно, если очень постараться, можно отыскать какие-то сходства между языком и организмом - и тот, и другой при жизни претерпевают изменения, оба существуют в определенной среде (экологической или социальной). Однако есть и существенные различия: организмы рождаются не от среды обитания, а от себе подобных организмов, тогда как языки своим рождением и существованием обязаны исключительно среде, т.е. человеческому обществу. Более того, организмы приспосабливаются к среде обитания, а языкам сферу своего употребления выбирать не приходится - скорее уж их выбирают.

Итак, в языке выделяют три крупных взаимодействующих

подсистемы - фонетическую, лексическую и грамматическую. Первая касается звукового строя (взаимодействие и функционирование фонем, артикуляция и восприятие звуков речи и т.д.), и мы не будем освещать этот вопрос, поскольку в интересующем нас случае достаточно обойтись (хотя бы на первых порах) письменным текстом, тем более что орфографию современные компьютеры «знают» неплохо.

Лексическая система представляет собой набор средств номинации (называния), принятых в том или ином языке. В сущности, номинативность (способность называть предметы, признаки, действия и т.п.) и является основной функцией слова, однако с древнейших времен лексическим единицам (словам) придают чрезмерно большое значение, приписывая им функцию выражения мысли. Достаточно вспомнить то множество распространенных и не очень распространенных высказываний, где фигурирует «слово»: «слово не воробей», «вели слово молвить», «судить не по словам, а по делам» и т.п. Можно также вспомнить известное изречение из Библии (первую фразу в Евангелии от Иоанна): «В начале было Слово...». Здесь точный перевод затрудняется тем, что в греческом подлиннике этого Евангелия стоит слово «логос», которое, помимо слова, означает также мысль, знание, учение (вспомним названия многих наук, заканчивающихся на «-логия»). И это в очередной раз свидетельствует

о том, что для греков «слово» и «мысль» были и остаются очень близкими понятиями, раз уж для их выражения они пользуются одним и тем же знаком. Между тем, мысль выражается вовсе не словом, о чем мы скажем немного ниже. Соответственно, к словарю необходимо подходить так, как он того заслуживает, а именно - как к совокупности единиц, обладающих номинативным (назывным) значением. И в этом отношении электронным переводчикам нужно отдать должное - с функциями словаря они справляются очень хорошо.

Тем не менее, одного знания слов для выражения мысли явно недостаточно, ведь любое высказывание представляет собой упорядоченную структуру, и значение высказывания не сводится к семантике входящих в него слов. Когда это стало окончательно ясно, от лексического метода преподавания языков быстро отказались. После этого некоторое время наблюдался перекос в сторону грамматики. Мы не будем здесь вдаваться в вопросы истории преподавания языков, но

о грамматике как таковой следует сказать особо, поскольку мимо этого вопроса у нас пройти не получится.

Грамматика как дисциплина изучает строение языка как системы, в ее «юрисдикции» находятся, в сущности, все отношения и связи, которыми эта система характеризуется. Соответственно, сами эти связи и отношения часто называют грамматикой того или иного языка. Другими словами, помимо звукового строя (фонетика) и значения корней знаменательных слов (лексика) все остальное в языке -грамматика. Даже такие аспекты, как просодика (интонация, ударения, паузы) и значения некорневых элементов слова лежат в сфере интересов грамматики.

Для языкознания, примерно с середины ХХ века, характерно представление языка как системы, обладающей уровневой структурой. Системность подразумевает не простое нагромождение (в виде некоего «слоеного пирога») отдельных уровней друг на друга, а их строгую и прозрачную иерархическую организацию, соподчиненность при выполнении общей для всей языковой системы функции построения речи. В рамках парадигматического синтаксиса (М.Я. Блох) разработана модель языковой структуры из шести сегментных уровней: фонем, частей слова (морфем), слов (лексем), членов предложения (денотем), предложений (пропозем) и элементарных единиц текста (диктем) [4: 58-59].

Важнейшим свойством любой системы является взаимодействие между единицами ее уровней. Для языковой системы такое взаимодействие характерно в виде структурно-функционального возрастания единиц от уровня к уровню. При порождении любого высказывания мы задействуем все уровни языковой системы, и все эти уровни без исключения взаимодействуют в процессе речеобразования, находясь при этом в строгом иерархическом соподчинении, так что ни один уровень языковой структуры не может быть исключен из процесса. Другими словами, в системе языка действует своего рода «принцип единоначалия»: любой сегмент структуры напрямую входит только в сегмент непосредственно вышележащего уровня, именно в нем реализует свою уровнеобразующую функцию и подчиняется непосредственно ему.

В качестве возражения можно привести тот факт, что иногда сегменты срединных (слово, член предложения) или даже верхних (предложение, диктема) уровней состоят из низших единиц, которые как бы «перескакивают» через уровень или два. Например, в английском языке существуют слова (и не только служебные), состоящие всего из одной фонемы. Так, слова awe, ore, oar, or включают всего одну фонему - долгий гласный [о:] (в последних трех, правда, в ряде диалектов к ней добавляется еще и согласный [r]). Однако, как нетрудно заметить, все приведенные здесь лексемы обладают разным морфологическим составом и строем (скажем, допустима словоформа oars при недопустимости ors) и, более того, при функционировании указанных слов в составе фраз и предложений они будут играть различные роли, не сводимые ни к морфемам, ни тем более к фонемам. Известно также указанное А.А. Реформатским совпадение в латинском I (иди, поезжай) предложения, члена предложения, слова, морфемы и фонемы. Более того, данная единица

в определенном контексте может стать и диктемой. В истории сохранился анекдотичный случай, когда двое римлян поспорили, кто произнесет самую короткую фразу, обладающую в то же время вполне конкретным смыслом. Первый сказал: «Eo rus» («(Я) еду в деревню»). Второй не растерялся и тут же ответил ему: «I!» («Поезжай!»). Эта реплика, как и предыдущая, является диктемой (тематической единицей текста) по определению, но при этом состоит всего из одной фонемы. Для описания подобных случаев совпадения разноуровневых единиц в рамках одной и той же формы в парадигматическом синтаксисе применяется правило реверсивности. Суть этого правила такова: единица одного уровня строится из одной или более единиц непосредственно нижележащего уровня [4: 58]. В целом, эти два принципа (функциональное нарастание и реверсивность) лежат в основе всей многоуровневой организации языка.

Теперь вернемся к вопросу о выражении мысли средствами языка

- при переводе именно это имеет первостепенное значение. При взгляде на уровни языковой структуры становится понятно, что законченная мысль может выражаться единицами не ниже предложения. Основная функциональная особенность предложения по сравнению с нижележащими единицами языка - предикативность, т.е. его способность соотносить свое содержание с действительностью, а без этого мысль выразить невозможно. Соответственно, вопросом особой важности при переводе высказывания с одного языка на другой становится установление предикативной связи в предложении-оригинале и нахождение ее соответствия в языке перевода. Если это сделать удается, то перевод в общих чертах можно считать состоявшимся.

В настоящее время исследования семантики (как лексической, так и синтаксической) дополняются большим объемом работ в сфере

трансформационных грамматик (от генеративной грамматики Н. Хомского до более новых категориальных направлений GPSG и HPSG). В этих грамматиках в первую очередь учитываются не явные или скрытые лексические значения слов и их комбинаций, а возможности преобразования синтаксических конструкций (трансформационный потенциал). Другими словами, работа в этом направлении ведется большая и это не может не внушать определенный оптимизм. Однако даже если нам и удастся реализовать все, описанное выше (т.е. установить предикативные связи в языке оригинала и найти соответствия им в языке перевода), мы все же будем довольно далеки от создания удачного переводчика. Причина этого лежит в явлении под названием «энтропия», которой обладает всякий язык как система.

Энтропия (от греч. «переход, преобразование») - одно из ключевых понятий термодинамики, статистической механики и теории информации, описывающее состояние той или иной системы. Однако в интересующем нас аспекте мы будем рассматривать информационную энтропию.

Вообще-то понятия информации и энтропии тесно и органично связаны друг с другом, однако представления об информационной энтропии появились лишь тогда, когда развитие термодинамики и

w W \ /

статистической механики сделали эту связь очевидной. У истоков этого понятия стоит логик и математик К. Шеннон, в честь которого информационную энтропию часто называют «энтропией Шеннона». И прежде чем перейти к понятию «энтропия языка», попробуем разобраться в том, что представляет собою информационная энтропия.

Пользуясь интуитивно понятными выражениями, можно сказать, что информационная энтропия - это степень неопределенности сигнала или, применительно к речи, высказывания (англ. uncertainty -термин К. Шеннона). В качестве примера возьмем ящик с одинаковыми

по размеру и массе шариками, на которых проставлены разные номера. Аналогичный (и довольно расхожий) пример с шариками разного цвета при ближайшем рассмотрении выглядит не совсем удачным, т.к. при достаточно большом их количестве непросто бывает это образно себе представить - в самом деле, вряд ли кто-то может вообразить себе 1000 разных цветов и оттенков. Итак, будем считать, что в ящике лежат 1000 шариков с номерами от 1 до 1000, а некто случайным образом извлекает их из ящика один за другим. При первой попытке неопределенность номера извлеченного шарика максимальна, т.е. вероятность извлечения любого из шариков одинакова и равна 1/1000. Допустим, при первой попытке был вынут шарик под номером 345. Это значит, что он выпал из системы, и в следующей попытке участвовать не будет. Соответственно, при втором извлечении вероятность случайного выбора любого другого шарика несколько возрастет, составив 1/999, и будет увеличиваться при последующих попытках: 1/998, 1/997 и т.д., а энтропия системы будет снижаться, пока не останется последний шарик (скажем, с номером 102) и вероятность его извлечения будет равна 1.

Основные характеристики информационной энтропии системы:

- Если все возможные результаты в заданной системе имеют одинаковую вероятность (как извлечение шариков с номерами

1 - 1000 из описанного выше примера), то энтропия системы максимальна.

- Если вероятность какого-либо результата равна 1 (результат точно определен), то энтропия системы равна 0.

- Изменение вероятности события на определенную величину изменяет количество энтропии также на определенную величину.

К. Шеннон [5] формализовал эти положения и выразил

информационную энтропию системы через дискретную переменную X, у которой возможен ряд состояний х-1... хп в следующей математической формуле:

п I 1 \ п

(1) Н (X) = £ р(х )1о§2 =-Х Р(X )1о§2 Р(X)

1=1 I р (х,) 0 ,=1

где р(х) - вероятность /-того события в системе X.

Согласно приведенной формуле, можно сказать, что энтропия в системе X - эта сумма произведений вероятностей всех результатов /, умноженных на двоичный логарифм (т.е. логарифм по основанию 2) обратной вероятности события /.

Позднее К. Шеннон пытался применить понятие энтропии и к естественному (английскому) языку [6], однако дальше него пошел советский математик А.Н. Колмогоров, применивший понятие энтропии Шеннона (вместе с соответствующей формулой ее расчета) к значительному количеству художественных текстов [7]. Работу в этом направлении продолжил В.А. Успенский [8]. Именно А.Н. Колмогоров ввел в обиход термин «энтропия языка» и даже рассчитал ее. Однако здесь существует проблема: то, что рассчитывал А.Н. Колмогоров с учениками ни в коем случае не является энтропией языка! Прежде всего, в работах и А.Н. Колмогорова, и В.А. Успенского смущает неточность некоторых формулировок, вплоть до некорректного смешения языка, речи и орфографии. Так, последователи А.Н. Колмогорова в своих расчетах обычно исходят из печатных текстов заданной длины (т.е. из определенного количества печатных знаков). Сам собою возникает интересный вопрос: а если какой-либо народ не имеет письменности, то какие он может создавать тексты «длины п, выраженной в «числе знаков» (включая «пробелы»)» [7: 4]? Язык у такого народа есть, но нет письменности. Как же мы будем считать энтропию такого бесписьменного языка? По А.Н. Колмогорову - никак.

Также и у В.А. Успенского [8: 163] читаем: Пусть энтропия языка равна Н. Тогда существует примерно 2Нк текстов длины к, принадлежащих данному языку. Отсюда следует, что чем более узкий корпус текстов мы соотносим с представлением о языке, тем меньше будет энтропия языка; так, если взять энтропию языка русской художественной литературы или энтропию языка русского ямба, то каждая из них будет меньше энтропии русского языка в целом. Но простите, что значит ««тексты, принадлежащие данному языку»? Текст - это речевое произведение, которое строится в соответствии с правилами языка, но не «принадлежит ему». Непонятно также, почему энтропия языка зависит от того, какой ««корпус текстов» мы с этим языком соотносим. Если один человек «соотнесет с русским языком» один коротенький рассказик, а другой - полное собрание сочинений всех русских классиков, то результаты, согласно

В.А. Успенскому, должны получиться разными: у первого значение энтропии русского языка будет меньше, чем у второго. Но ведь это они тексты рассматривали разные, а язык как система - один. Более того, в абсолютном значении получается, что энтропия языка тем выше, чем больше на нем написано текстов - весьма спорный вывод. Непонятно также что такое «язык русского ямба»?

Так о какой же энтропии идет речь в работах А.Н. Колмогорова,

В.А. Успенского и других исследователей, применяющих формулу Шеннона к печатным текстам, состоящим из п символов? Разумеется, не об энтропии языка, а об энтропии текста, построенного в соответствии с заданными правилами орфографии (которые, строго говоря, непосредственно к языку не относятся). Статистический анализ числа N таких текстов может дать представление об энтропии орфографической системы - и все. К энтропии же языка как знаковой системы такой анализ не приближает нас ни на шаг.

Что же следует учитывать при расчете энтропии языка? Разумеется, языковой, а не печатный знак. Во-первых, как уже говорилось выше, язык вполне может существовать и без письменности (когда-то все языки обходились без нее), не переставая при этом быть системой со своим уровнем энтропии. Во-вторых, буквы вторичны даже не по отношению к собственно языковым знакам, а к дознаковым единицам языка - фонемам. Соответственно, в восприятии и распознании речи основная нагрузка ложится на те единицы, которые манифестируют именно языковые знаки: морфемы, слова, фразы предложения.

Второй вопрос - зачем вообще выяснять энтропию языка, как это в принципе может помочь решить проблему машинного перевода? Этот момент требует хотя бы краткого пояснения. Начнем с интеллекта, т.е. человеческого ума как такового. Чем сознание человека отличается от сознания животных? Способностью к творчеству, т.е. способностью анализировать эмпирически полученные данные и на основе этого анализа принимать качественно новые решения (добавим - при этом полезные обществу). Соответственно, отличие естественного человеческого языка от прочих знаковых систем (например, языков животных) заключается даже не в том, что при помощи первого можно выразить более сложную мысль, но, прежде всего, в том, что посредством человеческого языка мы можем выразить качественно новую мысль. Собственно, язык и является орудием мысли, и связь одного и другого непосредственна. А поскольку энтропия языка - это уровень беспорядка в его системе, вопрос об энтропии нельзя обойти стороной при разработке алгоритмов порождения / распознания речи. После этих пояснений перейдем к языку с его уровнем энтропии.

Вообще, говоря о языке, следует постоянно помнить о том, что это незамкнутая система. Можно сказать, что язык получает «подпитку»

энергией извне, поскольку взаимодействует с другими системами (языками, обществом) и здесь вопрос уже выходит за рамки языкознания. Нам в этой связи стоит отметить, что энтропия в системе языка вовсе не обязательно должна нарастать, как это бывает, например, в замкнутых термодинамических системах. Соответственно, энтропия применительно к языку показывает уровень беспорядка при порождении и / или интерпретации высказывания с учетом фонетики, словаря и грамматических правил.

Далее, в вопросе об энтропии в языковой системе возникает необходимость определения понятий порядка и беспорядка. Безусловно, беспорядок не следует понимать в повседневном смысле слова. В повседневности этот термин имеет весьма размытое значение, поскольку нет и четкого определения того, что такое порядок. Ну а без четкого определения порядка невозможно определить и беспорядок. Эту проблему в принципе можно решить, если учесть, что беспорядок возрастает с уменьшением вероятности конкретного события. Таким образом, в уравнении (1) необходимо, прежде всего, определить значение термина х,.

По сути, это должен быть показатель уровня неопределенности языкового знака. Применительно к живому языку мы можем выразить этот показатель через отношение суммы планов содержания к сумме планов выражения, зафиксированных в языке на тот или иной момент времени, или

Т с

и = ^—.

Т р

Для какой-либо подсистемы языка, состоящей из п элементов, имеющих т значений,

z с

и = ——,

n ’

Z.F

j=1

где U - показатель неопределенности языкового знака (от uncertainty), С - план содержания (от content), а F - план выражения (от form).

Теперь, если подставить U в формулу (1), мы увидим, что при U >

1 энтропия языка будет больше 0 (H(L) > 0), при U = 1 энтропия будет нулевой (H(L) = 0), а при U < 1 энтропия будет отрицательной (H(L) < 0).

Язык, в котором одному плану содержания соответствует один и только один план выражения (энтропия равна 0), следует считать идеально упорядоченным языком. Если отвлечься от естественного языка, то можно заметить, что в искусственных знаковых системах энтропию часто стремятся свести к нулю. Скажем, система дорожных знаков - это тоже своеобразный язык, в котором каждому знаку соответствует строго одно чтение. Язык же, в котором одному плану содержания соответствует более одного плана выражения (энтропия отрицательна) будем считать избыточно упорядоченным. Здесь с примерами несколько труднее, но можно вспомнить денежную систему, в которой (обычно так бывает ограниченное время) имеют хождение разные денежные знаки с одним и тем же номиналом: скажем, старые и новые стодолларовые купюры, обычные и «юбилейные» монеты и т.п. Тут как раз и получается, что двум (а возможно и более) планам выражения (вид монет или купюр) соответствует один план содержания (количество товаров и услуг, которые можно на эту купюру приобрести).

Разумеется, для конкретного естественного языка сложно вычислить точный показатель энтропии, но, во-первых, такой расчет, по крайней мере, возможен в принципе, а во-вторых, это имеет скорее общетеоретическое, нежели прикладное значение. При создании

систем машинного перевода вполне можно обойтись вычислением частных значений для наиболее «проблемных» подсистем.

Показатель энтропии любого естественного языка выше 1, и чтобы это понять, достаточно открыть обычный словарь. В идеально упорядоченном языке одному слову соответствует строго одно лексическое значение, но в реальности полисемия распространена повсеместно, а отношение количества слов к количеству выражаемых ими значений - один из аспектов общей энтропии языка. Действительно, энтропия всей системы не может снижаться, если растет энтропия ее подсистем.

С грамматикой все обстоит несколько сложнее, поскольку здесь есть определенные трудности с установлением количества планов содержания. Однако и здесь нередки случаи морфологического и синтаксического гомоморфизма, который в чем-то сродни лексической омонимии. В целом же можно сказать, что чем выше энтропия в системе языка, тем выше степень беспорядка в речи (тексте), построенной в соответствии с правилами этого языка.

Безусловно, уровень энтропии различается по языкам. В частности, для современного английского языка этот показатель должен быть несколько выше, чем для русского, и, соответственно, для английского языка алгоритмы порождения высказывания должны быть проще, а алгоритмы интерпретации высказывания - сложнее.

Представляется возможным один способ преодоления влияния энтропии языка на алгоритмы порождения и интерпретации речи. Суть его заключается в следующем: формализация лексикона путем задания каждому его элементу (т.е. лексеме) определенного набора грамматических категорий. Таким образом, создается что-то вроде словаря, в котором вместо лексико-семантических вариантов того или иного слова представлена номенклатура его синтаксических категорий.

Наибольшую сложность и важность представляет собой

синтаксическая категоризация глаголов, поскольку именно глагол выполняет основную синтаксическую функцию, входя в ядро предиката. Для глаголов такие квантитативные категории определяют количество и состав актантов, взаимодействуя с которыми он образует синтаксические структуры. При присвоении глаголу той или иной синтаксической категории учитываются трансформационные возможности предиката, но не его внутренняя семантика. При таком подходе получается, что один и тот же глагол обладает некоторым набором синтаксических категорий, образующих парадигму и реализуемых в конкретном типе синтаксической конструкции.

Лабильность же с точки зрения трансформационного потенциала следует рассматривать как способность глагола вступать в

синтаксические связи, как допускающие пассивизацию, так и не допускающие ее. Наконец, наличие у одного глагола ряда квантитативных категорий не может представлять особой проблемы (например, стоит ли рассматривать эти единицы как один глагол или как разные). Ведь, в конце концов, наличие у одной и той же единицы ряда лексико-семантических вариантов ни у кого нареканий не вызывает.

Подводя итог, следует отметить, что проблемы создания программ-переводчиков отнюдь не исчерпываются одной лишь энтропией языка, да и вообще в этой отрасли есть целый ряд вопросов, не связанных напрямую с лингвистикой. Однако определение уровня энтропии естественного языка наряду с разработкой алгоритма порождения и интерпретации высказывания, позволяющего преодолеть ее негативные последствия, представляются важным шагом на пути создания «умной машины». Началом же разработки такого алгоритма вполне может стать формализация естественного языка через

выявление набора дискретных грамматических категорий, присущих каждому элементу лексикона того или иного языка.

СПИСОК ЛИТЕРАТУРЫ

1. Кузнецов П.С., Ляпунов А.А., Реформатский А.А. Основные проблемы машинного перевода // Вопросы языкознания. - № 5 - 1956.

2. Ляпунов А.А., Кулагина О.С. Использование вычислительных машин для перевода с одного языка на другой // Природа. - № 8 -1955.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Панов Д.Ю., Ляпунов А.А., Мухин И.С. Автоматизация перевода с одного языка на другой // Сессия по научным проблемам автоматизации производства. - М.: Изд. АН СССР, 1956.

4. Блох М.Я. Диктема в уровневой структуре языка // Вопросы языкознания. - № 4 - 2000.

5. Shannon, C.E. A Mathematical Theory of Communication // Bell System Technical Journal. - Vol. 27, July and October, 1948.

6. Шеннон К. Работы по теории информации и кибернетике / пер. с

англ. Предисл. А.Н. Колмогорова. - М.: Изд-во иностранной

литературы, 1963.

7. Колмогоров А.Н. Теория информации и теория алгоритмов. -М.: Наука, 1987.

8. Успенский В.А. Предварение для читателей «Нового литературного обозрения» к семиотическим посланиям Андрея Николаевича Колмогорова // Новое литературное обозрение. - № 24 -1997.

УДК 81’37

К вопросу машинного перевода: энтропия языковой системы и способы ее преодоления Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Аматов А. М.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Аматов А. М.

Текст научной работы на тему «К вопросу машинного перевода: энтропия языковой системы и способы ее преодоления»