З.М. Шаляпина
Некоторые возможности автоматической
оптимизации лингвистического обеспечения системы обработки текстов при сущностном подходе к его организации
На опыте разработки экспериментального комплекса для японско-русского автоматического перевода ЯРАП (Институт востоковедения РАН) рассматриваются возможности, предоставляемые сущностным подходом к языку для моделирования при создании лингвистического обеспечения систем обработки текстов процессов усвоения языковых знаний человеком.
Ключевые слова: автоматическая обработка текстов, лингвистическое обеспечение, оптимизация, сущностный подход к языку
1. Введение
Лингвистическое обеспечение любой системы автоматической обработки текстов, ориентированной на получение результатов достаточно хорошего качества, должно содержать настолько много разнообразных и сложным образом организованных лингвистических сведений, что проблемы слежения за этим обеспечением при его пополнении и совершенствовании становятся весьма нетривиальными. Столь же нетривиальный характер приобретает и задача оптимального использования такого лингвистического обеспечения при обработке конкретных текстов. Практически невозможно априори предусмотреть и жестко зафиксировать все мыслимые комбинации имеющихся лингвистических сведений, которые могут оказаться релевантными для определенного отдельного текста, а также однозначно задать наиболее экономичный и эффективный в каждом конкретном случае порядок их вызова и применения.
Это связано, как представляется, не только с ограниченностью имеющихся в нашем распоряжении средств описания лингвистической информации и управления ею, но и с принципиальными
© Шаляпина З.М., 2013
особенностями самого объекта описания — естественного языка и его функционирования в коммуникативных процессах. Иными словами, проблемы, о которых идет речь, не сводятся только к общим проблемам управления универсальными базами данных и слежения за такими базами, входящим в компетенцию программистов. Эти проблемы имеют также и весьма существенные собственно лингвистические аспекты. В данной, собственно лингвистической, части общие возможности решения соответствующих проблем должны устанавливаться, очевидно, уже в рамках самой лингвистической концепции, положенной в основу той или иной конкретной системы обработки текстов и определяющей состав и принципы организации в ней ее лингвистического обеспечения. Здесь мы хотим рассмотреть некоторые из таких возможностей применительно к задаче автоматического перевода (АП).
В связи с данной задачей нельзя не учитывать то обстоятельство, что лингвистическое обеспечение системы АП играет в ней ту же роль, которую для человека-переводчика выполняют его переводческие знания и навыки, т.е. представляет собой функциональную модель этих знаний и навыков. В той мере, в которой такую интерпретацию лингвистического обеспечения системы АП можно признать справедливой, указанные выше проблемы сближаются, очевидно, с проблемами формирования соответствующих знаний и навыков у человека, обучающегося переводу, и для их эффективного решения целесообразно иметь в виду общие особенности процесса такого обучения.
Важнейшая из них, на наш взгляд, состоит в том, что человек в этом процессе не является пассивным реципиентом информации. Даже если полностью исключить случай самообучения (которое, безусловно, представляет собой процесс гораздо более сложный, чем обучение, и более активный, включающий значительный элемент творческой деятельности) и говорить только об обучении как таковом, оно также не может быть сведено лишь к запоминанию учащимся сообщаемой ему информации. Помимо запоминания, при успешном обучении должно обязательно иметь место также усвоение получаемых от преподавателя лингвистических сведений. При этом учащийся, по-видимому, каким-то образом преобразует сообщаемые ему сведения и инструкции, соотносит их с ранее имевшейся у него информацией, устанавливает определенную иерархию различных ее фрагментов, выявляет и, насколько это ему доступно, нейтрализует возможные противоречия и т.д. — т.е. сводит всю связанную между собой информацию в единую систему, организуя ее
так, как это для него оптимально при заданном составе и количестве ее элементов.
Разумеется, эти операции далеко не всегда осуществляются человеком осознанно. Не исключено даже, что чаще всего они бывают как раз неосознанными. Можно предположить, что именно с такой бессознательной реорганизацией и оптимизацией накопленной языковой информации связано то явление (наблюдавшееся, вероятно, многими из тех, кто глубоко изучал какой-либо иностранный язык), когда человек, возвращающийся к занятиям языком после сравнительно длительного (в несколько недель) перерыва, обнаруживает неожиданно большую свободу владения этим языком, чем непосредственно перед перерывом, после предшествовавшего ему периода интенсивного обучения.
Однако независимо от степени осознанности операций, происходящих при такой «самоорганизации» учащимся усваиваемых им данных, важно то, что такие операции носят активный характер и этим принципиально отличаются от простого запоминания — «зубрежки» — готовой информации.
Представляется, что и в системе АП было бы полезно предусматривать некоторый аналог таких активных процессов «усвоения» поступающей информации — т.е. включать в систему определенные средства самоорганизации и тем самым автоматической оптимизации в ней как самих вводимых лингвистических данных (подготовленных лингвистами фрагментов формализованного описания входного и выходного языков, различных переводных соответствий и трансформаций и т.п.), так и порядка вызова и применения этих данных при обработке текстов.
Попытаемся показать, какие возможности может дать в этом плане сущностный подход к лингвистическому описанию1 в той его модификации, которая принята в рамках работ по созданию второй очереди экспериментального комплекса ЯРАП для исследований по японско-русскому автоматическому переводу в Институте востоковедения РАН2.
2. Общие принципы организации лингвистического обеспечения в системе ЯРАП
В самом общем плане лингвистическое обеспечение системы ЯРАП состоит из описательной части, содержащей декларативную информацию о свойствах языковых единиц и их классов, и дина-
мической (операционной, процедурной) части, эксплицирующей лингвистические механизмы функционирования этой описательной информации при обработке текстов.
Все основные сведения о каждом из двух рассматриваемых языков — японском и русском, — т.е. прежде всего сведения о составе и структуре допустимых в них единиц, а также о существующих между ними переводных соответствиях, представляются при нашем подходе в описательной части лингвистического обеспечения. Организуются они таким образом, что для каждой языковой единицы, которая считается в рамках нашей задачи далее неразложимой (т.е. с точки зрения своей собственной сочетаемости и перевода является идиоматичной относительно своих возможных составных компонентов), задается исчисление всех допустимых для нее в тех или иных контекстных условиях способов ее сочетания с другими единицами при функционировании в составе более крупных единиц языка.
Поскольку перевод, представляя собой коммуникативную деятельность типа «текст^-текст», предполагает работу с естественноязыковыми текстами прежде всего на уровне собственно знакового плана языка3, в рамках данной коммуникативной задачи наиболее существенным является исчисление единиц и контекстов именно данного плана. Таким образом, для каждой единицы этого плана должны быть определены все собственно знаковые структуры, в составе которых она может употребляться, и те ограничения, которые налагаются при этом на саму эту единицу и на ее контекст. В первой очереди рассматриваемой системы ЯРАП/1 такое исчисление было ограничено в основном структурами лексико-морфологического и морфолого-синтаксического языковых ярусов4. При разработке ее второй очереди ЯРАП/2 основное внимание предполагается уделять структурам следующего, семантико-синтаксического яруса.
В рамках интересующего нас варианта сущностного подхода исчисление таких структур строится целиком на основе расширенного понятия структурной валентности языковой сущности5. Согласно определению этого понятия, как лексические, так и грамматические компоненты в составе словоформы способны обладать в собственно знаковом плане языка тем или иным специфическим для них набором структурных валентностей семантико-синтаксиче-ского характера, которые в сумме (с учетом морфологической структуры конкретной словоформы) образуют модель управления (= набор семантико-синтаксических структурных валентностей) самой словоформы.
В терминах таких валентностей, приписанных отдельным лексемам и морфологическим характеристикам слов, а также определяемых этими валентностями типов отношений зависимости, способов поверхностного оформления соответствующих отношений при их реализации в тексте и характеризующих их при этом семантических ограничений может быть описана любая языковая структура собственно знакового плана языка.
В системе перевода, помимо представленного указанным способом описания сочетаемости, для каждой единицы задается также перечень всех возможных для нее в разных контекстах переводных эквивалентов (в том числе трансформационных), за исключением тех, которые должны формироваться уже в пределах выходного (русского) языка с помощью его внутриязыковых перифрастических средств.
Правила, в форме которых строится требуемое исчисление, в общем случае могут быть сведены к логическим утверждениям типа: (1) Если X, то У,
где Х — лингвистически осмысленный фрагмент семантико-синтак-сической структуры текста, содержащий рассматриваемую языковую сущность (скажем, лексему или морфологическую характеристику), У — элементы и характеристики того же или других фрагментов структуры текста, которые могут или должны обнаруживаться в ней в присутствии фрагмента Х.
Подчеркнем, во избежание недоразумений, что речь идет именно об исчислении языковых структур и их характеристик, а не об алгоритме их обработки — утверждения приведенного типа задают чисто декларативную информацию и никак не определяют последовательность шагов при анализе или синтезе текстов. Это приходится подчеркивать в связи с тем, что в сходной форме — форме логической импликации — часто записываются как раз алгоритмы, что может вызывать непонимание со стороны специалистов в этой области, пытающихся интерпретировать подобные утверждения в более привычном для них алгоритмическом смысле. Эти утверждения, однако, отличаются от алгоритмических правил (скажем, от правил, определяющих процедуры анализа) своей логической направленностью. Именно: компонент Х в них, как уже отмечено, — это фрагмент не выражения текста, а его собственно знаковой, семан-тико-синтаксической структуры. Т.е., если брать, скажем, процесс анализа, в виде данного компонента задается не подаваемая на вход этого процесса информация о поверхностном составе обрабатываемого текста, по которой может формироваться та или иная гипотеза
о его собственно знаковой структуре, но сама эта гипотеза. Иными словами, приведенное выше правило следует читать:
(2) «Если предположить, что в данном тексте реализована структура X, то в его составе следует ожидать наличия элементов и характеристик У».
В этом смысле в связи с подобными правилами точнее говорить, по-видимому, не об импликации, а о секвенции.
Сказанное не означает, что все конкретные правила должны представляться непосредственно в форме секвенции. Она характеризует только логическую структуру используемых правил, конкретные же средства их формализованного представления могут иметь самый разный формат и различную степень внутренней сложности.
Так, данной логической структуре соответствует по своему содержанию стандартная «табличная» запись моделей управления в теории «Смысл^-Текст». Например, запись в третьем столбце таблицы, задающей модель управления русского глагола опасаться6:
Места
1 2 3
о им 1) °род за + 8вИн
2) УтГ
3)что + t
4) как бы + (0
с данной точки зрения имеет смысл: «Если обрабатываемая единица Е0 употреблена в контексте словоформы, реализующей лексему опасаться, причем в структуре зависимостей этого контекста занимает позицию глубинного «слуги» данной словоформы, заполняющего место с номером 3 в модели управления ее лексемы, то от этой единицы Е0 ожидается наличие следующих свойств (или, иначе, на эту единицу Е0 налагаются следующие ограничения): она должна входить в грамматический класс «существительное», иметь морфологическую характеристику «винительный падеж» и вводиться (оформляться) предлогом за».
В системе ЯРАП/2 для описания русского языка в модуле русского синтеза КиввЪап используется скобочный формализм7. Но интерпретироваться он может вполне аналогичным образом. Например, запись вида:
(4) D3(ВЛ[ЛК[в2/за2/под2/]])
D 3(ВЛ [ФМ [предл/Н] СМ [*лок/*направ л] ])
в статье глагола бросить может быть прочитана: «Если обрабатываемая единица употреблена в контексте глагола бросить, причем
занимает в структуре зависимостей этого контекста позицию «слуги» D (Dependent) данного глагола, реализующего его 3-й актант (D3), то для содержащей эту единицу группы в качестве вводящей ее лексемы ВЛ ожидается одна из конкретных лексем (ЛК) в2, за2, под2. Если эти ожидания не выполняются, вводящей лексемой может быть одна из единиц с формальным признаком (ФМ) предлога (предл) или наречия (Н) и семантической характеристикой (СМ) локализации (*лок) или направления (*направл)».
Первое правило (с конкретным перечислением вводящих лексем) описывает контексты типа бросить что-либо в корзину / за ширму / под стол, второе (с указанием их формальных и семантических признаков) — контексты типа бросить что-либо перед входом / позади крыльца / назад / вправо / наверх /сзади дома, сбоку от себя, слева от машины / в лесу / на дороге и т.п. Записанная таким образом информация может быть использована и при анализе — для формирования гипотезы о соответствующей связи зависимости, и при синтезе — для верификации оформления этой связи.
В японской части системы ЯРАП/2 для записи аналогичной по своему логическому устройству информации о языковых структурах семантико-синтаксического яруса разработан еще более сложный формализм, в терминах которого могут задаваться соответственно более детальные описания контекста рассматриваемых единиц. В нем, в частности, для каждой структурной валентности описываемой единицы могут различаться признаки, возможные в реализующих ее контекстах, — ПВозм, сведения о допустимых для этой валентности «прямых» вариантах реализации ПВР, сведения о ее «косвенных» вариантах реализации КВР8 и т.п.
В прямых вариантах реализации единица, заполняющая рассматриваемую валентность, предстает как непосредственный синтаксический спутник носителя этой валентности в структуре зависимостей (т.е. как его синтаксический «слуга» при нексусной реализации валентности и как «хозяин» — при юнктивной). Соответственно, в описании такого варианта реализации даются сведения о направлении зависимости, связывающей соответствующие две единицы, о порядке их следования в данном контексте, об их лексических, семантических и морфолого-синтаксических свойствах. При необходимости могут вводиться сведения и о других, периферических участниках описываемого контекста, с уточнением, если требуется, уже их признаков и позиций в его структуре.
В косвенных вариантах реализации валентностей определяется прежде всего тот участник контекста, который выступает в нем как
контекстный валентностный наследник КВН заглавной единицы статьи (это могут быть, например, предлоги и их аналоги, а также служебные, полузнаменательные, а иногда и знаменательные слова других частей речи). Такая единица-наследник обычно конкретизируется с помощью лексических, реже морфолого-синтаксических и семантических ограничений, и для нее задается тип контекстно-ва-лентностного соответствия — указание на то, какая валентность единицы-наследника используется в качестве КВ-представителя для описываемой валентности единицы-наследодателя. Как и в случае прямых вариантов, могут добавляться и сведения о периферических участниках описываемых структур.
Так, в статье глагола оконау «проводить; осуществлять; выполнять» часть сведений о контекстах, где этот глагол выступает в функции определения к своему второму актанту, может быть задана в следующем виде: (5) ИМЯ оконау1 А-2
ПВозм-1
Сем = ^действие МС = Щ/субст ПВР
ПВР-2 = СО <-ю2- Сп Структ-1:
ЛокВозм-1 = С0,Сп Структ-2 : ОО = П1 ДВозм-1 = П1 <<- Сп ЛокВозм-1 = С0,П1+,Сп
Приведенное описание можно прочесть следующим образом. «Если некоторая единица употреблена в контексте глагола оконау, являющегося заглавной единицей С0 данной статьи, в качестве его структурного спутника Сп, реализующего его 2-ю актантную валентность (А-2), то во всех вариантах такого контекста ожидается, что этот спутник имеет следующие ограничения на его возможные признаки (ПВозм): семантический признак (Сем) — *действие, мор-фолого-синтаксические признаки (МС) — существительное Щ или субстантиватор субст».
Из прямых вариантов реализации (ПВР) данного актанта в приведенной записи дан только второй вариант (ПВР-2). Он отличается тем, что заглавный глагол оконау (С0) непосредственно подчинен своему спутнику (Сп) по юнктивной (определительной) связи зависимости с индексом ю2 (С0 <—ю2— Сп). Контекстное окружение этой связи может иметь несколько вариантов структуры, из которых
здесь указаны два: Структ-1 и Структ-2. В случае Структ-1 единственное дополнительное ограничение касается возможной взаимной локализации ЛокВозм-1 заглавной единицы С0 и ее спутника: С0 стоит непосредственно слева от Сп, без каких-либо промежуточных элементов, как в примере: идзэн ни оконатта(С0) кэнкю:(Сп) «ранее проводившиеся(С0) исследования(Сп)». В случае Структ-2 в описываемом окружении ОО единицы С0 имеются дополнительные периферические элементы П1, а сама структура имеет два ограничения: на возможное положение этих дополнительных элементов в дереве зависимостей ДВозм-1 и на возможную взаимную локализацию участников структуры ЛокВозм-1. Именно: всякий дополнительный элемент П1 прямо или косвенно подчиняется спутнику Сп глагола С0 (П1 <<— Сп); заглавный глагол С0, как и в Структ-1, стоит слева от своего спутника Сп, но может быть отделен от Сп любым ненулевым числом (+) единиц, отвечающих требованиям к П1 (С0,П1+,Сп). Пример: 12 гацу ни оконатта(С0) "данкай(П11) сэдай-но(П12) конго-но(П1-3) раифусутаиру(П14) то(П1-5) сумаи-ни(П1-6) кансуру(П1-7) тё:са(Сп)" «проводившееся(С0) в декабре "об-следование(Сп) представителей поколения(П1-2) бума рождаемо-сти(П1-1) относительно(П1-7) их последующего(П1-3) образа жизни(П1-4) и(П1-5) местожительства(П1-6)"».
Легко видеть, что приведенное описание, как и предыдущие, имеет декларативный характер, обеспечивая исчисление описываемых контекстов.
3. Словарь и грамматика при сущностном подходе к лингвистическому обеспечению
Те правила рассматриваемого исчисления, которые специфичны для отдельных конкретных языковых единиц, указываются в словаре системы, те, которые являются общими для многих разных единиц, — в ее грамматике.
По существу, этот метод представления описательной части лингвистического обеспечения системы АП аналогичен обычному способу подачи лингвистических сведений при обучении языку (как иностранному, так и родному), а также интересующему нас искусству перевода. Как правило, операционные указания при таком обучении имеют лишь самый общий смысл и ограничиваются инструкциями типа: «Не начинайте переводить, пока не прочтете весь абзац до конца»; «Заголовок лучше переводить по окончании
перевода всего текста»; «Закончив перевод текста, перечитайте его с самого начала как самостоятельный текст» и т.п. Подавляющее же большинство конкретных лингвистических сведений предлагается учащимся именно в описательной форме, в виде перечня существующих в тех или иных контекстных условиях возможностей и запретов, например:
(6) «Если японский глагол выступает в предложении в качестве определения к существительному, он не может быть употреблен в "вежливой" форме»;
(7) «Между японским существительным и относящейся к нему "падежной" частицей иногда может вставляться пояснение к этому существительному, выделенное скобками или тире»;
(8) «Английское слово until может употребляться как предлог и переводиться русским предлогом до только при условии, что управляющий им глагол имеет при себе отрицание».
При таком способе организации описательной части лингвистического обеспечения системы АП о возможностях ее самоорганизации можно говорить в двух аспектах. Во-первых, это возможности автоматического осуществления взаимной корректировки, а также при необходимости — перераспределения элементов информации, включаемых в два отдела требуемого лингвистического обеспечения: словарь и грамматику. Во-вторых, это возможности интеграции в составе рассматриваемого лингвистического обеспечения, без дезорганизации этим его функционирования, элементов информации, формально находящихся в противоречии друг с другом — скажем, двух утверждений об английской единице until (8) и (9):
(9) «Если until употреблено как предлог и управляющий им глагол не имеет при себе отрицания, то этот глагол сам подчиняется такой цепочке глагольных единиц (в частном случае состоящей из одного глагола), которая образована единицами восприятия (типа notice "замечать") эмоционального отношения (типа want "хотеть", like "любить"), модальности (be going to, intend "намереваться") или интеллектуального состояния (think "думать", expect "ожидать", suppose "предполагать") и одна из этих глагольных единиц имеет при себе отрицание».
Обе названные группы операций самоорганизации лингвистического обеспечения системы АП, по-видимому, имеют свои аналоги в процессах, связанных с усвоением языкового материала при обучении.
Для первой из них косвенным подтверждением существования такого ее аналога может служить тот общеизвестный факт, что усвоение грамматики происходит наиболее успешно, когда оно осу-
ществляется параллельно с расширением словарного запаса учащегося.
Для второй группы операций о том же свидетельствует распространенность такой методики преподавания, когда сведения, сообщаемые на продвинутых этапах обучения, частично опровергают сведения начального этапа. Скажем, для английского языка в первый период обучения, как правило, сообщается, что в нем имеет место жесткий порядок слов и подлежащее всегда ставится перед сказуемым, а дополнение — после него. В дальнейшем же учащийся получает информацию о том, что, вообще говоря, допустимы и другие варианты порядка слов, в том числе вариант «дополнение — сказуемое — подлежащее», а также вариант «дополнение — подлежащее — сказуемое». Соотнесение между собой таких, частично противоречащих друг другу сведений и нейтрализация соответствующих противоречий при непосредственной работе с языком составляет, очевидно, органический элемент всего процесса обучения.
Таким образом, включение в систему обработки текстов данных двух групп операций по самоорганизации описательной части ее лингвистического обеспечения означало бы отражение в этой системе реально существующих аспектов моделируемого ею типа языковой деятельности человека.
В системе ЯРАП принципиальную возможность операций первой группы — автоматической проверки соответствия между словарем и грамматикой и, при необходимости, автоматического перераспределения между ними содержащейся в них информации — предполагается обеспечивать на основе общих принципов сущностного подхода к языку. Согласно этим принципам, грамматика трактуется как обобщение словаря, т.е. как массив, объединяющий те элементы словарной по своему содержанию информации, которые оказываются совпадающими для разных словарных единиц и которые поэтому в целях экономии есть смысл не повторять в статьях всех этих словарных единиц, а вынести в отдельное описание, оставив в исходных словарных статьях только соответствующую отсылку.
Если словарные единицы, характеризующиеся такими общими для всех них элементами информации, достаточно разнообразны, роль требуемой отсылки выполняет имя грамматического класса, в который они объединяются по признаку этой общности, а сама общая для них информация организуется в рамках грамматики как целостное описание, сопоставляемое данному грамматическому классу. Если же какие-то элементы информации совпадают для
единиц, обладающих также и сходством состава и структуры своего поверхностного выражения, отсылкой к общей для таких единиц информации может служить сама совпадающая часть их поверхностного выражения, для которой в этом случае формируется особая, «обобщающая» словарная статья, содержащая всю соответствующую информацию.
Если совпадающие фрагменты обнаруживаются, скажем, в описаниях всех лексем одной и той же вокабулы (это возможно, например, при полисемии, при словообразовании путем конверсии и т.д.), в качестве их обобщения может выступать сама вокабула. Ей может приписываться в этом случае самостоятельная статья, в которую и будут выноситься из статей отдельных лексем совпадающие для них фрагменты описания9.
Другой пример такого рода — это возможность частичного совпадения семантико-синтаксических свойств русских лексем, имеющих в своей морфологической структуре одинаковые префиксы. В русской части системы ЯРАП/2 для учета данной возможности предусмотрен особый тип словарных статей — статьи отдельных префиксов, где и задаются свойства, общие для соответствующих префиксальных образований. Приведем пример такой статьи для одного из значений приставки вс (вз), реализуемого, например, в лексемах вскинуть, встащить, вздернуть, взбросить и т.п.: (10) ы_вс+ + 10 2 преф
## УУ( Р£(Уф[ФМ[св/нсв] СМ[*движение.*ед]] Нф[ФМ[нп]] ВКМ[: % FS(св,св,)] ВКУ^(*направл) GV(Вскинуть)] УДУ^(*длит) УЯ[у_[СИ[маршрут]]]]))
Статья может быть прочитана следующим образом: «Если верна гипотеза, что в рассматриваемом приставочном образовании представлен префикс вс в своем 2-м значении, то ожидается, что входящая в это образование бесприставочная лексема отвечает следующим условиям (Уф): она имеет формально-грамматический (ФМ) признак глагола совершенного (св) или несовершенного (нсв) вида и семантические (СМ) признаки *движение.*ед (признак *ед указывает здесь на однонаправленность движения, отличая, например, ползти от ползать); кроме того у нее не должно быть (Нф) формально-грамматического признака непереходности (ФМ[нп]). При выполнении указанных условий статья рассматриваемого префиксального образования строится из словарной статьи бес-
приставочной лексемы следующим образом. В части морфологии в исходную статью включаются (ВКМ) указания о принадлежности префиксального образования к совершенному виду (св, св) и о релевантности для него способа образования видовой пары, вводимого символом %. В части информации, имеющей отношение к семан-тико-синтаксическим валентностям, в статью включаются (ВКУ): в список признаков, задающих значение (ZZ) данной лексической единицы, — признак направительности (*направл), в список релевантных для нее обобщающих статей (ОУ) — статья Вскинуть. При этом удаляются (УДУ): из списка признаков, задающих значение (ZZ), — признак длительности *длит»; из списка структурных валентностей — валентности с любым номером (и_), для которых в зоне валентностной семантики (У5) дана семантическая интерпретация маршрута (СИ[маршрут])».
Отметим, что статьи данного типа позволяют не только более компактно представлять лексические сведения о единицах, включенных в словарь системы, но и формировать предположительную информацию для слов, которые в этом словаре отсутствуют. В том числе приведенная префиксальная статья обеспечивает корректную обработку, например, следующего входного задания11: (11) этот
чудовище RD1[вспендюрить ИО2[корзина] ИО3[крыша]] вспендюрить прош ИО1[чудовище] ИО2[корзина] КО3[крыша] корзина RD2[вспендюрить ИО1[чудовище] ИО3[крыша]] крыша RD3[вспендюрить ИО1[чудовище] ИО2[корзина]]
Хотя в составе этого задания содержится отсутствующая в словаре лексема вспендюрить, по нему синтезируется вполне удовлетворительный текст: это чудовище вспендюрило корзину на крышу.
Обобщающие словарные статьи образуют своего рода «грамматику в словаре», так что грамматический и лексический компоненты описательной части лингвистического обеспечения системы не требуют при рассматриваемом подходе строгого разграничения, но характеризуются, напротив, способностью, так сказать, к взаимопроникновению. Строятся они, как и естественно ожидать при такой трактовке их соотношения, достаточно единообразно. И в лексических, и в грамматических описаниях используется одна и та же структурная схема распределения информации по отдельным зонам и разделам описания, а сведения, помещаемые в одноименные зоны и разделы как в словаре, так и в грамматике записываются на одном и том же формальном языке и с помощью правил одних и тех же форматов.
4. Два типа грамматических классов в системе ЯРАП
Как видно из предыдущего, грамматика при сущностном подходе к лингвистическому описанию предстает как совокупность описаний отдельных грамматических классов, и конкретный состав ее существенно зависит от того, какие классы слов считается целесообразным выделять при ее составлении.
Наиболее очевидными являются при этом классы того типа, который можно назвать парадигматическим. Они объединяют конкретные языковые единицы, взятые как объект самостоятельного описания, и формируются преимущественно по признаку (частичной) общности характерного для соответствующих единиц набора их свойств определенного яруса. В традиционном языкознании этому соответствуют такие средства грамматического описания, как части речи и аналогичные им более мелкие синтаксические классы и подклассы, с одной стороны, и лексико-семантические классы слов, с другой. В информацию к классам первого типа выносятся преимущественно сведения о формальных характеристиках входящих в эти классы единиц, в информацию к лексико-семантическим классам — сведения о соответствующих семантических свойствах. Могут выделяться и классы смешанного характера.
В лингвистическом обеспечении первой очереди описываемой системы ЯРАП/1 предусматривались только классы данного, парадигматического типа. Это морфолого-синтаксические классы японских единиц, в статьях которых задаются ограничения на линейную сочетаемость, общие для единиц того или иного класса, а также сведения о характерных для этих единиц межъязыковых преобразованиях, прежде всего позиционных12. Например, для класса японских субстантиваторов дается статья: (12) < *120 субст *231 :зс *244 Щ/Ц/пост *800 субст >.
В ней указано, что слева от единицы, имеющей в зоне *120 признак субст, допускаются, согласно ограничениям из зоны *231, словоформы только одного типа — с глагольной морфологической характеристикой «заключительный статус» (:зс). Справа от такой единицы, согласно ограничениям из зоны *244, недопустимо появление единиц, чьи лексемы входят в морфолого-синтаксические классы «существительное» (Щ), «арабская цифра» (Ц) или «постпо-
зитив» (пост). При межъязыковой обработке, согласно сведениям из зоны *800, для единицы данного грамматического класса релевантна процедура с тем же заглавием, что и сам этот класс.
В разрабатываемой в настоящее время системе ЯРАП/2 помимо парадигматических грамматических классов допускается также выделение грамматических классов другого типа — синтагматических, или функциональных. В такие классы объединяются языковые единицы, рассматриваемые как элементы структурного контекста других единиц. Различие классов этих двух типов состоит в следующем. Для парадигматического класса релевантность сопоставленных ему лингвистических сведений для той или иной конкретной единицы определяется только ее собственной принадлежностью к данному классу. Для синтагматического же класса это зависит от структурной позиции, занимаемой данной единицей относительно какой-то другой единицы того же текста. В частности, при анализе текста релевантность для той или иной единицы таких синтагматических сведений может быть установлена для нее только после того, как сформирована гипотеза о наличии между этой и некоторой другой единицей текста соответствующего структурного отношения.
Одним из наиболее ярких примеров синтагматических грамматических классов могут служить классы, объединяющие такие языковые единицы и характеристики, которые, участвуя в оформлении структурных отношений, реализующих валентности других единиц, обусловливают наличие у результирующих словосочетаний определенных стандартных свойств. В терминах классов такого рода естественным образом интерпретируются такие традиционные грамматические понятия, как, например, подлежащее, дополнение, обстоятельство и другие члены предложения.
Так, русское подлежащее можно охарактеризовать с этих позиций как элемент семантико-синтаксической структуры предложения, определяемый относительно личного глагола как единица, заполняющая одну из валентностей этого глагола — первую или вторую, в зависимости от залога, — и представляющая собой с точки зрения поверхностного оформления либо имя в именительном падеже, либо инфинитив, либо придаточное предложение определенной структуры и т.д. Стандартные структурные свойства, которые задает такой элемент для соответствующего сочетания единиц и которые должны быть включены в описание грамматического класса «подлежащее», — это, например, существующие в языке правила расположения подлежащего относительно других актантов и сирконстантов
того же глагола; сведения о его возможном месте в коммуникативной структуре предложения; сведения о трансформационных потенциях сочетания подлежащего со своим сказуемым и т.д.
В модуле русского синтеза системы ЯРАП/2 для сведений такого рода выделен компонент грамматического описания, где в качестве заглавий статей выступают указания на роль описываемой единицы Е1 в системе зависимостей как «слуги» D (Dependent) или «хозяина» G (Governor) другой единицы Е2, определяемой своей частью речи, с уточнением типа реализуемой при этом валентности: если это валентность единицы Е2, она задается своим номером, если единицы Е1 — индексом юнкции j. Чтобы отличить такие грамматические заглавия от имен обычных лексем (в которых вполне допустимы латинские буквы, цифры и знаки препинания), они вводятся двойным твердым знаком и заканчиваются двойным плюсом. Приведем фрагменты двух таких статей: для дополнения, реализующего третий актант глагола D3(r) (пример (13)), и для определения к существительному (пример (14)):
(13) ъъБ3(Г)+ +
## VV( Б3(Уф[ФМ[Г]] ВКМ[__Ь:инф] )
Б3(Уф[ФМ[Щ/П/:прич]] ВКМ[__Ь:дат-п]) )
Данный фрагмент статьи D3(Г) можно прочесть следующим образом: «Если рассматриваемая единица является синтаксическим "слугой" D глагола Г и выступает в системе зависимостей в качестве 3-го актанта (D3) этого глагола, то при условии (Уф), что данная единица сама имеет формальный признак (ФМ) глагола (Г), от нее ожидается, что ее морфологическая характеристика включает (ВКМ) признак инфинитива (:инф), а аналитический показатель управления для данной связи отсутствует — представляет собой "пустую лексему" (__L); если же рассматриваемая единица имеет формальный признак существительного (Щ), прилагательного (П) или причастия (:прич), то ожидается, что в ее морфологическую характеристику включен признак дательного падежа (:дат-п), опять-таки с "пустой лексемой" (__L) в качестве аналитического показателя управления». Первая часть данного утверждения может быть проиллюстрирована примером: Родителей просят(Г) зайти(03) в школу, вторая - примером: Дайте(Г) детям(03) задание.
(14) ъъЩШ)+ +
## VV( БКУф[ФМ [Г] ВА[2]] Нф[ФМ[№>РА88]] ВКМ[:пасс.прич] СГ[т0[род.чис.пад]]))
Приведенный фрагмент статьи Dj(Щ) можно прочесть: ««Если рассматриваемая единица является синтаксическим «слугой» D
существительного Щ и подчинена ему по юнктивной связи j (т.е. выступает в системе зависимостей в качестве его определения), то при условии (Уф), что данная единица имеет формальный признак (ФМ) глагола Г, причем имеющаяся между ним и существительным юнктивная связь реализует 2-ю актантную валентность (ВА[2]) этого глагола, а сам глагол не имеет (Нф) формального признака недопустимости пассива (NoPASS), то от рассматриваемого глагола ожидается, что в его морфологическую характеристику включен (ВКМ) признак пассивного причастия (:пасс.прич) и имеет место его согласование (СГ) с определяемой им текстовой единицей (т0) по роду, числу и падежу (род.чис.пад)». Пример: выполняемое(Dj) задание(Щ).
Синтагматические грамматические классы предусматриваются и в японской части системы ЯРАП/2. Проиллюстрируем их применительно к фрагменту описания валентности А-2 японского глагола оконау в примере (5). Приведенные в этой записи сведения о возможностях реализации второй валентности данного глагола в определительных конструкциях справедливы не только для глагола оконау, но и для других японских переходных глаголов. Поэтому практически все содержание этого описания (исключая только семантические ограничения, которые зависят от лексико-семантических свойств конкретных глагольных лексем) может трактоваться как грамматическая информация, характеризующая синтагматический класс «определяемое». Более того, если индекс реализуемой валентности в данном описании заменить переменной, то эти сведения будут применимы и к другим актантным валентностям, которые допускают реализацию посредством определяемого. Поэтому для всех них вместо самих соответствующих вариантов реализации достаточно указывать только признак синтагматического класса «Определяемое», а развернутое описание требуемого варианта реализации давать в статье этого класса: (15) ИМЯ Определяемое A-i
ПВозм-1
МС = Щ/субст ПВР
ПВР-2 = СО <-ю^ Сп Структ-1:
ЛокВозм-1 = С0,Сп Структ-2 : ОО = П1 ДВозм-1 = П1 <<- Сп ЛокВозм-1 = С0,П1+,Сп
Заметим, что сам факт допустимости определяемого как варианта реализации той или иной валентности, в свою очередь, носит общеграмматический характер и тоже может быть вынесен в описание соответствующих классов, но на этот раз уже парадигматических. Например, в статью парадигматического класса «Глагол» может быть помещена информация:
(16) ИМЯ Глагол
А-1
ПВР
ПВР-1 == Подлежащее ПВР-2 == Определяемое
в статью парадигматического класса «ПереходныйГлагол» — информация:
(17) ИМЯ ПереходныйГлагол ГраммКласс Глагол
А-2 ПВР
ПВР-1 == ПрямоеДополнение ПВР-2 == Определяемое
а в статье конкретного глагола останутся только ссылки на самые узкие из включающих его парадигматических грамматических классов (из которых по транзитивности можно будет извлечь ссылки на все более широкие классы данного типа) плюс информация, специфическая именно для данного глагола. В частности, для глагола оконау достаточно будет дать ссылку на класс «ПереходныйГлагол» и на семантические ограничения, налагаемые лексемой оконау на каждый из двух ее актантов:
(18) ИМЯ оконау1
ГраммКласс ПереходныйГлагол А-1
ПВозм-1
Сем = *человек/*лицо
А-2
ПВозм-1
Сем = ^действие
Поскольку в статье «Переходный Глагол» есть своя грамматическая ссылка на парадигматический класс «Глагол», для оконау тем самым становится релевантной информация из статей обоих этих классов, включая сведения о том, что каждый из двух его актантов может реализоваться, помимо других возможностей, во всех вариантах, представленных в статье синтагматического грамматического класса «Определяемое» (15).
Таким образом, грамматическое описание рассматриваемого типа в современной его версии объединяет в себе как грамматику частей речи, так и грамматику членов предложения. Такое расширение его сферы, однако, не меняет того уже указанного нами принципа, что описание грамматических классов любых типов строится по тому же образцу, что и описание любой конкретной лексической или морфологической единицы — т.е. что словарь и грамматика принципиально едины и в отношении структуры включаемых в них описаний, и в отношении используемых в них формальных средств.
Благодаря этому любое грамматическое правило может быть без каких-либо существенных перестроек в способе его представления перенесено в словарную статью той конкретной языковой единицы, для которой оно релевантно. И наоборот, при обнаружении в словарных статьях ряда единиц одинаковых правил или (в случае синтагматической грамматической классификации) частей правил эти правила или части правил могут быть заменены в исходных статьях сокращенным обозначением, понимаемым как имя соответствующего грамматического класса, и вынесены в грамматику в виде описания этого класса также без каких-либо изменений в способе их формулировки.
Такое прозрачное и единообразное соотношение словаря и грамматики и создает, как представляется, лингвистическую базу для выполнения принципа самоорганизации системы АП в данном ее аспекте, т.е. обеспечивает принципиальную возможность разработки средств автоматизированного пополнения и уточнения грамматики на основе поступающей в систему дополнительной лексической информации, а также автоматизированной проверки полноты и адекватности лексических словарных статей с учетом имеющихся грамматических описаний.
5. Принципы снятия конфликтов при расширении и уточнении лингвистической информации
Второй отмеченный нами аспект формирования описательной части лингвистического обеспечения системы АП, требующий включения в нее элементов самоорганизации, связан, как мы говорили, с возможностью поступления в нее на разных этапах ее разработки и от разных участников частично противоречивой информации. Эта возможность не только реальна, но для больших систем, в класс которых входят промышленные системы АП, практически неизбежна.
Поэтому целесообразно предусмотреть какие-то средства, которые позволяли бы системе работать и с такой, частично противоречивой информацией (речь не идет, разумеется, о грубых ошибках со стороны разработчиков, приводящих к искажению всего лингвистического описания).
В системе ЯРАП/1 в качестве таких средств используется прежде всего противопоставление трех типов ограничений: «разрешений», «запретов» и «исключений из запретов»13. При этом в каких бы из релевантных для данной единицы частей описания ни встретились такие ограничения, запреты действуют «сильнее», чем разрешения, исключения из запретов — «сильнее», чем запреты.
Например, японскому существительному в его морфолого-син-таксической грамматической статье Щ приписаны две зоны «разрешений» относительно его непосредственного правого контекста — *241и *242:
(19) < *120 Щ
*241 дэ1
*242 Щ/Ч/Ц/мод/пост/соч/ЗП >
Информация, указанная в этих зонах, означает, что непосредственно справа от единицы, входящей в класс Щ, можно ожидать появления только таких словоформ, которые имеют лексему с именем дэ1 (зона *241) или с грамматическими признаками существительного (Щ), частицы (Ч), арабской цифры (Ц), модификатора (мод), постпозитива (пост), показателя сочинения (соч) или знака препинания (ЗП).
В класс существительного входит, в частности, японская лексема бааи «случай, обстоятельства», о чем свидетельствует наличие признака Щ в зоне *120 ее словарной статьи:
(20) < *100 бааи1_1
*110 [случай]/[обстоятельство:мн]
*120 Щ.информ.адв
*244 Ч
*245 ни2/ва1 >;
Соответственно, для бааи должны действовать все разрешения, предусматриваемые в вышеприведенной статье Щ. Однако в статье данной лексемы имеются еще две зоны ограничений на правый контекст: зона запретов *244 и зона исключений из запретов *245. В зоне запретов указан признак частицы Ч, следовательно, бааи в отличие от стандартных японских существительных не допускает появления частиц непосредственно справа от себя. Но в зоне исключений из запретов при этом даны имена двух конкретных частиц:
ни2 и ва1, что уточняет имеющийся запрет: справа от бааи не допускаются никакие частицы, кроме ни2 и ва1.
При разработке второй очереди данной системы ЯРАП/2 рассмотренный способ согласования между собой частично противоречащих друг другу сведений предполагается дополнить еще одним, который, как представляется, позволит обеспечивать нейтрализацию возможных конфликтов в разрабатываемом лингвистическом обеспечении более системным образом. Этим целям должен служить последовательный учет в записи включаемой в систему языковой информации того общеизвестного принципа, что в языке не так много правил и законов, носящих абсолютный характер. Чаще всего можно говорить лишь о большей или меньшей нормативности тех или иных выражений, конструкций, трансформаций и т.д., но не об их обязательности или недопустимости в абсолютном смысле.
Для отражения в лингвистическом обеспечении ЯРАП/2 этого свойства естественного языка предполагается систематически использовать такой тип информации, как оценки степени нормативности языковых структур и характеристик, представленных отдельными элементами лингвистического описания. Оценки эти должны быть основаны на статистике и могут служить для динамической градации имеющихся лингвистических сведений по степени их надежности и перспективности для решения той или иной конкретной задачи текстовой обработки14. Сами соответствующие сведения при этом сохраняют ту же основную логическую структуру, которая была представлена выше формулами (1) и (2). Она приобретает лишь несколько более сложный вид: (21) Если Х, то У с оценкой Рху / Рх,
т.е.: «Если предположить, что в данном тексте реализована структура х, то в его составе можно ожидать наличия элементов и характеристик У с оценкой нормативности РхУ/Рх, где Рх — общее число употреблений структуры Х, Рху — число контекстов, включающих обе структуры Х и У».
Подчеркнем, что общий характер лингвистического описания от введения в него оценок нормативности не меняется: оно по-прежнему остается исчислением языковых структур и их характеристик, а не набором процедур их обработки при анализе или синтезе.
При дополнении используемых лингвистических сведений статистическими оценками предложенного вида отмеченная выше опасность появления в системе, по мере ее роста и совершенствования, частично противоречивой информации, теряет свою остроту.
Так, правила (8) и (9), которые были приведены выше для английского until в предложном употреблении, получат разные статистические оценки степени их надежности (определяемой величиной дроби PXY/PX) и сферы их применимости (определяемой знаменателем этой дроби PX). Соответственно, нейтрализовать возникающее между этими правилами противоречие можно путем сравнения сопоставленных им оценок. Например, если два противоречащих друг другу правила имеют одну и ту же сферу применимости (одинаковый знаменатель PX), но одно из них является при этом менее точным (имеет меньший числитель PXY), естественно отказаться от этого менее точного правила в пользу более точного.
Поскольку такое сравнение в принципе может быть автоматизировано, постольку рассматриваемый подход к организации описательной части лингвистического обеспечения системы АП дает принципиальную возможность ее самоорганизации и в этом аспекте.
6. Функции оптимизации и самоорганизации
применительно к процедурной части лингвистического обеспечения системы ЯРАП
Остается рассмотреть особенности организации и обусловленные ими возможности самоорганизации системы ЯРАП применительно к операционной, процедурной части ее лингвистического обеспечения. В своей операционной интерпретации принцип самоорганизации можно понимать в первую очередь как способность управляющего алгоритма варьировать состав описательной информации, привлекаемой при обработке текста, и порядок обращения к отдельным ее элементам в зависимости от параметров самого обрабатываемого текста.
При сущностном подходе, когда все особенности семантико-син-таксической структуры предложений и текстов в целом представляются, благодаря понятию семантико-синтаксической структурной валентности, через свойства образующих эти предложения и тексты слов (вернее, компонентов их морфологической структуры), одним из основных параметров, которые должен учитывать соответствующий алгоритм, является, очевидно, сам словарный состав обрабатываемого текста. Понятно, что применять при обработке текста следует только ту информацию, которая релевантна для имеющихся в нем слов.
При изложенном выше способе организации описательной части лингвистического обеспечения системы это означает, что речь
должна идти об информации, которая записана либо непосредственно в словарных статьях лексем и морфологических признаков, входящих в структуры обрабатываемых на том или ином этапе слов, либо в описаниях (имеющих, как уже указывалось, также словарную форму) тех грамматических классов, имена которых упоминаются в этих статьях.
Один из простейших способов организации алгоритма, управляющего процессом анализа, так, чтобы он использовал в каждом конкретном случае только такую, релевантную для этого конкретного случая описательно-лингвистическую информацию, состоит в том, чтобы перед началом обработки очередного фрагмента текста формировать так называемые «рабочие» словарно-грамматические статьи всех словоформ этого фрагмента текста, объединяющие всю релевантную для соответствующих словоформ языковую информацию. Для этого из словаря и грамматики должны прежде всего извлекаться словарные статьи лексем и морфологических характеристик, входящих в морфологическое представление каждой словоформы, а также описания грамматических классов, в которые, согласно перечню, имеющемуся в их словарных статьях, входят эти лексемы и морфологические характеристики. Далее для информации, записанной в одноименных зонах и разделах всех статей и описаний, соответствующих одной и той же словоформе, если в них нет на этот счет каких-либо специальных указаний, должно рассматриваться ее объединение. Существенной переформулировки этой информации или других ее преобразований, как явствует из предыдущего изложения, при таком ее объединении не требуется, так что практически оно происходит только в том смысле, что информация, содержащаяся в одноименных зонах и разделах разных статей, релевантных для одной и той же текстовой единицы, становится доступна на одних и тех же этапах обработки и применяется одинаковым способом.
Непосредственно в процессе обработки текста должна использоваться информация только из таких «рабочих» словарных статей. Сама эта обработка для случая анализа может быть организована, например, таким образом, что на основе сведений о моделях управления словоформ данного предложения — т.е. о совокупностях се-мантико-синтаксических структурных валентностей, приписанных в словаре и грамматике лексическим и морфологическим компонентам этих словоформ, — алгоритм строит все возможные гипотезы об отношениях между отдельными словоформами, способных реализовать каждую из рассматриваемых валентностей, после чего все
остальные лингвистические сведения используются для фильтровки полученного, заведомо избыточного набора гипотез.
Отметим, что даже при таком, достаточно прямолинейном способе организации операционной части системы автоматического перевода требование самоорганизации ее функционирования в смысле автоматического приспособления, адаптации управляющего алгоритма к специфическим особенностям обрабатываемого текста в некоторой степени выполняется, поскольку информация, не релевантная ни для одного из допустимых вариантов морфологического представления словоформ текста, при обработке этих словоформ не только не проверяется, но даже доступ к ней управляющим алгоритмом не предусматривается.
Тем не менее на практике для значительной части информации, которая таким управляющим алгоритмом вызывается как релевантная для того или иного текста, по окончании его обработки выясняется, что в конечном итоге она была для него «лишней» и только осложняла процесс обработки — приводила к формированию ложных, как оказывалось в дальнейшем, гипотез о его структуре (вернее, о структуре отдельных его фрагментов).
Чтобы по возможности уменьшить участие в обработке текстов такой «лишней» для них информации и тем самым усилить способность алгоритма обработки «приспосабливаться» к свойствам обрабатываемого текста, при организации операционной части второй очереди системы ЯРАП предполагается разработать такие процедуры вызова и использования описательно-лингвистической информации, являющейся с точки зрения изложенного подхода релевантной (а вернее, условно релевантной) для того или иного текста), которые будут последовательно учитывать приписанные отдельным элементам этой информации оценки степени ее нормативности. Например, управляющий алгоритм должен будет активизировать вначале только наиболее частотные из соответствующих элементов информации, а к более редким свойствам слов обращаться лишь при условии, что обращение к свойствам, характерным для них в большей мере, не дает удовлетворительных результатов — т.е. не позволяет построить достаточно нормативную семантико-синтакси-ческую структуру обрабатываемого текста.
Существенным представляется при этом то свойство «хорошего» текста, что в нем, как правило, не допускается скопление в одной и той же точке его структуры сразу нескольких конструкций, каждая из которых характеризуется, с точки зрения способа ее выражения в имеющемся контексте, малой нормативностью. Появление подобно-
го скопления в каком-либо из вариантов анализа некоторого текста должно рассматриваться как указание на меньшую перспективность этого варианта для получения приемлемого результата по сравнению с имеющимися альтернативными вариантами.
Один из возможных здесь подходов разработан А.В. Костыркиным, предложившим трактовать процедуру такого анализа как задачу удовлетворения ограничений (Constraint Satisfaction Problem) и использовать при решении этой задачи метод динамических возвратов М.Л. Гинсберга15.
В заключение хотелось бы отметить тот важный момент, что, поскольку сведения о лингвистической нормативности имеют при рассматриваемом подходе статистическую природу, в процессе работы системы они могут в принципе корректироваться автоматически путем накопления соответствующей статистики непосредственно по результатам произведенной обработки - возможно, с той оговоркой, что эти результаты первоначально должны быть подтверждены человеком.
Таким образом, возникает принципиальная возможность создания средств автоматической оптимизации функционирования системы обработки текстов, опирающейся на рассматриваемый подход, применительно к текстам различных типов. Разработка таких средств позволила бы, по-видимому, в какой-то мере смоделировать в рамках систем автоматической обработки текстов еще один аспект усвоения языковых знаний и навыков человеком - накопление им опыта в процессе проработки (в частности, перевода) реальных конкретных текстов.
Примечания
1
Шаляпина З.М. Трехмерная стратификационная модель языка и его функционирования. К общей теории лингвистических моделей. М.: Вост. лит., 2007. Глава 5. С. 150-250.
О комплексе ЯРАП см., например: Экспериментальный комплекс ЯРАП для лингвистических исследований в области японско-русского автоматического перевода: первая очередь / Авторы: З.М. Шаляпина, Л.С. Модина, М.И. Канович, В.И. Любченко, А.С. Панина, Н.И. Сенина, В.И. Сивцева, Е.С. Тарасова, И.М. Хайлова, О.А. Штернова: Рук. деп. в ИНИОН РАН 5.11.01 № 56804. М.: ИВ РАН, 2001. 404 с.; Шаляпина З.М., Костыркин А.В., КановичМ.И., МодинаЛ.С., Панина А.С., Тарасова Е.С. Экспериментальный комплекс ЯРАП для исследований по японско-русскому автоматическому переводу: 2008 г. // Бюллетень Общества востоковедов РАН. Вып. 17: Труды меж-
2
институтской научной конференции «Востоковедные чтения 2008»: Москва, 8-10 октября 2008 г. М.: ИВ РАН, 2010. С. 359-397.
См. об этом в работах: Шаляпина З.М. Трехмерная стратификационная модель ... . Глава 7. С. 327-348; ShalyapinaZoyaM. Understanding and Generation of Texts from the Standpoint of the Three-Dimensional Stratificational Linguistic Framework // Understanding by Communication / Eds. E. Borisova, O. Souleimanova. Newcastle-upon-Tyne: Cambridge Scholars Publishing, 2013. P. 6-32.
См.: Модина Л.С. , Шаляпина З.М. Принципы анализа японских текстов при моделировании японской лексико-морфологической системы // Труды международного семинара «Диалог 1996» по компьютерной лингвистике и ее приложениям (Пущино 4-9 мая 1996 г.) М., 1996. С. 169-174; Канович М.И., Шаляпина З.М. Русский морфологический и морфолого-синтаксический синтез по неполной и/или неточной входной информации // Русский язык как иностранный: лингвистические проблемы (к 20-летию кафедры современного русского языка). М.: ИКАР, 1997. С. 137-147.
Шаляпина З.М. Структурные валентности как универсальный инструмент описания языковой сочетаемости (при сущностном подходе к ее моделированию) // Московский лингвистический журнал, 2001, том 5, № 2. С. 35-84; Шаляпина З.М. Трехмерная стратификационная модель ... . С. 150-154 и далее.
Жолковский А.К., Мельчук И.А. О семантическом синтезе // Проблемы кибернетики. Вып. 19. М.: Наука, 1967. С. 195.
О модуле русского синтеза комплекса ЯРАП и используемых в нем формализмах см.: RUSSLAN: A System of Russian Language Generation // Investigations into Formal Slavic Linguistics. Contributions of the Fourth European Conference on Formal Description of Slavic Languages — FDSL IV held at Potsdam University, November 28-30, 2001. Part I. Linguistik International. Band 10. Frankfurt am Main et al.: Peter Lang Verlag, 2003. P. 385-403; КановичМ.И., Шаляпина З.М. Аппарат R-отсылок как универсальное средство синтаксического синтеза (на опыте разработки системы русского синтеза RussLan) // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции «Диалог 2006». М.: РГГУ, 2006. С. 207-213; Канович М.И., Шаляпина З.М. Система русского синтеза RussLan в двух разных коммуникативных задачах // Понимание в коммуникации: человек в информационном пространстве. Т.1. Ярославль: ЯГПУ, 2012. С. 244-261.
О прямых и косвенных вариантах реализации структурных валентностей см.: Шаляпина З.М. Трехмерная стратификационная модель ..., Гл. 4. С. 109-111; Шаляпина З.М. Аналитические показатели управления в синтаксической структуре // Вестник РГГУ, Серия «Языкознание. Московский лингвистический журнал» 2008. № 10. М.: РГГУ. С. 11-57.
Целесообразность обобщений такого «внутрисловарного» типа отмечают, в частности, разработчики некоторых информационных систем. См., например: Леонтьева Н.Н. Об информационной системе словарей Машинного фонда русского языка // Машинный фонд русского языка: идеи и суждения. М.: Наука, 1986. С. 109-125.
3
4
5
6
7
8
Чтобы отделить обобщающие словарные статьи в лингвистическом обеспечении модуля КиввЬап от статей конкретных лексем, заглавия первых начинаются с символов, не используемых для обычной лексики, например, ы, ъ, ь, знака подчеркивания, заглавных букв (как ниже для статьи Вскинуть) и т.п. Обозначения вида «X КБ1[У]» и «X RGi[Y]» задают синтаксическую роль единицы X по отношению к Y в структуре предложения: Di — роль синтаксического «слуги», заполняющего валентность i единицы Y, Gi — роль синтаксического «хозяина», чью валентность i заполняет единица Y. Подробнее см.: Канович М.И., Шаляпина З.М. Аппарат R-отсылок ... .
Модина Л.С. , Шаляпина З.М. Лексико-грамматическая классификация японских лингвистических сущностей и ее функции в модели японско-русского автоматического перевода ЯРАП // IV Международная конференция по языкам Дальнего Востока, Юго-Восточной Азии и Западной Африки. Часть I. М., 1997. С. 142-150.
Модина Л.С., Шаляпина З.М. Принципы организации лингвистических знаний в объектно-ориентированной модели лексико-морфологической системы японского языка // Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог 1995» (31 мая — 4 июня 1995, г. Казань), Казань, 1995. С. 198-205.
Ср. понятие «правдоподобия» результатов лингвистического анализа в работе: Цейтин Г.С. Система обработки текста с процедурным представлением словарной информации // Вопросы разработки прикладных систем. Новосибирск, 1979. С. 147-152.
Костыркин А.В. Применение технологий ограничений в синтаксическом анализе предложения // Труды международного семинара «Диалог 2000» по компьютерной лингвистике и ее приложениям. Т. 2. Протвино, 2000. С. 199-208; Он же. Семантико-синтаксический анализ естественно языковых текстов как задача удовлетворения ограничений // Материалы конференции «Понимание в коммуникации - 4». М.: МГПУ, 2009. С. 33.
10
11
12
13
14
15