Прикладные разработки
К.И. Демич, A.B. Костыркин, З.М. Шаляпина
РАМЕЯ/и -автоматизированное рабочее место языковеда для иероглифических языков: общая организация
Описываются основные принципы организации создаваемого в Институте востоковедения РАН комплекса РАМЕЯ/и - автоматизированного рабочего места языковеда для иероглифических языков. Рассматриваются три основных модуля комплекса: переводческий, словарно-справочный и корпусной. Для каждого модуля демонстрируются обеспечиваемые им возможности работы с текстовой и лексикографической информацией.
Ключевые слова: электронная лексикография, корпуса текстов, лингвистические интерфейсы, конкордансы, японский язык, китайский язык, графическая вариантность, поиск по недоопределенным (нечетким) запросам, иероглифика.
1. Введение
В Институте востоковедения РАН начата разработка программно-лингвистического комплекса РАМЕЯ (= РАбочее МЕсто Языковеда), предназначенного для использования русскоязычными переводчиками, преподавателями, исследователями-лингвистами и другими специалистами, работающими с иностранными, прежде всего восточными языками. Разрабатываемая первая версия комплекса РАМЕЯ/и ориентирована на языки с иероглифической письменностью - японский и китайский и должна предоставлять пользователю возможность выполнять три основных вида работы: перевод, работу с лексикографическими и энциклопедическими базами данных и работу с корпусами текстов. Соответственно, в комплексе выделяются три модуля, отвечающие за эти функции: переводческий, словарно-справочный и корпусной.
© Демич К.И., Костыркин А.В., Шаляпина З.М., 2010
Для каждого из трех модулей комплекса РАМЕЯ/и предусматривается отдельный интерфейс, который адаптирован к своему набору функций и своим типам информации, но в то же время допускает обмен данными с двумя другими модулями и переход к любому из них. Тем самым работа каждого интерфейса оптимизируется при сохранении для пользователя всех преимуществ единого интерфейса. В рамках каждого модуля создаются также требуемые для него базы лингвистических данных и разрабатываются вспомогательные программно-лингвистические средства для создания, коррекции и пополнения этих баз и для организации работы с ними в реальном режиме времени.
Программное обеспечение комплекса РАМЕЯ/и создается на языке программирования Python. Для хранения лингвистических баз данных (как словарных, так и корпусных) выбрана встраиваемая база данных Oracle Berkeley Database. Эта база данных оптимизирована для создания поисковых индексов и осуществления поиска с их помощью. Она поддерживает ограниченный набор поисковых операций, но зато эти операции выполняются максимально быстро.
Для отображения отдельных единиц информации (например, словарных статей) и обеспечения переходов между ними служит ActiveX-компонент Internet Explorer, который используется в комплексе в качестве элемента его графического интерфейса.
В работе над отдельными аспектами комплекса, помимо авторов настоящей статьи, принимают участие также Б.П. Лаврентьев, Л.С. Модина, М.И. Канович, К.А. Кожа, О.А. Масяги-на, Е.С. Тарасова, Н.И. Сенина, В.И. Сивцева, а также ряд студентов-практикантов МГУ и РГГУ.
Ниже дается описание основных функций каждого из трех модулей комплекса РАМЕЯ/и и иллюстрируются те из их компонентов, которые уже получили свою реализацию.
2. Переводческий модуль комплекса РАМЕЯ/и
Основным компонентом переводческого модуля является его интерфейс. Разработанная к настоящему времени версия этого интерфейса предусматривает возможность разнесения входного текста и текста его русского перевода по двум разным окнам, так что в своей минимальной конфигурации интерфейс имеет вид, представленный на Рис. 1:
I ф ./tasks/1 .armp ВВЕЗ
Файл Функции
8 Н^ни ОЙ, № 2 5 X -
Очень сильный тайфун номер 18 I
Изменен
Рис. 1. Общий вид переводческого интерфейса РАМЕЯ/и в двухоконной конфигурации.
Тексты, выведенные во входное (верхнее) и выходное (нижнее) окна интерфейса, рассматриваются как сопряженные и при запоминании результатов работы сохраняются в виде единого файла. При этом в получаемом файле фиксируются сведения о его разделении на входную и выходную (русскую) части, так что при очередном его открытии каждая из этих частей автоматически выводится в свое окно интерфейса.
В рамках переводческого интерфейса реализованы все основные функции данного модуля. К ним относятся:
(1) возможность ввода или отображения на экране текстов на требуемом языке, в том числе японских и китайских;
(2) возможность формирования и редактирования русского перевода входного текста;
(3) возможность выявления во входном тексте повторяющихся единиц и их контекстов.
2.1. Функции ввода и редактирования текстов
Функции ввода и редактирования текстов, реализуемые переводческим интерфейсом комплекса РАМЕЯ / и, опираются на стандартные средства операционной системы MS Windows, так что он совместим с другими текстовыми редакторами, поддерживаемыми этой системой, в том числе с редактором MS Word. Соответственно, как входные, так и выходные тексты рассматриваемого интерфейса могут копироваться в редактор MS Word и наоборот, тексты, представленные в MS Word, могут копироваться в окна данного интерфейса.
По желанию пользователя в окна переводческого интерфейса могут копироваться также данные, полученные при работе двух других модулей комплекса. Например, в них могут переноситься переводы или другие части словарных или энциклопедических статей, найденных при словарно-справочном поиске, или фрагменты текстов, выделенных при работе с корпусным модулем. В этом смысле данный интерфейс является «основным» относительно интерфейсов двух других модулей.
Тексты, представленные в японской или китайской графике, могут выводиться в любое из окон переводческого интерфейса. Для их ввода путем копирования из готовых файлов может служить не только MS Word, но и другие текстовые редакторы. Тексты могут также вводиться с клавиатуры с помощью стандартных средств японского или китайского ввода MS IME системы Windows или их аналогов (ATOK), в том числе с использованием графического планшета для рукописного ввода японских символов. Графический планшет особенно удобен в ситуациях, когда пользователю известно иероглифическое написание интересующей его единицы, но неизвестно ее точное чтение. Пользуясь планшетом, он может не тратить время и силы на определение ключей, числа черт и других графических особенностей этой единицы, но просто писать ее на графическом планшете и затем выбирать нужный знак из графических вариантов, автоматически предлагаемых для вводимой единицы по мере ее написания.
2.2. Функция перевода
Основным режимом формирования русского перевода входного текста является режим ручного перевода и редактирования.
Для японских текстов предполагается предусмотреть кроме того режим перевода с помощью компьютера (computer-aided translation). В этом режиме к переводческому модулю комплекса РАМЕЯ/и должна подключаться система японско-русского автоматического перевода ЯРАП1. При ее вызове система ЯРАП выполняет автоматический перевод текста, выведенного во входное окно переводческого интерфейса, а результаты перевода выводятся в его выходное окно, где могут далее редактироваться с использованием тех же средств, что и в режиме ручного перевода.
В режиме перевода с помощью компьютера основная конфигурация интерфейса дополняется еще одним окном - окном
промежуточных результатов перевода, которое может активироваться по желанию пользователя. В него должны вытодить-ся результаты сегментации входного японского текста - цепочка составляющих его графических морф, последовательность японских лексем и граммем, получаемая при лексико-морфоло-гическом анализе этой цепочки, и русский подстрочник, формируемый путем глоссирования полученной последовательности . При активации данного окна оно встает между входным и выгходнытм окнами, как в примере на Рис. 2:
0«п -
ШйиэФШШЙ НЖФЯКс&ь&й. ■ Л
РЕЗУЛЬТАТЫ СЕГМЕНТАЦИИ ■
!<,>#»#
гадзоо! # ноЗ # наками! # ва2_1 # кикаи1 * хон'яку! # ноЗ # таисес>2 * ни2_2 * нару1_1 | :нс 1 наи1_1 ! :зе.ин.нв # кртчкИ
ПОСЕГМЕНТНЫЙ ПЕРЕВОД
изображение:род-л содержание машина перевод:род-п объект:ед.тв-л стать не:наст . :| ¿1
[ьагк.аг! 16-12-2003 16;20;51 Л
Содержание изображения не становится объектом машинного перевода. Л
Рис. 2. Вид переводческого интерфейса РАМЕЯ/и в трехоконной конфигурации.
2.3. Функции выделения лексических повторов
Помимо средств ввода входного текста и формирования текста его перевода, в рамках разработанного переводческого интерфейса реализован набор специальные функций для выделения в текущем входном тексте лексических повторов. Возможность наглядного отображения таких повторов на экране позволяет при работе с текстом учитывать степень
существенности для него той или иной единицы, в том числе видеть, какие слова проходят через весь текст. При переводе это может быть важно для лучшего понимания способа употребления таких слов в текущем тексте, а также для согласования переводных эквивалентов, сопоставляемых им в разных случаях их употребления. В зависимости от типа переводимых конструкций характер такого согласования может быть различным.
Так, в документации, сопровождающей операции купли-продажи крупных технических объектов, лицензий на их использование, патентов и т.п., обычно перечисляются все входящие в их состав компоненты, и отдельные фрагменты такого перечисления могут многократно повторяться в отдельных разделах документации. Понятно, что при ее переводе повторяющимся терминам необходимо сопоставлять во всех случаях их употребления одинаковые переводные эквиваленты, и экранное выделение повторов может облегчить переводчику или редактору эту задачу.
С другой стороны, грамматические функции повторов во входном и выходном языках может быть различны. Так, в японском языке повторы существенным образом задействованы в организации сочинительных конструкций, особенно при сочинении многокомпонентных именных или глагольных групп, где они широко используются для маркировки вершинных единиц сочиняемых групп. Напротив, в русском языке в подобных конструкциях одинаковые лексемы предпочтительно эллиптировать. Ср.:
Поририн сан га сюкугоо канка ханноо ни мотии-рарэта но ва 1950 нэн но кото дэ ари, иппоо кообунси но гоосэй ханноо ни поририн сан га тотии-рарэта но ва 1960 нэн рай но кото дэ ару.2
«Полифосфорную кислоту стали применять в реакциях циклической конденсации в 1950 году, а в реакциях полимеризации с 1960 года».
В японском оригинале имеет место повтор пяти разных единиц (в примере все они в первом вхождении подчеркнуты одной чертой, во втором - двумя): поририн сан га «полифосфорная кислота», ханноо ни «в реакциях», мотии-рарэта но ва «тот факт, что использовалась», нэн «год» и но кото дэ ар<и/у> «является событием, относящимся к». В русском же переводе из названных пяти единиц повторены только две: «в реакциях» и «год», остальные три (в японском тексте примера они выделены жирным шрифтом) вместо повторения опущены.
В подобных случаях может оказаться полезным выделение повторов не только во входном, но и в выходном тексте: это может способствовать обнаружению при его редактировании скоплений таких повторов в конструкциях, где они не характерны для языка перевода.
На данный момент функция выделения повторов предусмотрена в комплексе РАМЕЯ/и только для входных текстов. При этом она может реализоваться в разных режимах, выбираемых по желанию пользователя. Основные два таких режима - это высвечивание в тексте всех повторов заданного слова и выделение для него всех содержащих его контекстов, т.е. динамическое составление его миниконкорданса по данному тексту.
В обоих случаях служебные единицы из процесса поиска повторов исключаются и учитываются только единицы знаменательных частей речи: существительные, глаголы, прилагательные и наречия. При этом для единиц, имеющих формы словоизменения, в качестве повторов выделяются не только полностью совпадающие текстовые формы, но и вхождения в текст разных словоформ одной и той же лексемы.
Последнее предусмотрено прежде всего для японского языка, где формы словоизменения имеют глаголы и часть прилагательных. Чтобы обеспечить выполнение требуемого для их обработки морфологического анализа, к комплексу РАМЕЯ/и подключена свободно распространяемая система японского морфологического анализа Mecab. Эта система для каждой словоформы текста определяет сведения о ее частеречном классе и словоизменительном типе, которые и используются для отфильтровки служебных единиц и для установления лексической идентичности разных словоформ знаменательных единиц. Для нее создана оболочка на языке Python, которая позволяет при работе с японским языком вызывать функции его морфологического анализатора из любого модуля комплекса.
В разработанном интерфейсе повторы заданной пользователем единицы текущего входного текста выделяются в его представлении во входном окне цветовой заливкой. Сама единица записывается в нижней строке интерфейса (под окном выходного текста) с указанием общего числа ее вхождений в данный текст. На Рис. 3 приведен пример выделения в тексте повторов лексемы тю:син «центр». На экране видны только два ее вхождения, но внизу интерфейса указано, что всего для нее обнаружено в данном тексте 11 вхождений.
При вызове функции составления по рассматриваемому тексту миниконкорданса некоторой единицы в интерфейсе от-
крывается отдельное окно, куда и выводится составленный конкорданс. Он включает все вхождения заданной единицы в имеющийся текст, каждое из которых вместе с содержащим его контекстом вынесено в отдельную строку. Размер контекста фиксирован - 6 слов слева и 6 слов справа от рассматриваемой единицы. Сама она выделяется в своем контексте красным шрифтом. При первоначальном формировании конкорданса в нем синей заливкой выделяется строка с тем вхождением рассматриваемой единицы, на котором была вызвана данная функция. При переходе в окне конкорданса к какому-либо другому вхождению той же единицы (= к другой строке), в окне входного текста также происходит переход к этому ее вхождению.
Рис. 3. Цветовое выделение в тексте лексических повторов для заданного пользователем слова
На Рис. 4 приведен пример миниконкорданса для единицы тю:син «центр».
I ffc ,/tasks/l.armp ш П-ЬФ'ЬоЖЕВ: 9 в э 5 JtJÜ^.itt^TL/äo Ф&^Мр^Щ? В 9 5. О-Ч"? SAXiUk Ф'Ь-ftjfiff ЩЙВб O-X-Mk, -
Файл Функции
ffi, ЯДОДОЯ&ЬрГ* fcfcSsfc«* -Ь ^В^И^ЖЙП^Ф'ЬсоШДВЭ 5 0 >\'У s ДДАЛТФ<Йж АШй а 4 0 я - i
Очень сильный тайфун номер Щ Ii d
"н rtt mt ь А „ ipffift
1 А Ii 9.5 SAXAJk Ф'Ь-ttjffff 1 4 Э^РЩЩ^Й^ 1 'Е-
11 вхождений
Рис. 4. Пример миниконкорданса, динамически построенного для заданного пользователем слова по текущему тексту.
3. Словарно-справочный модуль комплекса
РАМЕЯ/и
3.1. Лингвистическое обеспечение словарно-справочного модуля
При создании словарно-справочного модуля комплекса РАМЕЯ/и разрабатываются средства, позволяющие подключать к нему различные типы баз лингвистических данных, представленных в электронном виде.
Прежде всего в лингвистическое обеспечение модуля должны включаться двуязычные словари, имеющие в качестве одного из учитываемых языков японский, а в качестве второго русский, английский или другой европейский язык. Предусматриваются также средства, которые позволят по мере необходимости и возможности расширять состав создаваемого лингвистического обеспечения за счет одноязычных (японских толковых или энциклопедических) словарей. В дальнейшем предполагается также обеспечить возможность обращения при работе с модулем к энциклопедическим источникам, имеющимся в Интернете, - начиная с Википедии в ее различных национальных версиях (прежде всего, естественно, японской и китайской).
Выполнение этой долгосрочной программы начато с подготовки к включению в лингвистическое обеспечение словар-но-справочного модуля комплекса РАМЕЯ/и двух японско-русских словарей: словаря 1984 года издания, редактором и одним из основных авторов которого явился Б.П. Лаврентьев (далее - словарь Б.П. Лаврентьева)3 и учебного словаря иероглифов 1977 года, составленного Н.И. Фельдман-Конрад (далее - словаря Н.И. Фельдман)4.
Словарь Б.П. Лаврентьева, выбран в качестве базового источника информации для японско-русской версии комплекса РАМЕЯ/и как один из наиболее надежных и популярных среди японистов японско-русских словарей последнего времени. Таких словарей всего четыре, причем три из них изданы в Японии5 и малодоступны для отечественного пользователя. Следует отметить, что хотя за 25 лет, истекшие после первой публикации словаря Б.П. Лаврентьева, он несколько раз пере-издавался6, однако сколько-нибудь существенных содержательных изменений (если не считать заглавия, перестановки отдельных фраз во введении и тому подобных деталей) его по-
следующие издания не включали. Поэтому в своей работе мы опираемся именно на его первое издание 1984 г.
Данное издание словаря Б.П. Лаврентьева в ходе работы над комплексом было полностью оцифровано: путем сканирования было получено графическое представление его исходного текста, оно было подвергнуто автоматическому распознаванию с помощью программы FineReader 8 для смешанного русско-английского текста, и в полученное текстовое электронное представление были вручную введены японские единицы. Затем была выполнена коррекция русской части текста, а также общая вычитка и верификация его окончательного текстового электронного представления. В процессе этой верификации были среди прочего исправлены обнаруженные некорректности в исходном тексте словаря - нарушения в формате записи словарных статей (например, использование круглых скобок вместо квадратных или двоеточия вместо запятой), ссылки на отсутствующие статьи, опечатки и пропуски в написании иероглифов и транскрипции и т.д.
В настоящее время под руководством и при личном участии Б.П. Лаврентьева выполняется содержательная переработка этого словаря, которая состоит в расширении и корректировке его электронной версии с тем, чтобы создать на ее базе самостоятельный электронный японско-русский словарь (далее -ЭЛЕЯРС). Осуществляется как пополнение его словника (включая восполнение лакун, допущенных в его исходном варианте по вине издательства, - как, например, отсутствие всех единиц, начинающихся на neji- 7), так и уточнение и дополнение наборов значений и переводов отдельных единиц. Существенно расширяется иллюстративный материал, тем более что в электронном словаре исчезает необходимость экономить на его объеме. В перспективе в словаре ЭЛЕЯРС предполагается обеспечить также возможность дифференциации разных уровней детальности и «продвинутости» лексикографической информации для учебных целей. Могут быть разграничены, например, базовый словарь, которым все учащиеся должны овладеть в начальный период обучения, и те или иные варианты расширения этого словаря, рассчитанные на специалистов определенного профиля. Теми же средствами в словаре могут быть отражены сведения о требованиях к знанию японской лексики на разных уровнях квалификационных экзаменов по японскому языку (Нихонго ноорёку сикэн) - с тем, чтобы пользователь мог при желании сосредоточиться на лексике именно того уровня, который его интересует в данный период.
В помощь лингвистам, занятым работой по расширению и совершенствованию словаря ЭЛЕЯРС, разрабатывается ряд специальные вспомогательных программных средств, позволяющих упростить вытолняемую корректировку лексикографических данны1х и повысить ее надежность. Основными из этих средств являются созданные К.И. Демичем и A.B. Костыр-киным программа Corrector и рабочая лексикографическая станция DStudio, функции которые кратко рассматриваются ниже в п. 3.1.2.2.
Для второго японско-русского словаря, информация из которого подключается к словарно-справочному комплексу РАМЕЯ, - словаря Н.И. Фельдман - первоначальная оцифровка была выполнена еще в рамках разработки редактора и справочника по японской иероглифике и лексике ИРИС8. Однако она проводилась тогда исключительно вручную, без использования каких-либо автоматизированных средств проверки ее результатов, если не считать программные требования к формату записи. Поэтому полученные результаты содержали немало опечаток и других некорректностей, которые в настоящее время верифицируются.
Таким образом, оба японско-русских словаря включены в лингвистическое обеспечение комплекса РАМЕЯ/и в текстовом формате, что позволяет в полной мере использовать при работе с ними преимущества электронного представления информации. В частности, на основе этого формата для них разрабатываются индексы, с помощью которые для интересующих пользователя единиц могут выделяться не только словарные статьи, сопоставленные им самим, но и сведения, имеющиеся о них в словарные статьях других единиц - в составе комментариев или иллюстративного языкового материала к этим другим единицам (подробнее см. п. 3.2.1.2).
3.2. Основные функции словарно-справочного модуля
Словарно-справочный модуль комплекса РАМЕЯ/и должен обеспечивать две основные функции:
1 ) функцию поиска запрашиваемой пользователем единицы по всему массиву информации, включенной в лингвистическое обеспечение модуля;
2) функцию дальнейшего расширения и модификации имеющегося лингвистического обеспечения модуля и/или отдельные его компонентов.
3.2.1. Функция поиска словарно-справочной информации
Функция поиска для запрашиваемой единицы словарно-справочной информации, или поисковая функция, организуется таким образом, чтобы выполнялись три основных требования:
(1) словарно-справочный поиск не должен ограничиваться только той конкретной цепочкой графических знаков, которая задана пользователем в качестве поисковой единицы, но должен учитывать также различные возможности несовпадения этой цепочки со словарными единицами, представленными в лингвистическом обеспечении поискового модуля;
(2) функция поиска должна максимально использовать возможности и преимущества представления информации в электронном виде;
(3) система поиска должна предусматривать возможность обращения, помимо собственно лингвистической информации, также к справочным, прежде всего общеэнциклопедическим данным.
Рассмотрим, как реализуется или предполагается реализовать каждое из названных требований в создаваемом комплексе.
3.2.1.1. Словарно-справочный поиск при несовпадении поисковой единицы со словарными
Несовпадение заданной пользователем поисковой единицы с единицами, представленными в подключенных к комплексу словарях и базах данных, может иметь место в следующих случаях: (а) поисковая единица или отдельные знаки в ее графическом представлении имеют несколько вариантов написания; (б) графический состав поисковой цепочки известен неполностью; (в) поисковая единица не совпадает со словарной на морфологическом уровне. Рассмотрим каждый из этих случаев.
(а) Поисковая единица допускает вариантность написания
Когда пользователь задает для словарного поиска некоторую единицу, он записывает ее ровно одним способом, и если эта единица или отдельные знаки в ее составе допускают графические варианты, написание, предложенное пользователем, может не совпасть с теми, которые даются для данной единицы в тех или иных из используемых при поиске словарей. Поэтому исходное написание должно в таких случаях дополняться его вариантами, чтобы при поиске учитывались все из них.
Для японского языка здесь возможны следующие случаи.
1. Практически любое японское слово, имеющее иероглифическую запись, может по желанию автора текста полностью или частично записываться знаками одной из слоговых азбук: хираганы или катаканы. Хирагана систематически используется для записи грамматических слов и элементов слова. Например, местоимение Ш дарэ «кто» часто употребляется в написании Т^. Нередко знаками хираганы заменяют также сложные или малоупотребительные иероглифы. Так, слово ® ^ хонъяку «(письменный) перевод» может встретиться в написании й^^ (где первый иероглиф заменен двумя знаками хираганы) или й^^К (где хираганой записаны оба иероглифа). Катакана может использоваться, в частности, в тех функциях, которые в европейской графике выполняются шрифтовым выделением или кавычками, - например, чтобы подчеркнуть нестандартность употребления рассматриваемого слова или части слова или уточнить его чтение в данном тексте. Иногда обе азбуки могут встречаться в написании одного и того же слова. Так, слово торикому «убирать», «присваивать», обычно записываемое в текстах по химии, где оно имеет терминологическое значение («присоединять», «связывать») встретилось нам однажды в форме Ь V , где подряд идут два знака катаканы, иероглиф и знак хираганы .
2. Многие японские слова, содержащие глагольные морфы, имеют варианты написания, различающиеся наличием/ отсутствием окуриганы - знаков хираганы, уточняющих для иероглифически записанной лексической морфы ее словоизменительную форму. Так, единица ёмитори «считывание» может быть записана без окуриганы (двумя иероглифами):
с окуриганой после второго иероглифа: ШШ'О ; с окуриганой после каждого иероглифа: Ш^-Ш'О ; а также с заменой одного или обоих иероглифов хираганой: Ш^-^.'О , Ь - или ка-
таканой: ЭДЬ1^
3. Если внутри японского слова подряд идут одинаковые знаки, второй знак может заменяться специальным знаком повтора. При повторе иероглифа используется знак %, например, вместо ШШ самадзама «различный» пишется . Для хираганы знаком повтора служит ^ , для катаканы ^ . Так, слово ^^ Й сусумэ «совет», «рекомендации» может быть записано как ^ ^ Й. Если второй знак при повторе озвончается, он заменяется соответственно знаком ^ и скажем, вместо исудзу пишется ^. Особые знаки обозначают повтор целых цепочек слоговых знаков. Но все эти замены факультативны: впол-
не допустимо и сохранение двух одинаковых знаков (цепочек знаков), что приводит к системной вариантности записи содержащих их единиц.
4. Для иероглифов могут использоваться разные варианты их написания: новые и устаревшие. Так, иероглиф имеет устаревшее написание Щ, иероглиф ^ может в некоторых словах соответствовать иероглифу Ш и т.д. Выбор варианта зависит от автора, от стиля текста и т.п.
5. Наконец, некоторые японские слова имеют исторически сложившиеся орфографические варианты иероглифического написания. Например, уже упоминавшееся слово сусумэ в иероглифической записи может иметь вид либо ШЙ, либо ШЙ, слово аита «открытый», «пустой» может быть записано как Ш ЬТ, ШЬТ или ВЯЬТ и т.д.
Учет все этих видов японской графической вариантности обеспечивается в описываемом модуле за счет того, что в японских словарях в поле заглавия каждой статьи указываются все основные варианты записи этого заглавия. Все они выносятся и в составляемые для этих словарей поисковые индексы. Для построения таких индексов используется специальная таблица, задающая соответствие между номером словарной статьи, ее чтением, записанным японской азбукой хирагана, и множеством орфографических форм данной словарной единицы. При индексации учитываются также все допустимые для словарных единиц варианты сочетания иероглифической записи с азбучной, возможности использования устаревших форм иероглифов и т.д. с тем, чтобы словарная единица могла быть найдена по любому варианту ее записи. Для верификации всех таких вариантов используется, в частности, толковый японский словарь Кодзиэн9.
(б) Поисковая единица задана неполностью
Иногда пользователь не может задать интересующую его единицу в полном виде - например, если задает ее по памяти и не может точно вспомнить какие-то из составляющих ее графических знаков или вводит эту единицу по тексту, где часть знаков утрачена при копировании. При работе с бумажным оригиналом возможны полиграфические дефекты, опечатки, неразборчиво написанные части текста и т.п.
Чтобы требуемые единицы могли находиться и в таких случаях, в комплексе РАМЕЯ/и предусматриваются средства поиска по недоопределенному, или так наз. «нечеткому», за-
просу, когда часть знаков в графическом представлении запрашиваемой единицы не идентифицирована, но представлена так наз. «подстановочными знаками», которые выступают как переменные, отображающие только сам факт наличия в той или иной позиции в составе задаваемой единицы каких-то знаков и, возможно, количество этих знаков.
Так, неопознанный единичный знак китайского или японского письма (отдельный иероглиф или знак катаканы или хи-раганы) представляется в «нечетком» запросе вопросительным знаком «?». Последовательность неопознанных знаков, для которой известно число этих знаков, задается соответствующим числом вопросительных знаков, последовательность с неизвестным числом знаков - звездочкой «*» (в этом случае при поиске будут учитываться и те единицы, где такая последовательность пуста).
Например, для японского языка по запросу * ЭУУЪ должны находиться (со всеми их графическими вариантами) единицы О УУЪ, ШЭ УУЪ, ЩХЭУУЪ, Ъ^ЭУЪ и т.д.; по запросу * Ы - единицы ШЫ, Й-^Ы и т.п.; по запросу ??* Ы - единицы ЙЙЙЫ, М ^Ы и др.; по запросу ЫУ*Ъ - сама единица ЫУЪ, а также единицы ЫУ^ЬЪ, ЫУ'аЪ'^Ъ и т.п. Запрос Ы* позволит найти единицы вида Ы^, ЫвЕ, ЫУШ^ и др.; запрос ЭУ* - единицы ЭУ, ЭУУТсЪ, ЭУЙ^^ и т.д. Запросу Ы?? соответствуют единицы Ы^А, Ы^Ш, Ы^Ъ и пр.; запросу * Ш * - единицы ^ШВ, ШШ, и т.п.
Для реализации поиска по «нечетким» запросам в комплексе РАМЕЯ/и используется механизм поиска при помощи регулярных выражений10. Для удобства пользователя предполагается предусмотреть, чтобы подстановочные знаки могли вводиться как в европейской, так и в японской или китайской раскладках клавиатуры, т.е. и в «узком» варианте (? и *), и в «широком» (? и *).
(в) Поисковая единица морфологически не совпадает со словарной
Данная ситуация может иметь место, когда поисковая единица задана одной из своих словоизменительных форм, отличающихся от ее словарной формы, или же неполностью вычленена из своего контекста (например, при ее копировании пользователем из рассматриваемого им текста), т.е. представляет собой сочетание некоторой словарной единицы с грамматическими показателями либо с другими словарными единицами или их фрагментами.
Для успешного осуществления словарного поиска по такому запросу требуется его предварительная нормализация -приведение поисковой единицы к словарной форме, если заданная ее форма таковой не является, или сегментация этой единицы на более мелкие компоненты - если она превышает имеющиеся словарные единицы по размеру. В настоящее время для единиц последнего типа обеспечивается отделение и поиск только их начальной подцепочки, в дальнейшем предполагается предусмотреть их полную сегментацию с поиском каждого из полученные сегментов.
Для японского языка в целях такой обработки можно бышо бы использовать соответствующий модуль системы автоматического перевода ЯРАП. Однако это означало бы, что данная система должна включаться в комплекс в качестве его обязательного компонента, что вызывает два возражения. С одной стороны, поскольку система ЯРАП носит пока экспериментальный характер, нецелесообразно ставить в зависимость от нее работу и тех модулей комплекса, которые не требуют подключения автоматического перевода. С другой стороны, задача нормализации заданной пользователем единицы для нужд словарного поиска отличается от задач анализа текста при автоматическом переводе. Во-первые, поисковые единицы в общем случае имеют более ограниченную длину, чем текст, анализируемый при автоматическом переводе, так что их обработку можно осуществлять более простыми методами. Во-вторых, помимо анализа, нормализация поисковой единицы связана также с синтезом - формированием для обрабатываемой единицы ее словарной формы.
Исходя из этих соображений, для нормализации несловарные единиц в целях словарно-справочного поиска используется та же система японского морфологического анализа Mecab, которая уже упоминалась выше в п. 2.3 в связи с описанием способа реализации функции выделения повторов в переводческом модуле комплекса.
3.2.1.2. Дополнительные возможности поиска, обеспечиваемые электронным представлением словаря в текстовом формате
В отличие от обызчные «бумажные» словарей, для их электронные версий, представленные в текстовом формате, может быть предусмотрен более полный охват содержащейся в них информации при ее поиске.
В частности, могут быть построены средства, с помощью которых для интересующих пользователя языковых единиц будут искаться не только их собственные словарные статьи, но и относящиеся к ним сведения, попавшие в статьи других единиц в составе иллюстративного материала, комментариев, примеров фразеологии и т.п.
Например, в статье слова ШШ shoori «победа» в словаре Б.П. Лаврентьева помимо перевода указаны только образованная от этого слова атрибутивная единица ШШб^ shoorite-ki «победоносный» и два его сочетания с глаголами: ШШ^ЩЪ shoori o eru «побеждать, одолевать» и ШШ^-ОТСО shoori o utau «торжествовать победу». Между тем в ряде других статей того же словаря для данного слова указаны и другие нетривиальные сочетаемостные возможности. Так, статья ЩШ toozen «естественно, само собой разумеется» включает пример ЩШ®ШШ toozen no shoori «заслуженная победа». В статьях osameru
«получать, приобретать» и Ш^Ъ kisuru«сводиться к чему-либо, кончаться чем-либо» приведены содержащие данное слово полуфразеологические глагольные контексты ШШ'&Ш.ЙЪ shoori wo osameru «одержать победу» и ЪТс shoori wa
kare no te ni kishita «победа досталась ему». В статьях Щ mono «вещь, предмет; нечто» и ^ kochira «здесь; я» даны примеры И-эЪЮЩТс и ШШШ^-ЪЬЮЬЮТс «победа за нами». Учет этих примеров существенно дополняет сведения о рассматриваемом слове, имеющиеся в его собственной статье.
Поэтому в рамках комплекса РАМЕЯ / и предусматривается наряду с обычным полнотекстовый словарный поиск, позволяющий обнаруживать для поисковых единиц, помимо их собственных статей, также их вхождения в статьи других единиц. В результате, в частности, словарь Н.И. Фельдман становится для пользователя не только иероглифическим, но и лексическим словарем. Встающие при этом проблемы сегментации и морфологического анализа японских примеров решаются с помощью тех же формальных средств, которые служат при поиске повторов для отождествления в этом качестве разных словоформ одной лексемы, а также при полнотекстовом словарном поиске для обнаружения вхождений единиц, не совпадающих со словарными, в состав примеров и пояснений, приводимых в статьях других слов (см. выше п. 2.3 и п. 3.2.1.1(в) соответственно).
В дальнейшем планируется разработать также средства, адаптирующие имеющиеся электронные словари для работы «в обратном режиме», т.е., например, для словарного поиска в япон-
ско-русских словарях по содержащимся в них русским переводам японских единиц. Тем самым эти словари станут источником не только японско-русской, но русско-японской информации.
В результате при том же объеме и содержании самих словарей из их электронных версий оказывается возможным извлекать больше информации, чем при пользовании традиционными «бумажными» лексикографическими средствами.
3.2.1.3. Возможность обращения к энциклопедической информации
Как уже видно из названия рассматриваемого модуля комплекса РАМЕЯ/и, понятие словарного поиска понимается при его разработке расширительно - как словарно-справочный поиск. Имеется в виду, что в создаваемом поисковом модуле должны быть предусмотрены поисковые функции, с помощью которых пользователь мог бы по мере необходимости обращаться к энциклопедическим сведениям. Такое расширение данного понятия обусловлено тем, что для задач перевода бывает нужна не только чисто лингвистическая (лексикографическая), но и энциклопедическая информация: об исторических лицах и способах их именования на входном и выходном языках, о культурных, исторических и географических реалиях, о понятиях, более общих и более частных, чем переводимое, о возможных ассоциативных связях и т.п.
Чтобы пользователь комплекса мог запрашивать и получать такие сведения, должна быть обеспечена возможность гипертекстового перехода от одних источников информации к другим, включая источники энциклопедической информации, представленные в сети Интернет, прежде всего национальные варианты Википедии. Разрабатываемая функция такого перехода действует на словарных статьях, найденных для заданной пользователем поисковой единицы, и может вызываться в двух разных режимах: с использованием эксплицитных гипертекстовых ссылок и с помощью специальной команды.
Первый режим возможен только в случае, если статья, на которой вызвана данная функция, содержит гипертекстовую отсылку стандартного типа (записанную синим шрифтом и выделенную подчеркиванием). Если по ней щелкнуть мышью, обеспечивается переход к статье того же словаря, определяемой данной ссылкой. Примером может служить статья единицы terebijon в словаре ЭЛЕЯРС, которая имеет вид:
terebijon3
а см. terebi Х^Н
Щелкнув по ссылке, следующей за сокращением см., пользователь получает на экране новое окно, в котором представлена статья указанной в этой ссылке единицы ЬегеЫ:
1 ? — Словаиь 'Щ
—
(егеЬр л
а 1)телевидение
2) телевизор
-СО телевизионный
-Т по телевидению
- £о|:!--£> включить (выключить) телевизор
~ ЦрЕЙЦ появляться на экране телевизора
выступать по телевидению
~ выступать по телевидению
принимать участие в телепередаче (об актёре) л]
Рис. 5. Пример окна для словарной статьи, вызываемой по гипертекстовой ссылке.
Во втором режиме функция гипертекстового перехода работает на любом фрагменте текста, который пользователь выделил в рассматриваемой словарной статье. При этом для выделенной единицы происходит поиск ее словарных статей во всех словарях, подключенных к комплексу.
Следует отметить, что при энциклопедическом поиске приходится решать некоторые проблемы, не возникающие при чисто словарном поиске. Одна из них состоит в том, что в разных энциклопедических источниках могут использоваться разные системы записи числительных и дат. Так, при записи японских числительных используются разряды, отсутствующие в европейской системе записи (например, специальные единицы используются для обозначения чисел, соответствующих европейским сложным обозначениям «десять тысяч» и «сто миллионов»). В японской датировке важной особенностью является использование понятия «эпохи» - периода правления одного и того же императора. При этом годы в пределах каждой «эпохи» нумеруются отдельно, так что, например, 27-й год эпохи Сёва - это 1952 год по европейскому исчислению, а 27-й год эпохи Мэйдзи - 1893.
Поэтому для эффективной работы с японскими энциклопедическими источниками требуются средства унификации разные систем записи числовой информации, которые обеспечивали бы при необходимости перевод информации, записанной в одной из них, в запись той же информации средствами другой системы. В настоящее время ведется разработка программы такой унификации и на ее базе - алгоритма поиска числовой информации, независимого от системы ее записи.
3.2.2. Функция расширения и модификации лингвистического обеспечения словарно-справочного модуля комплекса РАМЕЯ/и
Функция расширения и модификации лексикографической информации реализуется в настоящее время только для базового словаря комплекса - словаря ЭЛЕЯРС. Как уже отмечалось, в этих рамках созданы специальная вспомогательная программа Corrector и комплекс программ в помощь лексикографу DStudio. Комплекс DStudio, служащий для коллективного редактирования словарных статей, в частности, их проверки, корректировки и пополнения, описан в других работах11. Здесь мы остановимся только на программе Corrector, основной функцией которой является приведение заглавий словарных статей указанного словаря к канону, принятому в японской лексикографии.
Необходимость в этом связана прежде всего с тем, что в исходном для ЭЛЕЯРС словаре Б.П. Лаврентьева12 все заглавия даны в латинской транскрипции, после которой указывается нормативная для них орфографическая запись (или несколько вариантов такой записи). При этом для единиц, которые записываются с использованием иероглифики, не приводится написание заглавий хираганой. Между тем в японской лексикографической традиции наличие такого написания обязательно, и основным типом словарного поиска иероглифических единиц в электронные словарях является именно поиск по хирагане, вышолняющей для них роль транскрипции. Дополнение статей словаря ЭЛЕЯРС представлением заглавных единиц хирага-ной позволит предусмотреть для него не только этот, стандартный для японского языша тип словарного поиска, но и возможность автоматического перехода от словарные статей данного словаря к статьям других японских электронных словарей и автоматического сопоставления тех и других.
Кроме того, в составе заглавий исходной версии словаря ЭЛЕЯРС оказались не учтены многие существующие в япон-
ском языке орфографические варианты слов, особенно вариативность окуриганы и варианты написания с использованием различные иероглифов. Так, дан всего один вариант лексемы ТТ^ШЪ кикитору «расслышать», в то время как этот глагол может записываться еще тремя способами: ТШЪ, Щ^ШЪ, Щ ШЪ. Точно так же, только одна форма записи - - дана
для существительного ahodori «белоспинный альбатрос», хотя существует и другое его написание: Ш^Ш. Для слов, записываемые катаканой, в словаре встречаются устаревшие либо ошибочные варианты их написания при отсутствии современные форм. Например, указано неупотребительное —— waibure:ta: «вибратор» вместо —^— baibure:ta:.
Еще один недостаток имеющейся версии словаря ЭЛЕЯРС, требующий срочной коррекции, - это отсутствие в латинской транскрипции японских слов сведений о долготе гласных звуков (эти сведения не быши учтены при первоначальной оцифровке словаря Б.П. Лаврентьева).
Для исправления перечисленных недостатков в программе Corrector реализована функция автоматической проверки заглавий словарных статей с учетом информации из используемого толкового словаря японского языка. Помимо этого в данной программе предусмотрены также функции локального редактирования статей, добавления комментариев, отмены последних внесенные в текст изменений и т.п.
3.3. Интерфейс словарно-справочного модуля
Словарно-справочный интерфейс, разработанный для комплекса РАМЕЯ/и, в целом аналогичен интерфейсам других электронные словарей (например, ABBYY Lingvo), предусматривая окна трех типов: окно поисковой единицы - поисковое окно, окно единого поискового индекса для подключаемых к комплексу словарей - окно их словника, и окна просмотра найденные для поисковой единицы словарные статей - словарные окна.
В поисковое окно вводится единица, для которой требуется провести словарный поиск. Она может либо копироваться в это окно из других файлов, либо записываться в нем непосредственно с использованием средств японского или китайского ввода системы Windows.
Окно словника обеспечивает доступ к перечню всех единиц рассматриваемого языка, представленные хотя бы в одном
из подключенных к комплексу словарей. На экран выводится фрагмент этого перечня, в который входит сама поисковая единица (если она содержится в имеющихся словарях) и единицы, стоящие в словнике до и после нее. Если поисковая единица в словарях комплекса отсутствует, в окне словника дается фрагмент , куда она должна была бы попасть, и в нем высвечивается единица, перед которой она должна была бы стоять, что дает пользователю информацию о ее потенциальном лексикографическом контексте.
Единицы словника вносятся в него во всех вариантах записи, учтенных для них в словарях и индексах комплекса. Каждый вариант попадает в свой фрагмент словника, упорядочиваемый по своим правилам: для латиницы (включая латинскую транскрипцию) - по латинскому алфавиту, для японских слоговых азбук - по алфавиту годзюон, для иероглиф ики - по стандарту Unicode13. При этом все варианты записи той или иной единицы перечисляются только при основном ее написании, а при остальных дается отсылка к этому основному написанию. Например, для яп. ШШШ Jidoosha «автомобиль» в латинском фрагменте словника дана запись (на данный момент, повторим, без учета долгот):
jidosha .
во фрагменте, отведенном под хирагану, - запись (уже с долготами):
и в иероглифическом (основном) фрагменте - полный перечень вариантов:
jidosha, СН^Ьф .
Словарные окна могут быть текстовыми (допускающими копирование в другие файлы) или словарными (не допускающими такого копирования) в зависимости от формата источников выводимой в них информации.
Все статьи одной и той же единицы, найденные в словарях текстового формата, выводятся в общее текстовое словарное окно, как на Рис. 6. Для каждого словаря в нем указывается его название с тем, чтобы при работе с разными источниками пользователь мог учитывать их соотношение.
Если для некоторой единицы в одном и том же словаре найдено несколько статей, содержащих ее вхождения, первой указывается статья, для которой данная единица является заглавной, а в остальных вхождение этой единицы выделяется заливкой, как на Рис. 7.
_ РАМЕЯ/и
i - автоматизированное рабочее место языковеда
mfqfrinlu <L*<L utian. I« 'USwtgEu ►ШЛ • *
tantagfthl
! и i. i ■ к.
r-Д-г «tt
UiWhMu V(
' i--t*I eue
'MlAtm lli<t
we
u*m it-uttiMin it-St
•>! L
ки-дю «Й. 2M, ШК irtWs
I лг-J- » 7MJ
7Ш9* 9Я, 9ft X an 4
cuu
■nodctf«
UVOQSCP^ ЖЯ-'
■пин _
«Il MKT я|
В СОЫЙТЙНИМ ТО К
I. т«мпа* ß«№iri i тмм >i
* Ы И • .a
Рис. 6. Результат словарно-справочного поиска японской единицы, найденной по ее латинской транскрипции kushi в двух разны1х японско-русских словарях.
Рис. 7. Результат словарно-справочного поиска японской единицы в разнытх статьях одного и того же японско-русского словаря.
4. Модуль работы с корпусами текстов в комплексе РАМЕЯ
Работа с корпусами текстов требует прежде всего поисковых функций, во многом аналогичных тем, которые обеспечиваются переводческим и словарно-справочным модулями комплекса РАМЕЯ / и. Основными являются здесь функции поиска интересующих пользователя единиц во всем имеющемся корпусе текстов, совмещаемые с функциями динамического составления на его базе конкордансов этих единиц и выведения на экран содержащих данные единицы текстовых фрагментов (ср. выше п. 2.3). Аналогично словарно-справочному поиску, корпусной поиск должен осуществляться, в частности, в ситуациях вариантности и/или неполной идентификации поисковых единиц (ср. п. 3.2.1.1). Все функции, как и в двух других модулях, должны выполняться в реальном режиме времени, что предполагается обеспечивать также аналогичными средствами - с помощью специализированной системы индексов, которые должны автоматически составляться для каждого текста разрабатываемого корпуса при его включении в этот корпус. Но для корпусов текстов, в отличие от массивов лексикографической информации, и функции поиска, и функции работы с конкордансами имеют свою специфику. Рассмотрим ее.
4.1. Поиск в корпусе текстов требуемых пользователю единиц
При работе с корпусами текстов, в отличие от поиска повторов в переводческом интерфейсе, поисковые единицы не ограничены только знаменательной лексикой. В качестве поискового запроса могут задаваться и целые слова, и их части, и любые сочетания знаменательных слов друг с другом и со служебными единицами. В то же время здесь оказывается целесообразным ввести некоторые другие ограничения, носящие факультативный характер и реализуемые по желанию пользователя.
Прежде всего для оптимизации работы с очень частотными единицами разрабатывается возможность задавать при их поиске в корпусе шаг выборки n > 1. В этом случае в нем будет выделяться и выводиться на экран не каждое вхождение искомой единицы, но только каждое n-ое ее вхождение. Кроме того планируется предусмотреть введение ограничений на позиционную близость выделяемых вхождений. Пользователь
сможет, например, потребовать отбирать только те вхождения запрошенной единицы, которые содержатся в разных предложениях (абзацах, текстах) или на расстоянии более n знаков (предложений, абзацев, страниц).
Лингвистический смысл таких ограничений состоит в том, что при повторе некоторой единицы в рамках ближайшего окружения высока вероятность, что такие повторяющиеся вхождения реализуют одно и то же ее значение. Поэтому если пользователя-лингвиста интересует весь спектр значений и способов употребления данной единицы, он должен иметь возможность рассматривать также относительно удаленные друг от друга ее вхождения, пропуская соседние.
С другой стороны, лингвиста могут, напротив, интересовать случаи лексических и грамматических повторов, наблюдающиеся именно в близком соседстве, поскольку они могут выполнять в тексте структурные функции. В п. 2.3 уже отмечалась роль повторов при маркировке участников сочинительных конструкций в японском языке. В китайском повторы иероглифов на небольшом расстоянии друг от друга могут служить, например, для образования определенных форм, особенно в системе глагола, ср.: Ш^ tui che «толкать машину» -Ш^Ш tui che tui «толкать машину в течение некоторого времени или многократно»14.
Выделение подобных конструкций в текстовых корпусах может быть обеспечено с использованием средств, аналогичных тем, которые описаны выше в п. 3.2.1.1(б) для лексикографического поиска неполностью идентифицированных поисковых единиц, - поисковых шаблонов, где единицы, представленные конкретными графическими цепочками, могут «разрываться» переменными, обозначающими «неизвестные» знаки или цепочки знаков.
В текущей версии комплекса РАМЕЯ/и корпусной поиск по шаблонам реализован только с учетом самого факта «разрывности» задаваемой шаблоном единицы: «разрывный» шаблон может включать только два конкретных компонента, разделенных пробелом как знаком «разрыва». В дальнейшем данную функцию предполагается расширить - в частности, за счет дифференциации вида «разрывов» с помощью тех же переменных ? и *, которые уже предусматриваются для словарно-справочного поиска.
Для задач корпусного поиска предполагается разработать также дополнительные функции, которые предоставляли бы пользователю возможность при необходимости определять
графическое «расстояние» между конкретными компонентами шаблона как интервал «от i до J».
Однако уже имеющиеся простейшие возможности позволяют искать и изучать по текстам корпуса не только отдельные лексические единицы, но и разрывные лексико-синтаксиче-ские конструкции.
Для поисковых единиц, заданных конкретными графическими цепочками (в том числе в составе разрывных шаблонов), корпусной поиск, как и словарно-справочный, может вестись с учетом всех возможностей варьирования их записи, включая отождествление разных словоформ одной и той же единицы.
Для японского различные возможности такого варьирования на графическом и морфологическом (словоизменительном) уровнях уже описаны выше в п. 3.2.1.1 (см. подпункты (а) и (в) соответственно). Что касается китайского, то для него ввиду специфики его морфологии вариантность записи поисковой единицы ограничена только графическим уровнем и связана в основном с тем, что в Китае несколько раз (в период с 1956 по 1986 г.) происходила реформа графики с целью упрощения записи иероглифов. Результатом стало сосуществование двух видов китайской письменности: упрощенной и традиционной. Так, иероглиф * в результате упрощения получил вид иероглиф Ш - вид Ц, иероглиф W - вид иероглиф Щ - Щ и т.д. В компьютерных кодировках традиционные и упрощенные иероглифы представляются разными кодами, а при клавиатурном вводе для тех и других используются разные раскладки клавиатуры.
Чтобы учесть данный вид графической вариантности, в комплексе РАМЕЯ/и при поиске китайских единиц предусматривается табличная проверка заданного пользователем написания поисковой единицы, устанавливающая его принадлежность к классу традиционных или упрощенных вариантов. По результатам этой проверки на основе той же таблицы должна строиться дополнительная поисковая строка, содержащая иероглифы второго из двух классов. Для ее построения адаптируется информация, имеющаяся в иероглифической таблице для китайского, корейского и японского языков, которая свободно распространяется консорциумом Unicode в виде базы данных Unihan 15. Поиск должен осуществляться по обеим полученным поисковым строкам, что и будет обеспечивать нахождение требуемой единицы в любом из двух вариантов ее написания.
Следует, однако, отметить, что принципы учета вариантности при корпусном и словарном поиске могут различать-
ся. При словарном поиске достаточно просто отождествлять разные варианты написания поисковой единицы, поскольку пользователь должен по любому из них получать весь набор релевантных для нее статей. Напротив, в текстах выбор того или иного из допустимых вариантов может быть значимым - например, указывать на стилистические, территориальные или временные особенности языка текста, на самоидентификацию его автора как члена той или иной социальной группы и т.д. Поэтому здесь пользователь должен иметь возможность выбирать требуемый ему режим поиска: с учетом или без учета вариантности написания поисковой единицы. В дальнейшем предполагается предусмотреть также возможность задавать набор интересующих пользователя вариантов той или иной единицы непосредственно в составе поискового запроса. Тем самым понятие вариантности поисковой единицы станет возможно распространить с графического и морфологического также на лексический уровень.
4.2. Составление конкордансов при работе с корпусами текстов
Конкордансы, построенные для больших корпусов текстов, являются, как известно, важным источником лингвистических знаний, как лексических, так и грамматических. Хотя конкорданс не дает прямых указаний на семантику и перевод слова, в ситуациях, когда некоторое слово не удалось обнаружить ни в одном из доступных пользователю словарей или у пользователя возникли сомнения в адекватности имеющихся в словарях толкований и / или переводных эквивалентов для данного конкретного употребления рассматриваемой единицы, сведения, предоставляемые конкордансом, могут быть использованы для интерпретации и перевода этой единицы по контексту. Из конкорданса для той или иной единицы можно получать сведения о ее общей частотности, о типичных грамматических конструкциях, в которых она употребляется, о характерном для нее порядке слов, лексическом окружении и других особенностях ее контекста. Поэтому в описываемом комплексе функциям составления конкордансов уделяется особое внимание.
Выше в п. 2.3. уже рассматривалась функция динамического построения конкорданса для отдельного текста, реализованная в рамках переводческого интерфейса. Для работы с большими корпусами текстов разрабатывается более гибкий вариант таких функций, когда пользователь имеет возмож-
ность варьировать свои требования к формируемому конкордансу и его представлению на экране.
Так, если в переводческом интерфейсе ограничения на размер фрагментов текста, выводимых в окно конкорданса вместе с рассматриваемой единицей в качестве ее левого и правого контекста, заданы априори, в корпусном модуле пользователь может сам определять требуемую ширину контекста.
Выделенные текстовые фрагменты представляются на экране каждый в своей строке и выравниваются, как и в переводческом интерфейсе, таким образом, чтобы сама единица, для которой они выделены, размещалась в центре окна конкорданса. Упорядочиваться они могут при этом в зависимости от желания пользователя как по левому, так и по правому ее контексту.
Порядок слов, как известно, достаточно выраженным образом соотносится в китайском и японском языках со структурой управления (направлением зависимостей). В японском подчиненные единицы располагаются почти без исключения слева от подчиняющей. В китайских актантных конструкциях, если исключить связь «подлежащее-сказуемое» и конструкции с вынесением тематического актанта в начало предложения, подчиненные единицы ставятся, как правило, справа от подчиняющей. Таким образом, меняя способ упорядочения конкорданса, пользователь может не просто изучить порядок слов в сочетаниях с данной единицей, но и, в зависимости от своих целей, сосредоточить внимание на элементах контекста, структурно ей подчиненных либо, напротив, ею управляющих.
Для разрывной поисковой единицы пользователь может требовать, чтобы содержащие ее фрагменты текстов выравнивались по любому из ее компонентов и сортировались по левому или по правому контексту того компонента, по которому выровнены.
Единица, для которой составлен конкорданс, выделяется в каждом выделенном для нее текстовом фрагменте цветовой заливкой. Если она разрывная, каждый из компонентов выделяется свои цветом.
Отдельное окно предусматривается в корпусном интерфейсе для текста, из которого извлечен тот или иной фрагмент конкорданса: при переходе курсора на любой из таких фрагментов в это окно выводится весь текст, содержащий данный фрагмент, с цветовым выделением в нем всех вхождений рассматриваемой единицы. Для текста указывается его заглавие, время создания (или занесения в корпус, если
время создания неизвестно) и информационный источник, откуда данный текст получен, - например, в виде его адреса в сети Интернет.
На Рис. 8 приведен вид корпусного интерфейса после выполнения поиска для разрывной японской единицы сика... пай «только». Поисковая единица задана вверху в строке «Запрос». Сразу под ней дается статистический результат поиска данной единицы по корпусу - число найденных в нем ее вхождений, здесь 3317. Ниже расположено окно конкорданса, под ним - окно текста. В столбцах окна конкорданса указаны (слева направо) уникальный (внутри данного корпуса) номер текста, где найдена искомая единица, число вхождений этой единицы в текст, число графических знаков, разделяющих компоненты единицы в данном ее вхождении, время создания текста и содержащий это вхождение фрагмент соответствующего текста. В окно текста выведен текст, содержащий выделенное в окне конкорданса вхождение поисковой единицы, с его выходными данными.
■ -1П1Ч
и» %М=И17>
з а
1МЗ 3
1М)
Ш •щ
1X5
Ч5Г
зпьинт I £евМ 111Л ПЯыиЯДОСлвдМШДОю. -
ахысчв нгсмтялдонгшл. гЕак(1Ы>«Я1,7 ¡.-еичпыг.'ЖЯЕНви-аи. шшюли веа&иивыс!,-ДИИО-27 № 1,4!) Б ИР^Т 1.Щ5Т щпситии ВО**еЯТ ЖЧКЮЧК»
мы ют -ЧЙММ^ЕШ. . и-гт^««! НО! № 1,1л. ««>«
зта-даг? л-й-сшшлмлвм. ч>(г> ых-й-^+ха </*¥**», •}■/.>
япиолШИМИЛЕ:«.
гтшвжямтггхьегеюнивДОВК'иФи. вж »явдт&лю дат «. ман«
1Ю1 1414
<г.л- -11 Г * М ? ■ -1ч-«-'О-'- 1--??-> -
//МЙ-,^ ^ II л с: ■ - - - . и-'. « у /п V 0 0 6 . ^ «. 0 С С; - С101; ^ 0 ; С- " >
дшодшмйЗйимя 1 гь г ЛЙЙ >« »й-тибалч»"чЬ. (ват ттпяяжтмтъшгш^ а«*.
КПИШШчВи ИЧКйЙЗЗб'в^^^ИВЮМЙЬ1
-вмсЖл,
¡зй(45Неа. ясгаямвсдежгяякянтаи. ЙНШКЙЯ. ИШПИГОП ИЧР ШЩЩТГФ
¡Я'ЛТ 1 шмезют, «цедила Ъ
ИКо/икиги:, гЭЫЩКт«, ИйШЛВД^ЯУЛлмадточа '"ВвУ ¡йетвсагтйКтаШМаЬ. яиамюиулъ
ия1*гййв»неияйЛ)« т тэдяй&мшзэдштшкюпп -ад. ШЧЛШМ«±Й+Я-ЯНЯП. ня
вёлЕЖФ^^й! а г 1, зоюеш»»в«, шип >5.
вими ймдас'Ягм ЗИЮЙ
Рис. 8. Результаты корпусного поиска для разрывной японской единицы
5. Заключение
Из приведенного выше описания видно, что в ходе создания комплекса РАМЕЯ/и мы во многом опирались на опыт уже существующих и показавших свою удачность разработок - прежде всего Национального корпуса русского языка16, лексикографической системы ABBYY Lingvo17 и др.
В части аспектов разрабатываемый комплекс пока слабее своих аналогов. Так, поисковая система Национального корпуса русского языка допускает поиск «разрывных» единиц, включающих до трех отдельных компонентов, в то время как в комплексе РАМЕЯ/и такой поиск ограничен только двухком-понентными единицами. Не предусмотрены в описываемом комплексе функции корпусного поиска классов слов, определяемых пользователем по их грамматическим и / или семантическим характеристикам, а также некоторые другие возможности.
В то же время комплекс имеет и свои преимущества.
Например, в нем последовательно реализован учет графической вариантности поисковых единиц, что особенно существенно, как отмечалось выше, для языков с иероглифической графикой. Разрабатываемая для поиска в корпусах текстов возможность варьировать шаг выборки может быть полезна для оптимизации работы с такими корпусами при составлении словарей и грамматик. Впервые в отечественной электронной лексикографии для японского языка разработана лексико-морфологическая версия функции полнотекстового лексикографического поиска, которая позволяет при поиске японских единиц в статьях других слов находить их вхождения в такие статьи в любых морфологических формах.
Важным достоинством комплекса РАМЕЯ/и является то, что он предусматривает выполнение всех поисковых функций в реальном режиме времени на всем массиве подключаемых к нему лингвистических данных. Это обеспечивается прежде всего самой организацией этих данных: в рамках комплекса для них разработана оригинальная система индексов, благодаря которым скорость поиска становится в значительной степени независимой от объема поисковых массивов.
Уже текущая версия комплекса, при всем ее предварительном характере, используется для исследований по японскому и китайскому языкам. В частности, как уже отмечалось выше, на базе лексикографических массивов, полученных в результате оцифровки японско-русских словарей18, ведется разра-
ботка оригинального электронного японско-русского словаря. Созданные в рамках комплекса корпуса текстов и средства иероглифического поиска успешно используются при написании курсовыгх и дипломныгх работ студентами РГГУ 19 и т.д.
Можно надеяться, что дальнейшая работа над комплексом позволит усовершенствовать и отладить его до такой степени, когда он будет представлять интерес для широкого круга специалистов по учитываемым в нем языкам.
Примечания
1
О современном состоянии этой системы см.: ШаляпинаЗ.М. Система японско-русского автоматического перевода ЯРАП/1: первые экспериментальные результаты / / Бюллетень (Newsletter) Общества востоковедов РАН. Вып.10. М.: ИВ РАН, 2005. С. 164-226; КостыркинA.B. и др. Экспериментальный комплекс ЯРАП для исследований по японско-русскому автоматическому переводу: 2008 / / Бюллетень (Newsletter) Общества востоковедов РАН. Вып. 17: Труды межинститутской научной конференции «Востоковедные чтения 2008»: Москва, 8-10 октября 2008 г. М.: ИВ РАН. 2010 [в печати]. С. 351-389.
Ивакура Ёсио. Поририн-сан о мотииру дзюсюку госэй ханно {Реакция поликонденсации с использованием полифосфорной кислоты} / / Кобунси. 1968. Т. 17, № 91. С. 130.
Лаврентьев Б.П., Немзер Л.А., Сыромятников H.A., Тарасова Т.И., Фелъд-ман-КонрадН.И. Японско-русский словарь / Ред. Б.П. Лаврентьев. М.: Русский язык. 1984. 695 с.
Фелъдман-Конрад Н.И. Учебный словарь иероглифов. Около 5 000 иероглифов. Изд. 2-е, перераб. и доп. М.: Русский язык. 1977. 680 с. См.: [Кэнкюся варо дзитэн (Фудзинума тё)
Японско-русский словарь издательства Кэнкюся (сост. ФудзинумаТ.)].-Токио: Кэнкюся, 2000; ПУ^Х [Консайсу варо дзи-
тэн (Икэта тё) {Карманный японско-русский словарь (сост. С.Икэта)}. Сансэйдо, 2005; РЩЙ Ш. [Коданся Вародзитэн.
Сато Исаму. Дзохо синсо хан {Японско-русский словарь / Ред. Сато Исаму. Исправленное и дополненное издание}]. -Токио: Коданся, 2007. 1186 с.
См., например: Лаврентьев Б.П., Немзер Л.А., Сыромятников H.A., Тарасова Т.И., Фелъдман-Конрад Н.И. Современный японско-русский словарь. Около 160 000 слов и словосочетаний. Под ред. Б.П.Лаврентьева. 7-е издание, исправленное. - М.: Живой язык. 2004. 704 с. Ср. словарь: Masuda, Koh (Ed. in chief). Kenkyusha's New Japanese-English Dictionary. Fourth Edition. Tokyo: Kenkyusha. 1974. P. 1206-1207, - где даны 32 таких единицы.
ЛюбченкоВ.И., КостыркинА.В., МодинаЛ. С., СенинаИ.И., СивцеваВ.М., Шаляпина З.М. Система ИРИС - иероглифический редактор и справочник по японской графике и лексике / / V-я международная конференция
2
3
4
5
3
7
8
по языкам Дальнего Востока, Юго-Восточной Азии и Западной Африки (8-10 сентября 1999 г.). СПб.: Вост. фак-т СПбГУ, 1999. С.52-58. feffiffi. Ш 6 ёШШ^ [Кодзиэн. Дай 6 хан (Большой толковый словарь японского языка. Изд. 6)]. Токио: Иванами, 2008. ФридлДж. Регулярные выражения. - СПб.: «Питер», 2001. Demich K.I., Kostyrkin A.V. Japanese-Russian Lexicographic Workstation DStudio / / Proceedings of the 11th Conference of Pacific Association for Computational Linguistics (PACLING 2009). Eds. H. Kameda, M. Tokuhisa, S. Ohno, M. Suzuki, J. Sjobergh (CD-ROM edition), Hokkaido Univ., Japan. P. 125-128; ДемичК.И., Костыркин А.В. Лексикографическая рабочая станция DStudio (для создания японско-русского электронного словаря) / / VIII Международная конференция по языкам Дальнего Востока и Юго-Восточной Азии. М.: ИД «Ключ-С», 2009. С. 46-49. Лаврентьев Б.П. и др. Указ. соч.
Unicode Standard, Version 5.0, 5th Ed., Addison-Wesley Professional, 2006.
Сведения о китайском языке и примеры китайских единиц здесь и далее предоставлены нам К.А. Кожа (Маркиной).
Unihan 2009 - Unihan Database Lookup. Last updated: 10.12.2009. Copyright ©1991-2010 Unicode, Inc. / / www.unicode.org/charts/unihan. html. 02.03.2010.
Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М.: Индрик, 2005. См. также сайт: ruscorpora.ru. См. о ней, например: Словарь ABBYY Lingvo для работы и учебы / / www. lingvo.ru/. 02.03.2010. Лаврентьев Б.П. и др. Указ. соч.
См., например: ЧудиноваН.И. Основосложные глаголы японского языка со вторым компонентом kakeru: Курсовая работа / Научн. рук. А.С.Панина. М.: РГГУ, 2008; Огорилко Н.Г. Синтаксические свойства глагола shiraseru 'сообщать' в японском языке: Курсовая работа / Научн. рук. З.М. Шаляпина. М.: РГГУ, 2009.
9
11