Ш1Ш1ШШ1МШШШ1Ш1ШШ1Ш1ШШ1ШШ1МШ1ШШ1ШШ1ШШ1ШШ1Ш1Ш1ШШШ1
© 2014
В. А. Баранов
ОРГАНИЗАЦИЯ ПОИСКА И ДЕМОНСТРАЦИИ КОЛЛОКАЦИЙ В КОРПУСЕ
«МАНУСКРИПТ»*
В работе рассматриваются средства поиска и демонстрации лингвистических единиц в полнотекстовом корпусе средневековых славянских рукописей «Манускрипт» (manuscripts.ru). Особое внимание обращено на описание параметров запроса, необходимых для выявления в текстах целостных сочетаний слов.
Ключевые слова: лингвистический корпус, средневековые славянские рукописи, поиск данных, визуализация, коллокация
Ценность лингвистических корпусов, использующихся в настоящее время в различных целях — от подбора текстовых иллюстраций и подготовки словарей до разработки систем автоматического перевода и систем поиска информации, — несомненна.
Разметка текстов, содержащая сведения о времени создания произведений, их авторах, жанрах, тематике и т.п., позволяет формировать подкорпусы, обладающие необходимыми характеристиками, а разметка лингвистических единиц — находить в них интересующие пользователя речевые факты. Формы вывода выборок на экран обеспечивают просмотр первичных материалов: дают возможность проанализировать контекстные условия употребления словоформ, получить сведения о частоте их встречаемости и о распределении в подкорпусе.
Одной из целей, которые могут быть достигнуты с помощью корпуса, является нахождение целостных сочетаний, употребляющихся в большом массиве текстов не единожды. Поиск регулярных лексических окружений некоторой лексемы, носящих характер типичности, позволяет выявить лексико-семантические и жанрово-стилистические особенности определённой группы текстов, а также использовать полученные сведения для решения большого количества иных теоретических и прикладных лингвистических и информационных задач.
Понятно, что применение стандартных запросов для нахождения таких единиц и неспециализированных интерфейсов для их демонстрации может представлять значительную сложность, так как влечёт за собой необходимость просмотра и анализа очень большого количества контекстов.
Известно, что подготовка запроса предусматривает:
— формирование или выбор подкорпуса; при этом осуществляется отбор текстов по характеристикам, которые предположительно могут влиять на поведение в них языковых единиц;
— указание маски искомых лингвистических единиц и/или их значений для выявления в подкорпусе текстовых прецедентов, отличающихся от других формой или свойствами;
— выбор формы вывода данных, позволяющей анализировать контексты в соответствии с задачами исследования.
Каждый из этапов требует специализированного интерфейса, дающего пользователю возможность выбора параметров
запроса и вывода выборки на экран. Именно по функциональности, удобству и понятности запросных форм этих трёх этапов чаще всего пользователи и оценивают возможности корпуса.
Необходимые для формирования выборки свойства текстов и лингвистических единиц хорошо известны, а формы демонстрации контекстов достаточно стандартны и давно апробированы во многих корпусах. В первую очередь это перечни языковых единиц и их контексты, сводные таблицы, содержащие количественные данные, и диаграммы распределения единиц по корпусу, например, в зависимости от времени создания текста.
Важнейшими приёмами работы с выборкой являются просмотр контекстного окружения словоформы и сравнение частоты встречаемости речевого факта с альтернативными формами.
В большинстве корпусов параметры запроса дают возможность пользователю указать маску и характеристики не только одной лингвистической единицы (в первую очередь — словоформы), но и нескольких, находящихся рядом или на указанном пользователем расстоянии. Результатом является перечень сочетаний, удовлетворяющих значениям трёх параметров — маскам словоформ или лемм, их характеристикам и расстоянию между ними.
Подобные выборки позволяют уменьшить количество просматриваемых контекстов за счёт, по сути, выборки из под-корпуса только тех, в которых искомая словоформа сочетается с определенной(ыми) другой(ими).
Всё сказанное справедливо не только для корпусов, содержащих современные тексты, но и для таких, в которых представлен материал предшествующих эпох.
Одним из немногих доступных в Интернете электронных ресурсов, которые содержат машиночитаемые полные транскрипции средневековых славянских рукописей, является исторический корпус «Манускрипт» (адрес портала проекта — manuscripts.ru), снабжённый текстологической, аналитической и лингвистической разметкой, поисковым инструментарием и формами вывода выборок на экран. В настоящее время база данных корпуса содержит несколько десятков славянских рукописей X-XV вв. (см. список подкорпусов в разделе «Коллекции» портала) общим объёмом более 3,5 млн. словоупотреблений. Другим ресурсом проекта является корпус языка М. В. Ломоносова (lomonosov.pro), включающий все тексты полного собрания сочинений в 11-ти томах (М.; Л., 1950-1959, 1984), в том числе и тексты на иностранных языках.
Доступ к корпусам обеспечивается специализированными модулями, предназначенными для подготовки запросов и демонстрации выборок и отличающимися параметрами запросов и формами вывода: однотекстовые и многотекстовые запросные формы, модуль параллельных корпусов (демонстрируются списки евангелий, списки майской минеи, древнейшие летописи), модуль статистики и некоторые др.1.
Баранов Виктор Аркадьевич — доктор филологических наук, профессор, заведующий кафедрой лингвистики Ижевского государственного технического университета им. М.Т. Калашникова. E-mail: victor.a.baranov@gmail.com
Работа выполняется в рамках проекта «Комплексное исследование рукописного кодекса раннедревнерусского письма — Троицкого сборника XII-XIII вв. и подготовка интернет-издания» (грант РФФИ № 12-06-00334).
1 Баранов 2010; Баранов 2011а; Баранов 2011 б; Баранов 2012а; Баранов 2012б.
276
БАРАНОВ
Состав полей запросных форм и форм вывода выборки в каждом из модулей определяются задачами, для решения которых модуль предназначен. Понятно, что перечень задействованных при запросе параметров и введённые значения могут существенно влиять на количество обнаруженных текстовых примеров, а соответственно и на результаты анализа. Например, в однотекстовых и многотекстовых формах основными параметрами являются маска словоформ, их грамматические значения и диапазон листов рукописей. При демонстрации параллельных корпусов к ним добавляются тип фрагмента, по которому выровнен корпус (стихи, погодные записи и т.п.), основной список, следование рукописей и некоторые др.2. В модуле статистики важными характеристиками являются тип единицы подсчёта, тип фрагментов, в пределах которых осуществляется подсчёт, шаг подсчёта и др.3.
Особенно важно предоставить пользователю гибкие параметры запроса в том случае, если поиск осуществляется в текстах, нормы которых значительно иные, чем в современных. Например, если для современных текстов практически во всех случаях поиск сочетаний целесообразно осуществлять с учётом пунктуационных знаков, то при непоследовательном использовании знаков оформления текста в средневековых рукописях пользователь должен сам определять, следует ли учитывать наличие небуквенного знака между искомыми словоформами. В условиях свободного расположения словоформ относительно друг друга, безусловно, важным является необходимость (кроме прочих параметров, которые используются при подготовке стандартных запросов) учитывать (или не учитывать) и порядок следования компонентов сочетания.
Приведём перечень параметров, которые должны использоваться при подготовке запроса для поиска сочетаний словоформ в средневековом корпусе, и комментарии к ним.
1. Тип единицы поиска. Единицей поиска могут быть не только словоформы, но и леммы; должны быть предусмотрены стандартные маски одной любой или нескольких любых единиц.
2. Характеристики компонентов. Параметр может быть использован при наличии соответствующей разметки единиц — грамматических, словообразовательных, семантических и иных характеристик словоформ и слов.
3. Количество компонентов в сочетании. Значение параметра задаётся или указанием на количество компонентов в искомых сочетаниях, или количеством введённых при запросе масок единиц; в последнем случае задаётся основная единица поиска.
4. Расстояние между компонентами. Указывается в тех же единицах, для которых делается запрос, — в словоформах.
5. Фиксированный/свободный порядок следования компонентов. Должен быть предусмотрен поиск сочетаний, в которых следование компонентов или соответствует порядку их следования в запросе, или свободное; значение параметра влияет на форму вывода данных по умолчанию.
6. Знаменательные/незнаменательные части речи. Учёт знаменательных и служебных частей речи может быть реализован с помощью характеристик параметра 2.
7. Пересечение/непересечение сочетаний. Необходимость выявления наиболее частотных сочетаний требует анализа всех последовательностей форм, то есть включения в состав каждого следующего сочетания выборки всех компонентов предыдущего, кроме первого.
8. С учётом/без учёта пунктуационных знаков. Нахождение сочетаний или только в пределах синтагм, или также и на их границах, разделённых пунктуационными знаками, требует указания соответствующего параметра включаемых в выборку контекстов.
9. Абсолютное/относительное количество сочетаний. Для нахождения в подкорпусе только таких сочетаний, которые встречаются с определённой частотой, необходимо иметь соответствующий фильтр с возможностью указать диапазон значений в абсолютных или относительных величинах.
Указанные параметры запроса позволяют выявлять в отдельных текстах, в группе текстов (подкорпусе) сочетания слов, встречающиеся неоднократно или с определённой частотой, вне зависимости от порядка следования в них компонентов, от контактного или дистантного их расположения, от наличия или отсутствия между компонентами пунктуационных знаков. Основным отличием предложенного набора свойств от использующегося сейчас является указание одной словоформы для поиска её сочетаний с другими, а также вывод перечня сочетаний, сгруппированного по их количеству.
Результат запроса может быть получен в виде сортированных по частоте встречаемости или по алфавиту перечней коллокаций, снабжённых адресами, а также в виде диаграмм распределения сочетаний в пределах рукописи(ей).
Сформулированные требования позволяют расширить возможности функционирующих на портале «Манускрипт: славянское письменное наследие» исторических корпусов и дать пользователям средства выявления в текстах лексико-семанти-ческих единств различного типа.
ЛИТЕРАТУРА
Аникина Р.А., Баранов В. А. 2012а: Параллельный корпус русских летописей в Интернете: цели, задачи, технологическая основа, использование // Информационные технологии и письменное наследие: материалы IV Междунар. науч. конф. / В. А. Баранов, А. Г. Варфоломеев (ред.). Петрозаводск; Ижевск, 12-18.
Аникина Р.А., Баранов В. А. 2012б: Параллельный корпус русских летописей XIII-XV вв. в Интернете: инструментарий и методика лингвотекстологического анализа средневекового текста // Интеллектуальные системы в производстве. 2 (20), 157-162.
Баранов В. А. 2010: Полное собрание сочинений М. В. Ломоносова в Интернете: подготовка электронной коллекции и функциональные возможности модулей корпуса // Уч. зап. Казанск. ун-та. Сер.: Гуманитарные науки. 152, 6, 223-234.
Баранов В. А. 2011а: Корпус средневековых рукописей на портале «Манускрипт: славянское письменное наследие»: стандартные функции и новые возможности // Письменное наследие и современные информационные технологии: сб. статей лекторов междунар. науч. школы для молодёжи / В. А. Баранов (ред.). Ижевск, 5-36.
Баранов В. А. 2011 б: Полнотекстовая коллекция славянских Евангелий проекта «Манускрипт» и специализированные инструменты разметки: модуль фрагментирования // Вестник Пермск. ун-та. Сер. «История». 2 (16), 40-47.
Баранов В. А. 2012а: Электронные коллекции древнейших и средневековых славянских рукописей на портале «Манускрипт»: функциональные возможности // Синайский кодекс и памятники древней христианской письменности: традиции и инновации в современных иссле-
2 Аникина, Баранов 2012а; Аникина, Баранов 2012б; Баранов, Зуга 2011.
3 Баранов, Дубовцев 2012.
Национальные и интернациональные аспекты формирования
277
дованиях: труды междунар. науч. конф. «Синайский кодекс. Рукопись в современном информационном пространстве» (Пятые Загребинские чтения). СПб., 169-182.
Баранов В. А. 2012б: Лингвистические, методические и технологические вопросы создания и использования корпуса средневековых славянских текстов // Русистика: язык, культура, перевод: сб. докл. юбилейной междунар. науч. конф. София, 404—-14.
Баранов В. А., Дубовцев С. В. 2012: Модуль статистики информационно-аналитической системы «Манускрипт»: функции и демонстрация данных // Информационные технологии и письменное наследие: материалы IV Междунар. науч. конф. / В. А. Баранов, А. Г. Варфоломеев (ред.). Петрозаводск; Ижевск, 23-26.
Баранов В. А., Зуга О. В. 2011: Лингвистические и компьютерные основы создания корпуса Евангелий Х1-Х111 вв. // Актуальные проблемы теории и методологии науки о языке: материалы междунар. науч.-практ. конф. СПб., 136-138.
SEARCH FOR COLLOCATIONS AND THEIR DEMONSTRATION IN THE TEXT CORPUS ''MANUSCRIPT''
V.A. Baranov
The article discusses search tools and demonstrations of linguistic units in the full-text corpus of medieval Slavonic manuscripts (project manuscripts.ru). Particular attention is focused on the description of the query parameters needed to identify collocations in the text corpora. Key words: text corpus, medieval Slavonic manuscripts, data search, visualization, collocation
© 2014
А. Д. Выхрыстюк
НАЦИОНАЛЬНЫЕ И ИНТЕРНАЦИОНАЛЬНЫЕ АСПЕКТЫ ФОРМИРОВАНИЯ СОВРЕМЕННОЙ РУССКОЙ КОМПЬЮТЕРНОЙ ТЕРМИНОЛОГИИ
Развитие языка происходит по его внутренними законам и определяется потребностями общества. Сегодня, в век интернет-технологий. в языке стремительно рождается новая компьютерная лексика, отражающая новые понятия. В статье рассматривается специфика современной компьютерной терминологии в русском языке, национальные и интернациональные стороны её формирования.
Ключевые слова: компьютерная терминология, заимствование, динамика, национальный, интернациональный
Быстрое внедрение во все сферы человеческой жизни компьютерных и интернет-технологий значительно облегчило возможности для решения производственных задач и воплощения творческих идей. Увеличивается поток документов на бумажных и электронных носителях, появляются новые виды технических устройств (смартфон, коммуникатор, нетбук и т.д.) и типы связи (сайты, порталы, блоги, чаты, форумы и пр.). Русский язык испытывает проблемы в связи с научно-техническим прогрессом, но вместе с тем обозначилось и ряд собственно лингвистических проблем. Одна из них — потребность в формировании терминологического аппарата в сфере компьютерных и интернет-технологий.
За основу в работе взято наиболее приемлемое определение термина, принадлежащее Л. Л. Нелюбину: «Термин — это слово или словосочетание специального языка, создаваемое (принимаемое, заимствуемое и т.д.) для точного выражения специальных понятий и обозначения специальных предметов»1.
Первоисточником современной русской компьютерной терминологии, по понятным причинам, стал английский язык. По наблюдениям лингвистов, он же явился и более приспособленным для словопроизводства в новой отрасли, чем наш родной русский. В русском языке не всегда находятся достойные эквиваленты ёмким английским терминам. Массовое внедрение компьютерной терминологии не могло не повлиять на состояние и дальнейшее развитие современного русского языка: появляются новые термины, наименования, которые входят в повседневную разговорную речь, порождая компьютерный сленг. При освоении английских лексем используются различные способы: калькирование, заимствование путём транскрипции или транслитерации, использование аббревиатур. Некоторые кальки успешно приживаются, и вряд ли кому-нибудь придёт сегодня в голову использовать слова гляделка или сетепровод вместо ставшего привычным термина браузер. Но очень часто отсутствие грамотного перевода иноязычных специальных слов приводит к тому, что даже профессионалы начинают говорить на примитивном сленге. Особую сложность представляет процедура отграничения термина от нетермина, что объясняется использованием в английской компьютерной терминологии ряда лексических единиц, обладающих разветвлённой системой значений.
Работа по формированию русскоязычной терминологии в области компьютерных баз данных у нас в стране началась ещё в 1970-е гг. и связана с именем М. Когаловского. В этот период научные работники имели возможность на общественных началах заниматься терминологическими проблемами. Систематизации научно-технической терминологии оказывалась государственная поддержка: при Академии наук работал Комитет научно-технической терминологии, который осуществлял подготовку ряда методических материалов по составлению словарей, в том числе по вычислительной технике. Активное развитие компьютерной технологии в конце XX — начале XXI в., постоянное появление новых понятий требовало ответной реакции лингвистов. По мнению учёного-лексикографа Ю. Кузьмина, первого главного редактора журнала «Мир ПК», а сегодня президента издательской группы «Профи-Пресс», «необходимость следовать массе стандартов, инструкций и другим
Выхрыстюк Алексей Дмитриевич — аспирант кафедры филологического образования Тобольской государственной социально-педагогической академии им. Д. И. Менделеева. E-mail: wolfalex_24@mail.ru
1 Нелюбин 1999, 265.