Научная статья на тему 'Автоматизированная информационно-справочная система поиска лексико-семантических вариантов вокабул русского языка'

Автоматизированная информационно-справочная система поиска лексико-семантических вариантов вокабул русского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
150
51
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Лесников С. В.

The author proposes that attention be focused on the search for lexico-semantic variant (LSV) instead of traditional search for a word form, word usage, a lexeme, a vocable, or a lemma. A search for lexico-semantic variant is a process of selection of entries from dictionary database on the basis of some properties consistent with a theme and/or topic of relational query. The search can be effected by way of matrix-dictionary-relational-search system. A basis for such search is the lexical database containing 1255 dictionaries, glossaries, directories and encyclopedias of Russian with the total number of vocabulary entries adding up to 3282036.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPUTER-BASED RUSSIAN WORD RETRIEVAL REFERENCE SYSTEM

The author proposes that attention be focused on the search for lexico-semantic variant (LSV) instead of traditional search for a word form, word usage, a lexeme, a vocable, or a lemma. A search for lexico-semantic variant is a process of selection of entries from dictionary database on the basis of some properties consistent with a theme and/or topic of relational query. The search can be effected by way of matrix-dictionary-relational-search system. A basis for such search is the lexical database containing 1255 dictionaries, glossaries, directories and encyclopedias of Russian with the total number of vocabulary entries adding up to 3282036.

Текст научной работы на тему «Автоматизированная информационно-справочная система поиска лексико-семантических вариантов вокабул русского языка»

Большой академический словарь русского языка / гл. ред. К.С. Горбачевич. — М. — СПб.: Наука, 2004. (Изд. продолжается).

Даль В.И. Толковый словарь живого великорусского языка: в 4 т. / под ред. И.А. Бо-дуэна де Куртенэ. — М.: Изд. группа «Прогресс», «Универс», 1994.

Епишкин Н.И. Краткий исторический словарь галлицизмов русского языка [«Амур бонжур тужур» и другие французские слова и выражения в русском языке и речи]. — Чита: Изд. автора, 1999.

Лесков Н.С. Собр. соч.: в 10 т. - СПб.: Тип. А.С. Суворина, 1889-1890.

Маркевич Б.М. Полное собр. соч.: в 11 т. — СПб.: Тип. [бывшая] А.М. Котомина, 1885.

Словарь русского языка: в 4 т. / под ред. А.П. Евгеньевой. — М.: Рус. яз., 1985—1988.

Словарь русского языка, составленный Вторым отделением Императорской Академии наук. — СПб. — Пт. — Л., 1891—1929.

Словарь русского языка, составленный комиссией по русскому языку Академии наук СССР. — М.; Л.: Изд-во АН СССР, 1929—1937.

Словарь современного русского литературного языка: в 20 т. / гл. ред. К.С. Горбачевич. — М.: Рус. яз., 1991—1994. — T.I—VI.

Сомов В.П. Словарь редких и забытых слов. — М.: Гуманит. издат. центр ВЛАДОС, 1996.

ARE RUSSIAN EXPLANATORY DICTIONARIES ACCURATE?

E.V. Gayeva

The article challenges accurate material presentation in Russian explanatory dictionaries (both academic and amateur).

© 2009

С.В. Лесников

АВТОМАТИЗИРОВАННАЯ ИНФОРМАЦИОННО-СПРАВОЧНАЯ СИСТЕМА ПОИСКА ЛЕКСИКО-СЕМАНТИЧЕСКИХ ВАРИАНТОВ ВОКАБУЛ РУССКОГО ЯЗЫКА*

Начнем с дефиниций.

Кластер — скопление, объединение нескольких однородных элементов, которое может рассматриваться как самостоятельная единица, обладающая определенными свойствами; напр., в нашем случае — это проекция, выборка всех значений какого-либо словоупотребления/словосочетания из самых разных словарей, справочников и энциклопедий.

Пертинентность — соответствие полученной информации информационной потребности пользователя.

*Исследование осуществлялось при финансовой поддержке Российского фонда фундаментальных исследований (РФФИ).

Вокабула — основная (исконная, начальная) форма, заголовок словарной статьи.

Лемма — основа слова, «черное слово». Лемматизация (канонизация, нормализация, стемминг) — процесс нахождения исходной формы слова (т.е. вокабулы).

Релевантность — применительно к результатам работы поисковой системы — степень соответствия запроса и найденного, т.е. уместность результата.

Эксцерпция — выписка, извлечение из писем, произведений, выборка фрагментов из текста; выдержка, цитата; конкретный пример употребления вокабулы в тексте.

ЛСВ — лексико-семантический вариант вокабулы, элементарная лексическая единица = кортеж грамматических форм слова, соотнесенных с одним из значений данного слова ([Смирницкий 1954: 36], [Новиков 1982: 113], [Канделаки 1987: 84-89], [Новиков 1998: 382]).

Исходной основой для поиска традиционно являются большие корпусы неструктурированных или слабоструктурированных текстов на естественном языке. Корпус текстов предварительно индексируется. Индекс содержит соответствия между некими базовыми сущностями, использующимися для поиска, и фрагментами текстов, их содержащими. Как правило, этими сущностями являются слова (или словоформы). В более развитых вариантах это могут быть тематика текста, фразеологизмы и устойчивые (частотные) словосочетания или предложения. Возможен также «приблизительный» поиск. Эффективный поиск по теме или степени похожести на данный фрагмент текста требует умения правильно определять тематику источника. Индексы могут строиться как автоматически, так и вручную. Автоматически строятся, как правило, только индексы на основе слов (и в очень ограниченном виде на основе определения тематики текста). Для современных поисковых систем достижима полнота и релевантность до 95%.

Почему предлагается сконцентрировать внимание на поиске именно ЛСВ вокабулы, а не просто традиционно искать, напр., словоформу, словоупотребление, лексему, вокабулу или лемму? С нашей точки зрения, в качестве результата поиска необходимо и достаточно получить «однозначное слово или ЛСВ. Только при этом условии можно соблюсти необходимую чистоту и полноту при классификации лексики. Человек не вычислительная машина, и семантический спектр слова актуализируется у него крайне неравномерно. В результате, зная слово, т.е. безошибочно употребляя его, носитель языка далеко не всегда способен осознать то или иное значение как значение» [Морковкин, Новиков 1978: 148]. При этом, «многослойность и негомогенность слова проявляется в том, что оно выступает по меньшей мере в трех разновидностях: как знак, как единица лексической и лексико-семантической систем и как элемент грамматического строя языка. Модусы существования слова - лексема, ЛСВ и словоупотребление в речи (тексте). Структура слова, рассматриваемого с точки зрения соотношения означающего и означаемого, довольно проста, структура слова как элемента строя и семантической структуры языка — сложна» [Аспекты 1980: 10].

Поиск ЛСВ вокабул — это процесс отбора соответствующих запросу словар-

ных статей по некоторым признакам из базы словарей, которые соответствуют теме и/или предмету реляционного запроса.

Поиск ЛСВ может осуществляться посредством матрично-словарной реляционной информационно-поисковой системы ЛСВ (ИПС ЛСВ) в интерактивном режиме эксцерпции и выполняться с использованием соответствующего программного и лингвистического обеспечений как в Интернете (on-line), так и локально (off-line) (технологии Intranet и Internet).

В настоящий момент именно такая пилотная версия ИПС ЛСВ вокабул русского языка доступна в Интернете на портале http://lsw.ru (http://vault.syktsu.ru/cgi-bin/slovar.pl, http://umk.lsw.ru/cgi-bin/slovar.pl, http:// cfrl.lsw.ru/cgi-bin/ slovar.pl).

25 июля 2008 г. в лексическую базу загружено 1255 словарей, словников, справочников и энциклопедий русского языка. Общий объем этой базы — 3 282 036 словарных статей.

Программы поиска, создания, загрузки и параметризации лексической базы данных написаны на PERL (Practical Extraction and Report Language — практический язык для извлечения данных и составления отчетов) и PHP (Preprocessor of Home Pages — препроцессор гипертекста — язык программирования, созданный для генерации HTML-страниц на веб-сервере и работы с базами данных) c использованием SQL (Structured Query Language — язык структурированных запросов — универсальный компьютерный язык, применяемый для создания, модификации и управления данными в реляционных базах данных).

1. Первая программа searcher_word (http://cfrl.lsw.ru/cgi-bin/ searcher_word.pl/) позволяет искать заданную лексему в загруженных словарях (словниках, справочниках, глоссариях и энциклопедиях) разными способами: а) «целиком слово» (заголовок словарной статьи, черное слово, лемма, вокабула); б) как «часть слова» (фрагмент словоформы, однако с учетом того, где будет осуществляться поиск — только по заголовкам словарных статей и/или и в зоне толкования); в) в «области значения ЛСВ вокабул» (толкование — т.е. в правой части словарной статьи, определение, дефиниция). Сузить объем результатов поиска помогает выбор группы лексических источников: 1) словники; 2) толковые; 3) синонимы; 4) говоры; 5) жаргоны; 6) энциклопедии; 7) ГИЗАУРУС (гипертекстовый тезаурус) — термины; 8) разные.

2. Программа searcher_synonym (http://cfrl.lsw.ru/cgi-bin/ searcher_synonym.pl/) позволяет искать синонимы для введенной лексемы в словарях синонимов русского языка, загруженных в словарную базу данных (информация о количестве словарных статей отображается на экране). При этом так же, как и в программе searcher_word, можно выбрать уточняющие параметры поиска: а) «целиком слово», б) как «часть слова». Параметр «толкование» и выбор одной из групп словарей недоступны. Каждый найденный синоним, в свою очередь, фактически является контекстной ссылкой (т.е. выделенная лексема и будет очередным уже заданным запросом при активизации гиперссылки) на программу searcher_word, при помощи которой и возможно узнать значение соответствующего синонима. Причем в этом случае «по умолчанию» значение синонима ищется во всех словарях как «часть слова». Постановка задачи — идея искать значения слов с учетом синонимов — неоднократно

обсуждалась с А.А. Поликарповым. Базовый словарь синонимов был сформирован на основе компьютерной версии словаря синонимов, составителями которого являются Л.И. Колодяжная и А.А. Поликарпов (см.: [Колодяжная, Поликарпов 1975: 25—34], [Колодяжная, Поликарпов 1987: 35], [Колодяжная, Поликарпов 1990: 82], [Колодяжная, Поликарпов 1992: 3—15]). Их версия нами была увеличена в несколько раз — до 82 тыс. словарных рядов, 162 тыс. слов. В дальнейшем предполагается автоматизированное построение синонимических рядов, прежде всего прямых синонимов — лексических единиц, которые максимально близки или совпадают по значению. Критерием близости является свойство взаимозаменяемости лексических единиц в реальных тематических контекстах с учетом абсолютной и относительной частотности.

3. Программа 8еагсИег_тёех (http://cfrl.lsw.ru/cgi-bin/searcher_index.pl/) не содержит параметров поиска (переключателей и меню выбора) и позволяет осуществить глобальный поиск по генеральному словнику русского языка. В генеральный словник включены вокабулы (заголовки словарных статей) с указанием на то, в каких словарях можно найти информацию о том или ином слове. В генеральный словник включена информация не столько по электронным версиям (которые загружены в словарную базу данных, т.к. такие вокабулы найдутся по запросу а) «целиком слово»), но, прежде всего, словники книжных (бумажных) словарей и словники с других словарных порталов. По числовому коду словаря выдается библиография к исходному словарю и гиперссылки соответствующих источников.

Идея Генерального словника русского языка восходит к научной программе «Машинный фонд русского языка (МФРЯ)» (главный конструктор В.М. Анд-рющенко): первым компонентом МФРЯ «является Генеральный словник русских словарей, который может быть создан как семейство однородных баз данных на основе Сводного словника, созданного в Словарном секторе Института русского языка АН СССР, и других "словнико-подобных" словарей, таких, как «Грамматический словарь русского языка» [Зализняк 1977], «Русский орфографический словарь» [Лопатин 2005] и др. Объектом хранения в этой базе данных является вокабула, т.е. слово, являющееся потенциальным заголовком какой-либо словарной статьи и именем определенного лексического значения, а его атрибутами — номера или идентификаторы значений, а значениями атрибутов — имена и входы баз данных, в которых данное слово или его формы зафиксированы в качестве значений атрибутов каких-либо объектов — словарных статей, текстов, грамматических правил, статистических сводок, научных статей и т.п. «Очевидно, что многоаспектный поиск по заданным значениям атрибутов с соответствующими логическими условиями может давать ответы на такие запросы, как: "Найти перечень словарных статей определенных словарей, для которых имеется информация в терминологической базе данных", "Найти значения вокабулы, стилистически маркированные в словарях", "Найти все глаголы с дефектными парадигмами и сопоставить структуры их словарных статей" и т.п.» [Андрющенко 1986: 31]. В 1987—1991 гг. в отделе МФРЯ был сделан вариант генерального словника (небольшой фрагмент от А до П в формате для ЕС ЭВМ нам был доступен).

В бумажной версии необходимо отметить академический образец сводного

словника русской лексики [СССРЛ 1991], в котором свыше 170 тысяч словарных статей из 14 словарей и энциклопедий русского языка. При каждом слове словника указаны словари, в которых оно зафиксировано. Консультации проводились как с В.М. Андрющенко, так и с Р.П. Рогожниковой. Напр., Р.П. Ро-гожникова предлагала включать в генеральный словник лексику только из академических источников. С нашей точки зрения, включать надо всё!

25 июля 2008 г. Генеральный словник русского языка содержал 1 584 362 словарные статьи с соответствующими ссылками на 535 словарей.

При разработке и создании ИПС ЛСВ вокабул предполагается выдерживать следующие принципы: а) функциональности (совместное рассмотрение структуры системы поиска и функций с приоритетом функций над структурой); б) глобальной цели (оптимальность подсистем не является оптимумом всей системы поиска); в) единства (совместное рассмотрение системы как целого и как совокупности частей); г) развития (учет изменяемости системы, ее способности к развитию, накапливанию информации с учетом динамики окружающей среды, напр., использование статистики пользовательских запросов и новых лексических источников); д) иерархии (учет использования соподчинения и ранжирования частей, напр., систематизация по тематическому, хронологическому и частотному параметрам); е) организованности; ж) децентрализации (распараллеливание запросов по распределенным на разных серверах лексическим базам данных); з) неопределенности (по возможности, учет вероятностного наступления события, напр., за счет накопления статистики).

Будущее использование (адаптация, модификация и развитие) «ИПС ЛСВ вокабул» также актуально в целях постоянного и обоснованного решения проблемы поиска лексических материалов.

Матрично-словарная организация лексической базы данных заключается, главным образом, в следующем: конструируется трехмерная матрица, элементами которой фактически являются отдельные словари, справочники, энциклопедии русского языка.

Первая координата — произвольная группировка словарей: 1) словники, 2) толковые, 3) синонимы, 4) говоры, 5) жаргоны, 6) энциклопедии, 7) гипертекстовые тезаурусы, 8) разные.

Вторая — тематическая классификация. Напр., говоры — просторечие, наречие, диалект, социолект, полный или региональный/местный; жаргоны — профессия, арго, сленг, мат. Гипертекстовые тезаурусы — термины: А. ИНТЕРНЕТ (кибернетика, информатика, оргтехника, ЭВМ); Б. ЕСТЕСТВОЗНАНИЕ; В. МАТЕМАТИКА. МЕХАНИКА. ФИЗИКА. АСТРОНОМИЯ; Г. ХИМИЯ; Д. ГЕО; Е. БИОЛОГИЯ; Ж. ТЕХНИКА; З. ЭЛЕКТРО-, ЭНЕРГО- (радио-, теле-, акустика, связь, электроника, энергетика); И. ГОРНОЕ ДЕЛО; К. МАШИНО- и ПРИБОРОСТРОЕНИЕ. МЕТАЛЛ (-оведение, -ургия); Л. этот РАЗДЕЛ резервный, напр., для собственно текстов художественных, научных и учебных; М. ЛЕГКАЯ ПРОМЫШЛЕННОСТЬ. ФОТОКИНОТЕХНИКА; Н. СТРОИТЕЛЬСТВО; О. ТРАНСПОРТ; П. СЕЛЬСКОЕ И ЛЕСНОЕ ХОЗЯЙСТВО; Р. МЕДИЦИНА. ЗДРАВООХРАНЕНИЕ; С. СМИ (журналистика, полиграфия, реклама); Т. ИСТОРИЯ; У. ЭКОНОМИКА; Ф. ПОЛИТИКА; Х. ЮРИСПРУДЕНЦИЯ; Ц. ВОЕННОЕ ДЕЛО; Ч. КУЛЬ-

ТУРА. ПРОСВЕЩЕНИЕ; Ш. ФИЛОЛОГИЯ (лингвистика, литература); Щ. ИСКУССТВО; Ы. СПОРТ; Э. КОСМОЛОГИЯ (политеизм, монотеизм, атеизм, мистицизм, астрология, симвология, этнология); Ю. ФИЛОСОФИЯ. ПСИХОЛОГИЯ. СОЦИОЛОГИЯ; Я. УНИВЕРСАЛЬНОГО ХАРАКТЕРА.

Тематическая классификация реализуется с учетом рубрикаторов: АПУ (ал-фавитно-предметного указателя), АСВИЯ (автоматизированной системы ведения информационных языков), ББК (библиотечно-библиографической классификации), ГАСНТИ (Государственной автоматизированной системы научно-технической информации), ГСК (генерального систематического каталога), ЕКЛ (единой классификации литературы), ИСБН (ISBN — международного стандартного книжного номера), ОКСТУ (общероссийского классификатора «Стандарты и технические условия»), СИБИД (системы стандартов по информации, библиотечному и издательскому делу), СКС (систематической картотеки статей, УДК (универсальной десятичной классификации) и др.

И, наконец, третья координата — хронологическая, т.е. лексикографические источники упорядочены по году первого издания или по дате выпуска первого тома и т.п.

Основными моментами архитектуры «ИПС ЛСВ вокабул», на наш взгляд, должны стать: 1) реализация распределенной модели поиска (т.е. с учетом информации из внешних, сторонних лексических баз); 2) переход от модели «один поиск на всех» к модели персонального, параметрического, многоаспектного поиска; 3) при поиске учет критериев релевантности и пертинентно-сти; 4) переход от поиска только текстовой информации к распознаванию и поиску мультимедийной информации (изображения, анимация, озвучивание и видеофрагменты в качестве иллюстраций к соответствующим вокабулам).

Текущий момент характеризуется катастрофическим ростом информации. В соответствии с законом Мура (основатель Intel), объем данных растет быстрее, чем производительность компьютеров. Быстрое развитие компьютеров позволяет создавать человеко-компьютерные комплексы для поиска лексических материалов большой производительности, используя технику распределенных баз/банков данных/знаний и параллельных вычислений. Преимущество таких подходов заключается в их относительно невысокой стоимости (в соотношении цена/качество), что обеспечивает им перспективу широкого распространения.

Предлагаемая система поиска ЛСВ вокабул специфична по сути и в некотором смысле оригинальна, однако необходимо привести в качестве аналогов и прототипов и другие российские словарные базы данных в Интернете (рассматриваем пока только 11 — в будущем этот ряд обязательно будет продолжен и описан значительно более подробно на сайте http://lsw.ru):

1. Словари Япёех (http://slovari.yandex.ru/).

1 сентября 2006 г. Яндекс начал выполнять программу по созданию электронной библиотеки справочной литературы. В рамках программы «Яндекс. Словари» компания приобретает права, оцифровывает и публикует в Интернете наиболее интересные словари и энциклопедии по разным отраслям знания. Недостаток этой поисковой системы в том, что слово ищется как «часть» и в заголовках и в толковании словарных статей одновременно. При этом частично возможно сократить это число с помощью уточнения параметров поиска:

а) «статью в энциклопедиях» или «перевод слова»; б) «выделить все энциклопедии», «снять выделение», «выбрать некоторые словари». На 25 июля 2008 г. — всего 78 словарей.

2. Мир словарей — Коллекция словарей и справочников (http:// mirslovarei.com).

Имеется краткое описание каждого словаря со ссылками на значения некоторых слов. Искать можно: а) только в одном из выбранных словарей; б) «любое слово» или «все слова»; в) «по слову» или «по слову и описанию». На 25 июля 2008 г. — всего 32 анонимных словаря — без указания каких-либо книжных или иных первоисточников.

3. «Справочно-информационный Интернет-портал «Русский язык» Грамо-та.ги (http://www.gramota.ru/slovari/).

На июль 2008 г. доступно всего 12 словарей русского языка: а) можно создать свою группу словарей (расставив «галочки» в соответствующих местах), по которой и будет производиться поиск; б) есть «помощь», к которой всегда можно обратиться; в) в результате поиска в словаре синонимов выведенные на экран слова являются гипертекстовыми ссылками, нажав на которые можно узнать их значение, — аналогичный принцип использовался нами при создании программы searcher_synonym (обнаруженное совпадение случайно: мы сначала создали свой поиск по синонимам, а уж затем обнаружили похожий вариант реализации поиска на указанном портале).

4. Русский гуманитарный Интернет-университет. Словари (http:// www.vusnet.ru/biblio/dict.aspx/).

Здесь на июль 2008 г. предоставлена возможность поиска по 43 словарям и справочникам. Параметры поиска: а) «искать во всех словарях» или выбрать некоторые (создав тем самым произвольную поисковую группу); б) «искать в ключевых словах» или (строго) «искать в ключевых словах и словарных статьях»; в) «не разбивать на порции». При выдаче результата появляется информация о количестве найденных статей и о затраченном времени на поиск. Существенным недостатком системы является то, что введенное слово ищется как фрагмент — это приводит к слишком большому количеству выводимых результатов. И, видимо, пока не задействована опция «добавить статью».

5. Словари и энциклопедии на Академике (http://dic.academic.ru/).

На июль 2008 г. — 44 анонимных словаря. Есть поиск: а) по всем словарям или выбранным, б) по толкованиям, в) по группам (переводные, грамматические, толковые). В июле 2008 г. сайт не выдерживал критики: на «главной» странице была чудовищная ошибка «грамматика», что, по всей видимости, свидетельствовало о дилетантизме и непрофессионализме разработчиков (наверное, филологов в коллективе не было).

6. Сельскохозяйственная электронная библиотека знаний (СЭБиЗ) (http://www.cnshb.ru/AKDiL/).

СЭБиЗ создана (при поддержке Российского Фонда фундаментальных исследований, грант №00-07-90208) в виде информационно-справочной системы, позволяющей пользователям получить сведения, которые собраны в энциклопедиях, справочниках и словарях по всем отраслям сельскохозяйственных знаний. Ряд словарей и справочников приводятся не полностью, но они постоян-

но дополняются. В СЭБиЗ представлены рубрикатор и тезаурус по сельскому хозяйству. Для уточнения поисковых запросов предусмотрены режимы: а) «слова в документе (логика И)» — при поиске будут найдены документы, в которых все написанные в запросе слова присутствуют в произвольном месте документа вместе или порознь; б) «слова в предложении (логика И)» — такой поиск аналогичен предыдущему, но все слова запроса будут найдены в одном или нескольких предложениях документа; в) «словосочетание (через 2 слова)» — будут находиться документы, в которых слова запроса присутствуют не далее, чем за два слова друг от друга в заданном Вами порядке. Если между словосочетаниями или отдельными словами находятся союзы И, ИЛИ, то эти союзы будут восприниматься как задающие логику соединения словосочетаний или отдельных слов.

7. Словари ИНФО (http://www.slovari.info/).

Имеется возможность поиска по лексической базе из 7 словарей (Даль, медицинский, полиграфический, геологический и терминов социологии, философии и юриста).

8. Энциклопедии на http://enc.mail.ru/ (Российский энциклопедический словарь, Энциклопедический словарь Брокгауза и Ефрона, Всемирный биографический энциклопедический словарь, Мифы народов мира, Всемирная история, Народы и религии мира): а) искать точные формы слов, б) искать в найденном.

9. 12 энциклопедий на http://www.edic.ru/ (большой, исторический, мифы народов мира, музыкальная, животных, растений, моды, кулинарная, монет ХХ в., люди на монетах, нумизматический и словарь-ликбез по экономике).

10. Интерактивные словари (http://www.slovari.ru).

Поиск по сотням тысяч словарных статей во всех представленных словарях, а также а) несколько томов русской грамматики, более десяти томов библиографических материалов; б) возможность задавать сложные поисковые запросы с использованием масок и логических операторов; г) запросы с использованием транслитерации; д) отображение результатов в графическом режиме (опция указывается в форме поиска); е) можно задать запрос в современном написании и получить результат словарной статьи в ее оригинальном написании (толковый словарь В.И. Даля под редакцией И.А. Бодуэна де Куртенэ); ж) постоянное обновление и пополнение словарных баз данных и справочных материалов по русскому языку; з) возможность формирования поисковых запросов в библиотеке справочной литературы; и) поиск слова в многолетних архивах Службы русского языка и форума сайта; к) Служба русского языка, форум, модерируе-мый лингвистами, и многое др.

11. Мир слов (http://www.mirslov.ru/).

Элементарный поиск по набору из 8 анонимных (без авторства и библиографического описания) словарей.

Таким образом, можно полагать, что матрично-словарная реляционная ИПС ЛСВ вокабул в интерактивном режиме эксцерпции перспективна, универсальна и репрезентативна.

Для пополнения лексической базы в нашем распоряжении уже имеется в электронной форме более пяти тысяч словарей в разных форматах .doc, .html,

.txt, .rtf, .pdf, .djvu, .exe, .mht, .chm. (см. каталоги по адресам http://lsw.ru/000/001.htm, http://lsw.ru/000/002.htm, http://lsw.ru/000/050.htm).

ЛИТЕРАТУРА

Андрющенко В.М. Концепция и архитектура Машинного фонда русского языка (МФРЯ) // Машинный фонд рус. яз.: идеи и суждения. — М.: Наука, 1986.

Аспекты семантических исследований. — М.: Наука, 1980.

Зализняк А.А. Грамматический словарь русского языка. — М.: Рус. яз., 1977.

Канделаки Т.Л. Основные группировки терминологических единиц упорядоченных терминологий // Вопр. языкознания. — 1987 — №6. — С.84—89.

Колодяжная Л.И., Поликарпов А.А. Некоторые количественные характеристики русской синонимии (на материале «Словаря синонимов» под ред. А.П. Евгеньевой. — Л.: Наука, 1975.

Колодяжная Л.И., Поликарпов А.А. Исследование количественных семасиологических характеристик лексики на основе машинной версии словаря синонимов //II Все-союзн. конф. по созданию машинного фонда рус. яз. — М.: Ин-т рус. яз. АН СССР, 1987. — С.35—39.

Колодяжная Л.И., Поликарпов А.А. Компьютерная версия синонимического словаря // Актуальные проблемы компьютерной лингвистики. — Тарту: Изд-во Тарт. гос. ун-та, 1990. - С.82.

Колодяжная Л.И., Поликарпов А.А. Исследование системных параметров лексики на основе компьютерной версии синонимического словаря // Труды Машинного фонда русского языка. — М.: Изд-во Ин-тарус. яз. РАН, 1992. — Т.2. — С.3-15.

Морковкин В.В., Новиков Л.А. Рецензия на кн.: Ю.Н. Караулов Общая и русская идеография // Вопросы языкознания. — 1978. — №5. — С.148.

Новиков Л.А. Семантика русского языка. — М.: Высш. шк., 1982. — С.113.

Новиков Л.А. Полисемия // Лингвистический энциклопедический словарь / гл. ред. В.Н. Ярцева. — М.: Сов. энцикл., 1998. — С.382.

Русский орфографический словарь: ок. 180 000 слов / РАН. Ин-т рус. яз. им. В.В. Виноградова / отв. ред. В.В. Лопатин. — 2-е изд., испр. и доп. — М.: Изд-во Ин-тарус. яз. им. В.В. Виноградова, 2005.

Смирницкий А.И. К вопросу о слове (проблема тождества слова) // Труды института языкознания АН СССР. — М.: Наука, 1954. — Т.4. — С.36.

СССРЛ: Сводный словарь современной русской лексики: в 2 т. / АН СССР, Ин-т рус. яз. / под ред. Р.П. Рогожниковой. — М.: Рус.яз., 1991.

COMPUTER-BASED RUSSIAN WORD RETRIEVAL REFERENCE SYSTEM

S.V. Lesnikov

The author proposes that attention be focused on the search for lexico-semantic variant (LSV) instead of traditional search for a word form, word usage, a lexeme, a vocable, or a lemma. A search for lexico-semantic variant is a process of selection of entries from dictionary database on the basis of some properties consistent with a theme and/or topic of relational query. The search can be effected by way of matrix-dictionary-relational-search system. A basis for such search is the lexical database containing 1255 dictionaries, glossaries, directories and encyclopedias of Russian with the total number of vocabulary entries adding up to 3282036.

i Надоели баннеры? Вы всегда можете отключить рекламу.