Научная статья на тему 'Обоснование разработки и создания гипертекстового тезаурусного корпуса комплексных, учебных, школьных словарей русского языка'

Обоснование разработки и создания гипертекстового тезаурусного корпуса комплексных, учебных, школьных словарей русского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
115
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЗА ДАННЫХ / ГИЗАУРУС / ГИПЕРТЕКСТОВЫЙ ТЕЗАУРУС / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / УЧЕБНАЯ ЛЕКСИКОГРАФИЯ / ЛИНГВИСТИКА / МЕТАЯЗЫК / ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА / РУССКИЙ ЯЗЫК / СЛОВАРЬ / DATABASE / HYPERTEXT THESAURUS / ARTIFICIAL INTELLIGENCE / CORPUS LEXICOGRAPHY / LINGUISTICS / METALANGUAGE / INFORMATION RETRIEVAL SYSTEM / RUSSIAN LANGUAGE / DICTIONARY

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Лесников Сергей Владимирович

В данной статье рассматривается конструирование гипертекстового тезауруса (гизауруса) комплексных, учебных, школьных словарей русского языка. Гизаурус разрабатывается в виде гипертекстовой системы в нелинейной форме с учетом реляционных, иерархических и сетевых парадигматических связей посредством реализации синтагматических связей в интерактивном режиме на персональном компьютере оцифрованных лексикографических материалов русского языка, что позволит на основе цифровых технологий посредством соответствующей классификации и систематизации, дигитализации и ретродигитизации словарей, справочников и энциклопедий и других лексикографических материалов русского языка структурировать, систематизировать и объединить учебные лексикографические материалы в единый корпус-свод, обеспечив тем самым их оперативный ввод в научный оборот с целью оптимизации научных исследований в современной лексикографии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

JUSTIFICATION OF DEVELOPMENT AND CREATION OF HYPERTEXT THESAURUS CORPUS OF COMPLEX, EDUCATIONAL, SCHOOL DICTIONARIES OF THE RUSSIAN LANGUAGE

This article discusses the construction of the terminological code of the Russian language in the form of information-search hypertext thesaurus. The code is developed in the form of a hypertext system in a nonlinear form, taking into account the relational, hierarchical and network paradigmatic relations through the implementation of syntagmatic relations in an interactive mode on a personal computer digitized lexicographic materials of the Russian language, which will allow on the basis of digital technologies through appropriate classification and systematization, digitalization and retrodigitization of dictionaries.

Текст научной работы на тему «Обоснование разработки и создания гипертекстового тезаурусного корпуса комплексных, учебных, школьных словарей русского языка»

УДК 81.374

ОБОСНОВАНИЕ РАЗРАБОТКИ И СОЗДАНИЯ ГИПЕРТЕКСТОВОГО ТЕЗАУРУСНОГО КОРПУСА КОМПЛЕКСНЫХ, УЧЕБНЫХ, ШКОЛЬНЫХ СЛОВАРЕЙ

РУССКОГО ЯЗЫКА

Лесников Сергей Владимирович, ведущий специалист; доцент; кандидат филологических наук. [email protected]

Институт лингвистических исследований Российской академии наук,

Санкт -Петербург

В данной статье рассматривается конструирование гипертекстового тезауруса (гизауруса) комплексных, учебных, школьных словарей русского языка. Гизаурус разрабатывается в виде гипертекстовой системы в нелинейной форме с учетом реляционных, иерархических и сетевых парадигматических связей посредством реализации синтагматических связей в интерактивном режиме на персональном компьютере оцифрованных лексикографических материалов русского языка, что позволит на основе цифровых технологий посредством соответствующей классификации и систематизации, дигитализации и ретродигитизации словарей, справочников и энциклопедий и других лексикографических материалов русского языка структурировать, систематизировать и объединить учебные лексикографические материалы в единый корпус-свод, обеспечив тем самым их оперативный ввод в научный оборот с целью оптимизации научных исследований в современной лексикографии.

Ключевые слова: база данных, гизаурус, гипертекстовый тезаурус, искусственный интеллект, учебная лексикография, лингвистика, метаязык, информационно-поисковая система, русский язык, словарь.

Комплексные, учебные, школьные словари - разновидность словарей русского языка. Отдельно как один из типов таких словарей выделяли следующие языковеды: Розенталь Д.Э. и Теленкова М.А. (1975), Потиха З.А. (1987), Козырев В.А. и Черняк В.Д. (1989, 2000, 2015), Дубичинский В .В. (1995, 2009), Протченко И.Ф. (1996), Лесников С.В. (2002, 2019), Лебедева С.В. (2005), Петрушова О .Л. (2009), Молдован А.М. (2013). В учебной и внеурочной деятельности в рамках образовательного процесса преподавателям и их ученикам рекомендуются к использованию комплексные, учебные, школьные словари русского языка разных видов (для примера приводим рандомно по одному словарю): антонимов (Введенская Л.А. 2006), грамматический (Панов В.Т. 1991), иностранных слов (Крысин Л.П. 2010), комплексный (Морковкин В.В. 1984), морфемный (Николина Н.А. 2013), обратный (Табухов Х.К. 2008), омонимов (Введенская Л.А. 2010), орфографический (Панов В.Т. 1991), орфоэпический (Лекант П.А. 2013), паронимов (Введенская Л.А. 2005), пословиц и поговорок (Зимин В.И. 1994), синонимов (Щербашина И.В. 2001), словообразовательный (Козлова Н.А.

2014), сочетаемости слов (Денисов П.Н. 1971), тематический (Саяхова Л.Г. 1977), толковый (Габучан К.В. 1988), трудностей (Гайбарян О.Е. 2011), ударений (Иванов И.С. 2010), универсальный (Зотова С.В. 2015), фразеологический (Калашникова А.Ф. 1991), этимологический (Филатова Е.П. 2005) и другие.

Русский язык, государственный язык Российской Федерации, является одним из официальных языков ООН, ЮНЕСКО, ВОЗ, МАГАТЭ. Описание и репрезентация учебных словарей русского языка и формализация лексикографических материалов становится одной из актуальных задач учебной лексикографии. В связи с глобальной индустриализацией и урбанизацией часть лексики уходит в прошлое, поэтому очевидна необходимость комплексной разработки интерактивной версии облачного гипертекстового сводного тезауруса (далее гизауруса) русских словарей для обобщающего исследования русской лексики как отражения национальной культуры и истории страны. Получение репрезентативного оцифрованного словарного корпуса в форме гизауруса позволит предоставить специалистам-филологам и широкому кругу пользователей интерактивный доступ к соответствующим лексикографическим источникам русского языка (в зависимости от запросов) [Лесников, Мызников 2019].

Под гизаурусом понимается гипертекстовая реляционная база данных с гиперссылками - это цифровой идеографический словарь (тезаурус), отображающий синтагматические, синтаксические, парадигматические, семантические, прагматические и словообразовательные языковые отношения между лексическими единицами [Лесников 2002]. Гизаурус предназначен для целенаправленного поиска слов: как лексем в целом, так и отдельных их вариантов (лексико-семантических и лексико-грамматических, словообразовательных, морфологических, фонетических и акцентологических).

Актуальность конструирования гизауруса определяется тем, что до сих пор остаются ещё не разработанными вопросы, связанные с:

(1) формированием максимально полного свода учебных словарей русского языка, который позволит получать объективные, достоверные и аутентичные данные, например, для практической работы над текущими и новыми словарными проектами;

(2) обеспечением доступа пользователям к изданиям учебных словарей русского языка, при этом сохраняя аутентичность оцифрованного материала этим изданиям.

(3) необходимостью исследования тенденций развития современной учебной лексикографии не только в области технических решений, но и в области теории создания цифровых лексикографических ресурсов на принципах, учитывающих богатство словарного материала и достижения современной лексикографии.

Научной проблемой планируемого исследования является развитие теоретических основ учебной лексикографии, систематизация в условиях

большого объёма, разнотипности и гетерогенности лексикографических материалов. Предполагается аутентичное отображение источников гизау-руса за счёт выдачи по поисковым запросам не только релевантной информации из лексикографической базы, но и рё!-страниц из цифровых версий словарей-первоисточников.

Словарный корпус - это свод словарей, считающихся представительными для данного языка. Он конструируется в виде гизауруса в нелинейной форме с учетом реляционных, иерархических и сетевых парадигматических связей, что позволяет посредством соответствующей классификации и систематизации, дигитализации, редупликации словарей структурировать и объединять учебные лексикографические материалы. «... приходится признать, что традиционные способы сбора материала для исследования лингвистических и филологических задач не являются более адекватными. До недавних пор у исследователей реально не было возможности, в силу огромной трудоемкости сбора языковых данных, накапливать достаточно значительные по объему массивы "примеров". Весьма затруднена была и практическая работа с языковым материалом, зафиксированном на традиционных (бумажных) носителях. Именно эти проблемы и решает прежде всего корпусная лингвистика. Репрезентативность корпуса обеспечивает репрезентативность построенных на основе корпуса словаря и грамматики. Особенно велик потенциальный вклад корпуса в исследование лексики, словаря, лексических правил, поскольку эти аспекты в большей степени, нежели грамматические, предполагают максимальный охват текстового материала. Одновременно стоит заметить, что исследование словаря вообще в современной лингвистике выходит на первый план, ибо вокабула ментального лексикона "несет с собой" и характеризующую ее грамматическую информацию, что уместно воспроизводить в лингвистическом описании-модели, так что представление словаря в пределе стремится к представлению языка как такового. Именно и только наличие репрезентативного Национального корпуса сделает задачу составления академического словаря, академической грамматики современного языка, частотного словаря, различных справочников, высококачественных учебников действительно выполнимой. Отдельно отметим важность — точнее, абсолютную необходимость — такого корпуса для построения моделей речевой деятельности, центральным компонентом которых также выступает словарь. Говоря об академических словаре и грамматике, мы ставим исследовательскую задачу в рамках прескриптивного подхода к лингвистическому описанию, что предполагает филологический и лингвистический отбор материала» [Вербицкая, Казанский 2003, с.3].

Тезаурусный подход к описанию лексики ориентирован на репрезентативность (в частности, на нормативность), а корпусный вариант (конкорданс) — на исчерпывающее описание. Словарь, анализируя различные употребления лексемы в разных значениях, стремится к нахождению инварианта, конкорданс — к вариативности и отражает все случаи

употребления слов. Поэтому представление слова в конкордансе ставит во главу угла примеры (контексты словоупотреблений), а в словаре — словарную статью. На различном понимании термина «полнота» базируется и принципиальное противопоставление словаря и конкорданса: полнота словаря определяется стремлением к исчерпывающему описанию значений, полнота конкорданса — исчерпывающим характером описания соответствующего корпуса (feb-web.ru/feb/lomoconc/abc/preface.htm).

Научная значимость гизауруса определяется потребностью научного сообщества в унифицированном интегральном описании русской лексики, востребованном представителями многочисленных и разнообразных направлений фундаментальных исследований. Интерактивно пополняемый гизаурус отражает «картину мира», т.е. традиционную культуру русского языка. Тем самым он позволяет на основе облачных технологий объединить в перспективе в гиперсистему лексикографические базы, построенные на разных принципах.

Впервые реализуется свод учебных словарей и вводится в научный оборот систематизированный словарный материал объемом свыше 1 000 000 словарных статей. Разрабатываются новаторские способы классификации языковых фактов и новые подходы к их интерпретации; выявляются закономерности развития словарного состава русского языка, формирования и функционирования русской терминосистемы, представляющей метаязык науки.

При моделировании гизауруса предполагается учесть следующие обстоятельства:

(1) Компьютерные словари (наследуя недостатки книжных словарей) имеют следующие особенности и проблемы: — неполнота генерального словника и в целом словаря; — трудности поддержания словаря в актуальном состоянии; — требуют наличия специфичных программных и аппаратных средств. При этом одним из главных достоинств электронных версий словарей является то, что электронные словари многофункциональны, доступны и неуклонно становятся дешевле, чем их бумажные аналоги. Вместе с тем они открыты для систематического расширения базы новыми источниками.

(2) Словник и содержимое книжных словарей в процессе постепенного и длительного их издания требует значительного дополнения, расширения и уточнения. В период моделирования гизауруса будут появляться новые словари русского языка, а также множество аспектных, терминологических словарей и энциклопедий, которые могут быть оперативно подключены к создаваемой базе, что существенно обогатит гизаурус.

(3) Дифференциальный принцип отбора словников (нормативный, терминологический, аспектный и др.) для учебных словарей, оказавшийся продуктивным при описании лексики в книжных версиях, для цифровой версии гизауруса не является принципиальным, т.к. в компьютерной форме лексическая база данных автоматически становится полной и зависит

лишь от полноты введенных источников (текстов записей информантов, картотек и любых источников лексикографических материалов), что позволяет в компьютерной форме конструировать гизаурус в тезаурусной (наиболее полной) форме.

(4) Порядок расположения фразеологизмов и устойчивых словосочетаний в учебных словарях, как правило, подчинён избранному для лексики словаря алфавитному или гнездовому принципам, что затрудняет поиск нужного словосочетания не только в объёмных вокабулах, но и в словаре или энциклопедии в целом. Именно поэтому в гизаурусе реализуются несколько входов: авторский, алфавитный, библиографический, через веб-интерфейс, посредством генерального словника, географический и территориальный, гнездовой, источниковедческий, систематический и пермута-ционный, тематический, предметный, хронологический, а также, по ключевым словам, и словосочетания и др., что безусловно по возможностям отличает словарный корпус от книжных версий учебных словарей русского языка.

Конструирование в интерактивном режиме на персональном компьютере информационно-поискового гизауруса для эффективной организации поисковых процедур предполагает разработку концепции, функциональной и математической моделей гизауруса, алгоритма, синопсиса, основных этапов, подходов и методов создания цифрового корпуса словарей русского языка, а также программную реализацию гизауруса в виде Интернет-портала. Релевантный поиск осуществляется на основе языков программирования Python, PHP, Perl, R, С++, С#, JavaScript, PostgreSQL с обеспечением пертинентности запросов и юзабилити портала. Также гизаурус сопровождается дружественным интерфейсом в виде базы данных с программами многоаспектного поиска (точного и нечёткого), статистики, загрузки и выгрузки как фрагментов-проекций, так и полнотекстовых, аутентичных версий оцифрованных словарей.

На основе гизауруса посредством различных динамических сортировок и группировок поисковых запросов из лексикографической сводной базы данных можно генерировать в полуавтоматическом, интерактивном режиме, в частности, следующие виды словарей: — алфавитный (лексические единицы, вокабулы отсортированы в алфавитном порядке); — частотный словарь (вокабулы сгруппированы в порядке убывания частоты); — обратный (инверсный) словарь; — грамматический словарь (вокабулы сгруппированы по грамматическим признакам); — словари отдельных источников, произведений или стилей речи и т. д.

В итоге гизаурус в качестве информационно-поисковой лексикографической системы зафиксирует литературную норму в её исторической динамике и вариативности за последние два столетия и предоставит конкретный языковой материал для фундаментальных исследований в области разных наук.

Список литературы

1. Вербицкая Л. А., Казанский Н.Н., Касевич В.Б. Некоторые проблемы создания национального корпуса русского языка // НТИ. Сер. 2. Информационные процессы и системы. М.: ВИНИТИ, 2003. N 6. С. 2-8. ISSN 0548-0027 lamb.viniti.ru/sid2/sid2free?sid2=J03 38267X27

2. Дубичинский В.В. Теоретическое и лексикографическое описание лексических параллелей. Дисс. Дфн. Краснодар, 1995. 311 с.

3. Дубичинский В.В. Лексикография русского языка. М.: Флинта: Наука, 2009. 432 с.

4. Козырев В. А., Черняк В. Д. Слово в системе словарей русского языка. Л.: ЛГПИ, 1989. 106 с.

5. Козырев В. А., Черняк В. Д. Вселенная в алфавитном порядке: Очерки о словарях русского языка. СПб.: РГПУ им. А. И. Герцена, 2000. 356 с.

6. Козырев В. А., Черняк В. Д. Лексикография русского языка: век нынешний и век минувший. 2-е изд., испр. и доп. СПб.: Изд-во РГПУ им. А.И. Герцена, 2015. 631 с.

7. Лебедева С.В. Учебные словари различных типов в культурологическом аспекте. Дисс. кфн. Иваново, 2005. 213 с.

8. Лесников С.В. Гипертекстовый тезаурус электронных учебников общеобразовательной школы Российской Федерации // Технологическое образование в школе и вузе. Материалы межрегиональной научно-практической конференции. 14-15 ноября 2002 года. Сыктывкар: КГПИ, 2002. С.151-153.

9. Лесников С. В. Концепция разработки и создания цифрового академического словарного корпуса (АСК) русского языка (РЯ) // Неофилология. 2019. Т. 5, № 19. С.293-305. DOI 10.20310/2587-6953-2019-5-19-293-305.

10. Лесников С.В. Словарь русских словарей. М.: Азбуковник, 2002. 334 с.

11. Лесников С.В., Мызников С. А. Цифровой корпус академических толковых словарей русского языка: алгоритм разработки и создания // Известия Российской академии наук. Серия литературы и языка. Том 78, номер 4. Июль-август. 2019. С.13-24.

12. Молдован А.М. Письмо Минобрнауки России от 06.05.2013 N 08-535 «О формировании культуры работы со словарями в системе общего образования Российской Федерации (вместе с Методическими рекомендациями по формированию культуры работы со словарями школьников и педагогов общеобразовательных учреждений в целях реализации положений ФГОС)». http://www.consultant.ru/ document/ cons_ doc_ LAW_ 146879/ http://docs.cntd.ru/ document/499025760.

13. Петрушова О. Л. Учебные словари в межкультурной коммуникации. Дисс. кфн. Ярославль, 2009. 226 с.

14. Потиха З.А., Розенталь Д.Э. Лингвистические словари и работа с ними в школе. М.: Просвещение, 1987. 128 с.

15. Протченко И.Ф. Словари русского языка. М.: Изд-во РОУ, 1996. 128 с.

16. Розенталь Д.Э., Теленкова М.А. Словарь-справочник лингвистических терминов. М.: Просвещение, 1975. 399 с.

17. Введенская Л.А. Учебный словарь антонимов русского языка. 2-е изд. М.; Ростов н/Д: МарТ, 2006. 314 с. [1-е изд. в 2005 г.].

18. Введенская Л. А., Колесников Н. П. Учебный словарь омонимов русского языка. 2-е изд. М.; Ростов н/Д: МарТ: Феникс, 2010. 256 с. [1-е изд. в 2005 г.].

19. Введенская Л. А., Колесников Н.П. Учебный словарь паронимов русского языка. М.; Ростов н/Д: МарТ, 2005. 192 с.

20. Габучан К.В. Учебный толковый словарь русского языка: [3 500 наиболее употребительных слов, 470 рисунков]. М.: Русский язык, 1988. 441 с.

21. Гайбарян О.Е. Школьный словарь трудностей русского языка. Ростов н/Д: Феникс, 2011. 315 с. (Учебные словари).

22. Денисов П.Н., Морковкин В.В., Новиков Л.А. Проспект учебного словаря сочетаемости слов русского языка. М.: Изд-во Моск. гос. ун-та, 1971. 43 с.

23. Зимин В.И., Ашурова С. Д., Шанский В.Н., Шаталова З.И. Русские пословицы и поговорки: учебный словарь: около 2 500 пословиц и поговорок. М.: Школа-пресс: Печатное дело, 1994. 318 с.

24. Зотова С.В. Универсальный словарь. 1-4 классы : как писать и говорить правильно?: [более 350 «словарных» слов, грамматическая характеристика, значение, происхождение, синонимы, антонимы, фразеологизмы, однокоренные слова, обучающие и игровые задания]. М.: АСТПресс, 2015. 203 с. (Настольные словари школьника). [То же в 2012, 2014 гг.].

25. Иванов И.С. Школьный словарь ударений. М.: Центрполиграф, 2010. 350 с.

26. Калашникова А.Ф. Учебный словарь наиболее употребительных фразеологизмов современного русского языка. Минск: Вышэйшая школа, 1991. 207 с.

27. Козлова Н.А. Учебный словообразовательный словарь русского языка. СПб.: Златоуст, 2014. 816 с.

28. Крысин Л.П. Учебный словарь иностранных слов. М.: Эксмо, 2010. 704 с.

29. Лекант П.А., Леденёва В.В. Школьный орфоэпический словарь русского языка. 5-е изд. М.: Просвещение, 2013. 167 с. [1-е изд. в 1998 г. с подзаг.: произношение слов].

30. Морковкин В.В., Бёме Н.О., Дорогонова И.А., Иванова Т.Ф., Успенская И.Д. Лексическая основа русского языка: комплексный учебный словарь : [10 000 лексических единиц] / под ред. В.В. Морковкина. М. : Русский язык, 1984. 1167 с. [2-е изд. в 2004 г.].

31. Николина Н.А. Школьный морфемный словарь русского языка. 4-е изд. М.: Русское слово, 2013. 365 с. [1-е изд. в 2010 г.].

32. Панов В.Т., Текучёв А.В. Школьный грамматико-орфографический словарь русского языка: пособие для учащихся: [около 10 500 слов]. 3-е изд., перераб. и доп. М.: Просвещение, 1991. 286 с. [1-е изд. в 1976 г. под загл.: Грамматико-орфографический словарь русского языка].

33. Саяхова Л.Г., Хасанова Д.М. Учебный тематический словарь: общество. Уфа: Изд-во Башкир. ун-та, 1977. 167 с.

34. Табухов Х.К. Школьный обратный словарь русского языка: около 55 тысяч слов. Нальчик: Эльбрус, 2008. 594 с.

35. Филатова Е.П., Максимова Н.В. Славянизмы: учебный этимолого-орфографический словарь: [для учащихся 3-11 классов]. Новосибирск: Новосиб. ин-т повышения квалификации и переподготовки работников образования, 2005. 76 с.

36. Щербашина И.В. Словарь синонимов для учащихся начальных классов. Майкоп: Аякс, 2001. 63 с.

Lesnikov Sergey Vladimirovich

St. Petersburg, Institute of linguistic studies Russian Academy of Sciences, leading specialist; docent; candidate of philological Sciences.

Abstract. This article discusses the construction of the terminological code of the Russian language in the form of information-search hypertext thesaurus. The code is developed in the form of a hypertext system in a nonlinear form, taking into account the relational, hierarchical and network paradigmatic relations through the implementation of syntagmatic relations in an interactive mode on a personal computer digitized lexicographic materials of the Russian language, which will allow on the basis of digital technologies through appropriate classification and systematization, digitalization and retrodigitization of dictionaries. Key words: database; hypertext thesaurus; artificial intelligence; corpus lexicography; linguistics; metalanguage; information retrieval system; the Russian language; dictionary.

i Надоели баннеры? Вы всегда можете отключить рекламу.