Научная статья на тему 'Тезаурус чувашского языка (чăваш пĕлĕвĕн мулĕ) как языковая система знаний'

Тезаурус чувашского языка (чăваш пĕлĕвĕн мулĕ) как языковая система знаний Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
175
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕЗАУРУС / ЧУВАШСКИЙ ЯЗЫК / АРХИТЕКТУРА ТЕЗАУРУСА / СИСТЕМНО-МОДЕЛЬНЫЙ ПОДХОД / ТЕЗАУРУСНЫЙ МЕТОД / КОНЦЕПТ / ТАКСОНОМИЯ / THESAURUS / CHUVASH LANGUAGE / THESAURUS ARCHITECTURE / SYSTEMIC-MODEL APPROACH / THESAURUS METHOD / CONCEPT / TAXONOMY

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Губанов Алексей Рафаилович, Губанова Галина Федоровна, Свеклова Оксана Виталиевна

Исследованы принципы создания и особенности архитектуры тезауруса чувашского языка (ЧувТез). Определены особенности тезауруса на основе метода моделирования, предполагающего соотношения терминов той или иной предметной области и концептов понятий с последующей организацией всего материала в сложную таксономическую систему. Основным приемом анализа в рамках данного метода в исследовании является составление таксономий. ЧувТез как экспланаторный потенциал для изучения чувашской национальной картины мира представляет иерархическую сеть концептов (понятий): 1) универсальные представления (действие, состояния и т.д); 2) универсальные отношения (темпоральные отношения; причинно-следственные и т.д.); 3) cмысловые объекты (мироустройство; человек как живое существо; быт).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Губанов Алексей Рафаилович, Губанова Галина Федоровна, Свеклова Оксана Виталиевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THESAURUS OF THE CHUVASH LANGUAGE AS A LANGUAGE KNOWLEDGE SYSTEM

The principles of creation and architecture features of the Chuvash language thesaurus are studied. The thesaurus features are determined based on a modeling approach, supposing interrelations between terms of one subject area or another and concepts notions with subsequent organization of the material in a complex taxonomic system. The basic method of analysis in the framework of the given method in research is to formulate taxonomies. The Chuvash language thesaurus as an explanatory potential for studying the Chuvash national worldview represents a hierarchical network of concepts (notions):1) universal concepts( actions, conditions etc); 2) universal relations (temporal, causal relations etc); 3) semantic objects (world order; a human being man as an animate creature; everyday routine).

Текст научной работы на тему «Тезаурус чувашского языка (чăваш пĕлĕвĕн мулĕ) как языковая система знаний»

УДК 811.512.111'374 ББК Ш12=635.1*46

А.Р. ГУБАНОВ, Г.Ф. ГУБАНОВА, О.В. СВЕКЛОВА

ТЕЗАУРУС ЧУВАШСКОГО ЯЗЫКА (ЧАВАШ ПЁЛЁВЁН МУЛЁ) КАК ЯЗЫКОВАЯ СИСТЕМА ЗНАНИЙ

Ключевые слова: тезаурус, чувашский язык, архитектура тезауруса, системно-модельный подход, тезаурусный метод, концепт, таксономия.

Исследованы принципы создания и особенности архитектуры тезауруса чувашского языка (ЧувТез). Определены особенности тезауруса на основе метода моделирования, предполагающего соотношения терминов той или иной предметной области и концептов - понятий с последующей организацией всего материала в сложную таксономическую систему. Основным приемом анализа в рамках данного метода в исследовании является составление таксономий. ЧувТез как эксплана-торный потенциал для изучения чувашской национальной картины мира представляет иерархическую сеть концептов (понятий): 1) универсальные представления (действие, состояния и т.д); 2) универсальные отношения (темпоральные отношения; причинно-следственные и т.д.); 3) смысловые объекты (мироустройство; человек как живое существо; быт).

Современная лингвистика, тюркология в частности, характеризуется преодолением описательного подхода по отношению к языковым явлениям. Метод прямого наблюдения сменяется системно-модельным подходом, который позволяет проникнуть во внутреннюю структуру исследуемых объектов [2]. Тезаурусный метод исследования языка, состоящий в соотношении выражения языка и понятийных категорий на основе семантического анализа значений слов, существует с момента создания первых тезаурусных словарей. В современном языкознании данный метод называется «методом тезаурусного моделирования» [1-13], который предполагает восстановление отношений терминов (слов языка) и понятий с последующей организацией всего материала в сложную, как правило, таксономическую систему, так как основным типом объединения понятий считается родо-видовой. Основным приемом анализа в рамках тезаурусного метода является составление таксономий, однако в последнее время в него вносятся новые приемы анализа языкового материала в связи с развитием семантических исследований языка.

Разные предметные области нуждаются в разработке двуязычных тезаурусов, однако в настоящее время на рынке интеллектуальных технологий отсутствуют доступные (недорогие, распространяемые свободно для многоязычных тезаурусов) и простые (для использования в той или иной предметной области экспертами без дополнительного обучения со стороны программистов) в использовании средства разработки таких тезаурусов. При этом такие средства позволяли бы свободно настраивать тезаурус на требуемую предметную область, т.е. в любой момент вводить дополнительные свойства в описание терминов и расширять множество отношений между ними. Важным требованием к таким средствам является поддержание логической целостности терминологической системы тезауруса. В данном исследовании описывается подход к разработке двуязычного тезауруса, рассматриваются типичные требования к общему строению тезауруса, структуре тезаурусных статей и набору отношений между терминами. Показано, как с помощью средств, предоставляемых технологией построения порталов научных знаний, может быть разработана концептуальная схема требуемого тезауруса. Описывается использование программных средств этой же технологии для эффективного управления контентом тезауруса и обеспечения доступа к его терминам.

Построение тезауруса чувашского язвка - задача не из легких, хотя имеются определенные стандарты создания тезаурусов, однако существующие методики связаны со спецификой сравниваемых или сопоставляемых языков, и к тому же в настоящее время проекты, направленные на создание тезаурусов типа wordnet для тюркских языков, находятся в начальной стадии разработки. Актуальность рассматриваемой темы также связана с идеей создания идеографических словарей в тюркских языках, в частности, чувашского языка: в настоящее время в чувашском языкознании отсутствуют источники лексической информации (например, больших корпусов текстов), доступные морфологические словари чувашского языка. Актуальность исследования предполагает решение таких конкретных задач: 1) разработка концептуальных и теоретических основ русско-чувашского тезауруса (определение структуры словарной статьи тезауруса, парадигматических и ассоциативных отношений между лексическими единицами и др.); 2) выявление различий и сходства между понятиями, используемыми в русском и тюркском языкознании, создание новых понятий и лингвистических терминов, отсутствующих в чувашском языке и др.; 3) создание двуязычного тезауруса двойного назначения, связанного с системой концептов (понятий) и с индексированием для информационного поиска; 4) объединение опыта традиционной чувашской лексикографии и современных информационных технологий при разработке ЧувТез типа word net-тезауруса; 5) использование двуязычного тезауруса в качестве инструмента разработки формальных и программных средств технологии построения порталов научных знаний организаций: 6) создание архитектуры программной оболочки и средства наполнения и дополнительной настройки тезауруса в системе Java Eclipse; 7) информационное пополнение тезауруса на основе редактора KOMMA OWL.

В качестве информационной модели тезауруса как портала знаний следует использовать онтологию как формат формального описания предметной области, определяющего архитектуру контента тезауруса и в итоге выступающего как базис для доступа к знаниям. И при разработке русско-чувашского тезауруса следует опираться на отечественные и международные стандарты1 для одноязычных и многоязычных информационных тезаурусов.

Одним из базовых принципов построения тезауруса типа wordnet для чувашского языка является положение, требующее, чтобы каждый термин определялся и объяснялся в следующем порядке: вначале дается наиболее приемлемый компонент, далее приводятся определения из других источников с учетом контекстной степени обобщения того или иного концепта-понятия (каждое определение имеет ссылку на первоисточник). И при этом словарная статья словаря тезаурусного типа должна выдать пользователю полную информацию о термине (парадигматика термина включает как семантику термина, так и понятийные связи с другими терминами), т.е. структура словарной статьи в ЧувТез должна вмещаться в следующую схему: T = <A, B, C, D, E>, где А - символьное имя термина (название понятия), B - определение термина, С - релятор (маркер для дифференциации терминов-омонимов), D - рубрика (тематический раздел термина); E - понятийные связи термина).

Между одноязычными дескрипторами и аскрипторами в ЧувТез могут устанавливаться следующие типы смысловых отношений: синонимические в случаях смыслового тождества во всех контекстах между дескриптором и ас-криптором, например, упра - сыхла - асарха и т.д.; антонимические (противо-

1 ГОСТ l.24-200l. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. М.: Стандартинформ, 2008. l с.; ANSI/NISO Z39.19-2005. Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies (Periodic Review). http://www.niso.org/apps/group_public/download.php/12591/z39-19-2005r2010.pdf.

поставления в смысловых отношениях: вёри - сивё, лайах - усал); гипо-гипе-ронимические (родо-видовые отношения, отношения общего и частного: врач - терапевт; меронимические (отношение целого и его части): пит -самса, лицо - нос, кёнеке - страница, книга - страница. Основными единицами структуры Тезауруса выступают так называемые синсеты - синонимические ряды, связанные между собой семантическими, как парадигматическими, так и синтагматическими, отношениями.

Укажем на основные принципы сборки синсетов в тезаурусе ЧувТез: а) единицей описания в тезаурусе выступает, как уже было сказано выше, не отдельное слово, а синсет, или же синонимические ряды; б) в составе синсета могут быть однословные и неоднословные синонимы (дыр - хайла - шухашласа калар и т.д.); в) в случаях, если для соответствующего значения синонимов не существует, синсет может состоять только из одного слова (выражения): аффикс, суффикс и т.д.); г) синонимы по структуре могут состоять из одного корня и из разных корней (ашат - леплен) и т.д. Следует отметить, что синонимическим словам часто присущи дополнительные оттенки, например, стиль общения, устарелость или новизна употребления, и поэтому в ЧувТез следует использовать разные группы словарных помет: эмоциональные пометы (добавочные эмоциональные компоненты, например, ласк. - ласкательное (аннем, йамакам), стилистические пометы (слово используется в том или ином регистре речи и т.д.).

ЧувТез должен обладать весомым экспланаторным потенциалом для изучения чувашской национальной картины мира (разграничение мира на совершенно определенные картинки - концепты или другие ментальные образования - происходит благодаря тому (и вследствие того), что в процессе говорения, в ходе накопления своего языкового опыта, предполагающего принятие правил языкового употребления на веру, человек учится оперировать не отдельными словами, а их устойчивыми последовательностями, которые со временем начинают оцениваться как проверенное знание языка, и это знание кладется в основу языковой модели мира - его «картины»). ЧувТез позволяет рассмотреть новые возможности исследований концептуального устройства чувашской национальной картины мира, сформированной в условиях разных языков, в частности, русского и чувашского, при сопоставительном анализе. Анализ лексического значения, несомненно, проливает свет на различия в организации концепта.

ЧувТез представляет национальную картину мира в виде иерархической сети концептов (понятий). Иерархическая система понятий ЧувТез предполагает четыре уровня, которые распределяются следующим образом:

1. Универсальные представления: 1) действие; 2) конкретная физическая деятельность; 3) сенсорная деятельность (восприятие окружающего мира); 4) мыслительная деятельность (интеллект); 5) речевая деятельность.

2. Универсальные смыслы: 1) рациональная оценка; 2) эмоциональная оценка.

3. Универсальные отношения: 1) темпоральные отношения; 2) интенсивность; 3) причинно-следственные отношения: а) отношения следствия; б) кон-дициональные (условные) отношения; в) концессивные (уступительные) отношения; г) финальные (целевые) отношения; 4) противоположность, противоречие; 5) сопоставление; 6) соответствие; 7) раздельность, очерёдность.

4. Смысловые группы (объекты): 1) мироустройство (природа); 2) человек как живое существо; 3) быт [6].

В ЧувТез целесообразно включить следующие иерархические отношения:

а) таксономические и родо-видовые (отношение «класс - подкласс»);

б) ассоциативные отношения между понятиями, имеющими некий общий признак;

в) эквивалентные отношения, указывающие на эквивалентность дескрипторов, представленных на разных языках (при необходимости учитывать степень эквивалентности русских и чувашских дескрипторов, этому отношению может быть приписан дополнительный атрибут, отражающий эту характеристику, либо это отношение может быть заменено набором отношений, соответствующих различным степеням эквивалентности.

При наборе синсетов в Тезаурусе следует учесть, что по компонентному составу смысловые группы синсетов могут быть разными, например:

а) группы, состоящие только из слов одной части речи (растительный покров земли: курак, ?ум);

б) синонимические ряды, состоящие из служебных частей речи (послелоги, союзы, частицы), которые в структуре словарной статьи следуют за полнознаменательными словами;

в) синонимические ряды могут состоять только из служебных слов, а также в состав могут включаться слова-синонимы разных частей речи;

г) синонимические ряды, состоящие из разного рода устойчивых сочетаний и др.

Тезаурусные модели ЧувТез, как системы знания о мире, как семантические тезаурусные сети, в дальнейшем можно соотнести с моделями сетей других типов, как дефинициальные, импликационные и нейронные, что позволит в дальнейшем изучать тезаурус как коммуникативную систему.

Литература

1. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2000. 384 с.

2. Емельянова М.В. Сложные директивные речевые акты в разноструктурных языках: авто-реф. дис. ... канд. филол.. наук. Чебоксары, 2004. 23 с.

3. Лукашевич Н.В, Добров Б.В. Отношения в онтологиях для решения задач информационного поиска в больших разнородных текстовых коллекциях // Девятая национальная конференция по искусственному интеллекту с международным участием КИИ-2004: в 3 т. М.: Физматлит, 2004. Т. 2. С. 544-551.

4. Минский М. Фреймы для представления знаний. М.: Энергия, 1979. 342 с.

5. Пиотровский Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении). СПб.: РГПУ им. А.И. Герцена, 1999. 256 с.

6. Рец Н.И., Губанов А.Р. Категория причинности: каузальная и каузативная связи // Вестник Чувашского университета. 2012. № 1. С. 244-249.

7. Рубашкин В.Ш., Лахути Д.Г. Семантический (концептуальный) словарь для информационных технологий // Информационные процессы и системы. М., 2000. № 7. С. 1-9.

8. Шевцова А.Ю. Моделирование нормативного двуязычного словаря-тезауруса терминов авиационной экологии: автореф. дис. ... канд. техн. наук. Тюмень, 2014. 24 с.

9. Semantic Web Activity. Available at: http://www.w3.org/2001/sw.

10. OWL Web Ontology Language 1.0 Reference. W3C Working Draft. Available at: http://www.w3.org/ TR/owl-ref.

11. Thesaurus Format: Nusearch Standard Specification. Available at: http://www.excavio.com/ pdf/wp nusearch thesaurus spec.pdf.

12. Zheltov P.V., Zheltov .P., Gubanov A.R. Text analysis subsystem in a search engine for the national corpora of the chuvash language. Russian linguistic Bulletin, 2016, no. 3(7), pp. 61-63.

13. Zheltov P.V., Zheltov V.P., Gubanov A.R. Automation of lexical search in National Corpora of Cchuvash language: methods of exploring space of literary texts. Rrussian linguistic Bulletin, 2016, no. 3(7), pp. 58-60.

ГУБАНОВ АЛЕКСЕИ РАФАИЛОВИЧ - доктор филологических наук, профессор кафедры русского языка как иностранного, Чувашский государственный университет, Россия, Чебоксары ([email protected]).

ГУБАНОВА ГАЛИНА ФЕДОРОВНА - кандидат филологических наук, доцент кафедры управления и экономики здравоохранения, Чувашский государственный университет, Россия, Чебоксары ([email protected]).

СВЕКЛОВА ОКСАНА ВИТАЛИЕВНА - старший преподаватель кафедры иностранных языков № 1, Чувашский государственный университет, Россия, Чебоксары._

A. GUBANOV, G. GUBANOVA, O. SVEKLOVA

THESAURUS OF THE CHUVASH LANGUAGE AS A LANGUAGE KNOWLEDGE SYSTEM

Key words: thesaurus, the Chuvash language, thesaurus architecture, systemic-model approach, thesaurus method, concept, taxonomy.

The principles of creation and architecture features of the Chuvash language thesaurus are studied. The thesaurus features are determined based on a modeling approach, supposing interrelations between terms of one subject area or another and concepts - notions with subsequent organization of the material in a complex taxonomic system. The basic method of analysis in the framework of the given method in research is to formulate taxonomies. The Chuvash language thesaurus as an explanatory potential for studying the Chuvash national worldview represents a hierarchical network of concepts (notions):1) universal con-cepts( actions, conditions etc); 2) universal relations (temporal, causal relations etc); 3) semantic objects (world order; a human being man as an animate creature; everyday routine).

References

1. Gavrilova T.A., Khoroshevskii V.F. Bazy znanii intellektual'nykh system [Knowledge base of intellectual systems]. St. Petersburg, Piter Publ., 2000, 384 p.

2. Emel'yanova M.V. Slozhnye direktivnye rechevye akty v raznostrukturnykh yazykakh: avtoref. dis. ... kand. filol.. nauk [Complex directive speech acts in languages of different structure: abstract of Diss.]. Cheboksary, 2004. 23 p.

3. Lukashevich N.V, Dobrov B.V. Otnosheniya v ontologiyakh dlya resheniya zadach informat-sionnogo poiska v bol'shikh raznorodnykh tekstovykh kollektsiyakh [Relations in ontologies for solving problems of information search in large heterogeneous text collections]. In: Devyataya natsional'naya konferentsiya po iskusstvennomu intellektu s mezhdunarodnym uchastiem KII-2004: v 3 t. [The Ninth National Conference on Artificial Intelligence with International Participation. 3 vols.]. Moscow, Physical and Mathematical Literature Publ., 2004, vol. 2, pp. 544-551.

4. Minskii M. Freimy dlya predstavleniya znanii [Frames for knowledge representation]. Moscow, Energy Publ., 1979, 342 p.

5. Piotrovskii R.G. Lingvisticheskii avtomat (v issledovanii i nepreryvnom obuchenii) [Linguistic automaton (in research and continuous learning)]. St. Petersburg, 1999, 256 p.

6. Rets N.I., Gubanov A.R. Kategoriya prichinnosti: kauzal'naya i kauzativnaya svyazi [Category of causality: causal and causative connection]. Vestnik Chuvashskogo universiteta, 2012, no. 1, pp. 244-249.

7. Rubashkin V.Sh., Lakhuti D.G. Semanticheskii (kontseptual'nyi) slovar' dlya informatsionnykh tekhnologii [Semantic (conceptual) vocabulary for information technology]. Inform. protsessy i sistemy [Information processes and systems], 2000, no. 7, pp. 1-9.

8. Shevtsova A.Yu. Modelirovanie normativnogo dvuyazychnogo slovarya-tezaurusa terminov aviatsionnoi ekologii: avtoref. dis. ... kand. tekhn. nauk [Modeling of normative bilingual thesaurus dictionary of aviation environment terms. Abstract of Diss.]. Tyumen, 2014, 24 p.

9. Semantic Web Activity. Available at: http://www.w3.org/2001/sw.

10. OWL Web Ontology Language 1.0 Reference. W3C Working Draft. Available at: http://www.w3.org/ TR/owl-ref.

11. Thesaurus Format: Nusearch Standard Specification. Available at: http://www.excavio.com/ pdf/wp nusearch thesaurus spec.pdf.

12. Zheltov P.V., Zheltov .P., Gubanov A.R. Text analysis subsystem in a search engine for the national corpora of the chuvash language. Russian linguistic Bulletin, 2016, no. 3(7), pp. 61-63.

13. Zheltov P.V., Zheltov V.P., Gubanov A.R. Automation of lexical search in National Corpora of Cchuvash language: methods of exploring space of literary texts. Russian linguistic Bulletin, 2016, no. 3(7), pp. 58-60.

GUBANOV ALEKSEY - Doctor of Philological Sciences, Professor, Department of Russian as a Foreign Language, Chuvash State University, Russia, Cheboksary ([email protected]).

GUBANOV GALINA - Candidate of Philological Sciences, Associate Professor, Chuvash State University, Russia, Cheboksary ([email protected]).

SVEKLOVA OKSANA - Senior Lecturer of Foreign Languages № 1 Department, Chuvash State University, Russia, Cheboksary._

Ссылка на статью: Губанов А.Р., Губанова Г.Ф., Свеклова О.В. Тезаурус чувашского языка (чаваш пёлёвён муле) как языковая система знаний // Вестник Чувашского университета. - 2017. - № 1. - С. 190-194.

i Надоели баннеры? Вы всегда можете отключить рекламу.