Научная статья на тему 'Прикладные задачи компьютерной лингвистики'

Прикладные задачи компьютерной лингвистики Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
2111
166
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
"ПОСТРОИТЕЛЬ" / "МАТЕМАТИЧЕСКАЯ МОДЕЛЬ" / "КОМПЬЮТЕРНАЯ МОДЕЛЬ" / "ГРАФ" / "СЕТЬ" / "МОРФОЛОГИЯ" / "СИНТАКСИС" / "СЕМАНТИКА" / "СЛОВОСОЧЕТАНИЕ" / "СИНТАКСИЧЕСКИЙ АНАЛИЗАТОР" / "МОДЕЛИ СИНТАКСИСА" / "BUILDER" / "MATHEMATICAL MODEL" / "COMPUTER MODEL" / "COUNT" / "NETWORK" / "MORPHOLOGY" / "SYNTAX" / "SEMANTICS" / "PHRASE" / "PARSER" / "MORPHOLOGICAL ANALYZER " MODEL" SYNTAX

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Ясулова Х.С., Шихиев Ш.Б.

В статье рассматривается математическая модель синтаксиса естественного языка, в которой определения основных понятий синтаксиса словоформа, лексическая группа, словосочетание и предложение не опирается на семантику слова. Перечислены некоторые прикладные задачи компьютерной лингвистики, которые представляют собой частные случаи задач синтаксического анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLIED PROBLEMS OF COMPUTATIONAL LINGUISTICS

The article describes the mathematical model of the syntax of a natural language in which the definitions of basic concepts of syntax word lexical group, phrase and sentence is not based on the semantics of the word. Enter here the structure and called syntactic form is a grammar that generates the class of sentences of a certain type.

Текст научной работы на тему «Прикладные задачи компьютерной лингвистики»

ПРИКЛАДНЫЕ ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ

Ясулова Х. С., старший преподаватель, Шихиев Ш. Б., кандидат физико-математических наук, доцент, Дагестанский государственный педагогический университет

Аннотация. В статье рассматривается математическая модель синтаксиса естественного языка, в которой определения основных понятий синтаксиса - словоформа, лексическая группа, словосочетание и предложение не опирается на семантику слова. Перечислены некоторые прикладные задачи компьютерной лингвистики, которые представляют собой частные случаи задач синтаксического анализа.

Ключевые слова: «построитель», «математическая модель», «компьютерная модель», «граф», «сеть», «морфология», «синтаксис», «семантика», «словосочетание», «синтаксический анализатор», «модели синтаксиса».

APPLIED PROBLEMS OF COMPUTATIONAL LINGUISTICS

Yasulova K. S., senior lecturer, Shihiev S. B.candidate of physico-mathematical sciences, associate рrofessor.

Dagestan state pedagogical University

Abstract: the article describes the mathematical model of the syntax of a natural language in which the definitions of basic concepts of syntax - word lexical group, phrase and sentence is not based on the semantics of the word. Enter here the structure and called syntactic form is a grammar that generates the class of sentences of a certain type.

Keywords: "Builder", "mathematical model", "computer model", "count", "network", "morphology", "syntax", "semantics", "phrase", "parser", "morphological analyzer " model" syntax

Главной задачей компьютерной лингвистики является разработка и создание программного обеспечения, поддерживающего диалог человека с компьютером. Эту задачу в популярной форме сформулировал А. Тьюринг следующим образом. Компьютер можно считать носителем ЕЯ, если человек, общаясь с ним по сети, не догадается, кто его собеседник на том конце провода. Более подходящим названи-

ем для этой задачи было бы: реализация на компьютере языковой способности человека.

Попытки решения этой задачи, начатые в 60-ые годы прошлого века, показали, что в ней переплетены фундаментальные проблемы психологии, языкознания и дискретного анализа. Попытки формализовать грамматику ЕЯ с большей очевидностью обнажили белые пятна, присутствующие в грамматике языка, в частности, отсутствие конструктивной теории ЕЯ.

Однако, потребности практики подталкивали к разработке программ для решения частных задач с использованием, как говорят математики, приближенных методов. Приближенные методы используются для поиска хотя бы приближенного решения задачи, пригодного для применения в практических целях. Понятие приближенного решения также нуждается в определении. Для задачи синтаксического анализатора предложения приближенная к ней задача определяется разными способами.

Приближенный вариант задачи, разумеется, должен быть проще исходного варианта в формулировке и в решении. Или он вовсе может быть одной из процедур в алгоритме решения исходной задачи. Перечислим некоторые прикладные задачи компьютерной лингвистики, которые представляют собой частные случаи задачи синтаксического анализа.

Задача 1. Компьютерный словообразовательный словарь русского языка. Филологам хорошо известны словообразовательные словари отдельных частей речи и языка в целом. Большой популярностью пользуется словообразовательный словарь русского языка, составленный академиком Зализняком А. А. Словарь имеет следующую структуру и содержание. Он состоит из статей, каждая статья посвящена конкретному слову. Точнее говоря, в статье приводятся все словоформы данного слова или правила, по которым образуются его словоформы.

Словообразовательным словарем снабжены текстовые редакторы. Например, в редакторе MS Word с помощью словаря проверяется орфография слов в документе. Пользователь редактора MS Word не может не заметить примитивность словообразовательного словаря. Например, если слово «кочерга» отсутствует в словаре, оно подчеркивается красной линией. Но пользователь может внести в всловарь новое слово «кочерга» и впредь это слово будет восприниматься редактором как элемент лексики русского языка. Однако морфологические формы этого слова не будут добавлены в словарь, любая форма его, например, «кочерги» опять будет подчеркнута, как неизвестное редактору слово.

В словаре текстового редактора формы слова не объединены в семейство словоформ, которые преобразуются друг в друга с помощью морфологических правил. Для набора текста такой словарь еще пригоден. А в случае анализа предложения следует иметь словарь, в котором должна быть информация о слове и всех его формах.

Подготовка такого словаря - тяжелая и кропотливая работа. Для подготовки электронного словаря можно воспользоваться возможностями самого компьютера, подготовить соответствующую программу-построитель и автоматизировать процесс составления словарных статей.

Задача 2. Статистический анализ синтаксических форм текста. Анализатор элементарных предложений, как было сказано выше, выявляет следующий факт: можно ли построить синтаксически правильное предложение из заданного набора словоформ. Ответ на этот вопрос будет положительным только в том случае, если найдется синтаксическая форма, на узлах которой можно расположить словоформы из заданного набора.

Синтаксическая форма строится из синтаксических отношений. Точнее говоря, из синтаксических отношений образуются дуги синтаксической формы. Синтаксические отношения суть неделимые элементы синтаксиса, как аксиомы в аксиоматической теории; они и задают синтаксис.

Из определения синтаксической формы следует, что их число неограниченно. Поэтому интересно знать, сколькими синтаксическими формами пользуется конкретный человек для построения предложений. То есть, существует ли для конкретного человека активный набор синтаксических форм? Отличаются ли активные наборы синтаксических форм у разных людей?

Задача 3. Формализация делового разговора. Анализ литературных текстов на русском языке показывает, что человек пользуется двумя десятками синтаксических форм для построения предложений. Сложность компьютерного анализа связана с подготовкой словаря языка. А при ведении делового разговора имеет место, так называемый, «спецтекст», то есть, лексика разговора ограничена сотней слов. Поэтому построение языка с небольшим числом слов и синтаксических форм и использование его в коммуникативных целях вполне обозримая и доступная для реализации задача.

Каждая из названных задач не только актуальна, они разрешимы и имеют прикладное значение.

Литература:

1. Грамматика русского языка, т. т. 1 - 3. - М., Издательство Академии Наук СССР,

1960.

2. Ельмслев Л. Пролегомены к теории языка./Новое в лингвистике. Вып.1. - М.,

1960.

3. Зализняк А.А.. Грамматический словарь русского языка. - М., «Русский язык», 1987, 880 с.

4. Кривцов А.Н. Проблемы формализации русского языка в процессах управления поисковых, обучающих и естественно-языковых систем./Дис. к.ф.-м.н. - СПб.: СпбГУ, 1998.

5. Кронгауз М. А. Семантика. - М., «Академия», 2005.

6. Мельчук И.А.. Опыт теории лингвистических моделей «Смысл - Текст». - М., «Наука», 1974.

7. Тузов В.А. Морфологический анализатор русского языка. //Вестник СПбГУ. Сер.1, 1996, вып.3 (№15).

8. Фитиалов С.Я.. Формальные грамматики. - Л, 1984.

9. Шихиев Ф.Ш. Формализация и сетевая формулировка задачи синтаксического анализа./Дис. к.ф.-м.н. - СПб.: СпбГУ, 2006.

10. Языки как образ мира. СПб., «Terra Fantastica», 2003.

Literature:

1. Russian Grammar, t. V. 1 - 3 - M., Publisher Academy of Sciences of the USSR, 1960.

2. L. Hjelmslev Prolegomena to a theory of language. / New in linguistics. Issue 1. - M.,

1960.

3. Zaliznyak A.A. Grammatical Dictionary of the Russian language. - M., "Russian language", 1987, 880 p.

4. Krivtsov A.N. Problems of formalization of the Russian language in the governance of search, learning and natural-language systems. / Dis. Ph.D. - St. Petersburg .: St. Petersburg State University, 1998.

5. Krongauz M.A. semantics. - M., "The Academy", 2005.

6. Mel'cuk I.A. The experience of the theory of linguistic models "Meaning - Text". -Moscow, "Science", 1974.

7. Aces V.A. Morphological Analyzer Russian language. // Bulletin of St. Petersburg State University. Ser.1, 1996, vol.3 (№15).

8. Fitialov S.Ya. Formal grammar. - A 1984.

9. Shikhiyeva F.S. The formalization of the network and formulation of the problem of parsing. / Dis. Ph.D. - St. Petersburg .: St. Petersburg State University, 2006.

10. languages as a way of the world. SPb., «Terra Fantastica», 2003

i Надоели баннеры? Вы всегда можете отключить рекламу.