Научная статья на тему 'Роль информационных технологий в исследованиях лингвистической среды'

Роль информационных технологий в исследованиях лингвистической среды Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
924
135
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЗАЦИЯ ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЙ / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / МОДЕЛИРОВАНИЕ ЛИНГВИСТИЧЕСКИХ ОБЪЕКТОВ / LINGUISTIC RESEARCH AUTOMATION / NATURAL LANGUAGE PROCESSING / MODELING OF LINGUISTIC OBJECTS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Воронина И. Е., Львович Я. Е.

Представлен обзор подходов к автоматизации лингвистических исследований. Обсуждаются свойства и особенности ситуации моделирования с учетом того факта, что язык открытая система закрытых подсистем. Каждая подсистема конечна, следовательно, ее можно моделировать, а затем устанавливать определенные отношения между подсистемами

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE ROLE OF INFORMATION TECHNOLOGY IN RESEARCH OF THE LINGUISTIC ENVIRONMENT

Presented the overview of approaches to the automation of the linguistic research. Discusses properties and peculiarities of the situation of modeling, taking into account the fact that the language an open system of closed subsystems. The each subsystem is finite, hence it can be modeled, and then established certain relationships between the subsystems

Текст научной работы на тему «Роль информационных технологий в исследованиях лингвистической среды»

УДК 001.103:002

РОЛЬ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ИССЛЕДОВАНИЯХ ЛИНГВИСТИЧЕСКОЙ СРЕДЫ

И.Е. Воронина, Я.Е. Львович

Представлен обзор подходов к автоматизации лингвистических исследований. Обсуждаются свойства и особенности ситуации моделирования с учетом того факта, что язык - открытая система закрытых подсистем. Каждая подсистема конечна, следовательно, ее можно моделировать, а затем устанавливать определенные отношения между подсистемами

Ключевые слова: автоматизация лингвистических исследований, обработка естественного языка, моделирование лингвистических объектов

Подходы к реализации лингвистических исследовани й

Информатизация общества проявляется в широком использовании в самых различных сферах деятельности информационных технологий. Безусловно, этот процесс не мог не оказать своего влияния на проведение лингвистических исследований.

Взаимодействие человека и ЭВМ усиливает прикладное начало в языкознании. Сегодня в условиях перегруженной ноосферы ее стабильность обеспечивается лишь упреждающим знанием, вовлекающим в коммуникационную сферу огромные объемы информации, причем не только вербальной, но и наблюдательной. Обработка и сортировка этой информации, приведение ее к виду, сообразному с иерархией управления, неизбежно требует автоматизации, создания целой армии артефактов, берущих на себя сугубо человеческие функции гонцов, посредников, агентов, секретарей, референтов, наблюдателей и пр. [1].

Бодуэн де Куртенэ, говоря о задачах языкознания, которые необходимо решить в ХХ в., отмечал, что необходимо чаще применять в языкознании количественное, математическое мышление и таким образом приблизить его все более к наукам точным [2].

Прикладные лингвистические задачи отличает их заказной характер. В большинстве своем они представляют собой тот или иной социальный заказ. Их реализация протекает в диалоге «заказчик-разработчик». Еще одной особенностью прикладных задач является их проверяемость, при этом проверяемость повторная, неоднократная и каждый раз на новом материале.

Глобальная цель всех проводимых лингвистических исследований - разобраться в структуре языка. Уровни структуры языка - это

Воронина Ирина Евгеньевна - ВГУ, аспирант, тел.

8-903-650-4410

Львович Яков Евсеевич - ВГТУ,

профессор, тел. (473) 220-56-28

д-р техн. наук,

синтаксические предложения, слова, морфемы, фонемы. Все языковые уровни характеризуются наличием базовых элементов. Изучение языка может идти с двух позиций - анализа и синтеза, ибо выявленные правила синтеза могут способствовать проведению анализа и наоборот. Для исследования и максимальной формализации каждой языковой подсистемы необходимо создавать программный инструментарий, реализующий процесс изучения путем выявления и проверки правил анализа и синтеза, тем самым максимально автоматизируя исследовательский процесс, освобождая при этом исследователя как от рутинного процесса накопления и сбора информации, так и снимая вопрос трудоемкости ее обработки. Фиксация правил анализа и синтеза приведет к созданию анализаторов и синтезаторов каждого уровня иерархии.

Морфологический и морфемный анализ в качестве входной информации использует текстовое представление слова. Цель морфологического анализа - определение

характеристик слова.

характеристики зависят

естественного языка.

морфологического анализа словоформа слова и набор характеристик слова, при этом результаты анализа далеко не всегда однозначны.

Известны три подхода к реализации морфемного анализа. Один из них базируется на словаре А. А. Зализняка [3]. Иногда этот подход называют «четкой морфологией» [4]. Словарь содержит основные словоформы слов русского языка, для каждой из которых указан определенный код. Определены правила, с помощью которых можно построить все формы заданного слова, используя в качестве основы начальную словоформу. При построении каждой словоформы ей в соответствие ставятся морфологические характеристики. Сам словарь нельзя использовать непосредственно при проведении морфологического анализа из-за того, что система правил опирается на основную словоформу, а необходимо определять

морфологических Морфологические от выбранного Результатом является основная

характеристики любой парадигмы. Но на основе словаря А. А. Зализняка можно построить как словарь, так и алгоритм, который по заданной парадигме будет выдавать морфологические характеристики и начальную словоформу. Однако даже при наличии словаря, где для каждого заданного слова хранятся его морфологические характеристики (задача при этом сводится к поиску слова в словаре), может оказаться, что известны несколько вариантов морфологических

характеристик. Кроме того, невозможно представить себе словарь, который бы содержал все существующие слова, и может сложиться ситуация, когда обрабатываемое слово в нем отсутствует. Также существует проблема имен собственных, названий, ошибок ввода.

Другой подход использует систему правил для определения морфологических характеристик заданного слова. В противоположность вышеупомянутому его иногда называют «нечеткой» морфологией [5]. Метод предполагает, что слово удалось разбить на морфемы. Необходима система правил, которая позволяла бы выдавать одно или несколько предположений о морфологических параметрах. Наборы правил могут быть построены двумя способами.

Один из способов основан на морфемном анализе слов, содержащихся в полном словаре словоформ, и их морфологических характеристиках. Правила по морфемному строению выдают морфологические характеристики. Для разработки системы правил можно использовать самообучающуюся систему, реализация которой базируется на деревьях решений, программировании на основе индуктивной логики (Inductive Logic Programming, ILP) [66].

Другой способ разработки системы правил подразумевает формирование набора правил «вручную», путем создания экспертной системы диагностирующего типа.

При вероятностном подходе к проведению морфологического анализа [7] одна и та же словоформа может принадлежать сразу нескольким грамматическим классам, для нее определяются все грамматические классы и вероятность отношения к каждому из этих классов. Вероятность определяется на основе некоторого количества текстов, в которых каждому слову поставлен в соответствие грамматический класс. Вычисляются вероятности сочетаний определенных грамматических классов для рядом стоящих слов (двух, трех, четырех и т. д.). На основе полученных оценок можно проводить анализ слов, однако, для этого необходимо не только слово, подлежащее обработке, но и слова, находящиеся рядом. Этот факт делает вероятностный морфологический анализ пригодным только для аналитических языков, когда порядок слов в предложении четко определен. В противном случае метод неприменим из-за того, что все возможные сочетания грамматических классов

будут практически равновероятны. Не всегда возможно проанализировать отдельное слово без учета всего предложения или хотя бы нескольких слов, стоящих рядом.

Подводя некоторые итоги, можно с уверенностью сказать, что морфологический анализатор и синтезатор должны объединять в себе два способа анализа: декларативный и

процедурный. Это означает, что морфологический анализ не сводится лишь к поиску словоформы с приписанной ей морфологической информацией в словаре, который содержит все возможные словоформы каждой основы с соответствующей морфологической информацией, а с помощью специальных алгоритмов реализуется лемматизация или основе приписывается нужный аффикс и морфологическая информация. В настоящее время получил распространение именно декларативный способ, например в spellchecker, когда выяснение, существует ли слово в русском языке, и получение предполагаемого правильного написания осуществляется только в объемах словаря морфологического анализатора. При этом составление такого словаря - необычайно трудоемкая работа, а затраты памяти весьма значительны. Т ак, например, в словарно-справочной системе по русскому языку для Microsoft Windows морфологический словарь содержит более 800 морфологических таблиц. Очевидно, что это далеко не самый эффективный способ решения задачи морфологического анализа.

Все вышесказанное в равной мере относится и к морфемному анализатору, а также к процессу словообразования.

Синтаксический анализатор реализует разбор предложения и строит его синтаксическую структуру, используя результаты морфологического анализа. Цель синтаксического анализа -определение взаимосвязей между отдельными словами и частями предложения. Результатом анализа может выступать граф синтаксических зависимостей. В вершинах графа могут находиться слова в их основной словоформе, а дуги помечаются вопросами, задаваемыми от одного слова к другому. Свойства графа:

- дуги двунаправленные, и каждое из направлений помечается своим вопросом;

- вопросы соответствуют морфологическим характеристикам основной словоформы и не соответствуют той форме слова, которая использовалась в предложении;

- не учитывается смысловая нагрузка слова, что приводит к отсутствию различий между одушевленными и неодушевленными объектами представления;

- граф является деревом;

- если вершины расположить в порядке следования слов в предложении, то дуги не пересекаются.

Возможны и другие способы представления зависимостей, например, выделение синтаксических

категорий (подлежащего, сказуемого и т.д.) [8, 9]. Результат такого представления - это, по сути дела, С-маркер.

Методы синтаксического анализа можно условно разделить на две категории: с

фиксированным, заранее заданным набором правил и самообучающиеся методы.

К первой категории можно отнести формальные и трансформационные грамматики, расширенные сети переходов. Эти способы были рассмотрены при изложении математической модели языка.

Нельзя также не упомянуть так называемые вероятностные грамматики. Вероятностные грамматики [9] - это расширение формальных грамматик, в котором каждому правилу построения приписывается вероятность его применения при построении предложения. После проведения синтаксического анализа подсчитывается

«результирующая» вероятность. Понятно, что одно и то же предложение можно разобрать несколькими способами. Каждый способ, согласно

вышесказанному, будет характеризоваться

«результирующей» вероятностью. На основании этих данных и будут выбираться предпочтения. Метод способен анализировать неправильно построенные предложения, но тоже относится к первой категории: опирается на фиксированный набор правил.

Синтаксический анализ на основе самообучающихся систем заключается в обучении на примерах, которые вводятся человеком, а по мере накопления материала система сама формулирует новые правила, которые впоследствии использует при проведении анализа (мы уже рассматривали самообучающиеся системы в разделе, посвященном машинному переводу, так называемые. К-системы). В качестве подхода к реализации могут использоваться нейронные сетиб], методы поиска ближайшего соседа, деревья вывода, ГЬР [6].

На сегодняшний день известны методы синтаксического анализа, характеризующиеся неплохими результатами [10], но окончательных удовлетворительных решений пока нет.

На этапе семантического анализа происходит выявление смысла предложения. Проблема кореферентности (отождествления объекта), снятие неоднозначности, формальное представление структуры текста выходят за рамки предложения, имеют своим полигоном текст. Важной задачей, связанной с вышеозначенными проблемами, является выделение контекста.

Синтез предполагает использование системы правил для порождения правильных цепочек на заданном языковом уровне. Методы семантического анализа базируются на использовании тезауруса языка, задающего бинарные отношения между словами естественного языка, такие как: синонимия, антонимия,

гипонимия, гиперонимия, эквонимия, омонимия, паронимия, конверсивы.

Особо следует остановиться на таком конечном звене цепочки, как словари, и той роли, которую они играют в жизни общества. Словарь, обобщая наши знания о том или ином аспекте языковой структуры, позволяет представить их в наиболее удобном для использования в определенных целях виде. В совокупности словарей могут быть не только отражены и в какой-то степени отражаются все уровни языковой структуры, но и к настоящему моменту в лингвистике пафос описания любого уровня или фрагмента языка видится в создании словаря его элементов, процедур, отношений. Словарь становится целью и итогом исследовательской работы над той или иной лингвистической проблемой. В связи с этим можно выдвинуть гипотезу «полноты лексикографического описания языка», предположив, что языковая структура - не только потенциально может быть, но и представлена в словарях полностью. Словарь оказывается самой удобной формой обобщения и фиксации информации не только о языке: именно в

лексикографической форме создаются

энциклопедии литературного творчества авторов, конкордансы по отдельным произведениям и всему творчеству писателя, дающие исследователю представление не только о чисто лингвистической, но и о мировоззренческой «картине мира» автора. В таких своих формах словарь уже перестает быть перечнем слов, так или иначе охарактеризованных со стороны своего содержания, а становится систематическим собранием сведений по определенному вопросу [11]. Автоматический словарь - это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста. Различают автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста. Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д. Чаще всего они являются компьютерными версиями хорошо известных обычных словарей. Например, на рынке программного обеспечения имеется компьютерный аналог словаря Ожегова. Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.

Особенности моделирования языковых объектов

При проведении лингвистических исследований представляется разумным

использовать тот факт, что язык - открытая система закрытых подсистем. Каждая подсистема конечна, следовательно, ее можно моделировать, а затем устанавливать определенные отношения между подсистемами. Основа моделирования

лингвистических процессов - порождение. Это связано, в первую очередь, с трудностью формализации естественного языка: для выявления формализованных правил приходится осуществлять анализ через синтез языкового материала, а затем подтверждать правила путем порождения информации уже на основании выявленных ранее правил.

На каждом уровне иерархии модели порождающих процессов можно перечислить ряд общих свойств модели и ситуации моделирования

[12].

1. Дуализм ситуации моделирования: ситуация

моделирования предполагает наличие

моделируемого объекта (воспроизводимой

конструкции) и модели (воспроизводящей конструкции).

2. Системность моделируемого (модель

воспроизводит некоторую систему, составляющие которой взаимосвязаны друг с другом и

представляют собой одно целое и/или

функционируют как одно целое).

3. Системность модели (любая модель представляет собой систему элементов, связанных между собой определенными отношениями).

4. Аспект воспроизведения моделируемого в модели

(зависит от задач и целей моделирования). В зависимости от того, какой аспект моделируемого воспроизводится в моделях, они делятся на структурные, функциональные и смешанные.

Структурные воспроизводят структуру

моделируемого объекта, то есть его существенные элементы в системе их отношений друг с другом. Функциональные модели воспроизводят поведение объекта в природе и обществе. В смешанных моделях объединены те и другие аспекты.

5. Тип модели (интеллектуальная или физическая).

6. Дуалистический характер модели. (Любая модель представляет собой некоторое единство формы и содержания. Следует заметить, что форма и содержание модели отличны от формы и содержания моделируемого объекта. Формой интеллектуальных моделей являются описания, сделанные при помощи естественного и искусственного языков, а их содержанием - система элементов и отношений между ними.)

7. Обобщение и упрощение моделируемого в модели (модель - всегда каким-то образом обобщенное и уже тем самым упрощенное воспроизведение структурных, функциональных или тех и других свойств моделируемого явления.)

Определение исходной системы, сбор и обработка данных очевидным образом должны быть автоматизированы. Определение исходной системы и сбор данных в этом случае представлены моделью системы. Обработка данных определяет поведение модели. Лицо, принимающее решение (ЛПР), занимается интерпретацией данных, именно его решение влияет на пополнение модели (добавление новых признаков, новых правил, определяющих запреты на порождение определенных цепочек). Но ЛПР (исследователю в нашем случае) необходим инструмент для обеспечения обоснования и поддержки принимаемых решений.

Что является объектом управления? Это модель процессов, представляющих один из языковых уровней. Наш объект относится к так называемым нетрадиционным объектам управления

[13] и обладает перечнем свойств, характерным для таких объектов, а именно:

- уникальностью (объект обладает такой структурой и функционирует так, что к нему нельзя применить какую-либо типовую стандартную процедуру управления);

- отсутствием формализуемой цели

существования (объекты возникли не по чьему-либо плану, а развились постепенно в силу определенных социально-

экономический и исторических причин);

- отсутствием оптимальности (для объектов такой природы неправомочна постановка классической задачи оптимизации);

- динамичностью;

- неполнотой описания.

Наиболее часто встречающаяся ситуация -проблема формализации сочетаемости языковых единиц определенного уровня. Прежде чем будут окончательно сформулированы правила

сочетаемости, которые затем подвергнутся диагностике, необходимо их выявить. Этот процесс весьма нетривиален, далеко не прост и не обязательно успешен. Поэтому необходимы дополнительные механизмы, которые позволяли бы стимулировать принятие решения, говоря проще «подталкивать» процесс. Инструментальные

средства, реализующие математическое

обеспечение, должны быть предельно простыми, такой же должна быть, на наш взгляд, сама идея оценивания, чтобы пользователями были не обязательно только высококвалифицированные специалисты предметной области. На начальном этапе исследований оценивание исходного материала может быть весьма рутинной задачей, не требующей серьезной квалификации, что предполагает использование вспомогательного персонала.

Литература

1. Моделирование языковой деятельности в интеллектуальных системах / под ред. А. Е. Кибрика и А. С. Нариньяни. - М. : Наука. - 280 с.

2. Бодуэн де Куртенэ И. А. Избранные труды по общему языкознанию / И. А. Бодуэн де Куртенэ. - М.

: Изд-во АН СССР, 1963.- Т. 2. - 392 с.

3. Зализняк А. А. Грамматический словарь русского

языка. Словоизменение / А. А. Зализняк.- М. :

Русский язык, 1987. - 3-е изд. - 878 с.

4. Селезнев К. Е. Обработка текстов на естественном языке / К. Е. Селезнев // Открытые системы, 2002. -№ 12. - С. 48-53.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Гарант-Парк-Интернет. Технологии анализа и поиска текстовой информации. - (http//research.metric.ru).

6. Bratko I. Applications of inductive logic programming /

I. Bratko, S. Muggleton // Communications of the Association for Computing Machinery, 38 (11), 1995. -P.65-70.

7. Manning C. Foundations of Statistical Language processing / C. Manning, H. Schutze. - The MIT Press, Cambridge, MA, 1999.

8. Jurafsky D. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition / D. Jurafsky, J. H. Martin. - Prentice-Hall, 2000.

9. Linguistic Theory and Computer Applications. [Edited by P. Whitelock, M. M. Wood, H. L. Somers, R. Johnson, P. Bennett]. - Manchester : Academic Press. - 1987. - 329 p.

10. Грязнухина Т. А. Синтаксический анализ научного текста на ЭВМ / Т. А. Грязнухина и др. - Киев : Научная мысль, 1999.

11. Караулов Ю. Н. Лингвистическое конструирование и тезаурус литературного языка / Ю. Н. Караулов. - М.

: Наука, 1981. - 368 с.

12. Откупщикова М. И. Моделирование языка / М. И. Откупщикова // Прикладное языкознание : учебник / Л. В. Бондарко и др. ; отв. ред. А. С. Герд. -СПб. : Изд-во С.-Петербург. ун-та, 1996. - С. 100111.

13. Поспелов Д. А. Ситуационное управление. Теория и практика / Д. А. Поспелов. - М. : Наука, 1986. - 288 c.

Воронежский государственный университет Воронежский государственный технический университет

THE ROLE OF INFORMATION TECHNOLOGY IN RESEARCH OF THE LINGUISTIC

ENVIRONMENT

I.Ye. Voronina, Ya.E. Lvovich

Presented the overview of approaches to the automation of the linguistic research. Discusses properties and peculiarities of the situation of modeling, taking into account the fact that the language - an open system of closed subsystems. The each subsystem is finite, hence it can be modeled, and then established certain relationships between the subsystems

Key words: linguistic research automation, natural language processing, modeling of linguistic objects

i Надоели баннеры? Вы всегда можете отключить рекламу.