УДК 001.103:002
АЛГОРИТМИЗАЦИЯ СИСТЕМНОГО АНАЛИЗА ЯЗЫКОВОЙ СРЕДЫ ЧЕЛОВЕКА
И.Е. Воронина, Я.Е. Львович
Предлагается подход к проведению лингвистических исследований, направленных на формализацию естественного языка. Рассматриваются этапы и особенности исследований в условиях неполноты информации и нетривиальности решаемой задачи
Ключевые слова: компьютерная лингвистика, обработка естественного языка, неполнота информации
С древнейших времен жизнь человека зависела не только от его способности удовлетворять насущные потребности, но и от быстроты и полноты получения информации. Новая фаза развития общества, в которой главными продуктами производства являются информация и знания, получила название «информационное общество».
Отличительными чертами информационного общества являются увеличение роли информации и знаний в жизни общества, возрастание доли информационных
коммуникаций, продуктов и услуг, а также создание глобального информационного пространства. Информационная среда сейчас настолько насыщенна, что возникает реальная проблема отбора, эффективного использования информации для скорейшего прогресса в соответствии с индивидуальными
способностями и целями. Интернет-технологии еще более ужесточают эти требования, делая безусловной прерогативой умение
ориентироваться в глобальных
информационных ресурсах.
Язык - важнейшее средство коммуникации и выражения мысли,
инструмент познания, постоянного осмысления мира человеком и превращения опыта в знание. Язык является не только средством для передачи и хранения информации, но и инструментом для формирования новых
понятий, во многом определяющих сам способ человеческого мышления. Выбор конкретных языковых средств оказывает влияние на структуру мышления и тем самым на процесс восприятия и воспроизведения
действительности
С эксплуатацией и развитием Интернета стало очевидным, что без привлечения
фундаментальных знаний о языковой системе невозможна успешная разработка программ-
Воронина Ирина Евгеньевна - ВГУ, канд. техн. наук, доцент, тел. (4732) 20-86-98
Львович Яков Евсеевич - ВГТУ, академик РАЕН, МАИ, Заслуженный деятель науки РФ, д-р техн. наук, профессор, тел. (4732) 43-77-04
оболочек гипертекста, а также создание удобного эргономичного пользовательского интерфейса. Интернет - сложная
социотехническая система, в которой большинстве случаев, коммуникативный процесс поддерживается только текстовым обменом. Естественный язык (ЕЯ) - средство создания виртуальной реальности, поскольку искусственные языки программирования -лишь технологическое средство, благодаря которому Интернет работает как новая технология. Интернет становится новой сферой функционирования русского языка: инструмент, обеспечивающий работу пользователя; посредника между человеком и машиной на уровне массового потребителя или между человеком и человеком через компьютер. Программный интерфейс становится не узко профессиональной сферой специалистов, а общедоступным и востребованным языковым материалом, освоение которого - условие вхождения массового потребителя в новое пространство, осваиваемое современным мировым
сообществом.
Проблема заключается в том, что фундаментальные проблемы в области формализации ЕЯ еще весьма далеки от решения, но прикладные системы могут оснащаться интерфейсом, использующим ограниченное подмножество ЕЯ.
Согласно [1], совершенствование любой деятельности состоит в ее алгоритмизации, то есть в совершенствовании технологии. Алгоритмы проведения системного анализа могут быть различными. Список блоков, из которых может состоять процедура анализа конкретной системы, включает в себя и построение модели, исследование
информационных потоков и ресурсных возможностей, наблюдения и эксперименты над исследуемой системой, и внедрение результатов анализа, и другие составляющие, в зависимости от конструируемых в ходе исследования алгоритмов.
Рассматривая в качестве системы-объекта естественный язык, представляется актуальным
сформировать список процедур разработки математического, алгоритмического и программного обеспечения исследовательского процесса на пути построения теоретической системы. Значительную роль играет обоснование актуальности создания
инструментальных средств для разработки, подтверждения и «настройки» лингвистической теории. Для определения степени адекватности отражения системы-объекта теоретической системой необходим диагностический инструментарий.
Глобальная цель всех проводимых лингвистических исследований - разобраться в структуре языка. Уровни структуры языка -это синтаксические предложения, слова, морфемы, фонемы. Все языковые уровни характеризуются наличием базовых элементов. Изучение языка может идти с двух позиций - анализа и синтеза, ибо выявленные правила синтеза могут способствовать проведению анализа и наоборот. Фиксация правил анализа и синтеза приведет к созданию анализаторов и синтезаторов каждого уровня иерархии. На рис. 1 представлена вся
технологическая цепочка по созданию
лингвистического обеспечения информационных процессов, разработанная в Научнометодическом центре компьютерной
лингвистики Воронежского госуниверситета.
Этапы проведения исследований (рис. 2) на каждом шаге технологической цепочки
сформулированы так, чтобы обеспечить
движение теоретической системы к большей адекватности отражения системы-объекта.
СИНТЕЗ
морфологический
синтезатор слова предложения
И....l.t...LL.J.1
принятие решения
ті...л...ГГ'ТТ
морфологический морфемный синтаксический семантический
ТЕКСТ ► БД анализатор анализатор анализатор анализатор
проблема кореферентности отожд ествление объекта
ности
формальное представление семантической структуры текста
spellchecker
Рис. 1. Схема разработки лингвистического обеспечения
Предпроектный анализ: идентификация задачи с целью формирования модели предметной области
Формальная схема решения задачи. Алгоритмы генерации. Модель звена технологической цепочки. Структура программных средств
Создание генератора отрицательного материала
1
Накопление и анализ информации. Уточнение структуры модели. Создание фильтра. Уточнение структуры программных средств
ПОЛНАЯ
ФОРМАЛИЗА
ЦИЯ
Наблюдение
результатов генерации
Реализация модели: и фильтрации,
создание эффективных > модели, их
1 алгоритмов фильтрации диагностирование
4
і
Анализ задачи диагностирования. Выбор математического аппарата для разработки средств диагностики
Реализация средств диагностики: создание эффективных алгоритмов и их программная реализация
Е
Подтверждение возможности использования диагностики для пополнения модели. Применение диагностики при реализации составляющих технологической цепочки
т
Вычислительный
эксперимент
Рис. 2. Этапы исследований
При проведении лингвистических исследований представляется разумным использовать тот факт, что язык - открытая система закрытых подсистем. Каждая подсистема конечна, следовательно, ее можно моделировать, а затем устанавливать определенные отношения между
подсистемами. Основа моделирования лингвистических процессов - порождение. Это связано, в первую очередь, с трудностью формализации ЕЯ: для выявления
формализованных правил приходится осуществлять анализ через синтез языкового материала, а затем подтверждать правила путем порождения информации уже на основании выявленных ранее правил.
На каждом уровне иерархии модели порождающих процессов можно перечислить ряд общих свойств модели и ситуации моделирования, среди которых обобщение и упрощение моделируемого в модели (модель -
тексты
АНАЛИЗ
снятие
неоднознач-
всегда каким-то образом обобщенное и уже тем самым упрощенное воспроизведение структурных, функциональных или тех и других свойств моделируемого явления.) Все языковые уровни характеризуются наличием базовых элементов. Если принять во внимание схему, представленную на рис. 1, то можно говорить о связи анализа и синтеза с позиций изучения языка, ибо выявленные правила синтеза могут способствовать проведению анализа и наоборот. Наш метод предполагает выявление правил синтеза, то есть рассматривает систему порождения
правильных цепочек на заданном языковом уровне. Предлагается формировать правила в виде запретов на сочетаемость для каждого языкового уровня.
В нашем случае определение исходной системы, сбор и обработка данных очевидным образом должны быть автоматизированы. Определение исходной системы и сбор данных в этом случае представлены моделью системы. Обработка данных определяет поведение модели. Лицо, принимающее решение (ЛПР), занимается интерпретацией данных, именно его решение влияет на пополнение модели (добавление новых признаков, новых правил, определяющих запреты на порождение определенных цепочек). Но ЛПР
(исследователю в нашем случае) необходим инструмент для обеспечения обоснования и поддержки принимаемых решений, которым и будет являться диагностика процесса.
Диагностика процесса и будет инструментом, обеспечивающим принятие решения. Концептуальная схема проведения исследований ЕЯ приведена на рис. 3.
Рис. 3. Концептуальная схема проведения исследований
Под объектом в данном случае понимается объект моделирования, то есть языковые процессы определенного уровня иерархии. Моделирование объекта происходит на
основании стартовой информации, делающей возможной саму попытку начальной формализации и, следовательно,
автоматизации. Поскольку речь идет о порождающей модели, результатом ее функционирования будет сгенерированный материал, подлежащий наблюдению и изучению.
Диагностический инструментарий не обязательно должен порождать
количественные оценки с абсолютной
степенью точности, поскольку имеет своей целью скорее обозначение тенденций, подтверждение или опровержение
правильности хода исследовательского процесса.
Подразумевается использование схемы, представленной на рис. 2., на каждом шаге технологической цепочки. Таким образом,
предлагается единообразный подход к последовательному полному или частичному решению проблем формализации. Под частичным понимается решение, достаточное для реализации определенной задачи или класса задач и не претендующее на законченность или всеобщность.
Математическое обеспечение процесса диагностики и принятия решения разделено на две категории:
1) имеющее чисто диагностическую
направленность, функциональная нагрузка которого заключается в определении степени приближения аналога (модели)
лингвистического объекта к реальности;
2) математическое обеспечение для поддержки принятия решения.
Наиболее часто встречающаяся ситуация -проблема формализации сочетаемости
языковых единиц определенного уровня.
Прежде чем будут окончательно
сформулированы правила сочетаемости, которые затем подвергнутся диагностике, необходимо их выявить. Этот процесс весьма нетривиален, далеко не прост и не обязательно успешен. Поэтому необходимы
дополнительные механизмы, которые
позволяли бы стимулировать принятие решения, говоря проще «подталкивать»
процесс. Инструментальные средства, реализующие математическое обеспечение, должны быть предельно простыми, такой же должна быть, на наш взгляд, сама идея оценивания, чтобы пользователями были не
обязательно только высококвалифицированные специалисты предметной области. На
начальном этапе исследований оценивание исходного материала может быть весьма рутинной задачей, не требующей серьезной квалификации, что предполагает использование вспомогательного персонала.
Одним из результатов алгоритмизации системного анализа языковой среды является создание программных средств,
ориентированных на использование опыта, интуиции и знаний эксперта, что в сочетании с информацией дает возможность точнее
выбирать наиболее подходящие решения, помогает формализовать правила сочетаемости.
Не требуется никаких организационных затрат, направленных на сбор и обобщение знаний специалистов: программный инструментарий ориентирован на отдельного эксперта и является инструментом, помогающим найти необходимое решение, предоставляющим
возможность оценивания достоверности по апостериорным данным. Эту оценку можно использовать в качестве априорных данных для дальнейших экспертиз.
Литература
1. Перегудов Ф. И. Введение в системный анализ / Ф. И. Перегудов, Ф. П. Тарасенко. - М.: Высшая школа, 1989. - 367 с.
Воронежский государственный технический университет Воронежский государственный университет
ALGORITHMIZTION OF THE SYSTEMS ANALYSIS OF NATURAL LANGUAGE
ENVIRONMENT
I.Ye. Voronina, Ya.E. Lvovich
The paper offers an approach to NLP (Natural Language Processing) research. The stages and features of such research are examined in the context of incompleteness of the information and nontriviality of the problem
Key words: computer linguistics, natural language processing, the context of incompleteness of the information
Воронина Ирина Евгкеьевна 394052 , Воронеж, Чапаева 112, кв. 99 8-903-650-4410
394006 Университетская пл., 1
ф-т ПММ, кафедра программного обеспечения и администрирования информационных систем 208-698, 208-337