Научная статья на тему 'Выбор варианта управления процессом социокультурного развития на основе автоматизированного исследования эффективности с использованием моделирования словообразовательных систем'

Выбор варианта управления процессом социокультурного развития на основе автоматизированного исследования эффективности с использованием моделирования словообразовательных систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
74
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНГВИСТИЧЕСКАЯ СРЕДА / СОЦИОКУЛЬТУРНАЯ СИСТЕМА / АВТОМАТИЗАЦИЯ ИССЛЕДОВАНИЙ / LINGUISTIC ENVIRONMENT / SOCIO-CULTURAL SYSTEM / AUTOMATION OF THE RESEARCH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Воронина И. Е., Львович Я. Е.

Лингвистическая среда рассматривается в качестве средства управления развитием социокультурной системы. Обсуждается зависимость от лингвистической среды информационной, когнитивной, и правовой составляющей социокультурной системы

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Воронина И. Е., Львович Я. Е.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SELECTING THE VARIANT MANAGING OF THE PROCESS SOCIAL AND CULTURAL DEVELOPMENT BASED ON COMPUTER-AIDED RESEARCH OF THE EFFECTIVENESS USING WORD-FORMING MODELING SYSTEMS

Under consideration the problem of automation of the selection of concepts for the construction of semantic space of the text to define a set of representative terms to describe the ontology of the system. The urgency of developing of the ontologies is determined by necessity of solving the problem of information overflow on the Internet

Текст научной работы на тему «Выбор варианта управления процессом социокультурного развития на основе автоматизированного исследования эффективности с использованием моделирования словообразовательных систем»

УДК 001.103:002

ВЫБОР ВАРИАНТА УПРАВЛЕНИЯ ПРОЦЕССОМ СОЦИОКУЛЬТУРНОГО РАЗВИТИЯ НА ОСНОВЕ АВТОМАТИЗИРОВАННОГО ИССЛЕДОВАНИЯ ЭФФЕКТИВНОСТИ С ИСПОЛЬЗОВАНИЕМ МОДЕЛИРОВАНИЯ СЛОВООБРАЗОВАТЕЛЬНЫХ СИСТЕМ

И.Е. Воронина, Я.Е. Львович

Лингвистическая среда рассматривается в качестве средства управления развитием социокультурной системы. Обсуждается зависимость от лингвистической среды информационной, когнитивной, и правовой составляющей социокультурной системы

Ключевые слова: лингвистическая среда, социокультурная система, автоматизация исследований

Взаимодействие между языком и обществом базируется на постулате: без языка нет общества, без общества нет языка. Развитие, функционирование и существование любого общества может происходить лишь при условии социального взаимодействия между его членами. Социальное взаимодействие - это, в первую очередь, обмен информацией, поэтому социальные процессы неотделимы от процессов коммуникации, а без языкового взаимодействия нет социального взаимодействия, нет и самого общества. Характер и сферы социального взаимодействия тесным образом связаны с характером и сферами языкового взаимодействия и, в свою очередь, сферы общения, языкового взаимодействия отражают сферы социального взаимодействия, интенсивность которых диктуется нуждами бытового и хозяйственного, производственно-экономического, социально-политического и культурного

взаимодействия отдельных людей и коллективов. Этим и определяется ведущая роль общества, социальных факторов, «социального давления» в развитии языка [1].

Язык отражает исторический опыт общества и его социальную организацию. Он возникает в обществе и обслуживает его, то есть язык возникает в системе «человек-человек». Язык обслуживает общество абсолютно во всех сферах человеческой деятельности. По некоторым утверждениям, реальный мир в значительной мере бессознательно строится на языковых нормах данного общества, поскольку восприятие действительности

обусловлено тем, что языковые нормы общества предполагают определенный отбор интерпретаций [2].

Язык - инструмент познания и превращения опыта в знание. Выполняя функции источника и хранителя информации, язык одновременно является способом выражения накопленного знания и базой для формирования нового. Благодаря языку человек в процессе трудовой и познавательной деятельности изменил

Воронина Ирина Евгеньевна - ВГУ, канд. техн. наук, доцент, тел.(473) 2208698

Львович Яков Евсеевич - ВГТУ, д-р техн. наук, профессор, тел. (473) 243-77-04

картину мира. Если под информационной картиной мира понимать всю совокупность

знаковых систем, сигналов и проявлений информационных связей, то язык можно рассматривать как особый вид социальных информационных связей. Благодаря языку информационная картина мира получает возможность социального репродуцирования, связанного с активным отношением к прошлому опыту, когда отбирается, сохраняется и создается то, что способствует дальнейшему развитию общества, следствием чего становится создание особого информационно-языкового видения мира [3].

Традиционно лингвисты занимались

созданием формальных, общих, структурных

моделей естественного языка (ЕЯ) и поэтому отдавали предпочтение тем из них, которые позволяли извлекать как можно больше языковых закономерностей и делать обобщения. При этом вопрос пригодности моделей с точки зрения компьютерной эффективности их применения практически не рассматривался. В результате лингвистические модели, характеризуя собственно язык, не рассматривали механизмы его порождения и распознавания. Хорошим примером тому служит порождающая грамматика Хомского [4-5], которая на практике оказалась абсолютно непригодной в качестве основы для компьютерного распознавания естественного языка. Инструментальная система обработки ЕЯ должна основываться на лингвистической теории, то есть обладать средствами представления лингвистических структур, структур представления знаний, а также алгоритмами для обработки таких структур. Она, например, должна поддерживать возможность представления сложных средств выражения, свойственных естественному языку, таких как лексические омонимия и полисемия (несколько значений, соответствующих одному слову), синонимия (несколько слов имеют близкие значения), привязка к контексту речи и к контексту ситуации и т.д. Традиционной проблемой также является описание взаимосвязи между грамматическими структурами и содержанием предложения, при этом содержание может быть представлено логической формулой либо в виде структуры на некотором языке представления знаний. Классическими задачами, выводящими за

рамки описания структур отдельных предложений, являются представление кореферентных связей и структура дискурса.

Формализация естественного языка является нетривиальной задачей и обладает всеми особенностями слабоструктурированных проблем [6], а именно:

- исследователь не может одновременно фиксировать все свойства в отношении элементов системы;

- роль исследователя в определении и решении таких проблем исключительно велика;

- информация о внешней среде, о связи между параметрами никогда не бывает полной;

- принятие окончательного решения всегда сопряжено с риском;

- наиболее важная информация может быть получена только с помощью экспертов;

- не существует объективных математических методов, с помощью которых можно совершенно беспристрастно найти решение проблемы.

Для реализации всех масштабных планов автоматизации естественно-языкового общения необходимо решить проблему формализации естественного языка. К этой цели исследователи шли и идут методом проб и ошибок, рождаются теории, создаются модели, работающие на ограниченном подмножестве естественного языка, разрабатываются алгоритмы, поддерживающие различные подходы к решению тех или иных вопросов. В контексте задачи естественно-языкового общения любая

лингвистическая теория (в идеале) требует компьютерной реализации. В свою очередь, для того чтобы допускать возможность реальной компьютерной реализации, лингвистическая теория должна обладать высокой степенью формализации и полноты. Реализация лингвистической теории через инструментальную систему для описания естественноязыковых структур зависит также от методов программирования, использованных для ее написания. Развитие компьютерной лингвистики стимулируется, с одной стороны, развитием теоретических средств описания ЕЯ, а с другой - прогрессом технологий программирования, в первую очередь, в области искусственного интеллекта [7].

В настоящее время не существует ни идеальной теории для компьютерной лингвистики, ни идеальных средств ее реализации. По этой причине невозможно создать идеальную инструментальную систему для обработки ЕЯ, что приводит к изобилию существующих систем. Чаще всего набор средств представления инструментальной системы (а также полнота этого набора) определяется теоретической моделью, лежащей в ее основе.. Прикладные научные исследования в области формализации естественного языка характеризуются тем, что обычные способы сбора и обработки информации не обеспечивают необходимой быстроты, полноты и качества ее переработки. Наличие большого объема

нетворческой, рутинной работы значительно тормозит исследовательский процесс, не позволяя исследователю в полной мере реализовать свои возможности. Отсутствие диагностического

инструментария, позволяющего количественно

оценить степень приближения получаемых результатов к реальности, также не способствует повышению эффективности и качества исследований. Учитывая вышесказанное,

представляется актуальным создание

инструментария для разработки, подтверждения и своего рода «настройки» самой лингвистической теории. Повышение эффективности и качества проведения прикладных научных исследований напрямую связано с разработкой инструментальных средств для реализации этих исследований.

Лингвистическая среда может

рассматриваться в качестве средства управления развитием социокультурной системы. От лингвистической среды зависят и информационная, и когнитивная, и правовая составляющая социокультурной системы. Лингвистическая среда влияет и на социальную образовательную подсистему. Для решения практических задач управления социальными системами необходимо использование информационных технологий. Однако часто их использование затруднено из-за неумения сформулировать задачи на языке, понятном программисту, а тот, в свою очередь, не знает предметной области.

Часто для систем с высоким уровнем неопределенности значения параметров моделируемой системы не удается получить общепринятыми методами математической статистики или по аналогии. Проблемы формализации слабоструктурированных областей столь неоднозначны и нетривиальны, что попытка их решения вынуждает во многих случаях полагаться на интуицию исследователя. В условиях отсутствия возможности применения стандартных математических и алгоритмических методов решения задачи, любой подход, реализованный в виде набора инструментальных средств для проведения исследований, позволяющий получить приближение к правильному результату, имеет значение.

Программный инструментарий для моделирования и исследования

словообразовательных процессов позволяет выполнить генерацию слова по заданному набору морфем с фильтрацией получаемого материала. Исследовательский материал, полученный с

помощью программных средств, подлежит анализу. На этой стадии возможно применение диагностических средств. Анализ может осуществляться в процессе наблюдения за поведением словообразовательной системы при заданных параметрах, а также путем изучения положительного и отрицательного материала, полученного при генерации. Сформулировать

запрещающие правила сразу не всегда представляется возможным. Для формирования гипотезы иногда важно иметь в своем распоряжении

результаты экспертного оценивания и, как следствие, лингвистический материал. Подобный подход вполне может помочь в формировании необходимого объема информации для наблюдения, обобщения, формализации, а затем проверки и уточнения

Приложив определенные усилия, связанные с активным использованием средств

автоматизации, требующиеся оценки можно получить эмпирическим путем. Оценки можно искусственно создавать, изучая последствия их применения.

Рассчитывая на то, что между объектами предметной области всегда предполагается наличие семантического отношения, можно обобщить правило СОЧЕТАЕМОСТЬ( <объект1 > И < объект2 >) ИМЕЕТ МЕСТО С ОПРЕДЕЛЕННОЙ ДОЛЕЙ УВЕРЕННОСТИ (Сошр1—> Сотр2, или, когда подразумевается степень уверенности X ^,

---Х—>

Сотр1 Сотр2).

Обобщением правила (да и подхода в целом) может быть:

СЕМАНТИЧЕСКОЕ ОТНОШЕНИЕ( <объект1 > И < объект2 >) ИМЕЕТ МЕСТО, или СЕМАНТИЧЕСКОЕ ОТНОШЕНИЕ( <объект1 > И < объект2 >) ИМЕЕТ МЕСТО С

ОПРЕДЕЛЕННОЙ ДОЛЕЙ УВЕРЕННОСТИ (8ешЯ (Сошр1 —> Сошр2), или, когда

подразумевается степень уверенности X ^, 8ешЯ

---Х—>

(Сошр1 Сошр2)).

Таким образом, семантическое отношение может трактоваться как метрическая лингвистическая шкала с нечеткими

квантификаторами, определяющими субъективную оценку наличия этого отношения.

Результаты диагностирования могут влиять не только на процесс принятия решений, но и играть роль при анализе полученного материала. Учитывая, что исследователем является специалист в области лингвистики, возможно, не владеющий

математическим аппаратом, создание

диагностического инструмента, разработка самих методов диагностики предоставляет ему новые, дополнительные возможности исследования и формализации словообразовательного процесса. Практически исследователю предоставляются методы количественного оценивания направления процесса исследований, формализованный аппарат осуществления диагностирования.

Используя реализованный программно инструментарий, исследователь может выявлять тенденции различных этапов формирования слова и поведения словообразовательной системы в целом. В этом смысле можно говорить о получении новых сведений в области изучения словообразования

Без средств автоматизации исследования часто могут быть выполнены лишь на весьма ограниченном материале в силу значительной трудоемкости процесса. Но сами по себе средства

автоматизации не могут быть эффективны, если еще на этапе их проектирования, а затем и на этапе создания прототипа системы не происходит глубокое погружение в предметную область и отсутствует тесное взаимодействие с исследователем. Роль личности исследователя (эксперта) трудно переоценить: во многих случаях именно он является генератором идей, вдохновителем и критиком процесса и результатов разработки. Без серьезной совместной работы невозможно создание адекватного инструмента, позволяющего решать задачи в соответствующей предметной области.

Визуализация задач компьютерного моделирования словообразовательных процессов опирается на когнитивный подход, когда во главу угла ставится визуализация существенных свойств и отношений между объектами предметной области и в основе лежит идея того, что графический образ, как правило, содержит в себе информацию о возможных и не всегда заранее известных следствиях этих свойств и отношений. Подразумевается, что информация содержится на уровне графических деталей компьютерного изображения. Таким образом, актуальность визуализации моделируемого процесса

определяется необходимостью выявления закономерностей предметной области путем задействования наглядно-образного механизма мышления человека. Программная реализация когнитивного компьютерного образа

словообразовательного процесса опирается на пространственную модель словообразования.

Исследование словообразовательной

подсистемы языка является частью технологической цепочка проведения исследований Средства автоматизации моделирования этапа

технологической цепочки имеют своей целью повышение эффективности проведения

исследований в целом через повышение эффективности выполнения отдельных операций за счет устранения нетворческой, рутинной работы и обеспечения быстроты, полноты и качества переработки информации.

Эффективность является мерой степени достижения цели и предполагает наличие целей более высокого уровня, для которых «продукция» каждого этапа моделирования является реальным вкладом в общий исследовательский процесс. Автоматизированная подсистема моделирования словообразовательных процессов вносит свой вклад в решение задачи пошагового, дискретного понимания языка.

Естественный язык - не только средство общения пользователя с информационной системой, но и моделирующая система, средствами которой можно описать окружающий мир. Комплексы проблем под общим названием «проблема отладки информационного обеспечения», связанные с трудоемкостью ввода громадного объема знаний и данных при создании промышленных информационных систем могут быть в значительной степени решены путем использования естественного

языка для ввода и модификации информационного обеспечения. То же самое касается и диалогового описания процедур планирования, выполнения основных функций взаимодействия пользователя с ЭВМ, понимания и корректировки поведения системы. Современные процессы информатизации, позволяющие предоставлять информацию потребителю, давно стали важным фактором жизни общества, функционирующего в едином

информационном пространстве. Поэтому трудно переоценить важность задачи предоставления нужной информации в нужном виде и в нужное время. Несмотря на то, что необходимая информация генерируется многочисленными информационными системами, аккумулируется в различных хранилищах, базах и банках данных, доля неструктурированной информации, содержащейся в текстах на естественном языке и извлекаемой из них, несоизмеримо выше. Отсюда актуальность задачи автоматизированного анализа текстов и проведения исследований по формализации естественного языка. Изменение парадигмы управления, связанное с изменением самой сферы социального управления, неизбежно должно повлечь за собой существенную зависимость своей эффективности от достигнутых результатов в области формализации естественного языка, поскольку качество принимаемых решений напрямую зависит от оперативности получения информации, причем адекватной и качественной информации, которая большей своей частью содержится в текстах и извлекается из текстов.

Воронежский государственный университет Воронежский государственный технический университет

Литература

1. Белл Т. Р. Социолингвистика / Т. Р. Белл; пер. с англ. ; под. ред. А. Д. Швейцера. - М. : Междунар. отношения, 1980. - 320 с.

2. Березовчук Л.Н. Культура как власть (http://spintongues.msk.ru/berezovchuk12.htm)

3. Володина М.Н. Язык СМИ - основное средство

воздействия на массовое сознание. -

(http://evartist.narod.ru/text12/03. htm).

4. Chomsky N. On certain formal properties of grammars / N. Chomsky // Inf. And Control. -1959. - Vol. 2, № 2. - P. 137-167.

5. Chomsky N. Introduction to the formal analysis of natural languages, Handbook of Mathematical Psychology / N. Chomsky, G. Miller. - New York : Wiley, 1963. - Vol. 2. - P. 269-322. (Русский перевод: Хомский Н., Миллер Г. Конечные модели использования языка / Н. Хомский, Г. Миллер // Кибернетический сборник, новая серия. - М. : Мир, 1967. - Вып. 4. - С. 141-218).

6. Информационные технологии в испытаниях сложных объектов: методы и средства / В. И. Скурихин и др. ; отв. ред. В. М. Египко. - АН УССР. Ин-т кибернетики им. В. М. Глушкова. -Киев : Наукова думка, 1990. - 320 с.

7. Шаров С. А. Средства компьютерного

представления лингвистической информации / С. А. Шаров. -

(http://www.rcn.ru/tat_en/science/ittc/vol000/002/).

SELECTING THE VARIANT MANAGING OF THE PROCESS SOCIAL AND CULTURAL DEVELOPMENT BASED ON COMPUTER-AIDED RESEARCH OF THE EFFECTIVENESS USING

WORD-FORMING MODELING SYSTEMS.

I.Ye. Voronina, Ya.E. Lvovich

Under consideration the problem of automation of the selection of concepts for the construction of semantic space of the text to define a set of representative terms to describe the ontology of the system. The urgency of developing of the ontologies is determined by necessity of solving the problem of information overflow on the Internet

Key words: linguistic environment, socio-cultural system, automation of the research

i Надоели баннеры? Вы всегда можете отключить рекламу.