Научная статья на тему 'Особенности и преимущества алгоритма семантико-синтаксического анализа естественно-языковых текстов SemSyn'

Особенности и преимущества алгоритма семантико-синтаксического анализа естественно-языковых текстов SemSyn Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
126
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Особенности и преимущества алгоритма семантико-синтаксического анализа естественно-языковых текстов SemSyn»

Особенности и преимущества алгоритма семантико-синтаксического анализа естественно-языковых текстов

SemSyn

В.А. Фомичев

Кафедра матем. обеспечения систем обработки информации и управления Московский госуд. институт электроники и математики (технич. университет) 109028 Москва, Б. Трехсвятительский пер, 1-3/12 vdrfom@aha.ru

1. Введение

Благодаря бурному прогрессу компьютерной сети Всемирная Паутина (the World Wide Web, WWW, W3) пользователи сети во всем мире получили быстрый доступ к огромному количеству ЕЯ-текстов, относящихся к различным областям деятельности человека. С середины 1990-х годов специалисты в самых разных предметных областях работают не только с публикациями и базами данных (БД) своих организаций, но и стремятся использовать информационные ресурсы Паутины. Поэтому чрезвычайно актуальна задача организации взаимодействия на ограниченном естественном языке из различных предметных областей с огромным объемом накопленных информационных ресурсов Всемирной Паутины.

ЕЯ-интерфейсы для взаимодействия с информационными ресурсами Паутины необходимы не только специалистам для решения профессиональных задач, но и конечным пользователям, перед которыми стоят задачи получения медицинской или юридической информации, расширения культурного кругозора и т.д.

Адекватность принятия управленческих решений, касающихся социально-экономических систем и больших систем ряда других видов, во-многом зависит от оперативности получения требуемой информации. С одной стороны, могут быстро потребовпться определенные данные для принятия оптимального решения в новой

U \J XJ XJ

проблемной ситуации. С другой стороны, многодневный или многомесячный процесс подготовки новых управленческих решений, например, нового законодательства в определенной области, требует наличия средств быстрого получения разнообразных данных.

В связи с этим во многих странах мира разрабатываются естественноязыковые интерфейсы (ЕЯ-интерфейсы) больших БД и баз знаний (БЗ), в том числе

распределенных БД и БЗ. Как показал накопленный опыт, проектирование информационного и программного обеспечения ЕЯ-интерфейсов больших БД и БЗ характеризуется высокой трудоемкостью. В связи с этим большую актуальность приобрели вопросы разработки эффективных формальных средств и методов проектирования ЕЯ-интерфейсов таких систем.

В этом контексте можно предположить, что в долговременной перспективе сокращению затрат и времени на разработку семейства лингвистических процессоров (ЛП) в рамках одной организации или нескольких взаимодействующих организаций будет способствовать реализация в проектировании информационного и алгоритмического обеспечения ЛП следующих двух принципов:

(1) принципа стабильности используемого языка семантических представлений (ЯСП) по отношению к многообразию решаемых задач, многообразию предметных областей и многообразию программных сред (стабильность понимается как использование единой системы правил для построения конструкций ЯСП и варьируемого набора первичных информационных единиц, определяемого предметной областью и решаемой задачей);

(2) принципа преемственности алгоритмического обеспечения ЛП на основе использования одной или нескольких совместимых формальных моделей лингвистической БД и единых формальных средств представления промежуточных и окончательных результатов семантико-синтаксического анализа ЕЯ-текстов по отношению к многообразию решаемых задач, предметных областей и программных сред (преемственность понимается как многократное использование в различных ЛП алгоритмов, реализуемых основными подсистемами ЛП).

Теоретическую основу для реализации принципа стабильности используемого ЯСП создают работы автора [1 - 4, 8]. В этих работах и других публикациях автора построена новая теория математического описания смысловой структуры (или содержания, смысла) предложений и сложных связных текстов на естественном языке (ЕЯ). Базовая матема-тическая модель

и и и Т/* и х Г и

этой теории, названной теорией К-исчислений и К-языков, определяет новый

класс формальных языков - класс стандартных концептуальных языков (СК-языков).

Краткая характеристика правил построения выражеинй СК-языков и анализ основных преимуществ теории СК-языков по сравнению с основными известными подходами к формальному описанию смысла ЕЯ-текстов приводятся в последующих параграфах данной статьи. Главное преимущество теории СК-языков заключается в том, что СК-языки позволяют (это гипотеза) строить семантические представления (СП) произвольных предожений и связных текстов, относящихся к деловой прозе (текстов по медицине, экономике, технике, юриспруденции и т.д.).

На протяжении 1990-х и первой половины 2000-х годов автором данной работы был выполнен цикл исследований, направленных на создание эффективных формальных средств и методов проектирования семантико-синтаксических анализаторов (ССА) текстов на русском, английском и некоторых других языках. Полученные результаты дают новую систему формальных средств и методов проектирования ССА ЕЯ-интерфейсов. Основные результаты очень кратко можно охарактеризовать следующим образом.

1. Разработана формальная модель лингвистической базы данных (ЛБД), содержащей такие сведения о лексических единицах и их взаимосвязях с информационными единицами, которые достаточны для семантико-синтаксического анализа интересных для приложений подъязыков русского языка [ 5, 8].

2. В [5-8] разработан новый метод преобразования ЕЯ-текстов в их СП. Метод предусматривает использование предложенного автором матричного семантико-синтаксического представления (МССП) входного текста как промежуточного представления при переходе от ЕЯ-текста к СП текста, являющемуся выражением некоторого СК-языка (т.е. К-представлением текста). При этом не используется традиционное синтаксическое представление текста.

3. В [8] разработан сложный структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков естественного (русского) языка (алгоритм SemSyn),

базирующийся на построенной формальной модели ЛБД и на введенном понятии матричного семантико-синтаксического представления (МССП) ЕЯ-текста. Алгоритм устанавливает смысловые отношения между элементарными значащими единицами входного текста, отражая эти отношения посредством МССП, а затем строит семантическое представление текста, являющееся выражением некоторого СК-языка (К-представлением). Входные ЕЯ-тексты могут выражать высказывания (сообщения), команды, специальные вопросы (т.е. вопросы с вопросительными словами), общие вопросы (т.е. вопросы с ответом «Да»/ «Нет») и могут, в частности, включать причастные обороты и придаточные определительные предложения.

Алгоритм SemSyn позволяет устанавливать возможные смысловые отношения, в частности, в сочетаниях «Глагол + Предлог + Существительное», «Глагол + Существительное», «Существительное1 + Предлог + Существительное2», «Число + Существительное», «Прилагательное + Существительное», «Существительное1 + Существительное2», «Причастие + Существительное», «Причастие + Предлог + Существительное», «Вопросительно-относительное местоимение или местоименное наречие, играющее роль вопросительного слова + Глагол», «Предлог + Вопросительно-относительное местоимение + Глагол».

Работоспособность предложенного алгоритма семантико-синтаксического анализа текстов из подъязыков естественного (русского) языка доказана успешным созданием на его основе семейства экспериментальных русскоязычных интерфейсов баз данных и баз знаний, реализованных в программных средах Турбо-Паскаль, версия 7.0, Си, Си++, Visual C++, Delphi 4.0, 5.0, PHP.

Одно из главных преимуществ алгоритма SemSyn по сравнению с другими известными алгоритмами семантико-синтаксического анализа ЕЯ-текстов заключается в том, что алгоритм SemSyn описывается с помощью разработанной автором системы формальных понятий, а не в рамках какой-либо среды программирования. Основная цель данной работы заключается в описании особенностей соответствия между видом ЕЯ-текста и формой семантического представления, строящегося алгоритмом SemSyn по этому тексту.

2. Краткая характеристика базовой математической модели

теории СК-языков

Первая часть построенной в [1-3б 8] модели, описывающей систему из 10

операций на концептуальных структурах, определяет новый класс формальных объектов, называемых концептуальными базисами (к.б.). Каждый к.б. строится для формализации группы предметных областей и является сложным упорядоченным набором, задающим (а) множество первичных информационных единиц и множество переменных, используемых для построения формул, интерпретируемых как СП ЕЯ-текстов, (б) сведения, относящиеся к таким единицам и используемые для комбинирования этих единиц и нескольких специальных символов в составные единицы - СП ЕЯ-текстов.

Модель для каждого к.б. B задает множество формул Ls(B), удобных для построения СП ЕЯ-текстов, называемое стандартным К-языком (концептуальным языком), или СК-языком, порождаемым базисом B. Выражения СК-языков будут называться К-цепочками. Множество Ls(B) для произвольного к.б. B определяется совместной индукцией с помощью системы специальных правил P[0] , P[1], ..., P[10] . и интерпретируется как совокупность СП ЕЯ-текстов из группы предметных областей (или области), для формализации которых построен концептуальный базис B.

Правило Р[0] дает начальный запас К-цепочек как объединение множества первичных информационных единиц X(B) и множества переменных V(B), являющихся компонентами рассматриваемого к.б. B. Например, X(B) может включать цепочки якорь1, якорь2, Постав-щики, НПО_"Радуга", АО_"Салют", Элем-множества, Колич-элем-множества.

Сущность правил P[1], ..., P[10] можно пояснить следующим образом. Обозначим через Mult(B) объединение СК-языка Ls(B) и всевозможных декартовых степеней множества Ls(B). Тогда для k = 1,..., 10 правило P[k] задает некоторую частичную операцию Op[k] на Mult(B), причем значением операции всегда является выражение из Ls(B).

Таким образом, определение концептуального базиса и система правил Р[0] , Р[1], ..., Р[10] каждому концептуальному базису В ставят в соответствие частичную алгебру

Semalg(B) = (МиЫ(В), ОретЫот(В) }, где Орегайош(В) - множество, состоящее из частичных операций Ор[1], ..., Ор[10].

Описание класса частичных алгебр ^ета^(В) | В - концептуальный базис} будем интепретировать как модель системы таких операций на концептуальных структурах, которые позволяют строить СП ЕЯ-текстов, начиная с первичных информационных единиц.

Рассмотрим краткие характеристики правил построения формул Р[1], ..., Р[10] и, как следствие, частичных операций Ор[1], ..., 0р[10] .

Правило Р[1] предназначено для присоединения информационных единиц,

(,(, «55 СС «99 СС « 99 СС 99

соответст-вующих словам некоторый , каждый , какой-нибудь , все , "несколько", "большин-ство" и т.п., к простым или составным обозначениям понятий. Поэтому Р[1] позволяет строить формальные аналоги выражений "некоторый корабль", "все корабли ", "большинство кораблей ", "некоторая труба диаметром 30 см", "все города Европы". Примеры К-цепочек: нек корабль, все труба1 * (Диаметр, 30/см), все город * (Регион, Европа) .

Правило Р[2] предназначено для построения К-цепочек вида/а1, ...,а„), где/ - обозначение функции, п > 1, а1, ...,ап — К-цепочки. Так, после применения Р[2] на последнем шаге вывода можно получить цепочки Поставщики(НПО_"Радуга"), Колич-элем- множества (Поставщики(НПО_"Радуга")).

Правило Р[3] позволяет строить К-цепочки вида (а1 = а2), где а1, а2 — формулы, полученные при помощи любых правил из Р[0], ..., Р[10], и а1, а2 обозначают сущности, являющиеся однородными в некотором смысле. Примеры К-цепочек для Р[3] как последнего примененного правила: У = нек город * (Название, 'Саратов')) , (Директор(АО_"Салют") = П.Сомов) .

Правило Р[4] позволяет строить К-цепочки вида г (а1, ...,ап), где г — обозначение п-арного отношения, п > 1, а1, ...,ап — К-цепочки. Примеры:

Элем-множества (АО_"Салют", Поставщики(НПО_"Радуга")) , Подмнож(Города(Бельгия), Города(Европа)).

Правило P[5] предназначено для построения К-цепочек вида d : v, где d — К-цепочка, не включающая v, v — переменная, и выполнены некоторые условия. При помощи P[5] можно помечать переменными в семантических представлениях (СП) текстов на ЕЯ: а) описания различных сущностей, встречающихся в тексте, (б) СП предложений или более крупных фрагментов текста, на которые имеется ссылка в любой части текста. Примерами К-цепочек для правила P[5], примененного на последнем шаге вывода, являются выражения все чел : S1,

Меньше(Возраст(П.Сомов), 35/год) : Р1.

Правило P[6] позволяет строить К-цепочки вида —id, где d — К-цепочка, удовлетворяющая ряду условий. Примеры К-цепочек для P[6] : — самолет, — Элем-множества (АО"Старт", Поставщики(НПО"Радуга")). Здесь — - связка "не".

При помощи правила P[7] можно строить К-цепочки вида (a¡ л ...л an) или (a¡ v ...v an), где n >1, a¡ , ...,an — К-цепочки, обозначающие однородные в некотором смысле сущности. В частности, a¡,...,an могут быть СП высказываний, описаниями физических объектов, описаниями множеств, состоящих из объектов одной природы, описаниями понятий. Следующие выражения являются примерами К-цепочек для P[7] :

(Финляндия v Норвегия vШвеция), (Принадлеж((Намюр лГент),

Города(Бельгия)) л — Принадлеж(Бонн, Города( (Финляндия vНорвегия v

Швеция)))), (питание vмиграция vоборона) ,. (птица v млекопитающее * (Примеры, (овца v коза))).

Правило P[8] позволяет строить, в частности, К-цепочки вида c * (r¡,b¡), ..., (rn,bn) , где с — первичная информационная единица , обозначающая понятие, для i = 1, ..., n ri — функция с одним аргументом или бинарное отношение, bi обозначает возможное значение ri для объектов, характеризующихся понятием с. Например, после применения на последнем шаге вывода правила P[8] можно получить К-цепочки город * (Страна, Россия), поворот * (Направление, влево). Пример 1. Можно построить следующее К-преатавгение списания межунахоного журнала "Informática": нек межд-науч-журнал* (Название, '^огтайса^Страна, Словения)

(Город, Любляна) (Области, (иск-интеллект л когнитивная-наука л базы-

данных)) : k225, где k225 — метка модуля знаний с данными об этом журнале.

Пример 2. Рассмотрим выражения Вр1 = "3 контейнера с керамикой из Индии" и Вр2 = "Партия керамики, состоящая из коробок с номерами 3217, 3218, 3219". Тогда можно построить такой к.б. B, для которого Ls(B) включает формулы

(1) нек множ. * (Колич, 3) (Кач-состав, Контейнер 1 * (Содерж1, нек множ * (Кач-состав, изделие * (Вид, керамика) (Страна, Индия)))),

(2) (нек партия2 * (Колич, 3)(Предм-состав, (нек коробка1 * (Номер, 3217) : x1 л нек коробка1 * (Номер, 3218) : x2 л нек коробка1 * (Номер, 3219) :x3)) :S1.

Построенные формулы будем интерпретировать как возможные КП выражений Вр1 и Вр2; здесь x1, x2, x3 - метки коробок, S1 - метка партии.

Правило P[9] дает возможность строить, в частности, К-цепочки вида Vv (concept) D и 3v(concept) D, где V - квантор всеобщности, 3 - квантор существования, concept обозначает понятие ("человек", "город", "целое число" и др.) или составное понятие ("целое число, большее 200" и др.). D можно интерпретировать как СП высказывания с переменной v о любой сущности, характеризуемой понятием concept. Примеры: Vx1(нат.ч.) Бх2(нат.ч.) Меньше(х1, х2), Бу(страна * (Регион, Европа))Больше(Колич(Города(у)), 15).

Правило P[10] позволяет строить, в частности, К-цепочки вида <a1,. ,a„>, где n > 1, a1,...,an — К-цепочки. Выражения вида <a1,.,an> интерпретируются как обозначения n-местных наборов. Компонентами такого набора могут быть не только обозначения чисел, объектов, но и СП выражений, обозначения множеств, понятий и др.

В работах [1 - 4, 8] показано, что выражения СК-языков удобно использовать для: (а) построения семантических представлений (СП) не только предложений (выражающих высказывания, вопросы, команды), но и сложных дискурсов на русском языке, (б) построения составных целей, (в) представления знаний о мире, в том числе для построения формальных определений понятий и объектно-ориентированных модулей знаний.

Преимуществами теории СК-языков по сравнению с теорией представления дискурсов [9] и эпизодической логикой [10, 11] являются, в частности,

возможности: (1) различать формальным образом обозначения объектов, ситуаций и понятий, характеризующих эти объекты, ситуации, (2) строить составные обозначения понятий, (3) различать формальным образом объекты и множества объектов, понятия и множества понятий, (4) строить формальные аналоги составных обозначений множеств, а также множеств, состоящих из множеств, (5) описывать теоретико-множественные отношения, (6) эффективно описывать структурированные значения (СЗ) дискурсов со ссылками на смысл фраз и более крупных фрагментов дискурсов, (7) описывать СЗ предложений со словами "понятие", "концепт", (8) описывать СЗ выражений, полученных применением связок "и", "или" нек обозначениям высказываний, а к обозначениям предметов, событий, понятий ; (9) строить составные обозначения объектов и множеств, (10) рассматривать нетрадиционные функции (и другие нетрадиционные отношения) с аргументами и/или значениями, являющимися множествами предметов, ситуаций, понятий, СП текстов, (11) строить формальные аналоги значений инфинитивов с зависимыми словами, т.е. обозначения целей, рекомендаций, предложений, обязательств, назначений предметов и процессов.

Пункты (3) - (8), (10), (11) указывают главные преимущества теории СК-языков по сравнению с теорией концептуальных графов (ТКГ) [12, 13]. Выразительные возможности СК-языков значительно шире возможностей ТКГ в отношении пунктов (1), (2), (9).

3. Форма семантического представления для текстов различных видов

Форма семантического представления (СП) ЕЯ-текста должна зависеть от вида входного текста. Рассмотрим особенности построения СП ЕЯ-текстов разработанным в [8] алгоритмом семантико-синтаксического анализа SemSyn. Строящиеся СП являются выражениями стандартных К-языков (СК-языков), т.е. К-представлениями (КП) текстов. В рассматриваемых примерах СП входного текста Т будет являться значением строковой переменной Semrepr (Semantic representation).

Пример. Пусть Т1= "Антибиотик "Зиннат", выпускаемый фирмой "GlaxoWelcome", излечивает болезни, вызванные кокковой флорой». Тогда

алгоритм SemSyn построит по тексту Т1 его К-представление (Ситуация(е1, выпуск1 * (Агент2, нек фирма1" (Назв, "GlaxoWelcome") : х1)(Время, #сейчас#)(Продукция1, нек антибиотик * (Назв, "Зиннат") : х2) л Ситуация (e2, лечение1 * (Агент1, х2)(Процесс1, все болезнь1 * (Причина, произв флора * (Вид1, кокк)))) . Таким образом, алгоритм SemSynl может использоваться для построения семантических аннотаций Веб-документов.

Пример. Пусть Т2 = ""Доставь ящик с деталями на склад № 3.". Тогда

Semrepr = (Команда(#Оператор#, #Исполнитель#, #Сейчас#, e1) л Цель (e1, доставка1*(Объект1, нек ящик * (Содерж1, нек множ * (Кач-состав,

деталь)) : х1)(Место2, нек склад * (Номер, 3) : х2))

Пример. Пусть Т3 = "Проходила ли в Азии международная научная конференция "COLING"?". Тогда Semrepr = Вопрос(х1, (х1=Ист-знач (Ситуация (е1, прохождение2* (Время, некмом * (Раньше ,#сейчас#) : t1)(Событие, нек конф* (Вид1, междун) (Вид2, научная) (Название, 'COLING') : х2) (Место, нек континент* (Название, 'Азия') :х3))))).

В выражении Semrepr цепочка Ист-знач интерпретируется как обозначение функции, аргументом которой является СП высказывания, а значением -логическая величина Истина или Ложь.

Пример. Пусть Т4 = "Какое издательство опубликовало роман «Ветры Африки»?". Тогда Semrepr = Вопрос(х1, Ситуация(е1, опубликование * (Время, нек мом * (Раньше, #сейчас#) : t1) (Агент2, нек издательство: х1) (ОбъектЗ, нек роман1* (Название, 'Ветры Африки') :х3))) .

Пример. Пусть Т5 = " С какими зарубежными издательствами сотрудничает писатель Игорь Сомов?". Тогда Semrepr = Вопрос (S1, (Кач-состав (S1, издательство * (Вид-географич, зарубежное)) л Описание (произв издательство* (Элем, S1) : у1, Ситуация(е1, сотрудничество * (Время, #сейчас#)(Агент1, нек чел* (Профессия, писатель)(Имя, 'Игорь')(Фамилия, 'Сомов'): х1)(Организация1,

у1))))) .

Пример. Пусть Т6 = "Кем выпускается препарат "Зиннат"?".

Тогда Semrepr = Вопрос (x1, Ситуация (el, выпуск1 * (Время, #сейчас#) (Агент1, х1)(Продукция1, нек препарат1 * (Название, 'Зиннат') : x2))) .

Пример. Пусть Т7 = "Откуда и для кого поступил трехтонный алюминиевый контейнер?". Тогда Semrepr = Вопрос ( (х1 л х2) , Ситуация (el, поступление2 * (Время, нек мом * (Раньше, #сейчас#) : tl) (Место1, xl) (Адресат, х2) (Объект1, нек контейнер * (Вес, <3, тонна>)) (Материал, алюминий) : х3) ) )) . Пример. Пусть Т8 = "Сколько раз Иван Михайлович Семёнов летал в Мексику?". Тогда Semrepr = Вопрос(х1, ((х1= Колич( S1)) л Кач-состав (S1, сит) л Описание(произв сит * (Элемент, Sl) : el, Ситуация (el, полёт * (Время, нек мом * (Раньше, #сейчас#) : t1)(Агент1, нек чел.*(Имя, Иван')(Отчество, 'Михайлович')(Фамилия, 'Семёнов'): х2)(Место2, нек страна* (Название, 'Мексика'):х3))))) .

Пример. Пусть Т9 = "Сколько английских университетов используют для дистанционного обучения Интернет-платформу Blackboard?". Тогда для некоторого лингвистической базы данных алгоритм SemSyn построит по вопросу Т9 его К-представление в виде цепочки

Semrepr = Вопрос (xl, ( (xl = Колич^1)) л Качеств-состав (S1, университет * (Регион, Англия)) л Описание(произв университет * (Элем, S1) : у1, Ситуация(е1, использование * (Время, #сейчас#) (Агент1, у1)(Процесс, обучение* (Вид, дистанцион))(Объект1, нек платформаЗ* (Название, 'Blackboard')))))).

Фрагментами цепочки Semrepr являются: (а) составное обозначение понятия университет * (Регион, Англия) , (б) семантическая характеристика произвольного элемента множества произв университет * (Элем, S1) : у1, (в) составное обозначение объекта нек платформаЗ* (Название, 'Blackboard'). Одно из правил построения выражений СК-языков позволило связать метку (переменную) у1 с характеристикой произвольного элемента искомого множества S1 , а затем использовать только эту метку для последующих ссылок на эту характеристику.

Таким образом, использование СК-языков для построения СП входных текстов ЛП позволило расширить возможности отображения особенностей смысловой структуры входных текстов по сравнению с другими известными подходами к построению СП. Разработанный алгоритм явно учитывает многозначность слов, что чрезвычайно важно для приложений.

4. Особенности и преимущества алгоритма

Разработанный алгоритм позволяет уменьшить сложность изложения логики функционирования семантико-синтаксических анализаторов ЕЯ-текстов. Для этого в [7, 8] предложена структура данных, названная матричным семантико-синтак-сическим представлением (МССП) входного текста, и предназначенная для представления промежуточных результатов семантико-синтаксического анализа текста. Являясь формальной структурой, МССП текста является значительно более удобной отправной точкой описания процесса построения СП текста по сравнению с самим текстом.

С этой же точки зрения важным достоинством алгоритм является то, что он не предусматривает использования синтаксического уровня представления. Предложенный подход направлен на непосредственный поиск смысловых отношений между участниками ситуаций, и эти смысловые отношения понятны специалистам из рассматриваемой конкретной области (при этом предметная область может меняться). Как следствие, разработанный подход не требует овладения обширной лингвистической терминологией, касающейся синтаксических отношений.

Для понимания алгоритма достаточно знакомства с базовыми математическими понятиями (множество, последовательность, цепочка, w-арное отношение, функция) и рядом понятий из курса русского языка по программе средней школы .Поэтому одно из преимуществ реализованного при создании алгоритма SemSyn нового подхода к разработке алгоритмов семантико-синтаксического анализа заключается в создании предпосылок для облегчения подготовки специалистов в области лингвистических информационных технологий.

5. Применение алгоритма к разработке лингвистического процессора интеллектуальной консультационной надстройки над справочными системами

Алгоритм SemSyn нашел применение в нескольких предметных областях. В частности, был успешно использован А.Д. Алексеевым [14] для разработки лингвистического процессора интеллектуальной консультационной надстройки

над справочными системами и сборниками технической документации. Центральная идея разработки интеллектуальной настройки (поисковой системы) заключается в преобразовании запроса в его семантическое представление (СП), являющееся выражением некоторого СК-языка, и сопоставлении СП запроса с СП фрагментов текстов из базы данных. В ходе исследования были разработаны и программно реализованы в среде Visual C++, в частности, следующие алгоритмы:

- алгоритм семантико-синтаксического анализа запросов относительно способов выполнения различных операций как модификация алгоритма SemSyn;

- алгоритм построения семантической разметки текстовых документов из электронных справочных систем;

- алгоритм поиска фрагментов текстовых документов из электронной справочной системы, релевантных естественно-языковому запросу пользователя относительно способов выполнения различных операций при работе с прикладной интеллектуальной системой.

6. Заключение

В 1990-е и первой половине 2000-х годов автором была разработана оригинальная система формальных средств и методов, предназначенных для проектирования естественно-языковых интерфейсов прикладных

интеллектуальных систем. В частности, была построена новая теория описания смысловой структуры (или содержания, смысла) текстов на естественном языке (ЕЯ), базирующаяся на определениии нового класса формальных языков - класса стандартных концептуальных языков (СК-языков), а также разработаны математическая модель лингвистической базы данных и структурированный алгоритм семантико-синтаксического анализа текстов из представляющих практический интерес подъязыков ЕЯ (в том числе подъязыков русского языка) -алгоритм SemSyn.

В данной работе была дана краткая характеристика 11 правил построения выражений СК-языков и проанализированы особенности использования аппарата СК-языков для формирования семантических представлений ЕЯ-текстов алгоритмом SemSyn. Кратко охарвктеризовано одно из применений этого алгоритма.

Список литературы

1. Fomichov V.A. A Mathematical Model for Describing Structured Items of

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Conceptual Level // Informatica. An International Journal of Computing and Informatics (Slovenia). Vol. 20. No. 1. 1996. P. 5-32.

2. Фомичев В.А. Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Ч. I. Модель системы первичных единиц концептуального уровня // Информационные технологии. 2002. № 10. С. 16-25.

3. Фомичев В.А. Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть II. Система правил для построения семантических представлений фраз и сложных связных текстов // Информационные технологии. 2002. № 11. С. 3445.

4. Fomichov, V.A. Theory of K-calculuses as a Powerful and Flexible Mathematical Framework for Building Ontologies and Designing Natural Language Processing Systems // Troels Andreasen, Amihai Motro, Henning Christiansen, Henrik Legind Larsen (Eds.), Flexible Query Answering Systems. 5th International Conference, FQAS 2002, Copenhagen, Denmark, October 27 - 29, 2002. Proceedings; LNAI 2522 (Lecture Notes in Artificial Intelligence, Vol. 2522), Springer: Berlin, Heidelberg, New York, Barcelona, Hong Kong, London, Milan, Paris, Tokyo. P. 183-196.

5. Фомичев В.А. Понятие текстообразующей системы как компонент нового формаль-ного аппарата для проектирования лингвистических процессоров // Информационные технологии. 2005. № 8. С. 22-27.

6. Fomichov V.A. The Method of Constructing the Linguistic Processor of the Animation System AVIAROBOT // Pohl, J. (ed.): Proceedings of the Focus Symposium on Collaborative Decision-Support Systems; InterSymp-2002, the 14th International Conference on Systems Research, Informatics and Cybernetics, July 29 - August 3, 2002, Germany. CAD Research Center, Cal Poly, San Luis Obispo, CA, USA, 2002. P. 91 - 102.

7. Фомичев В.А.. Новый метод преобразования естественно-языковых текстов в семантические представления // Информационные технологии. 2005. № 10. С. 25-35.

8. Фомичев В.А. Формализация проектирования лингвистических процессоров - М.: МАКС Пресс, 2005. 368 с.

9. Kamp H., Reyle U. A Calculus for First Order Discourse Representation Structures // Journal for Logic, Language and Information. Vol. 5. 1996. P. 297348.

10. Hwang, C.H., Schubert, L.K. Episodic Logic: a comprehensive, natural representation for language understanding // Minds and Machines. 1993. -P. 381419.

11. Schubert L.K., Hwang, C.H. Episodic Logic Meets Little Red Riding Hood: A Comprehensive, Natural Representation for Language Understanding // Iwanska, L., Shapiro, S.C (eds.): Natural Language Processing and Knowledge Representation: Language for Knowledge and Knowledge for Language. MIT/AAAI Press, Menlo Park, CA, and Cambridge, MA. 2000. P. 111-174.

12. Sowa J.F. Conceptual Graphs: Draft Proposed American National Standard // Tepfenhart, W., Cyre, W. (eds.): Conceptual Structures: Standards and Practices. Lecture Notes in AI, Vol.1640, Springer-Verlag, Berlin Heidelberg New York . 1999. P. 1-65.

13. Sowa J.F. Knowledge Representation: Logical, Philosophical, and Computational Foundations. Pacific Grove, CA: Brooks/Cole, 2000. 594 pp.

14. Алексеев А.Д. Реализация предварительной обработки текста в информационно-поисковой системе для повышения эффективности работы с технической документацией // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. — М.: МИЭМ. — 2004.

i Надоели баннеры? Вы всегда можете отключить рекламу.