Научная статья на тему 'Смысловые эталоны и передача знаний в задаче их оценки на основе тестов открытого типа'

Смысловые эталоны и передача знаний в задаче их оценки на основе тестов открытого типа Текст научной статьи по специальности «Математика»

CC BY
46
10
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Михайлов Д.В., Емельянов Г.М.

Статья посвящена проблеме передачи знаний, представляемых текстами на Естественном Языке (ЕЯ), между экспертами и обучаемыми в системе автоматизированного обучения и контроля знаний. Ставится задача минимизации потерь полезной информации при формировании базы знаний системы на основе текстового описания фактов предметной области теста. Предложено решение указанной задачи в рамках теории Анализа Формальных Понятий (АФП) на базе концепции Ситуации Языкового Употребления (СЯУ) как единицы формализованного описания семантики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Semantic etalons and knowledge transfer in the problem of their estimation based on the open type tests

The article is devoted to the problem of knowledge transfer between experts and learners in machine learning and knowledge control systems that store information in the form of Natural Language (NL) text units. The purpose of this study is to minimize losses of useful information when forming a knowledge-based system that works with a textual description of the subject area test facts. The solution of this problem is suggested within the framework of the theory of Formal Concept Analysis (FCA) based on the concepts of Situations of Language Use (SLU) as a unit of formal description of the semantics. In the article, in particular, coordination of knowledge generated by experts as well as search for the most efficient transfer method of information between the two groups of NL carriers (experts and trainees) are considered to be very important tasks. In accordance to the model proposed be the authors of this article, the use of SLU etalons as units of the thesaurus and concordance of the etalons allows to reduce the size of the text data. The authors describe a system that performs a search of the SE-form closest to a user response, which defines SLU of the correct answer. Next comes the analysis of the word discrepancies, searching consistencies among mismatched responses’ parts being compared as a part of correct answer’s etalon and evaluation according to found synonyms. For use of such assessments in evaluating the expert knowledge from different industries, it was necessary to reformulate the definition of SLU similarity using fuzzy logic. System analysis of the professional knowledge structure in a particular area is used for a description of the membership functions.

Текст научной работы на тему «Смысловые эталоны и передача знаний в задаче их оценки на основе тестов открытого типа»

удк 004.93

СМЫСЛОВЫЕ ЭТАЛОНЫ И ПЕРЕДАЧА ЗНАНИЙ В ЗАДАЧЕ ИХ ОЦЕНКИ НА ОСНОВЕ ТЕСТОВ ОТКРЫТОГО ТИПА

© Д. В. Михайлов, Г. М. Емельянов

Новгородский государственный университет имени Ярослава Мудрого e-mail: Dmitry.Mikhaylov@novsu.ru

Semantic etalons and knowledge transfer in the problem of their estimation based on the open type tests.

Mikhaylov, D. V. and Yemelyanov, G. M.

Abstract. The article is devoted to the problem of knowledge transfer between experts and learners in machine learning and knowledge control systems that store information in the form of Natural Language (NL) text units. The purpose of this study is to minimize losses of useful information when forming a knowledge-based system that works with a textual description of the subject area test facts. The solution of this problem is suggested within the framework of the theory of Formal Concept Analysis (FCA) based on the concepts of Situations of Language Use (SLU) as a unit of formal description of the semantics. In the article, in particular, coordination of knowledge generated by experts as well as search for the most efficient transfer method of information between the two groups of NL carriers (experts and trainees) are considered to be very important tasks. In accordance to the model proposed be the authors of this article, the use of SLU etalons as units of the thesaurus and concordance of the etalons allows to reduce the size of the text data. The authors describe a system that performs a search of the SE-form closest to a user response, which defines SLU of the correct answer. Next comes the analysis of the word discrepancies, searching consistencies among mismatched responses' parts being compared as a part of correct answer's etalon and evaluation according to found synonyms. For use of such assessments in evaluating the expert knowledge from different industries, it was necessary to reformulate the definition of SLU similarity using fuzzy logic. System analysis of the professional knowledge structure in a particular area is used for a description of the membership functions.

Введение и постановка задачи

На сегодняшний день интеллектуализация автоматизированного контроля знаний есть одна из приоритетных задач развития информационных технологий в образовании. Немаловажную роль при этом играют открытые тесты (тестовые задания открытой формы), которые предполагают ответ обучаемого в виде одного или нескольких предложений на естественном языке. При этом для интерпретации результатов теста открытой формы необходимо учитывать различные эквивалентные по смыслу формы описания одного и того же факта действительности разными экспертами на одном и том же ЕЯ. Ставится задача поиска наиболее рационального

плана передачи смысла между двумя группами носителей ЕЯ: эксперты и обучаемые, а также согласования знаний, формируемых экспертами. Сам же смысл в итоге должен быть отражён в максимально компактном объёме текстовых данных. Именно на основе этих данных оценивается близость ответа испытуемого правильному ответу, который формулируется экспертом. Настоящая работа посвящена решению указанной задачи на основе концепции смыслового эталона СЯУ, предложенной авторами.

1. Ситуация языкового употребления как единица знаний

Пусть Ts есть множество равных по смыслу (Семантически Эквивалентных [3], СЭ) ЕЯ-фраз, задающих различные формы описания некоторого факта предметной области теста и определяющих СЯУ. Представим СЯУ тройкой

K = (G, M, I) (1)

именуемой в теории АФП [1] формальным контекстом (ФК). Множество его объектов G составляют основы слов, синтаксически подчинённых другим словам из СЭ-фраз в составе Ts. Множество признаков M включает подмножества, обозначаемые далее посредством соответствующего нижнего индекса:

- указаний на основу синтаксически главного слова (индекс 1);

- указаний на флексию главного слова (индекс 2);

- связей «основа-флексия» для синтаксически главного слова (индекс 3);

- сочетаний флексий зависимого и главного слова (индекс 4);

- указаний на флексию зависимого слова (индекс 5),

При этом пара (A, B) есть Формальное Понятие (ФП, [1]) с объёмом A и содержанием B, если A С G, B С M и 3(A',B'): A = {m Е M | Vg Е A : g Im}, B = {g Е G | Vm Е B : g Im}, причём A = B' и B = A'. Отношение I С G x M формируется анализом буквенной структуры фраз Tsi Е Ts путём отбора тех из них, которые отвечают требованию компактного выражения смысла.

В задачах классификации гипотеза компактности есть предположение о том, что схожие объекты гораздо чаще лежат в одном классе, чем в различных [2]. Если представить смысл множества фраз {Tsi : Tsi Е Ts} как набор функций, которые связывают обозначаемые словами понятия, то каждая такая функция:

- определена на множестве буквенных цепочек, образующих основы слов фраз Tsi Е Ts;

- имеет множество значений, однозначно определяемое некоторым I' С I,

а требование компактности выражения смысла означает отбор фраз Tsi Е Ts минимальной длины с наибольшим числом слов, наиболее употребимых в различных фразах из Ts (с учётом синонимов). Именно такие фразы должны составить основу формирования модели (1) как единицы предметных знаний, представляемых текстами заданного ЕЯ. Относительно этих единиц в конечном итоге и оценивается близость ответа испытуемого правильному ответу.

2. Смысловой эталон и его формирование

Рассмотрим Tsi Е Ts с точки зрения составляющих её символов. У каждой Tsi выделяется неизменная часть, общая для всех Tsi Е Ts, и флективная часть. Обозначим далее множество индексов для неизменных частей (основ) слов фраз из Ts как J. Последовательность таких индексов для некоторой Tsi Е Ts назовём Моделью её Линейной Структуры (МЛС), Ls(Tsi).

Пусть LS — множество моделей линейных структур фраз из Ts на J.

Лемма 1. Пара индексов {ji, } С J соответствует словам-синонимам, если 3{Ls(Tsi), Ls(Ts2)} С LS : Ls(Ts1) = J1 • {j} • J2 и Ls(Ts2) = J1 • {j2} • J2, где J1 С J, J2 С J, а "• " — операция типа конкатенации над множеством J.

Пусть PJ — множество пар, отвечающих условию Леммы 1. Заменим индексы, вошедшие в пары из P J, на некоторые j Е (N \ J) во всех моделях из LS. Обозначим далее преобразованное множество LS как LS'.

Утверждение 1. Пусть {J1, J2} — пара последовательностей индексов в Ls(Tsi), где J1 = {j1,...,j2}, J2 = {ji,...,j2}, а каждой из пар (j,^) и (j 2, j2) отвечает, синтаксическая связь. Тогда смысловой эталон СЯУ определяют те Tsi Е Ts, в моделях линейных структур которых

(J1 С J2) V (J2 С J1) V (| J1 П J2I = 1) v (J1 п J2 = 0) = true, (2)

а сумма длин всех последовательностей указанного вида для всех синтаксических связей на Tsi должна быть минимальной.

Утверждение 2. Пусть /req(wj) — частота появления слова wj (независимо от, его формы) во всех Tsi Е Ts. При этом основу эталона будут составлять фразы с максимумом слов, вошедших в особый кластер C/ust:

- слово с максимальным значением этой частоты войдёт в C/ust;

- для V{wj ,wk} С C/ust и Vwi Е C/ust верно то, что

(|freq(wj) - /req(wfc)| < |/req(wj) - /req(wi)|)A

A(|/req(wj) - /req(wfc)| < |/req(wfc) - /req(wz)|) = true.

Замечание. При формировании множества Clust учитываются возможные синонимы анализируемых слов (согласно Лемме 1), поэтому для любого wj значение freq(wj) оценивают относительно множества LS'.

Пусть Jcl С J — множество индексов слов, вошедших в Clust. Рассмотрим множество

LC = У LSi : LSi С LS, 3Tsi} Tsj Е Ts :

i

Ls(Tsi) Е LSi, iLs(Tsi) П Jcil ^ max,

((Ls(Tsj) Е LSi) Л (Tsj = Tsi) ^ iLs(Tsi) П Jci| С Ls(Tsj).

Как следует из Утверждения 2, смысловой эталон определяют те фразы, модели линейных структур которых принадлежат LC.

Пусть frq((j, k), LS) есть частота появления пары (j, k) в моделях из множества LS с учётом того, что (j,k) ■ (k,j). Для построения признакового множества формального контекста вида (1) эталона СЯУ требуется найти индексные пары, отвечающие условию (2), и каждой паре нужно задать направление соответствующей синтаксической связи.

Алгоритм 1. Формирование связей для эталона СЯУ. Вход: LS;

Выход: RJ = {((j, k), Dir) : Dir Е ^}}; Начало

1. Rj := 0;

2. сформировать LC на основе LS;

3. для всех Ls(Tsj) Е LC

4. Pi := {(j, k) : j,k Е Ls(Ts,)}j = k};

5. P := *iPi с учётом (j, k) ■ (k,j);

6. P' := {(j,k) Е P : frq((j,k),LC) > 1};

7. для всех (j, k) Е P'

8. если найдено Dir(j,k) то

9. Rj := Rj U {(j, k), Dir};

Конец {Алгоритм 1}.

Для каждой пары (j,k), выделенной на Шаге 6 Алгоритма 1, поиск Dir(j,k) идёт в три этапа. На первом проверяется, является ли связь, соответствующая паре, ложной.

Определение 1. Пусть {],к,1} С 3, а 8Ь(]), 8Ь(к) и 8Ь(1) есть основы слов, отвечающие индексам ], к и I. Связь, ассоциируемая с парой (], к), идентифицируется как ложная относительно рассматриваемой СЯУ при одновременном выполнении двух условий:

1. ЭТвг Е Тв : ], к, I Е Ьв(Твг).

2. В рассматриваемой предметной области существует СЯУ, где связь между 8Ь(]) и 8Ь(к) идентифицирована как ложная, но существует связь либо между 8Ь(]) и 8Ь(1), либо между 8Ь(к) и 8Ь(1).

Замечание. Начальные знания системы об истинных и ложных связях формируются в режиме интервью с экспертом. При этом совокупным знаниям по отдельной СЯУ соответствует булев вектор

(dl,... , dk+l,... , dn),

где компоненты d1,... ,dk отождествляются с истинными, а (¡с+1,... ,(1п — с ложными связями.

Пару (], к), доказать ассоциацию с ложной связью для которой не удалось, проверяют на возможность отождествления с ранее выделенными связями.

Пусть /ш(]) € Твг : /ш(]) = 8Ь(]) • П(]), где символьная цепочка П(]) представляет флективную часть слова т]), а символом "•" обозначается операция конкатенации. Аналогично пусть т(к) Е Твг и при этом т(к) = 8Ь(к) • П(к). Обозначим множество ранее выделенных связей как Ьик. Каждый элемент в Ьик представляется четвёркой

(Н,8г1,8Ь,РСт),

где Ы — идентификационный номер СЯУ; 8Ь1 — основа главного, 8Ь2 — зависимого слова; ЬСт — список пар вида «флексия главного слова — флексия зависимого».

Считается, что паре (],к) соответствует связь ((],к), в рамках заданной СЯУ, если для некоторой СЯУ с идентификационным номером Ы существует (Ы, 8г1,8г2, ЬСт) Е Ьик : БЬ]) = 8гъ 8Ь(к) = 8^, а (П(3),Ь1(к)) Е ЕСт.

В случае, когда 8Ь(]) = 8Ь2, 8Ь(к) = 8Ь1, а список ЬСт содержит пару (П(к), П(])), паре (], к) будет отвечать связь ((], к),

Как и на этапе формирования начальных знаний, пару (],к), для которой не нашлось ассоциации ни с одной из ранее выделенных связей (ложных или истинных), проверяют на наличие связи, опрашивая эксперта.

На основе найденного множества RJ далее идёт отбор фраз Твг Е Те для построения множества признаков формального контекста (1) эталона СЯУ.

Первым шагом из состава каждого С ¿С исключаются те МЛС, которые включают индексы, не вошедшие ни в одну из связей в составе ^. Введём обозначение ¿С* для преобразованного таким образом множества ¿С, аналогично ¿С* —

Совокупность фраз Тз Е Тз отвечающих условию (3), обозначим как Тз*.

Заключительный шаг формирования ФК вида (1) эталона СЯУ состоит в построении признакового множества М и объектно-признаковых связей в рамках отношения I С О х М на основе найденных ^ и Тз*.

В целях более точного выделения объектов и признаков эталона введём процедуру согласования знаний относительно разных СЯУ заданной предметной области. Пусть модель (1) есть единица тезауруса, представляемого тройкой

где ак состоит из символьных пометок отдельных СЯУ, М£к включает признаки ФК вида (1) каждой Е Gtk. Кроме того, в составе М£к выделяются:

- множество указаний на объекты формальных контекстов вида (1), генерируемых для отдельных Е (обозначим далее это множество как М6);

- множество сочетаний основы и флексии для зависимого слова (М7);

- множество сочетаний основ зависимого и главного слова (М8).

Модель (4) позволяет определить процедуру согласования единиц знаний с по-мощью следующего правила.

Правило 1. Пусть есть основа, — флексия слова т, найденные относительно СЯУ . Предположим, что т = • для СЯУ Бх, т = • для СЯУ Б2, причём 51 = 52 • зи/, где зи/ содержит минимум один символ. Тогда относительно 51 основа может быть заменена основой БЬ2, а флексия — флексией = зи/ • П2 только в том случае, если встречаемость флексий и П2 в отношениях из Ик С х М£к не уменьшается при выполнении указанных замен.

Качественно процесс формирования эталонов СЯУ характеризуется динамикой изменения показателей сжатия информации в тезаурусе, представляемом решёткой для ФК (4) — множеством всех его ФП вместе с отношением порядка. Наиболее естественными показателями такого рода здесь могут быть коэффициенты сжатия по основам и флексиям, аналогичные введённым в [4].

для V с ¿С.

По каждому С ¿С* отбирается Тз:

¿з(Тз) Е ¿5*, |Тз| ^ шт.

(3)

Kth = (Gth, Mth, Ith),

(4)

Коэффициент сжатия по основам относительно модели (4) определяется как

nbsth

ksth

ksth = i 1

nbsth '

где согласно обозначениям для подмножеств множества признаков ФК (1)

nmfih ndmki

nbsth = |Mth1|; ksth = k=1 -; nm/th = |Mth2|;

nosthi

n/msjk = |{mth G Mth3 : /th(gthj, mth^ = true,gth G Gth,

3mb/ G Mth2 : mb/ = pf • /¿, mthi = bi • ":" • /¿,

Ith(gthj ,mbf) = true,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3mbs G Mth1 : mbs = • bi, /th(gthj, mbs) = true, 3mthk G M6 : mthk = • , /th(gthj, mthk) = true, 3mth G M8 : mth = • bi, /th(gthj, mth) = true}|; ndmki = |{gthj G Gth : /th(gthj, mth) = true, mth G M8, mth = • bi}|;

nm/th = |Mth2|;

Pf, и рь соответствуют символьным константам «главное-флексия:»,

«главное-основа:» и «основа:», соответственно.

По аналогии с коэффициентом (5) коэффициент сжатия информации по флексиям относительно формального контекста (4) равен

nbsth

ksth

ksth = i=\ 7 , (6)

nosth

где согласно ранее принятым обозначениям

n/sth = |Mth5|; k/thi =

nfsthi nmfth

^T ^T na/thijfc

j=i fc=i_;

n/sth

nfsthi = \{gth G Gth : Ith(gth,mth) = true, mth G Mth5, mth = pfl • f} \; nafthijk = \ {mth G Mth4 : Ith(gthj,mth) = true, 3mbf G Mth2 : mbf = Pbf • fk, mth = f • ":" fk}\; Pfi есть обозначение символьной константы «флексия:».

Графики на рис. 1 иллюстрируют динамику изменения значений оценок (5) и (6) при последовательном добавлении в тезаурус СЯУ из табл. 1 (без выполнения процедуры согласования знаний согласно Правилу 1).

Рис. 1. Сжатие информации относительно формального контекста тезауруса.

Для сравнения в табл. 2 приводятся значения числа СЭ-фраз, задающих СЯУ (Ni), ЕЯ-фраз, определяющих эталон (N2), исходного числа объектов (N3) и признаков СЯУ (N4), числа объектов (N5) и признаков эталона (N6).

Диаграмма на рис. 2 иллюстрирует дополнительный рост специфичности формальных понятий в решётке тезауруса при выполнении процедуры согласования знаний в соответствии с Правилом 1 для СЯУ из табл. 1. Индикатором роста специфичности формальных понятий является постепенное уменьшение значений коэффициентов (5) и (6) при добавлении новых СЯУ в тезаурус. При этом специфичность

i Фраза максимальной длины из определяющих СЯУ

1 Нежелательное переобучение является причиной заниженности сред-ней величины ошибки алгоритма на обучающей выборке.

2 Тренировочная выборка, на ней проявляется эффект заниженных значений средней ошибки, причиной же является переусложненная модель.

3 Контрольная выборка, принятие деревом решения на ней будет с большей вероятностью ошибки именно по причине переподгонки.

4 Оценка частоты ошибок на выборке, взятой в качестве контрольной, может для алгоритма оказаться заниженной по причине переподгонки.

5 Заниженность оценки ошибки распознавания зависит от выбора правила принятия решений.

6 Число закономерностей алгоритмической композиции влияет на частоту ошибок логического классификационного алгоритма на контрольной выборке.

Таблица 1. Ситуации языкового употребления.

i 1 2 3 4 5 6

N1 56 28 29 30 6 10

N2 8 9 7 9 1 2

N3 18 17 15 13 12 14

N4 177 186 173 162 94 81

N5 9 12 12 11 8 12

N6 82 90 80 69 35 53

Таблица 2. Эталоны для СЯУ из табл. 1.

формального понятия численно оценивается кратчайшим расстоянием от вершинного ФП в решётке до рассматриваемого ФП.

Применение эталона СЯУ в качестве единицы тезауруса, задаваемого моделью (4), позволяет сократить его размер не менее чем на 40-50%. Согласование эталонов как единиц знаний по Правилу 1 даёт дополнительное сокращение размеров такого тезауруса в среднем на 1,5%.

Оценка схожести СЯУ в системе контроля знаний

Предложенный метод выделения эталона на СЯУ реализован в рамках демо-версии системы контроля знаний, представленной (вместе с исходными текстами на Visual Prolog 5.2) в подразделе «Участник:Бт^гу.МлкЬау1оу» раздела «Страницы

Рис. 2. Сжатие информации тезауруса (эталоны выделены).

участников» ресурса [2]. При этом согласование знаний, формируемых разными экспертами по одной и той же предметной области, может быть наглядно проиллюстрировано вычислением оценок близости ответа испытуемого правильному ответу. Суть данных оценок была рассмотрена нами в [7].

Пусть СЯУ Si соответствует правильному ответу, который формулируется экспертом, а СЯУ S2 — ответу испытуемого. Введём обозначения формальных контекстов вида (1): для S1 — Ke, а для S2 — Kx, где Ke = (Ge, Me, Ie) и Kx = (Gx, Mx, Ix), Ie С Ge x Me и Ix С Gx x Mx, соответственно. Результат объединения M6, M7, Mg, Me4, Mx4, Me5 и Mx5 обозначим как Mu (здесь используются принятые нами ранее обозначения подмножеств в составе признаковых множеств формальных контекстов (1) и (4)).

Определение 2. Будем считать, что Si и S2 связаны отношением близости, если каждому объекту gx G Gx соответствует такой объект ge G Ge, что выполняется одно из следующих условий:

1. gx = ge и любой признак me G Me объекта ge относится и к gx.

2. gx = ge, при этом условие (1) не выполняется, но существует gth G Gth, обладающий признаком mth1 G M6 : mth1 = рь • ge при обязательном выполнении следующих условий:

(3me/ G Me5 : me/ = p/ • fe) ^ (3mth17 G M7 : mth17 = ge • ":" • fe), при этом (Ie(ge,me/l) Л Ix(ge,me/l)) ^ /th(gth, mth17);

(3mebs G Me1 : mebs = pbs • be) ^ (3mth18 G M8 : mth18 = ge • ":" • be), при этом Ie(ge,mebs) ^ /th(gth, mth18);

(3mxbs G Mx1 : mxbs = pbs • bx) ^ (3mth28 G M8 : mth28 = ge^" :" •bx), при этом Ix(ge,mxbs) ^ /th(gth, mth28);

Кроме того, для Vmth G (Mth \ M^) истинно:

/th(gih,mth) ^ (Ie(ge,mih) Л Ix(ge,mih)). (7)

3. gx = ge, но существует объект gth G Gth, обладающий признаками mth1 G M6 : mth1 = pb • ge и mth2 G M6 : mth2 = pb • gx, при этом для любого признака mth G (Mth \ M^) справедливо:

/th(gih,mth) ^ (Ie(ge,mih) Л Ix(ge,mih)). (8)

4. gx = ge, но существует объект gth1 G Gth, обладающий признаком mth1 G M6 : mth1 = pb • ge, а для Vme G (Me4 U Me5) верно:

(/th(gih1, mth1) Л Ie(ge, me)) ^ /th(gih1, me).

При этом существуют признаки mth2 G M6 : mth2 = pb • gxg и mx G (Mx1 U Mx2 U Mx3), для которых верно:

(/th(gih1 ,mth2) Л Ix(gx,mx)) ^ /th(gih1, mx),

где gxg = gx, а пара (gxg,ge) отвечает условию (3) при генерации ФК вида (1) для объекта gth1. В то же время существует объект gth2 G Gth относительно

которого пара (gx,gxg) также будет отвечать условию (3) настоящего определения. Генерируемый при этом формальный контекст вида (1) для обозначим как Kxg, Kxg = (Gxg, Mxg, Ixg).

Близость ситуаций и Б2 численно оценивается как

£

spck

spc(Si,S2) = —-, (9)

n

где n = |Gx|, а spck есть значение близости объектов в паре (gxk,ge). В зависимости от выполнимости условий Определения 2 значение spck либо равно 1,0, если для (gxk, ge) выполнено условие (1), либо вычисляется по формуле:

( \ _lBLCS I_ (10)

°g2V patha) Х |B1 \ BLCS| + |B2 \ BLCS| + IBLCS| ' ( )

если для пары (gxk,ge) выполнено условие (2), (3) либо (4).

Во втором случае имеем гипотетическую решётку ФП (обозначим её как Kxe), в которой объемы объектных ФП (формальных понятий с одним объектом в составе объема) есть {gxk} и {ge} (при выполнении условия (2) или (3)) либо {gxk}, {ge} и {gxg} (при выполнении условия (4)). Значение Dc равно числу сравнимых формальных понятий, составляющих цепочку с вершинным ФП решётки ^Rxe в качестве максимального ФП и наименьшим общим суперпонятием (НОСП) для объектных формальных понятий решётки ^Rxe — в качестве минимального ФП. Множество BLCS есть содержание (множество признаков всех объектов) этого НОСП, а число patha равно минимальному числу ФП в цепочке, которой принадлежит вершинное ФП, наименьшее ФП решётки Rxe и формальное понятие с содержанием BLCS.

В случае выполнения любого из условий (2), (3) или (4) значение Dc = 2 (доказательство очевидно).

При выполнении условия (2) либо (3) patha = 4, а в BLCS войдут признаки mth Е (Mth \ Mu), для каждого из которых справедливо либо соотношение (7) (при выполнении условия (2)), либо соотношение (8) (при выполнении условия (3)). Множества Bi и B2 в этом случае определяются следующим образом:

Bi = {me : me Е (Mei U Me2 U Me3), Ie(ge,me) = true},

B2 = {mx : mx Е (Mxi U Mx2 U Mx3), Ix(gx,mx) = true}.

Доказательство выполнимости условия (4) обычно происходит в несколько итераций. При этом в ходе каждой последующей итерации число признаков, не являющихся общими для gxk и gxg, всегда меньше, чем в предыдущей. На-чальное значение

pathc, равное 4, в ходе каждой итерации возрастает на 1, а

B = {mxg : mxg G (Mxgi U Mxg2 U Mxg3), = true},

B2 = {mx : mx G (Mxg1 U Mxg2 U Mxg3), 7xg(gxk,mx) = true},

где (Mxgi U Mxg2 U Mxg3) С Mxg в соответствии с показанным выше разделением множества признаков ФК вида (1), а BLCS = B1 П B2.

В реализованной системе (рис. 3) для ответа испытуемого производится поиск наиболее близкой (по буквенному составу) из всех СЭ-форм, определяющих СЯУ правильного ответа. Далее идёт анализ словесных несовпадений, поиск соответствий для несовпадающих частей сравниваемых предложений уже в составе эталона правильного ответа и вычисление оценок (10) с учётом найденных синонимов. Указанные оценки вычисляются для случаев неполного ответа, орфографических ошибок, а также лишних слов, не фигурирующих в лексико-синтаксических связях из представленных в базе знаний системы.

Случай 1. Неполный ответ — для всех слов и словосочетаний из ответа испытуемого нашлись прообразы в наиболее близком «правильном» варианте, но для части слов правильного ответа не нашлось прообразов в ответе испытуемого. Ненулевое значение оценки (10) будет только для тех упущенных слов, которые в «правильном» варианте являются синтаксически зависимыми по отношению к некоторым другим словам из анализируемого ответа. Здесь имеет место обобщение оценки (10) на случай, когда для одного из сравниваемых объектов не определены признаки из множеств Mx5, Mx4, M6, M7, M8. Таким объектом является основа слова, упущенного в ответе испытуемого. Значение оценки (10) для упущенного слова равно

, ( 2\ 3

-logЛ 1 - - X т-ч-;-ч-~ 0.23.

&2\ 4) (8 - 3) + (8 - 3) + 3

Случай 2. Орфографические ошибки (из допустимых) — слово из ответа испытуемого и слово из варианта правильного ответа есть различные формы одного и того же слова, допустимыми в рамках одной лексико-синтаксической связи (не обязательно в рамках рассматриваемой СЯУ). В этом случае оценка (10) для анализируемой пары слов вычисляется аналогично общему случаю.

Случай 3. «Лишние» слова — ситуация, когда все слова из наиболее близкого «правильного» варианта нашли прообраз в ответе испытуемого, но в анализируемом ответе есть слова, которые не нашли прообразов в «правильном» (в том числе и на уровне словосочетаний). В этом случае ответ испытуемого не будет засчитан как неверный только тогда, когда «лишние» слова не фигурируют в базе знаний системы ни в одной лексико-синтаксической связи. При этом значение оценки (10) для каждого «лишнего» слова принимается равным нулю.

Рис. 3. Интерфейс системы и пример интерпретации ответа.

|М Гг|--1Г*..-п IH.ii* 1 н ГГ 1

Г*ч> Пвндеь^вдин ш

'С1В1Н1 *ГЕЗ 21

«ЕЙ N -Ю1 Ы

Нслытучнчле И...П||Г.» | 1Ъцн м.м. Лч« Е.А. Ымма л.м. ц

Выпри. 1 0.В57 1 100 й.1 1.ППй МЕТ

Пппрст." ? 1-ОМ иш Р.&И П.ТЬ 0.5^5

1|Ц|[ 3 НЕ 1 ии 1 п.ПН ые

Вйпрм 4 1ЛЗ П.Г17 1_п.5пь_|_

И.-нрсг йм? м.мйи

11 1

Ш_

=-1

Рис. 4. Результаты из примера на рис. 3 после согласования знаний по разным СЯУ.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Применение Правила 1 к ситуациям языкового употребления, нашедшим отражение в тезаурусе, последовательно иллюстрируют рис. 3 и 4. Каждая из уточнённых оценок на рис. 4 обведена прямоугольником. Незначительное снижение оценок близости правильному ответу на Вопрос 4 у испытуемых .Зайцева Е. А. и Волкова А. В. обусловлено заменой выделенных ранее нулевых флексий у ряда слов, представленных в тезаурусе.

ЗАКЛЮЧЕНИЕ

Сокращая размер базы знаний для оценки семантической схожести текстов предметно-ограниченного ЕЯ минимум на 40-50%, разработанный метод формирования эталона СЯУ позволяет найти необходимый и достаточный объём текстовых данных для передачи знаний между учителем и учеником. При этом предложенная концепция СЯУ составляет основу решения задач поиска систем зависимостей совместной встречаемости осмысленных фрагментов слов в кон-тексте связного текста. Сказанное, в частности, немаловажно для сокращения перебора при построении

смыслового контекста в мультиагентном подходе [6]. В данной работе все виды связей между главным и зависимым словом предпо-лагались одинаково значимыми для оценки схожести фраз. Для применения та-ких оценок в задачах оценки профессиональных знаний по отраслям [5] опреде-ление схожести СЯУ необходимо переформулировать с позиций нечёткой логи-ки. При этом для описания функций принадлежности необходим системный ана-лиз структуры профессиональных знаний в конкретной области. Работа выполнена при поддержке РФФИ (проект №13-01-00055).

Список ЛИТЕРАТУРЫ

1. Ganter, B. and Wille, R. (1999). Formal concept analysis. Berlin: Springer.

2. MachineLearning.ru. (2014). Available at http://www.machinelearning.ru

3. MikhailovD. V. and Emelyanov G. M. (2009). Forming and clustering of syntactic relations on the bases of Natural Language's using's situations. Interactive systems and technologies: the problems of human-computer interaction. Collection of scientific papers. Ulyanovks, ULSTU. Vol. III, pp. 295-307.

4. Емельянов Г. М., Михайлов Д. В. Анализ формальных понятий и сжатие текстовой информации в задаче автоматизированного контроля знаний // Всерос. конф. ММРО-15. — М.: Макс Пресс, 2011. — С. 581-584.

Yemelyanov, G. M. and Mikhaylov, D. V. (2011). Formal Concept Analysis and compression of text information on the problem of automated control of knowledge. MMR0-2015 Conference. Moscow, Max Press, pp. 581-584.

5. Краснов А. Н., Мошков И.С., Якимов В.Н. Компьютерная система анализа текста таксономического типа применительно к оценке профессиональных знаний [Текст] // Междунар. науч.-практ. конф. «Инновация-2011». — Ташкент: Ташкентский гос. техн. ун-т, 2011. — С. 287-289. Krasnov, A., Moshkov, I. and Yakimov, V. (2015). Taxonomic type text analysis computer system for the estimation of professional knowledge. International Conference «Innovation-2011». Tashkent, TSTU, pp. 287-289.

6. Минаков И. А. Интеграция профессиональных знаний, представленных в виде текстов на естественном языке // Вестник СамГТУ, серия «Технические науки», 2007. — № 1 (19). — С. 28-35. Minakov, I. (2007). Integration of professional knowledge which presented by the natural language texts. Herald of SamSTU, «Technical Sciences» Series, No. 1, pp. 28-35.

7. Михайлов Д. В., Емельянов Г. М. Семантическая схожесть текстов в задаче автоматизированного контроля знаний // Межд. конф. И0И-2010. — М.: Макс Пресс, 2010. — С. 516-519. Mikhaylov, D. and Yemelyanov, G. (2010). The semantic similarity of texts in the problem of automated control of knowledge. International Conference I0I-2010, pp. 516-519.

Статья поступила в редакцию 05.12.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.