Научная статья на тему 'Формирование смысловых эталонов и интерпретация результатов открытых тестов в системах контроля знаний'

Формирование смысловых эталонов и интерпретация результатов открытых тестов в системах контроля знаний Текст научной статьи по специальности «Математика»

CC BY
111
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕСТОВОЕ ЗАДАНИЕ / ИНТЕРПРЕТАЦИЯ ОТВЕТА / СМЫСЛОВОЙ ЭТАЛОН СИТУАЦИИ ЯЗЫКОВОГО УПОТРЕБЛЕНИЯ / TEST TASK / THE ANSWER INTERPRETATION / SEMANTIC STANDARD OF LINGUISTIC PERFORMANCE

Аннотация научной статьи по математике, автор научной работы — Михайлов Д. В.

Предложен подход к интерпретации ответа на тестовое задание открытой формы в системе контроля знаний. Вводится понятие смыслового эталона ситуации языкового употребления и описывается метод его построения на основе совокупности предметных и языковых знаний по заданной предметной области.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Михайлов Д. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Формирование смысловых эталонов и интерпретация результатов открытых тестов в системах контроля знаний»

УДК 004.93

ФОРМИРОВАНИЕ СМЫСЛОВЫХ ЭТАЛОНОВ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ОТКРЫТЫХ ТЕСТОВ В СИСТЕМАХ КОНТРОЛЯ ЗНАНИЙ

Д.В.Михайлов

Институт электронных и информационных систем НовГУ, Dmitry.Mikhaylov@novsu.ru

Предложен подход к интерпретации ответа на тестовое задание открытой формы в системе контроля знаний. Вводится понятие смыслового эталона ситуации языкового употребления и описывается метод его построения на основе совокупности предметных и языковых знаний по заданной предметной области.

Ключевые слова: тестовое задание, интерпретация ответа, смысловой эталон ситуации языкового употребления

The approach to interpretation of the open form test task in the system of computer-aided testing of knowledge is offered. The definition and the method of automatic construction of semantic standard of linguistic performance on the whole set of subject-oriented and linguistic knowledge is introduced.

Keywords: test task, the answer interpretation, semantic standard of linguistic performance

Тестовое задание открытой формы в системе автоматизированного контроля знаний [1] предполагает ответ обучаемого в виде одного или нескольких предложений естественного языка (ЕЯ). В общем случае разработчик теста должен описать свой вариант правильного ответа на тестовый вопрос совокупностью семантически эквивалентных (СЭ) ЕЯ-высказываний, определяющих ситуацию языкового употребления (СЯУ), на основе собственных знаний по заданной предметной области.

Традиционно интерпретация ответа обучаемого (тестируемого) здесь заключается в простом поиске среди правильных вариантов [2]. Как было показано в [3], оценка смысловой близости ответа тестируемого заданному «правильному» ответу предполагает привлечение тезауруса, формируемого на основе множеств вариантов правильных ответов по совокупности тестов заданной тематики. При использовании СЯУ в качестве информационной единицы тезауруса отдельные ЕЯ-фразы в ее основе должны максималь-

но точно описывать соответствующий факт действительности. Ставится задача разделения знаний о сходных языковых формах описания различных ситуаций действительности, с одной стороны, и о внешне различающихся формах наиболее «компактного» описания каждой из ситуаций для представления в тезаурусе, с другой стороны.

Представим единицу знаний, соответствующую одной СЯУ, посредством тройки

К = (О, М, I), (1)

именуемой формальным контекстом (ФК) [4]. Здесь множество объектов G составляют основы слов, синтаксически подчиненных другим словам из СЭ фраз, задающих СЯУ. Отношение I с G х М ставит в соответствие объектам их признаки из множества М. Само множество признаков М включает подмножества:

— указаний на основу синтаксически главного

слова;

— указаний на флексию главного слова;

— связей «основа-флексия» для синтаксически главного слова;

— сочетаний флексий зависимого и главного слова. При этом после флексии главного слова через двоеточие указывается предлог (если такой имеется) для связи главного слова с зависимым;

— указаний на флексию зависимого слова.

Предположим, что указанный ФК формируется

на основе СЭ высказываний, каждое из которых состоит из максимально проективных фраз, суммарная длина синтаксических связей внутри каждой из которых меньше либо равна длине фразы. В этом случае будем считать модель (1) формальной моделью смыслового эталона СЯУ. Основой механизма построения ФК эталона может послужить подход к выделению и классификации синтагматических зависимостей, предложенный в [5].

Замечание. Для дальнейших рассуждений положим, что в множестве СЭ высказываний каждая ЕЯ-фраза в составе любого высказывания имеет прообраз в виде фразы, эквивалентной ей по смыслу, в составе каждого из рассматриваемых высказываний (в противном случае условие семантической эквивалентности для ЕЯ-высказываний из определяющих СЯУ не выполняется). Сказанное позволяет ограничить здесь рассмотрение семантической эквивалентности случаем, когда каждое высказывание состоит из одной фразы, а вместо термина «ЕЯ-высказывание» употреблять далее термин «ЕЯ-фраза».

Преобразуем модель (1) к следующему виду:

£ = (Т, к ), (2)

где множество Т получается из исходного множества СЭ фраз заменой каждого слова парой (Д, fi), в которой Ъ. соответствует основе слова, /. — флексии этого слова.

Заметим, что среди исходных СЭ фраз имеются как фразы, определяющие смысловой эталон СЯУ, так и не являющиеся таковыми. Для связи последних с эталоном поставим в соответствие некоторую переменную х. каждой основе Ъ., для которой существу-

ет либо признак теМ: т = ры • bi, либо объект g еО : g = Ъ.. Здесь ры соответствует символьной константе «главное-основа:», а символом «• » обозначается операция конкатенации. При этом на базе модели (2) строится шаблон СЯУ (верхний индекс Р от англ. раПет — шаблон):

5Р = (ыР ,ТР, КР) (3)

в котором все обозначения основ в составе имен объектов и признаков формального контекста эталона конкретной СЯУ заменяются переменными, и задается список конкретизирующих четверок вида

{ыР ,Ы3, хг ,Ъг) (4)

где М5 — идентификационный номер СЯУ; Мр — номер ее шаблона.

В значительном числе случаев тестирования интерпретация ответа обучаемого состоит в попытке применить шаблон (3) «правильного» ответа, сформулированного разработчиком теста. При этом не требуется производить разбор ответа с привлечением внешних программ синтаксического анализа, поскольку достаточно «наложить» анализируемую фразу на один из шаблонов в составе множества ТР с формированием пар «переменная-основа», которые сопоставляются со структурами вида (4) для «правильного» ответа. Сама интерпретация ответа проис-

Р

ходит за линейное время, пропорциональное Т .

Рассмотрим случай отсутствия нужного шаблона (3) для интерпретации ЕЯ-фразы и анализ возможности найти приближенное решение в виде смыслового эталона путем компиляции формальных контекстов шаблонов нескольких СЯУ.

Пусть имеется множество шаблонов вида (3), построенных по результатам выделения эталонов для ситуаций языкового употребления относительно некоторой фиксированной предметной области (содержательно — той области, по которой проводится тестирование знаний). На основе каждого такого шаблона выделяется набор синтаксических отношений. Множество всех синтаксических отношений, выделенных по шаблонам СЯУ, далее обозначим как Rр. Отдельное отношение Яр е ЯР представляется шестеркой

яр = (ыр,ТРЯ,FM,FlD,V*,Мр-я ) (5)

где МР — идентификационный номер отношения

Г,Р гтРЯ

Яг ; Т1 — последовательность пар «основа-

флексия» для сочетания слов, реализующего отношение ЯР (в направлении от главного слова к зависимому) в рамках шаблона эталона, при этом ТРК с ТР ,

ТР еТР в заданном шаблоне вида (3); FM и FiD —

множества возможных вариантов флексии главного и

зависимого слова соответственно применительно к

пР ТР ТР тгя

отношению Яi■ , но уже для всех 1^ еТ ; —

переменная для обозначения основы зависимого сло-

г>Р л гРЯ

ва в составе отношения Я. ; М. — список имен

иР

признаков, которые описывают отношение Я. в

р

рамках ФК К шаблона эталона в соответствующей структуре вида (3).

Положим также, что на основе сформированного набора ЯР строятся описания возможного присутствия в анализируемой фразе пар синтаксических отношений, связывающих нераспознанное предикатное слово со словами, непосредственно ему подчиненными. Для отдельного нераспознанного слова-предиката такие связи будем представлять четверкой

яр =(мр, «Я, мЯ ,Ткр) (6)

где Мр — номер шаблона СЯУ; и М* — но-

~ лрР

мера первого и второго отношений; Tk — последовательность пар «основа-флексия» из некоторой

луР лу-Р

Т. еТ , при этом крайние члены последовательно-

фРЯ ^РЯ

сти соответствуют зависимым словам в Тх и Т2 и

гтР гтР грР ^гтР гр РЯ грРЯ

существует Т - еТ , Т. ФТ - , такая, что Т1 и Т2

являются подпоследовательностями в Тр, имея общее главное слово.

р

Правило 1. Обозначим Я — множество четверок (6), выделенных по шаблонам для совокупности СЯУ, а WK — последовательность слов интерпретируемой фразы. Тогда при наличии множеств

ЯР и ЯР относительно заданного множества шаблонов (3) построение ФК (1) для смыслового эталона анализируемой фразы производится рекурсивно выделением в исходной WK некоторой совокупности

ТТЛ К

слов Wmid , отвечающей одному из следующих условий.

1) WmKid — подпоследовательность WK (возможен вариант с учетом реверсирования),

WK = WьKef • wmкid ^ (далее обозначим w1 — последний элемент в WЬKf, W1 = Ъ • / , ^2 — первый

элемент в WrKst, ^2 = Ъ2 • f2), и

з(Яр еЯР,ЯР еЯР,ЯР еЯР), где Тр = WKld, а для

заданного Мр существуют структуры вида (4), которые ставят основы слов в соответствие переменным в

ГТ РЯ ГГ1 РЯ т-г

составе пар из Тх и Т2 . Первые элементы после-

и ТРЯ гг РЯ

довательностей Тх и Т2 совпадают, а последние есть (х1, f1) и (х2, f2) соответственно, причем переменная х1 конкретизируется основой Ъ1, а переменная х2 — основой Ъ2. При этом в формируемый формальный контекст эталона будут добавлены объекты Ъ1 и Ъ2 , множество признаков для добавляемых

объектов будут составлять элементы списков М1РЯ и

МрЯ, где переменные заменены значениями из

структур (4) для заданного Мр. Дальнейшее построение ФК эталона идет для последовательностей

</ Фр } и К } • WrKst, где Ър есть основа, конкретизирующая переменную для первых элементов в

ГТ.РЯ ГГ.РЯ Т1 и Т2 .

2) wmкid ={н> , w1}, wp и w1 не обязательно образуют подпоследовательность в WK (в том числе с

р р

учетом реверсирования), но существует Я. е Я такое, что имеются структуры вида (4), которые ставят основы слов в соответствие переменным в составе

ггРЯ пР

пар из Т. , при этом в рамках Я. слово Wp иден-

тифицируется как главное, w1 — как зависимое,

wp = Ър • fp , ^ = Ъ1 • f1, Т.1311 ={(хр , Ар ),(х^ А1 )}, переменная хр конкретизируется основой Ър, а х1 — основой Ъ1 . В формируемый ФК эталона добавляется объект Ъ1 , множество признаков для добавляемого объекта будут составлять элементы списка МрЯ, в которых переменные заменены их значениями.

3) wmкid = {н>р,ру,w1}, требования к wp и w1 аналогичны условию 2) за исключением того, что в

Р

рамках Я. слово wp связываются с w1 через предлог ру . Добавление информации в формальный контекст эталона для данного, а также для последующих трех условий происходит по аналогии с выполняемым по условию 2).

4) wmкid = {н> , w1}, требования к wp и w1 аналогичны условию 2) за исключением того, что

Т1РЯ ={(хр , ЛР )}, Wp = Ър • Ар , ^ = Ъ1 • f1, а ((/р = Ар )л(/1Р = А ))ф Ше, но при этом Ар е рМ и

-Г 7~^D

а е ^ .

5) wmкld={wp, Ру, ^, Ру — пPедлог, треб°ва-

ния аналогичны условию 3) за исключением того, что

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ТР ={(хр, /Р )■( Р,,,""),(х1, /Р)}.

6) wmкid = {wp,w1}, как и в условиях 2)-5), wp и w1 могут не образовывать подпоследовательность в WK (с учетом реверсирования) и ЗЯр еЯр такое, что имеются структуры (4), которые ставят основы слов в соответствие переменным в составе пар из ТРЯ , но относительно фиксированной СЯУ. При этом

Т1РЯ ={(хр , К /Р )}, Wp = Ър • Ар , W1 = Ъ1 • а

((/рР = АР )л(/1Р = А ))ф ^е и либо АР е РМ , либо

.г т~’D А1 е .

В ходе каждого последующего рекурсивного прохода процедуры построения ФК эталона при выполнении любого из перечисленных шести условий происходит удаление слов, для которых уже найдены связи, из списка еще не рассмотренных. Перед запуском на выполнение рассматриваемой процедуры в этот список заносятся все слова из

WK . Когда указанный список становится пустым, происходит выход из процедуры и выдача сформированного формального контекста в качестве результата. Помимо того в каждом рекурсивном проходе процедуры для условий 2)-6) идет запоминание пары либо тройки слов, относительно которых устанавливается отношение, во избежание зацикливания.

В качестве примера рассмотрим построение смыслового эталона в виде ФК (1) для ЕЯ-предложения «Нежелательное переобучение служит причиной за-ниженности средней ошибки на тренировочной выборке». Положим, что текущее содержимое базы знаний не позволяет интерпретировать данную фразу посредством одного из шаблонов вида (3), но имеются структуры вида (5), соответствующие синтаксическим отношениям в рамках ЕЯ-фраз «Переусложнение модели служит причиной заниженности средней ошибки на тренировочной выборке» и «Нежелательное переобучение служит причиной заниженности эмпирического риска». Кроме того, пусть для всех переменных в составе рассматриваемых структур (5) имеются конкретизации относительно двух указанных фраз.

Пусть для словосочетания «заниженности ошибки» в рамках СЯУ, описывающей связь переус-ложнения модели с заниженностью средней ошибки на тренировочной выборке, не найдена структура вида (5),

в которой второй компонент TlPR = {(хр ,''ості"),(x1 ,"и")}

при наличии конкретизирующих четверок (4) для пар (xp,"заниженн'") и (x1,"ошибк"). В то же время существует структура (5), представленная на рис.1, для которой переменная Хб конкретизирована основой «заниженн», а переменная Х10 — основой «ошибк» относительно указанной СЯУ, причем флексия «и»

входит в список возможных вариантов флексии зависимого слова.

ШЯВШ^Н

5:54 ІпвеП ІікІепІ

ОупиеІ(15.01982574,

[\¥т["Х6", "ость"], \і/т["Х10", "и"]],

["ой", "ость"], ["а", "и'І 'XI0", Г'главное-основа:Х6", "главное-флексия:ость", "флексия:и", 'ї<6:ость", "и:петь'']]

Рис.1. Синтаксическая связь для «заниженность ошибки»

Тогда построение искомого ФК эталона обеспечивается выполнением условий правила 1 для сочетаний слов в составе анализируемого предложения так, как показано в табл.1. Результирующий ФК представлен решеткой на рис. 2.

Соответствие сочетаний слов условиям правила 1

Сочетание слов Условие

нежелательное переобучение 2

переобучение служит 2

служит причиной 2

причиной заниженности 2

заниженности ошибки 6

ошибки средней 2

ошибки на выборке 3

выборке тренировочной 2

Введением смыслового эталона на множестве СЭ фраз достигается сокращение размера базы знаний для вычисления оценки схожести СЯУ при их независимом порождении в среднем на 40-50%. Точность построения смыслового эталона повышается при задействовании базы синтаксических отношений, формируемых на основе шаблонов разных СЯУ по заданной предметной области.

Работа выполнена при поддержке РФФИ (проект №10-01-00146).

Рис.2. ФК смыслового эталона по результатам компиляции шаблонов двух СЯУ

1. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учеб. пособие. М.: Логос, 2002. С. 181-190.

2. Останин К.С. Система компьютерного тестирования «ТестЭкзаменатор» // Междунар. конгресс конференций «Информационные технологии в образовании» (ИТО-2003) — http://www.bitpro.ru/ito/2003/VI/VI-0-2562.html (дата обращения: 24.06.2011).

3. Михайлов Д.В., Емельянов Г.М. Семантическая схожесть текстов в задаче автоматизированного контроля знаний // 8-я Междунар. конф. «Интеллектуализация обработки информации» (ИОИ-2010): Сб. докл. М., 2010. С.516-519.

4. Ganter B., Wille R. Formal Concept Analysis — Mathematical Foundations. Berlin: Springer-Verlag, 1999. P.17.

5. Mikhailov D.V., Emelyanov G.M. Forming and clustering of syntactic relations on the bases of Natural Language’s using’s situations // Interactive Systems And Technologies: The Problems of Human-Computer Interaction: Collections of scientific papers / ULSTU. Ulyanovsk, 2009. Vol.III. P.295-307.

Bibliography (Translitirated)

1. Chelyshkova M.B. Teorija i praktika konstruirovanija peda-gogicheskikh testov: Ucheb. posobie. M.: Logos, 2002. S. 181-190.

2. Ostanin K.S. Sistema komp'juternogo testirovanija «TestEhkzamenator» // Mezhdunar. kongress konferencijj «Informacionnye tekhnologii v obrazovanii» (ITO-2003) — http://www.bitpro.ru/ito/2003/VI/VI-0-2562.html (data obrashhenija: 24.06.2011).

3. Mikhajjlov D.V., Emel'janov G.M. Semanticheskaja skhozhest' tekstov v zadache avtomatizirovannogo kon-trolja znanijj // 8-ja Mezhdunar. konf. «Intellektualizacija obrabotki informacii» (IOI-2010): Sb. dokl. M., 2010. S.516-519.

4. Ganter B., Wille R. Formal Concept Analysis — Mathematical Foundations. Berlin: Springer-Verlag, 1999. P.17.

5. Mikhailov D.V., Emelyanov G.M. Forming and clustering of syntactic relations on the bases of Natural Language’s using’s situations // Interactive Systems And Technologies: The Problems of Human-Computer Interaction: Collections of scientific papers / ULSTU. Ulyanovsk, 2009. Vol.III. P.295-307.

i Надоели баннеры? Вы всегда можете отключить рекламу.