Тестирование лингвистической классификации на однозначность идентификации признаков

Синеокова Татьяна Николаевна; Беляева Е.И.

тестирование лингвистической классификации на однозначность идентификации признаков

т.н. СИНЕОКОВА, Е.И. БЕЛЯЕВА

В статье рассматривается методика проверки на однозначность лингвистической классификации на примере структурно-семантической классификации конструкций, реализуемых в английской аффективной речи. Оценка осуществляется на основании идентификации классификационных признаков экспертами по предложенной инструкции. Описывается инструментальная сторона тестирования: процедура проведения тестирования, способы компьютерной обработки результатов, способы сравнения результатов, позволяющие делать объективные выводы о качестве инструкций и путях их корректировки.

Ключевые слова: однозначность, классификация, признаковое описание, тестирование.

Использование интерактивных лингвистических классификаций для выявления корреляционных связей между лингвистическими и экстралингвистическими характеристиками говорящего обусловливает необходимость их проверки с точки зрения однозначности и составления таких инструкций по выделению (идентификации) классификационных признаков, которые были бы понятны любому эксперту.

В настоящей статье описывается методика проверки на однозначность структурно-семантической классификации конструкций, реализуемых в английской аффективной речи. Рассматриваемая классификация успешно применялась для прогнозирования таких экстралингвистических коррелятов, как тип измененного состояния сознания [9] и пол [6] говорящего, дифференцированные механизмы ре-чемыслительных процессов при измененных состояниях сознания [2]; кроме того, классификация применялась в исследованиях псевдоаффективной (имитационной, воздействующей) речи: политической - в работах А.А. Лавровой [5] и А.С. Рухани [7], судебной - в работе Е.С. Антоновой [1]; в исследовании суггестивного потенциала рекламных текстов - в работе М.Э. Ждановой [4]; как инструмент оценки адекватности перевода художественных произведений в работах Л.С. Савицкой [8], Л.В. Добровольской [3]. Поэтому именно она была выбрана для разработки и апробации экспериментальной методики, позволяющей проверить лингвистическую классификацию с точки зрения однозначности и, при необходимости, провести ее коррекцию.

linguistic classification testing for unambiguous identification of classification features

T.N. SiNEOKOVA, E.i. BELYAEVA

The article describes the procedure by which unambiguous identification of classification features of a linguistic classification can be achieved. Estimation of the quality of the instruction to a linguistic classification (description of classification features for experts) is based on expert testing. The procedure of testing is described: the procedure of testing, ways of computer processing of the results, ways of comparing the results, which help arrive at objective conclusions as to the quality of the instruction and ways of its correction.

Keywords: unambiguity, classification, description of classification features, testing.

Определение однозначности классификации и разработка однозначных, понятных среднему эксперту признаковых описаний (инструкций) - итеративный процесс, осуществляемый в ходе серии тестирований с привлечением группы экспертов. Оценка однозначности основана на определении расхождений решений отдельных экспертов относительно наличия/отсутствия первичных классификационных признаков1 в высказываниях, отобранных из опорной базы данных. Для тестирования структурно-семантической классификации конструкций, реализуемых в английской аффективной речи, опорная база данных составляла 1000 высказываний, а рабочая группа включала 6 экспертов (преподавателей, аспирантов и выпускников НГЛУ им. Н.А. Добролюбова)2. Таким образом, при рабочей группе из шести экспертов и сорока первичных классификационных признаках рассматриваемой классификации полное тестирование представляет собой результат обработки и сравнения 240000 независимых решений экспертов.

Под итерацией тестирования понимается комплексная обработка результатов идентификации экспертами классификационных признаков в едином корпусе высказываний, обязательно без промежуточной правки признаковых описаний. Правка осуществляется только между итерациями.

Проведение одной итерации тестирования включает следующие этапы:

1. Предъявление материала тестирования экспертам.

2. Компьютерная обработка результатов идентификаций экспертов.

3. Анализ данных, полученных в результате компьютерной обработки результатов идентификаций экспертов, на содержательном уровне и корректировка признаковых описаний.

Рассмотрим подробнее инструментальную сторону тестирования.

I. Предъявление материала тестирования экспертам. Поскольку исследование классификации на однозначность идентификации классификационных признаков предполагает проведение тестирования большого объема, особую важность приобретает разработка универсальных жестко регламентированных форм представления данных, предъявляемых группе экспертов.

Комплект входных документов тестирования для каждой итерации и каждого эксперта включает:

1. Инструкции по идентификации первичных структурных признаков тестируемой классификации. Инструкции организованы в форме таблиц и содержат: 1) название признака; 2) условное обозначение признака, используемое для компьютерной обработки результатов идентификации; 3) признаковое описание, 4) примеры высказываний, в которых реализуется признак; 5) некоторые примечания к признаковому описанию. Начиная со второй итерации тестирования после проведения корректировок инструкции, наряду с новой инструкцией по идентификации первичных классификационных признаков, экспертам выдается список изменений, внесенных в инструкции.

2. Входное задание для каждого эксперта. Таблица включает: 1) список 150 высказываний из рандомизированной опорной базы данных; 2) перечень условных

1 Под первичными классификационными признаками - для иерархической классификации, включающей несколько уровней признаков, - понимаются признаки низшего иерархического уровня, непосредственно участвующие в прогнозе экстралингвистических коррелятов.

2 Расчеты показывают, что уже 5 экспертов достаточно для получения статистически надежного мажоритарного решения [10, 11, 12].

обозначений сорока первичных структурных признаков, в котором эксперт должен оставить коды только тех признаков, которые, по его мнению, реализованы в конкретном высказывании, удалив коды остальных признаков.

Таким образом, в процессе одной итерации из 150 высказываний каждый эксперт должен независимо от остальных, ориентируясь только на инструкции по идентификации первичных классификационных признаков, принять 12000 независимых решений типа «есть признак» / «нет признака».

Результаты идентификации классификационных признаков, проведенной экспертами, сводятся в единую таблицу, удобную для дальнейшей компьютерной обработки.

II. Компьютерная обработка результатов идентификаций экспертов проводится с помощью специальной программой IdentTest, созданной средствами Access 2003. Программа автоматизирует процесс сравнения результатов идентификаций от двух до шести экспертов с заданной эталонной идентификацией (мажоритарным эталоном, когда за эталонное принимается решение большинства экспертов, и эталоном-привилегированным экспертом, в данном случае - экспертом-разработчиком тестируемой классификации). Выходные таблицы содержат информацию только о тех высказываниях, идентификация признаков в которых отличается от эталонной. Таким образом, основная информация, получаемая после компьютерной обработки результатов идентификации экспертов - это дифференцированный (по типам ошибки, признакам, экспертам, высказываниям) перечень ошибок идентификации структурных признаков.

Ошибками идентификации классификационных признаков являются:

1. Ложное обнаружение признака (ЛО): эксперт идентифицирует признак, отсутствующий в эталонной идентификации.

2. Пропуск признака (I III): в идентификации эксперта отсутствует признак, присутствующий в эталонной идентификации.

3. Замещение признака (ЗП): ложное обнаружение одного признака при пропуске другого в идентификации эксперта. В отличие от первых двух типов ошибок, ошибка замещения выявляется не автоматически, а на основании сопоставления ошибок типа ЛО и IIII исследователем, проводящим тестирование.

III. Сравнение результатов двух итераций тестирования между собой. Чтобы получить возможность судить о правильности выбранного направления корректировок инструкции по идентификации первичных классификационных признаков, необходимо разработать способ количественно сравнить качество инструкции до и после корректировки. При этом предлагаемые параметры должны быть достаточно чувствительными, чтобы позволять проводить статистически достоверное сравнение качества двух итераций реального, т.е. не слишком большого объема.

В настоящем исследовании предложено два параметра для оценки качества инструкции: параметр «качество», основанный на подсчете относительного числа ошибок с учетом сделанных ошибок и частотности использования признаков в опорной БД и параметр коэффициент корреляции между решениями эталона и экспертов. Оба параметра дали примерно одинаковые результаты и показали, что изменения, полученные при корректировке инструкции после проведения итерации объемом 150 примеров, в большинстве случаев фиксируются статистически достоверно. В качестве основного был выбран параметр коэффициент корреляции. Для определения этого параметра значения коэффициента корреляции решений экспер-

тов сравниваются с эталонным значением до и после проведения корректировки. При этом возможно сравнение корреляции для каждого признака в отдельности, суммарно для всех экспертов, для каждого эксперта в отдельности и по всему объему итерации в целом. Параметр коэффициент корреляции отражает интуитивные представления исследователя, причем учитывается как качество инструкций, так и частотность признака в репрезентативной выборке. Частотность признаков сказывается на общей интегральной оценке, поэтому использование этого подхода для интегральных оценок представляет интерес.

Значимость корректировки определяется статистической значимостью изменений соответствующих значений коэффициента корреляции, которые могут выражаться как положительными, так и отрицательными величинами. Если абсолютная величина изменения коэффициента корреляции превосходит доверительный интервал, то корреляция считается значимой. Если абсолютная величина изменения коэффициента корреляции превосходит доверительный интервал более чем в 3 раза -то корреляция считается сильно значимой.

Таким образом, предлагаемая методика тестирования лингвистической классификации на однозначность позволяет сделать следующее:

1. С помощью компьютерной обработки выявить в удобной для анализа форме все ошибки всех экспертов как в сравнении идентификаций экспертов с мажоритарным эталоном, так и с эталоном-привилегированным экспертом.

2. На основании формальных признаков рассортировать все выявленные ошибки на основные типы: ЛО, 1111 и, путем сопоставления ЛО и 1111 (то есть, с помощью анализа на содержательном уровне), ошибку типа ЗП. Такая сортировка существенно облегчает дальнейший анализ и может подсказать его направление. Однако для собственно корректировки нужна иная - дополнительная - сортировка ошибок на содержательном уровне (в соответствии с причинами, вызвавшими ошибку того или иного типа) с индивидуальным анализом каждой неправильной идентификации.

3. Для достаточно больших итераций объективно оценить эффективность проведенной корректировки: субъективные оценки эффективности промежуточных корректировок, которые приходится довольно часто применять исследователю, проводящему тестирование, могут быть объективизированы.

Литература

1. Антонова Е.С. Особенности функционирования повторов в судебной речи: Дипломная работа. - Нижний Новгород, 2010. - 65 с. (Научный руководитель - Си-неокова Т.Н.).

2. Безруков В.А. Средства номинации измененных состояний сознания в драматургических ремарках (на материале английского языка): Дисс. ... канд. филол. наук. - Нижний Новгород, 2007. - 183 с.

3. Добровольская Л.В., Синеокова Т.Н. Особенности перевода конструкций с повторами, реализуемыми в состоянии эмоционального напряжения (на материале русского и английского языков) // Теоретические и прикладные аспекты изучения речевой деятельности: Сборник научных статей. Вып. 5. - Нижний Новгород: НГЛУ им. Н.А. Добролюбова, 2010. - С. 52-65.

4. Жданова М.Э. Структурно-семантические особенности рекламного текста: Дипломная работа. - Нижний Новгород, 2010. - 85 с. (Научный руководитель - Си-неокова Т.Н.).

5. Лаврова А.А. Синтаксические особенности реализации эмоционального компонента в политической речи (на материале американских предвыборных теледебатов): Дисс. ... канд. филол. наук. - Нижний Новгород, 2010. - 224 с.

6. Лисенкова О.А. Синтаксическая транспозиция в мужской и женской аффективной речи (на материале английского языка): Дисс. ... канд. филол. наук. - Нижний Новгород, 2007. - 140 с.

7. Рухани А.С. Психологические и лингвистические аспекты расшифровывающих конструкций (на материале английского языка): Дипломная работа. - Нижний Новгород, 2008. - 57 с. (Научный руководитель - Синеокова Т.Н.).

8. Савицкая Л.С. Проблема адекватности перевода синтаксических структур в аффективной речи (на материале пьес Б. Шоу): Дипломная работа. - Нижний Новгород, 2007. - 58 с. (Научный руководитель - Синеокова Т.Н.).

9. Синеокова Т.Н. Парадигматика эмоционального синтаксиса: Монография. -Нижний Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2003. - 244 с.

10. Синеокова Т.Н., Чернышова Е.И. Методологические аспекты проверки однозначности выделения классификационных признаков аффективной речи // Теоретические и прикладные аспекты изучения речевой деятельности: Сборник научных статей. Вып. 2. - Нижний Новгород: НГЛУ им. Н.А. Добролюбова, 2007. - С. 80-98.

11. Сулейманова О.А. К вопросу о типологии лингвистического эксперимента // Методология современного языкознания: Сборник статей - М.: АСОУ 2010. -С. 214-230.

12. Чернышева Т.Ю. Иерархическая модель оценки и отбора экспертов // Доклады Томского государственного университета систем управления и радиоэлектроники. 2009. №1(19).- С.168 - 174.

Тестирование лингвистической классификации на однозначность идентификации признаков Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Синеокова Татьяна Николаевна, Беляева Е. И.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Синеокова Татьяна Николаевна, Беляева Е. И.

LINGUISTIC CLASSIFICATION TESTING FOR UNAMBIGUOUS IDENTIFICATION OF CLASSIFICATION FEATURES

Текст научной работы на тему «Тестирование лингвистической классификации на однозначность идентификации признаков»