Научная статья на тему 'Эксперимент по оценке результатов реферирования текстового корпуса автоматизированной системой (на материале предметной области "человек в космосе")'

Эксперимент по оценке результатов реферирования текстового корпуса автоматизированной системой (на материале предметной области "человек в космосе") Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
142
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕФЕРИРОВАНИЕ / АВТОМАТИЗИРОВАННАЯ СИСТЕМА / AUTOMATIZED SYSTEM / ВНУТРЕННИЙ ЛЕКСИКОН / INNER LEXICON / ПСИХОЛИНГВИСТИЧЕСКИЙ ЭКСПЕРИМЕНТ / PSYCHOLINGUISTIC EXPERIMENT / SUMMARIZATION

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Долинский В.А., Бобров Н.В.

В статье описывается психолингвистический эксперимент по оценке результатов автоматизированного реферирования текста. Обсуждается сопоставление экспериментальных данных об ассоциативных структурах внутреннего лексикона с данными текстового анализа, проведенного автоматизированной системой «TextAnalyst».

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Experiment on testing the results of the automated text summarization (The subject area "man in space")

The paper describes a psycholinguistic experiment on testing the results of the automated text summarization. The experimental data on the associative structures of the inner lexicon is compared with the data obtained from the texts analyzed by an automated system «TextAnalyst».

Текст научной работы на тему «Эксперимент по оценке результатов реферирования текстового корпуса автоматизированной системой (на материале предметной области "человек в космосе")»

УДК 81 '33

В.А. Долинский, Н.В. Бобров

ЭКСПЕРИМЕНТ ПО ОЦЕНКЕ РЕЗУЛЬТАТОВ РЕФЕРИРОВАНИЯ ТЕКСТОВОГО КОРПУСА

АВТОМАТИЗИРОВАННОЙ СИСТЕМОЙ (НА МАТЕРИАЛЕ ПРЕДМЕТНОЙ ОБЛАСТИ

«ЧЕЛОВЕК В КОСМОСЕ»)1 Московский государственный лингвистический университет Москва, Россия, vdolinsky@yandex.ru, arctangent@yandex.ru

В статье описывается психолингвистический эксперимент по оценке результатов автоматизированного реферирования текста. Обсуждается сопоставление экспериментальных данных об ассоциативных структурах внутреннего лексикона с данными текстового анализа, проведенного автоматизированной системой «TextAnalyst».

Ключевые слова: реферирование; автоматизированная система; внутренний лексикон; психолингвистический эксперимент.

Поступила: 23.02.2017 Принята к печати: 20.04.2017

V.A. Dolinsky, N.V. Bobrov Experiment on testing the results of the automated text summarization (The subject area «man in space»)

Moscow state linguistic university Moscow, Russia, vdolinsky@yandex.ru, arctangent@yandex.ru

The paper describes a psycholinguistic experiment on testing the results of the automated text summarization. The experimental data on the associative structures of the

1 Исследование выполнено в рамках научного проекта Российского фонда фундаментальных исследований (РФФИ), проект № 14-06-00363. Научный руководитель - д-р филол. наук, профессор, действительный член Международной академии информатизации Р.К. Потапова.

inner lexicon is compared with the data obtained from the texts analyzed by an automated system «TextAnalyst».

Keywords: summarization; automatized system; inner lexicon; psycholinguistic experiment.

Received: 23.02.2017 Accepted: 20.04.2017

Введение

Проблема создания искусственного интеллекта и его места в жизненном укладе будущего с различной степенью остроты возникала перед научным сообществом несколько раз на протяжении последнего столетия. Искусственному интеллекту то прочили роковую роль в техногенном апокалипсисе, то приписывали качества сверхчеловека - и тогда снова становился открытым вопрос: будет ли сверхчеловек, соединенный, быть может, с искусственным интеллектом, по эту или по ту сторону добра и зла? Но всякий раз проблема искусственного интеллекта отодвигалась на второй план, когда становилось очевидным, что еще недавно казавшиеся мелкими и «чисто техническими» трудности, стоящие на пути реализации полноценного искусственного интеллекта, на самом деле очень серьезны и коренятся в глубочайших различиях между спонтанным и детерминированным, живым и неживым, вечным и временным - иначе говоря, во всем том, что составляет образ и сущность человека и машины.

В центре исследования, результаты которого представлены ниже, оказалась проблема моделирования ассоциативных механизмов речемыслительной деятельности. Современные автоматизированные системы анализа текстовых массивов (определяющие тематическую принадлежность, выполняющие реферирование, классификацию, семантический поиск и т.д.) довольно результативно извлекают из текстов смысловую информацию, используя при этом различные модели. Одной из перспективных моделей является нейроподобная семантическая сеть. Кроме собственно эффективности работы «перспективности» ей добавляет по крайней мере некоторое структурное сходство с человеческим мозгом. В связи с этими двумя наблюдениями возникла гипотеза: если система, будучи концептуально приближенной к человеческому мозгу, демонстрирует высокую эффективность в семантическом ана-

лизе текстов на естественном языке, то, возможно, она реализует ассоциативные механизмы, гомологичные или по меньшей мере родственные тем, которые наблюдаются в речемыслительной деятельности человека. Чтобы проверить это предположение, был проведен эксперимент, о котором пойдет речь ниже.

Метод, материал и результаты эксперимента

На данном этапе исследования был проведен психолингвистический эксперимент по оценке приемлемости сочетаний актантов «родитель - подчиненный», выделенных системой «Тех1Лпа-^Ъ)1, с привлечением информантов - носителей русского языка (П = 32).

В качестве материала для экспериментального исследования была использована подборка научно-популярных и публицистических текстов на тему «Человек в космосе». Для создания текстового корпуса использовались как традиционные тексты, так и тексты с интернет-сайтов различных информационных служб, в том числе интервью с учеными и космонавтами.

Тематическая область была выбрана с учетом ряда факторов. Во-первых, именно этот круг ситуаций - человек в космосе, на космической станции, в околокосмических сферах деятельности, -пожалуй, в наибольшей степени соотносится с взаимодействием естественного и искусственного интеллекта: нигде больше такой концентрации интеллектуальных автоматизированных систем не найти. Данное обстоятельство одновременно способно обеспечить и наибольшую реалистичность экспериментов, и наибольшую актуальность их ожидаемых результатов: если они смогут быть полезны для каких-то сфер человеческой деятельности, то для этой -в первую очередь. Во-вторых, сама по себе техногенность и - отчасти - футуристичность этой тематической области должна бы, в принципе, обеспечить наилучший «контакт» естественного и искусственного разума.

Целью эксперимента было сопоставление результатов извлечения смысла текста по двум каналам: (1) на базе перечня пар

1 Подробнее о системе «ТехЪЛш^Ъ» - на сайте производителя. - Режим доступа: http://www.ana1yst.ru/index.php?1ang=eng&dir=content/products/&id=ta

актантов, извлеченных автоматизированной системой реферирования «Тех1Апа1у81», и (2) на базе дифференцированных оценок, данных испытуемыми, задача которых заключалась в маркировании сочетаний «родитель - подчиненный», извлеченных из текста системой для автоматизированной смысловой обработки текста «Тех1Апа1у81».

Участникам контролируемого эксперимента давалось следующее задание:

• оценить каждую из пар актантов «родитель - подчиненный» (по перечню, выданному автоматизированной системой) по трехбалльной шкале «приемлемая / неприемлемая / нейтральная»;

• восстановить исходный смысл каждой из пар, предложив для актанта «родитель» собственный вариант актанта «подчиненный» (словоформу или словосочетание), руководствуясь языковым чутьем носителя языка и компетенцией лингвиста-эксперта.

Испытуемые заполняли графы опросных листов в электронном виде (более 7000 строк - единиц анализа). Были обработаны статистические данные, полученные от группы информантов, и составлена база данных, содержащая обобщенную оценку (на базе структуры внутреннего лексикона носителей языка) приемлемости (осмысленности) словосочетаний, извлеченных из текста автоматизированной системой «Тех1Апа1у81» (табл. 1).

Таблица 1

Результаты извлечения смысла из текста (фрагмент базы данных)

Данные «TextAnalyst» в терминах пары «родитель - подчиненный» Данные эксперимента в терминах пары «родитель -подчиненный» (приемлемость данной пары в оценках испытуемых и предложенные ими актанты «подчиненные»)

1 2 3 4 5 6 7 8 9

«родитель» | частота | о ^ ад «подчиненный» положительно отрицательно нейтрально дополнительные «подчиненные», предложенные испытуемыми (в скобках - частотный индекс) «ассортимент» дополнительных «подчиненных»

Марс 5 23 экспедиции 1 31 0 экспедиции на Марс (23); экспедиция на Марс (4); экспедиции на Марсе (2); экспедиционный (1); - (1) 5

Продолжение таблицы 1

1 2 3 4 5 6 7 8 9

Марс 2 6 рассказать 1 30 1 рассказать о Марсе (22); рассказать про Марс (5); рассказал (1); рассказать о Марсе / рассказать про Марс (1); - (1); как рассказывают (1); о Марсе (1) 7

Марс 2 6 прошло 1 24 7 исследование Марса прошло (5); прошел (3); прошло на Марсе (3); прошло через Марс (2); Марс прошел (2); прошло время (1); Марс атакует (1); прошел запуск (1); - (1); произошло на Марсе (1); Марс прошел (1); испытание ракеты для полета на Марс прошло успешно (1); Марс прошел мимо (1); на Марсе прошло соревнование (1); на Марсе прошло (1) 15

Марс 4 19 получает 23 1 8 получил (1) 1

Марс 2 6 появляется 28 1 3 появился (1) 1

Марс 7 32 двигатели 1 27 4 двигатели на Марсе (6); двигатели исследовательского аппарата на Марсе (5); двигатели для полета на Марс (3); двигатели с Марса (2); двигатели ракеты (1); двигатели кораблей на Марс (1); двигатели корабля (1); летящего к Марсу (1); ракетные двигатели (1); двигатель для (ракеты) Марс (1); двигатели Марса (1); ракетные двигатели для полета на Марс (1); двигатели «Марс» (1); двигатели функционируют (1); НАСА испытало двигатели ракеты для полетов на Марс (1); на Марсе отказали двигатели (1) 16

Обсуждение результатов

При оценке актантов, предъявленных в строках таблицы, испытуемые руководствовались (сознательно или бессознательно) главным образом наличием в них двух основных характеристик «текстовости» - целостности и связности. Приемлемыми признавались те пары, в которых:

1) усматривалась целостность, т.е. была явно выражена осмысленность (указание на референт или денотат, отсылка к актуальным реалиям, недвусмысленность семантики);

2) сохранялась связность, т. е. между актантами «родитель» и «подчиненный» эксплицитно выражались отношения, характерные для словосочетаний или синтагм.

В тех случаях, когда информант снабжал пару «родитель -подчиненный» индексом неприемлема, часто он приводил для данного «родителя» подходящую, по его мнению, форму «подчиненного» (словоформу или словосочетание), вносящую в образующуюся пару цельность (осмысленность) и связность.

Например, в паре «родитель - подчиненный» для сочетания «скафандр - открытый космос» испытуемые дали следующие оценки: «положительно» - 1, «отрицательно» - 30, «нейтрально» - 1, а также предложили в качестве «подчиненных» следующие актанты: «скафандр в открытом космосе» (12); «в скафандре в открытый космос» (6); «в открытом космосе» (2); «скафандр в космическом корабле» (1); «для открытого космоса» (1); «в открытый космос в скафандре» (1); «выход в открытый космос» (1); «выход человека в скафандре в открытый космос» (1); «скафандр в открытый космос» (1); «надеть скафандр при выходе в открытый космос» (1); «скафандр для открытого космоса» (1); «выход в открытый космос со скафандром» (1).

Для сочетания «получает - полета на Марс» испытуемые дали оценки «положительно» - 0, «отрицательно» - 30, «нейтрально» - 2, а также предложили в качестве «подчиненных» следующие дополнительные актанты: «получает право полета на Марс» (5); «получает полет на Марс» (5); «получает награду после полета на Марс» (2); «получает после полета на Марс» (2); «получает полет на Марс» (2); «полет» (1); «получает в результате полета на Марс» (1); «осуществление полета на Марс» (1); «получает путем полета на Марс» (1); «получает возможность полета на Марс» (1); «полет на Марс получает» (1); «получает для полета на Марс» (1); «во время полета на Марс» (1); «получает разрешение для полета на Марс» (1); «полет на Марс» (1); «получает без полета на Марс» (1); «полет на Марс получается» (1).

Для сочетания «экспедиции - российский космонавт» испытуемые дали оценки «положительно» - 2, «отрицательно» -30, «нейтрально» - 0, а также предложили в качестве «подчиненных» следующие дополнительные актанты: «экспедиции российских космонавтов» (15); «экспедиции российского космонавта» (6); «экспедиция российского космонавта» (3); «российских космонавтов» (1); «российского космонавта» (1); «экспедиция российских космонавтов» (1); «экспедиции с российскими космонавтами» (1).

Для сочетания «сопровождать - Алексей Леонов» испытуемые дали оценки «положительно» - 1, «отрицательно» - 31, «нейтрально» - 0, а также предложили в качестве «подчиненных» следующие дополнительные актанты: «сопровождать Алексея Леонова» (23); «Алексея Леонова» (4); «сопроводить Алексея Леонова» (2); «сопровождать Павла Беляева» (1).

Для сочетания «контролирует - работающих двигателей» испытуемые дали оценки «положительно» - 1, «отрицательно» - 31, «нейтрально» - 0, а также предложили в качестве «подчиненных» следующие дополнительные актанты: «контролирует работающие двигатели» (20); «работающие двигатели» (3); «контролирует работу двигателей» (2); «контролирует работающий двигатель» (1); «работающий двигатель» (1); «контролировать работающие двигатели» (1); «контроль работающих двигателей» (1); «контроль работающих деталей» (1).

Для сочетания «снижается - гравитации» испытуемые дали оценки «положительно» - 1, «отрицательно» - 30, «нейтрально» - 1, а также предложили в качестве «подчиненных» следующие дополнительные актанты: «снижается гравитация» (18); «гравитация» (4); «снижение гравитации» (2); «снижается при гравитации» (1); «гравитация снижается» (1); «снижается сила гравитации» (1); «снижается уровень» (1); «снижается ограничение» (1); «гравитации становится меньше» (1).

Для сочетания «получает - солнечных батарей» испытуемые дали оценки «положительно» - 1, «отрицательно» - 30, «нейтрально» - 1, а также предложили в качестве «подчиненных» следующие дополнительные актанты: «получает солнечные батареи» (22); «солнечные батареи» (3); «получает за счет солнечных батарей» (2); «получает от солнечных батарей» (2); «солнечные батареи получают» (2); «получает энергию из солнечных батарей» (1); «получает энергию солнечных батарей» (1); «с помощью солнечных батарей» (1); «получает с помощью солнечных батарей» (1); «получает пять солнечных батарей» (1).

Для сочетания «женщин - Землю» испытуемые дали оценки «положительно» - 0, «отрицательно» - 30, «нейтрально» - 2, а также предложили в качестве «подчиненных» следующие дополнительные актанты: «женщин на Землю» (8); «женщин на Земле» (3); «на землю» (3); «Земля с женщинами» (2); «женщины планеты Земля» (2); «женщин Земли» (2); «женщины на Земле» (2); «жен-

щин больше на Земле» (2); «много женщин видели из космоса Землю» (1); «женщин на Землю» (1); «возвращение женщин на Землю» (1); «женщины Земли» (1).

Для сочетания «переводить - Москва» испытуемые дали оценки «положительно» - 11, «отрицательно» - 18, «нейтрально» - 3, а также предложили в качестве «подчиненных» следующие элементы: «текст» (2); «книгу» (1); «Киеву» (1).

Для сочетания «причаливание - корабле» испытуемые дали оценки «положительно» - 1, «отрицательно» - 31, «нейтрально» - 0, а также предложили в качестве «подчиненных» следующие дополнительные актанты: «причаливание корабля» (15); «причаливание на корабле» (5); «к кораблю» (3); «корабль причалил» (3); «причаливание к кораблю» (2); «корабля» (2); «на корабле» (1).

Дополнительные актанты (от 1 до 27) выдавались информантам крайне неравномерно: один актант - 16 306 раз; два актанта -4177 раз; 3 - 1576; 4 - 770; 5 - 794; 6 - 419; 7 - 691; 8 - 348; 9 -265; 10 - 206; 11 - 173; 12 - 159; 13 - 128; 14 - 99; 15 - 80; 16 - 80; 17 - 68; 18 - 65; 19 - 42; 20 - 49; 21 - 39; 22 - 34; 23 - 36; 24 - 20; 25 - 14; 26 - 6; 27 - 1. На рис. 1 представлен график распределения дополнительных актантов по «популярности» (квазигипербола). Здесь ось Х - число дополнительных актантов; ось У - частота ответов данным числом актантов.

Распределение числа пар «родитель - подчиненный», вызвавших данный «ассортимент» дополнительных актантов (от 0 до 22), представлено на рис. 2. На оси абсцисс отложен «ассортимент» ответов, на оси ординат - число пар «родитель - подчиненный», вызвавших данный «ассортимент». Здесь распределение несимметричное и имеет локальный максимум в области 6-8 дополнительных актантов. (Новое подтверждение магического числа Джорджа Миллера: объем оперативной памяти человека - семь плюс-минус два.) Только 171 пара стимулов (из 2700 полученных в ходе эксперимента) вызвала 0 реакций (т.е. оказалась приемлемой), одну реакцию вызвали 180 стимулов; две реакции -243 стимула; 3 - 265; 4 - 316; 5 - 357; 6 - 404; 7 - 398; 8 - 380; 9 -357; 10 - 276; 11 - 223; 12 - 162; 13 - 92; 14 - 60; 15 - 49; 16 - 28; 17 - 19; 18 - 14; 19 - 8; 20 - 2; 21 - 1; 22 - 2.

Рис. 1

Распределение дополнительных ответов по популярности среди информантов

Рис. 2

Число пар «родитель - подчиненный», вызвавших данный «ассортимент» дополнительных актантов

В результате обработки полученных данных в 88% случаев более половины информантов оценили пары «родитель - подчиненный», извлеченные автоматизированной системой, как «неприемлемые». Соответственно, только в 12% случаев более половины испытуемых (т.е. не все) оценили эти пары в качестве «приемлемых». Таким образом, выдвинутая гипотеза о возможном сходстве ассоциативных механизмов в искусственном и естественном мышлении не подтвердилась.

Заключение

Проведение данного исследования в перспективе позволит не только обогатить фундаментальную теорию ассоциативного механизма в речемыслительной деятельности человека, но и подойти в практическом ключе к решению задачи обработки больших объемов неструктурированной текстовой информации с выходом в «текст-смысл», а также задачи управления интегральным роботом на базе мультимодальной семантической модели мира, построенной по принципу ассоциативно-валентных связей.

Автоматический смысловой анализ текстовой информации в настоящее время остановился на этапе смыслового анализа отдельного предложения (методами синтаксического анализа) или группы предложений, связанных референтными ссылками, в том числе с использованием семантических шаблонов, что не позволяет эффективно оценивать смысл целостного текста, а также ранжировать ключевые понятия (и, следовательно, предложения) предметной области. Предлагаемые подходы, возможно, позволят выйти на новый уровень формирования эффективной коммуникации «человек - машина».

В тоже время результаты проведенного исследования свидетельствуют о том, что говорить о какой-либо гомологичности ассоциативных процессов, определяющих искусственное (машинное) и естественное восприятие текста и его смысловой структуры, в настоящее время нельзя, что, хотя и опровергает высказанное нами предположение о возможной общности ассоциативных механизмов естественного и искусственного интеллекта, подтверждает справедливость ряда других тезисов, изложенных во введении к данной статье.

РЕФЕРАТЫ

Редакция предлагает читателям два реферата, сделанные по одним из самых глубоких работ, посвященных «Черным тетрадям» Мартина Хайдеггера. Первая публикация «Черных тетрадей» в 2014 г. вызвала оживленную полемику как в России, так и за рубежом, касающуюся переосмысления интеллектуального наследия автора. «Черные тетради» - это философский дневник, состоящий из 34 тетрадей (некоторые утрачены), который этот наиболее выдающийся немецкий философ ХХ в. вел с 1931 г., письменно анализируя в том числе процессы (получившие название «консервативной революции»), начавшиеся в Германии с приходом к власти национал-социалистов. В них мыслитель рассуждает на темы войны и деятельности немцев, «немецкого начала» в мире и истории, стремится философски рефлексировать вопросы места и роли мирового еврейства в своем настоящем и прошлом (первые записи 19381939 гг.), за что впоследствии обвинялся в нацизме (Хайдеггер был членом НСДАП с 1933 по 1945 г.) и антисемитизме.

i Надоели баннеры? Вы всегда можете отключить рекламу.