Раздел I. Модели, методы и технологии интеллектуального управления
УДК 004.931 DOI 10.23683/2311-3103-2019-7-6-17
А.В. Германович, С.Ю. Мельников, В.А. Пересыпкин, Е.С. Сидоров,
Н.Н. Цопкало
ИНФОРМАЦИОННЫЕ ИЗМЕРЕНИЯ ЯЗЫКА. ПРОГРАММНАЯ СИСТЕМА ОЦЕНКИ ЧИТАЕМОСТИ ИСКАЖЕННЫХ ТЕКСТОВ*
Информационные измерения языка необходимы для построения моделей языка, использующихся в системах оптического распознавания символов, распознавания речи, компрессии текстовых данных, для обнаружения ошибок в текстах и построения методов автоматической коррекции текста. Поскольку качество работы автоматического корректора должно быть максимально приближенным к качеству работы квалифицированного специалиста, углубленное изучение возможностей работы экспертов-лингвистов с искаженным текстом, поиск объективных закономерностей их работы при коррекции ошибок является актуальной задачей. Для объективизации экспертных оценок информационных характеристик языка в задаче коррекции искаженных текстов разработана программная система лингвистической оценки читаемости искаженных текстов. Программная система представляет собой веб-приложение, состоящее из серверной и клиентской частей. Клиентская часть выполняется непосредственно в браузере пользователя, а серверная - на удаленном сервере. Клиентская часть служит для отображения результатов. Разработанный текстовый редактор в зависимости от языка учитывает направление текста и предоставляет возможности по его разметке. При коррекции искаженного текста эксперт выставляет оценку читаемости и отмечает разными цветами фрагменты текста, которые: 1 - исправляются без существенных усилий, 2 - требуют значительных усилий, 3 - не удается однозначно скорректировать. На качество коррекции искаженных текстов экспертами-лингвистами влияют такие факторы, как степень искажения текста, уровень владения экспертом выбранным языком, уровень сложности текста (грамматика, лексика, стиль), степень знания экспертом тематики текста, а также различных реалий (местных топонимов, персоналий, названий СМИ, конкретных событий и т.п.), которые могут в нем упоминаться. С помощью созданной программной системы проведено экспериментальное сравнение результатов ручной коррекции искаженных новостных текстов на арабском языке экспертами и программной автоматической коррекции. Рассматривалось два варианта условий, в которых производится ручная коррекция: 1 - эксперт не ограничен по времени, 2 - время коррекции ограничено 30-ю минутами на каждый корректируемый текст. Точность коррекции оценивалась с помощью ¥1-меры. Продемонстрирована эффективность разработанной системы для сравнения результатов ручной и автоматической коррекции искаженных текстов. Выявлено существенное влияние квалификации эксперта-лингвиста на качество коррекции.
Информационные измерения языка; модель языка; искаженный текст; обнаружение ошибок в тексте; коррекция текста.
* Исследование выполнено при частичной финансовой поддержке РФФИ в рамках научного проекта № 18-29-22104.
A.V. Germanovich, V.A. Peresypkin, S.Yu. Melnikov, N.N. Copkalo, E.S. Sidorov
SOFTWARE SYSTEM FOR ASSESSING THE READABILITY OF DISTORTED TEXTS FOR INFORMATIONAL LANGUAGE MEASUREMENTS
The language information measurements are necessary for constructing language models used in optical character recognition, speech recognition, text data compression, detecting errors and automatic text correction. Since the quality of the automatic corrector should be close to the quality of work of a qualified specialist, an in-depth study of the possibilities of expert work with distorted text, a search for the objective laws of their work in correcting errors is necessary. To objectify expert assessments of the information characteristics of the language in the problem of correcting distorted texts, a software system for linguistic evaluation of the readability of distorted texts has been developed. The software system is a client-server web application. The client part is executed directly in the user's browser, and the server part is executed on the remote server. When correcting a distorted text, the expert gives an assessment of readability and marks the text fragments with different colors: 1 - corrected without significant effort, 2 - require significant effort, 3 - cannot be unambiguously corrected. The quality of the correction of distorted texts by linguistic experts is influenced by such factors as the degree of text distortion, the level of expert knowledge of the language, the level of text complexity (grammar, vocabulary, style), the degree of expert knowledge of the text subject, as well as various realities (local place names, personalities, media names, specific events, etc.). Using the created system, an experimental comparison was made of the results of manual correction of distorted Arabic texts by experts and software automatic correction. Two options were considered under which the manual correction is performed: 1 - no time limit, 2 - correction time is limited to 30 minutes for each text. Correction accuracy was estimated using the F1 measure. The effectiveness of the developed system for comparing the results of manual and automatic correction of distorted texts is demonstrated. A significant effect of expert qualifications on the quality of correction was revealed.
Language information measurement; language model; automatic text correction; noisy text.
Введение. Статистические свойства письменных текстов на различных мировых языках интенсивно изучаются лингвистами, математиками и специалистами по теории связи с середины XX века. После введения К.Шенноном [1] понятия энтропии текста, как характеристики степени его предсказуемости, многими авторами проводились экспериментальные исследования по оценке энтропии текстов для разных языков. Вначале в них активно использовались экспертные оценки степени предсказуемости отдельных букв текста [2, 3]. В дальнейшем, исследования предсказуемости текста учитывали более крупные текстовые единицы - морфемы и слова. Отметим, в частности, работу [4], в которой строятся оценки энтропии арабского текста на основе частот букв, корней слов и слов.
В работе [5] решалась задача предсказания отдельных слов в тексте на русском языке с учетом контента. Угадываемое слово в тексте выбиралось случайно. Формулировалось три разновидности задачи угадывания (во всех случаях место слова в тексте известно): 1 - нужно угадать пропущенное слово, 2 - слово подсвечено, и необходимо определить, истинное ли оно, 3 - для угадываемого слова предлагается два варианта и требуется определить, какой из них верен. В качестве текстов выбирались художественные, в основном, поэтические произведения. В эксперименте, проводившемся в течение трех лет, приняли участие 8000 человек. Результаты эксперимента показывают линейную зависимость логарифма вероятности правильного угадывания от длины слова.
В ряде работ изучалось локальное поведение энтропийных характеристик текста. Статистики комбинаций слов в пределах «окна внимания» читателя, т.е. во фрагменте около 100 слов, и анализ зависимости поведений таких статистик от места в иерархически организованном тексте изучались в [6]. В обзоре [7] исследовались статистические закономерности употребления значимых слов во фрагментах текстов, в зависимости от тематических связей между такими фрагментами. Введена характеристика текста, связанная с порядком употребления значимых
слов. В [8] энтропийные оценки для разных уровней текстовых единиц использовались для определения степени «организованности/случайности» текста на разных структурных уровнях.
В ряде работ анализировались статистические законы для письменных текстов. В [9] изучались статистические законы распределения слов в тексте, такие, как закон Ципфа (зависимость частоты слова от номера этого слова в частотном словаре) и закон Хипса (зависимость числа уникальных слов от длины текста). В [10] оценивалась точность девяти известных статистических законов о распределении текстовых единиц на больших текстовых корпусах. В [11] оценивалось, насколько точно выполняется закон Ципфа для реальных и случайных текстов при нескольких вариантах порождения случайных текстов. В [12] и [13] проведен анализ статистических закономерностей в тексте, которые не объясняются законом Ципфа. Для учета таких закономерностей предложено динамическое переупорядочивание списка редких слов в буфере подходящего объема для фрагментов текста, с использованием вейбулловского распределения для длин интервалов между такими словами.
В [14] рассчитаны вероятности предсказывания различных частей речи в английском тексте, изучены особенности предсказывания слова, входящего в статистически частую четырехграмму, при условии, что первое слово этой четырех-граммы встретилось. Локальное поведение точности предсказаний слов в зависимости от их места в предложении исследовано в [15].
Результаты информационных измерений важны для построения и уточнений моделей языка, использующихся в системах оптического распознавания символов, распознавания речи, компрессии текстовых данных и в ряде криптографических приложений [16]. Среди новых областей приложения языковых моделей отметим задачи построения стеганографических систем, использующих избыточность языка. В [17] рассмотрена марковская модель порождения текстов на арабском зыке на уровне словоформ.
Вероятностные модели текстов используются также для обнаружения ошибок в текстах и для построения методов автоматической коррекции текста [18]. При высоких уровнях ошибок искаженные тексты (в англоязычной литературе «noisy texts») оказываются весьма тяжелы для восприятия человеком [19]. Особенно остро проблема коррекции искаженных текстов стоит для малоресурсных или сложных языков (например, языков семитской группы), обладающих значительным объемом алфавита, высокой энтропией и низкой избыточностью, определяющих значимость практически каждого искажения. В связи с тем, что качество работы автоматического корректора должно быть максимально приближенным к качеству работы квалифицированного специалиста-лингвиста, углубленное изучение характера и возможностей работы экспертов-лингвистов с искаженным текстом, поиск объективных закономерностей их работы при коррекции ошибок является актуальной задачей. Этой задаче и посвящена настоящая работа.
Отметим, что близкие исследования с привлечением экспертов проводились при изучении восприятия речи в условиях акустических шумов [20]. Одним из результатов этих исследований был вывод о сильном влиянии квалификации, опыта и индивидуальных качеств эксперта и, как следствие, значительном разбросе получаемых оценок.
1. Читаемость искаженных текстов. Одним из важных и одновременно трудоемких этапов при разработке средств коррекции является оценка меры доступности для понимания письменного текста [21, 22], т.н. «читаемости» искаженного текста и текста, полученного в результате его коррекции (который тоже может содержать ошибки). При низких уровнях искажений такую оценку можно пробовать проводить автоматически [23], используя те или иные модели вероятностных зависимостей между текстовыми единицами (модели языка), сочетания этих моделей и др. При высоких уровнях иска-
жений возможна неверная коррекция текста (в том числе, ошибочное изменение верных фрагментов искаженного текста), появление многозначности, когда принципиально разные варианты скорректированного текста могут хорошо согласовываться с используемыми вероятностными моделями. Автоматический выбор истинного варианта становится затруднителен. В таких случаях необходимо иметь оценки читаемости, сделанные квалифицированным экспертом с хорошим знанием целевого языка, и осуществляющим эти оценки с привлечением экстралингвистических знаний [24].
Для объективизации экспертных оценок качества коррекции искаженных текстов в работе предлагается использовать собственную программную систему лингвистической оценки читаемости искаженных текстов (ЛОЧИТ). Ее основное назначение состоит в обеспечении статистически надежных информационных измерений работы экспертов-лингвистов при коррекции искаженных текстов. Система ЛОЧИТ использует таблицы читаемости искаженных текстов - основную и расширенную.
Основная таблица читаемости (табл. 1) содержит только 4 градации, ее целесообразно использовать при наличии экспертов-лингвистов с существенно различающейся квалификацией.
Таблица 1
Основная таблица читаемости искаженных текстов
Оценка Балл Характеристика читаемости
Отлично 5 Весь текст читается без затруднений
Хорошо 4 Текст читается с некоторыми затруднениями, происходит обращение к контексту, возможно появление отдельных невосстановленных фрагментов текста
Удовлетворительно 3 Тематика определяется, текст читается фрагментарно
Неудовлетворительно 2 Тематика не определяется, читаются только отдельные слова и фразы
Расширенная таблица читаемости (табл. 2) содержит 8 градаций, позволяет
получить более детализированные оценки качества. Ее следует использовать при работе близких по квалификации экспертов.
Таблица 2
Расширенная таблица читаемости искаженных текстов
Оценка Балл Характеристика читаемости
Великолепно 5+ Текст читается без малейших затруднений
Отлично 5 Весь текст виден и восстанавливается без затруднений
Хорошо 4 Текст восстанавливается с некоторыми затруднениями, происходит обращение к контексту
Скорее хорошо 4- Текст восстанавливается со значительными затруднениями, возможно появление отдельных невосстановленных фрагментов текста
Удовлетворительно 3 Тематика определяется, но текст восстанавливается фрагментарно
Скорее 3- Тематика определяется с трудом,
удовлетворительно восстанавливаются лишь участки текста
Неудовлетворительно 2 Тематика не определяется, восстанавливаются только отдельные слова и фразы
Крайне плохо 1 Определяется только наличие текстовой структуры
2. Архитектура и функциональность ЛОЧИТ. Программная система представляет собой веб-приложение, состоящее из серверной и клиентской частей. Клиентская часть выполняется непосредственно в браузере пользователя, а серверная - на удаленном сервере. Все данные хранятся на удаленном сервере, однако некоторое «локальное состояние» все же хранится на клиенте.
Клиентская часть реализована с использованием технологии React.JS, серверная часть реализована на языке Go. Серверная и клиентская части являются кросс-платформенными, т.е. могут работать на всех популярных операционных системах Windows и Linux. Приложение построено так, что не накладывает ограничений на вид и количество обрабатываемых языков, а также на количество одновременно работающих пользователей, при условии выделения достаточных вычислительных ресурсов для работы приложения на удаленном сервере.
Серверная часть состоит из следующих подсистем:
♦ Подсистема разбора запроса пользователя.
♦ Подсистема аутентификации и проверки прав пользователя.
♦ Подсистема работы с базой данных, первичной настройки БД.
♦ Подсистема экспорта данных.
♦ Подсистема импорта данных.
♦ Подсистема настройки и управления пользователями.
♦ Подсистема обработки текстов и замера времени редактирования.
♦ Подсистема сбора статистики.
Подсистема разбора запроса пользователя служит для первоначального разбора данных, приходящих от пользователя. Она взаимодействует с подсистемой авторизации и аутентификации. Эта подсистема превращает входящие данные в формате JSON во внутренние объекты приложения, которые будут в последующем обработаны подсистемой обработки текстов и замера времени редактирования.
Подсистема аутентификации и проверки прав проверяет учетные данные пользователя - логин и пароль или же коротко живущий токен, и далее по ним определяют роль пользователя в соответствии с реализованной ролевой моделью доступа. В приложении предусмотрено две роли - пользователь и администратор системы. Пользователь может производить обработку текстов, выставлять оценку читаемости, менять свои учетные данные и т.д. Пользователь изолирован от других пользователей и не получает от них никакой информации.
Подсистема работы с базой данных и первичной настройки БД полностью инкапсулирует в себе работу с БД и конвертацию объектов приложения в строки в базе данных. Также эта подсистема отвечает за настройку схем таблиц в базе данных, корректное сохранение связей между объектами, создание индексов, изменение схемы при изменении объектов системы. Происходит протоколирование всех операций пользователя в приложении, доступен просмотр истории входов пользователя в приложение, IP-адресов, отправленных запросов и внутренних операций.
Подсистема экспорта данных позволяет экспортировать данные из приложения в машиночитаемом формате, а также добавлять в корректированный текст другую мета-информацию по желанию пользователей.
Подсистема импорта данных позволяет импортировать в приложение как отдельные тексты, так и архивы с набором текстов.
Подсистема настройки и управления пользователями предоставляет возможности администратору приложения добавлять/удалять пользователей, менять их учетные данные, приостанавливать их доступ в систему, а также осуществлять вход в приложение от имени любого другого пользователя, кроме администраторов. Администратор не может менять учетные данные других администраторов.
Подсистема обработки текстов и замера времени редактирования служит для выдачи (распределения) пользователям текстов, которые необходимо обработать, приема результатов обработки от пользователей, замера времени выполнения обработки. Данная система также получает и сохраняет оценку читаемости текста, а также позволяет отобразить лингвисту все обработанные им тексты.
Подсистема сбора статистики служит для сбора информации об обработанных текстах и отображения ее пользователю для контроля выполненной работы.
Клиентская часть выполняется непосредственно в браузере пользователя и представляет собой набор страниц приложения, текстовый редактор для редактирования и цветовой разметки текстов, хранилище учетных данных пользователя для аутентификации в серверной части.
Клиентская часть служит для отображения результатов и важнейшим ее элементом является текстовый редактор, который в зависимости от языка учитывает направление текста и предоставляет возможности по «разметке» текста различными цветами.
В приложении предусмотрено две роли пользователей - лингвист и администратор приложения. Администратор приложения может просматривать все тексты без исключения, управлять списком лингвистов и их учетными данными, может смотреть расширенную статистику о работе лингвистов, загружать тексты и назначать задания - указывать какую группу текстов должна обработать группа или конкретный лингвист (рис. 1). Также администратор может управлять списком других администраторов.
Выберите тег: ▼ -У
Номер текста язык
11 Арабский
12 Арабский
14 Арабский
23 Арабский
2 А Арабский
27 Арабский
297 Арабский
298 Арабский
299 Арабский
Рис. 1. Интерфейс администратора
Лингвисту доступна обработка текстов, то есть редактирование текста, «раскраска» его цветами красный, зеленый, синий в зависимости от трудоемкости коррекции, сохранение промежуточных данных в виде черновика, управление таймером обработки текста, а также выставление общей оценки читаемости текста. Примеры видов окон приложения в случае работы с арабскими текстами приведены на рис. 2 и 3.
ortjii о» Jjlt Jj> ¿у* ¿Hßjji jj afljij
2016 JJliji^n J Je jjUl a
o£j5 uu ¿Jifi» iU'AJ Jii-ul JAJ .»Juiluil Sj—i ^L-ii .ijiJjJl Ш —.1 ji Jbjjj JJ.V juiJ oUJUkiyi Je JJSj» .-uli'i1 j MJJ' A" s-1' Л&
■ '—'— ^ J J <(rjLijl '. t'.br_, ^ ^ Jl JilJl J. I^f-.J £ _ Sj£. j'J . JjV* J^Al JildH Jc jSU. e^j Jfl i+i. üjl^Jj ,S[ '"j .¿JiUl i^a^l U—ill Jfi
. ' - ■ Jj jjSUIi j. jjjJ^Jlj JjajlJ iLjji. iJ AijjJl J' . J_i .ijL.j. Jj .¿u?Jl JjJil J ijSjJ > i_u_l J.jLi. j,..<_u jb—¡i Jtj .¡л 1 iL u JS ,.£. j
J uii^ ^ЪЦн dUj «ЧАН J "¿ffljW" Ü Jiii -Ul JJij •J-'JJ Oi-W* UjJblj y+a! Jj M-ljl O&J* "»Л1 M* ifJj-^j- Jfisi JW^»i Ji-bj Jl* -JiH'A blii jl
.U jlCj v-iU J ^Jjll fj»^1 J^j1 U*»JJ ."Sj-St-uV1 ilj-Jl" Jj JuVl jiuljll JSij Jj ,*i»Vi.
stai^ oAJ" ¿1 w ji, .«uJ" ijj-w -o1 Ji) J1. jijnJj ijcjj ^ j jii'ji iW jol jjj .Wi-V j4jiji' ¡f. Jas > .JV*' "i+w js—"UA-V1 У>>г ¿J. ь-jj v Js»j
■jjj^1 ^Ublll J Ji. jl ,1+Ijj ijjji. iJijI j. 1 —- ^ lib J il^jVl Jyill ¡-«blVl .SjSjj-.'SI ijUjiuJl "jjj—5" ÜJJJ V 11 ,Lmi jSjll ^ijt» Jij5j jl_)jJl Jai»! jiJ Js. itjjM Ja ^ >u ¿a jjjjdj je jj ,-OJ a^Uji .Jxttl^i jLi'jt jk- -и »US -j tfjj) u! «jj^jHi .jj&jijii ^jb ^ -r-.'у^ ^ -y. ^Lüil j_jjSj Ujlu
Jjbv Iii jSlj .^JIjJIj ^'jj-JI jjilJI c^jj -M-ljl ull Jj^ ^ill -^Jj-Jl ^-.Jjll -JIUII Jl J-JB Uii Jj=jljll lJH ^ jJj^LiiJ jj^lJ1 > V-i O1^ ^f^1 ^ Ы
¿jji jUii j» ujij Ijij^ bun jJ bk j-? ■-; jj- JJI -4 U JS ля ¿Hi ' ." •' U«l>» o'-ij) sLÄ«и»' •; ■ -ol». ji utu -Lfijjifi ^J1 JW JJ^-J
U^jjj jj ' v -SjjI-ic. Ä+il Jl j lifcj .äjjjj - -*Jc. jjib »JÜ .l^jc jjjiil ..jjj jl jjl - Ujj .acliil jl --I; ^Vl . Л. JjJIj j\ jjl
СИ V^J-V V'ji^ с51-^11 <i» 4-i'J- "V-lJ1" ^lail-jb - Jj .ialjj.'il jlj-аЫ jljcl Jc '^ji U-Ijltl ^ "Jl II .1*1 -J^'-U CjbUul jj Ului . J Jf- JS vuljj -li ^
.Sjjl Ijl+ill JjjaiS .illi jiljUi jl Ijjlf vl'j-^- J^
ikiJI ^Sjj.'jl ^jll /Läj Ubjl ^^»jijli oUi! bVl оЦ ^.IJI ^j^JI l^ijUJI .a^j .y.jj ü« V« УдЛ IjjjJI a^jUJI ¿Ji .jjLbJI jjj^iJI Jl liliiil Ijl U
ja JS jaj ^jiJI jjc t uljj Jj* jSJj j jaj^_jll I ti^jjii^ j' - ^i-'-i* U^j - - Д• l.l ; -_^JU^B »ja _j_i: у ^Jl . jjiiilS ^jib» ц iB JjSa-j <jb ■ j
l+jb .l-ll! jjj- j-JJ jsjuiiuj jj£äl j^-il jiclj .y-1 a— jk j-^jj .i—iljb-jl ,ja ¿й, jl.v' j. ^-jj^ji j»ui j. ijlbs ^,511 ü.uji b^uls ft. j .jjll j. jSI jjil jjjj lj] jsj -alia j^sjll j jljj3 '^'i .ijjj. jiyl jj jj^fl jij .jjlbls sjjJI Jji j- —' ijjj.^ji ijjjjl ■uj ■■ 1-'iju sj- ii-^jjj jsbj j ujjjj jj jlijll 4i JSfjJ j»l je bjsj jjj3 ujb ".ллди" y^j s^jji «i^,. j -j <-bj jjjl ji ш .ци 3JlLl>
'' Jc Jj m»Mj j- ■ ¿Lj-'ia J: j;-1; ¿и tfjUJ —1 j;' j;jj ^jll ."'JLj'^" Jjiil j;. j^l jl jl j« jiVtj ^^ - l-j/jV j V«
^ц» -t. 4lb ..i^Jl Jl ^J."J'l ьjUJI Jill J^i л .Ojjiliai jl Jiv'J1 J Д. .JJ .-Uilj^j JjJji'j-yij Jllljl.nilill J& I Ijl .1 ЦЬ . JL)J
.4jSj_hVI Olj'-V JS1 jjjVl Ojkl' "J^juf ülu jilj i^uawi Wj .jt jl Jl cjjU Jj Jc lU»j *1j .. V (oll—'-j) ^Jj^ll ^jjl! jjj J jij *Jj ^Jij1 J JjS'j-iV1 t'j—¡' J Llj-^'vl Jjii jj^LiJI J .^.".'b.jlill j Jl ¿UjJj j'jJI .-¡..л Jj j« j^j L,j Jj^jil 0U3 AjjjiJI ^iViti Miß j» li^ikjt
.yjjill jljjl 4j> ¿ILJ b£ i>J J j2SI UijiJI .JA JJÜ WJ -i^"' Je 'ji.l.jj .l^blj i^jj."»! oU-iaiV1 Je ^J»1 jJ ¿c 'jib J M»J JJJ-JIJ MJJI jl J1 JIjbJl ji U1L. JJLJ V
Sjj-JI ¿ib jl^l'il -JL» Jli ^J L.I .jjlj ¿J.'ll ^jl JUIJ . jjj-il JT ^JJ Jj—а» IJIJUJJ •Л-Ij»Jj i^jljU ji'. j—Uli J—J .ijjjJI «JJJ±JJ
Jj^l JijJI j-ijS Jo Jikj ,J J».j»i .jUiDVI Ч\ Ыь Ui .jsji Jjjj Ui. ."iJiu jLi jjUIV'j .¿lb jjc jji.1 ciljbi.'dlLü "i jSJ_, .'^.'i J.I iuM J—1 V J». iJJjll s^j Jl Jj_jj i^S JiUD S
ЭКСПОРТ
Рис. 2. Разметка текста лингвистом
Оценка читаемости. Эксперт-лингвист после анализа представленного искаженного текста выставляет оценку читаемости (рис. 3).
\VebText [Пользователь]
ГОТОВЫЕ ТЕКСТЫ СТАТИСТИКА
Порядковый номер текста: 297, Язык: Арабский
Оригинальный текст
СТАРТ ПОТРАЧЕНО СОХРАНИТЬ ЧЕРНОВИК
Искаженный текст
j i' jj "v j "
ii J JJJ .üji JSaJ, .^vi .Jl i*jjS J;
»jjbjyi ijVi j- '^-i' ibi ^ i-ji- Jji j. 'ji 13 i ¿i^ij uj*J' .b^c'j ^iijbi ->250 j. jS' «—j Jp J—jj
JJJ.JJ '+Jjijj .2008 ^jjii i£j» ■-
•jjt-V1 ijJ —г " JjJ ^¡j.
•i-i—J L.j'—J jsa! jB-i- -'-с ^j-J ' j-'i'j
■J 1 jL> bjbj) iii Ji ijjjjSyi i__, IVIM J jLi
„¿±>2 JUS bÄJ|j bjj^ ¿Uij Jj^JjJ 9 Jj 1998 > I^C tJbl. Jj^. Je -«Jjj »V—1 —
> 230 j .'«Sj ^JJ—i j. -^jJ/1 'j^-V' ^ь; j. ^.jLJI Jj>— -JJ.XL j—j Jij 4AJV Jt-u 'j^' Jij 'Jjj ^r- J IJL-JS-J-JI i—JSi.
Jy ..i'j --jSaJ1 ii^ J1 -.r ..I' ijbc —I Jjj-? -.-Jt j'
J'i. J Ij3_.j J J: Ujj« ^ J_J| Jti,. Jtyl ^-Sj-'J^ '^.jij r^LJ i—j «JJJC J J:
•I" j' jjijj jfj -bjj Ik. J
J—1 ^ •«' jJjS J^J W4 V-b- lie .'ujjJ Jl i-J-J—S jj Jj-i i-jc Jjj
J jUa /JJJ ¿IL. .»Ц ,» »jlj; Ji.. Jc JJJ^ -jS-- ^Jij» J-iJ1 bJl Jjj J. Si
aji у jv ^ji. j^vj1 j* -"jjjit j' jjj»3 "fjjj
jl jjUi .olfbaJlj Jjl jjl Jjj 20 у —iL UJU i-1. J jj jb J -S
^jj—j i-jb-i'j ^ jjj-ji .jjj jjjjsj '<¡^2 wi jj—>
•^дй Jl J—11 JjJ "-Ч1 л"
j. '-Jl .i—jb_Ji ^jjf j-jij .I'J jijbjj V J^i hue? Jj i£lO* Jr-^i ¡Jj et^ О* 2501> JB j Up jl—jj
4J J JÜJI у .-Jj ^ I i. .Г.' .11 j. - jl -J VI •■■ -Л-1 ^IJJ : t : . ъ J I,
JSjijl jih-'j .4— jlljl Ui _jJ J^l ,'i jl, jj bt» jl_, .2008 X .J^'— OjjS JSJ» ' ■ .'-J
jjj^li jijjj ^ j. " r'—j^i « -
_jji" 4Sj. > jjS-i' ,iui_Ji <JJJT/1 J— JVji. jiii. It J—.J i jwl'j
'лАй Jji-'-iAJjCf JSSuf/1 i-iJ-J '-^Д'- J Л
20.
ijbljJlj
230 JJ)>WSJ 2 v .^jjir/i wijJ» ^ ^.jW1 J—Ti' Jji— Jij
.VAjV1 J j- '-i' j»-' Jj bjj ijj- J ijl—j j— i-Utai JSi. j.
J! iv j»—* j UjS-j' j^ <ad JfUUj jju. -j —v JUJ i "a*aa»" г-vj
js-i j. 'a. j1 j '-«jj» v31' j-1' aj •> 1 j^^-jii vw ^ujt j
'«>'-'"—x.'j J -'-jj J
1 ^J .jj^jjjli Uj '^«iij UJ^J Jj—. Ui Jl ijjLJi .Jc jj JiiJ' tjjc jhj
j—J /JjjjI J1L« .Iii—f ^¡jL. jj. . Jc
jij^ "^b- -e jü"- j—^jjjyxj j' jij j—bj' jjjj 5-s. yj
J jjifiji jlc j^-is j. -"^jicji jjj»: "j-jjj1
jl ji^i J .^X—Jjj'J^ ^JJ JJJ jjii .'_—UJ jjj, 20 ^ ^jjt J-b. j. jUljjjli ji -S
..jl i-jUJ'j ^jj^IJ ^iii ^ jjSj^jbiJi JV- jjijj;
Оценка читаемости текста - *
СОХРАНИТЬ ЧЕРНОВИК
Рис. 3. Оценка читаемости текста
Достоверность слов в искаженном тексте. Эксперт-лингвист, просматривая текст, отмечает в нем цветом фрагменты текста, которые он считает искаженными (недостоверными), оставшиеся фрагменты текста не имеют искажений (достоверные фрагменты) и остаются без цветовой разметки (рис. 2).
Трудоемкость коррекции искаженных текстов. В процессе коррекции искаженного текста эксперт-лингвист отмечает зеленым цветом слова и сочетания слов, которые исправляются без существенных усилий. Скорректированные со значительными усилиями фрагменты текста эксперт отмечает синим цветом. Красным цветом отмечаются участки искаженного текста, которые лингвисту не удалось однозначно скорректировать (рис. 2).
3. Специфика коррекции экспертом-лингвистом искаженных текстов.
На качество коррекции искаженных текстов экспертами-лингвистами влияют следующие факторы:
♦ степень искажения текста;
♦ уровень владения экспертом выбранным языком;
♦ уровень сложности текста (грамматика, лексика, стиль);
♦ степень знания экспертом тематики текста, а также различных реалий (местных топонимов, персоналий, названий СМИ, конкретных событий и т.п.), которые могут в нем упоминаться.
При восстановлении искаженных текстов большую роль играет специфика языка. Например, для арабского языка - это особенности письменного оформления текстов, в частности:
а) практически полное отсутствие в текстах огласовок, обозначающих краткие гласные, что усиливает смысловую неоднозначность слов и во многих случаях требует обращения к контексту;
б) отсутствие заглавных букв;
в) сложная морфология: преобладающее построение слов на основе трех корневых частей слова (харфов) с соответствующей аффиксацией по определенным моделям, характерным для какой-либо части речи и выражающим те или иные грамматические и/или лексические значения [25];
г) высокая частотность несовпадения границ лексемы и графического слова (токена), когда один токен может включать от двух до четырех лексем. При этом к "ключевому" слову в препозиции могут присоединяться однохарфовые предлоги, союзы или частицы, а в постпозиции - личные местоимения (табл. 3).
Таблица 3
Пример словообразования с четырьмя лексемами
Токен Лексемы Перевод
Л^ Л^ высказывание
А- + Л^ его высказывание
А- + Л^ + Л у его высказывания
А ^аК А- + Л^ + Л + ^ поэтому у его высказывания
В препозиции к ключевому слову в токене может стоять и определенный артикль = Л^ + Л1), перед которым также возможно добавление однохарфовых предлогов, союзов и частиц.
Значительную трудность при коррекции искаженных текстов на арабском языке представляют короткие слова (состоящие из 3-5 харфов), где при искажении заменяются, либо опускаются один или несколько корневых харфов. Эксперт может правильно корректировать фрагменты даже сильно искаженного текста, если эти фрагменты представляют собой устойчивые, либо часто встречающиеся словосочетания (например, "вдобавок к", "министр иностранных дел"), или они несколько раз встречаются в одном тексте, но с разными искажениями.
4. Описание и результаты экспериментов. Для оценки качества ручной коррекции, выполненной экспертами-лингвистами, и автоматической коррекции [18], осуществляемой программно на персональном компьютере, использовалось 100 искаженных текстов на арабском языке. В качестве текстов использовались аналитические статьи общественно-политической направленности, опубликованные в крупнейших электронных СМИ Алжира, Египта, Ирака, Ливана, Палестины, Саудовской Аравии, Сирии и Туниса в 2018-2019 гг. Тексты подвергались случайным искажениям различных типов и уровней, описанным в [23]. Средняя длина
текстов после искажений составила 3347 символов. В качестве экспертов выступали студенты ИСАА МГУ, изучающие арабский язык. Рассматривалось два варианта условий, в которых производится ручная коррекция: 1 - эксперт не ограничен по времени, 2 - время коррекции ограничено 30-ю минутами на каждый корректируемый текст. При работе автоматического корректора время не ограничивалось (оно составляло до одной минуты на текст). Качество коррекции оценивалось по значению F1-меры, равного гармоническому среднему точности и покрытия. Точность - дополнение до единицы отношения количества слов в неверных коррекциях к количеству слов в искажённых фрагментах текста. Покрытие - отношение количества правильно скорректированных слов к общему количеству слов в искажённых фрагментах текста.
На рис. 4 представлены нормализованные гистограммы распределений экспериментально полученных значений F1-меры, соответствующих результатам коррекции тремя экспертами (в двух вариантах условий, с ограничением по времени и без, по 50 текстов в каждом варианте) и автоматической коррекции (100 текстов). Гистограммы построены с помощью функции SmoothHistogram пакета Mathematica ver.10. По оси абсцисс отложено значение F1-меры в процентах, по оси ординат - относительная доля текстов.
Рис. 4. Гистограммы распределения значений F1-меры
Из графиков на рис. 4 видно, что результаты эксперта 1 заметно хуже результатов автоматической коррекции, результаты эксперта 2 - сопоставимы или немного хуже, результаты эксперта 3 в среднем лучше, чем результаты автоматической коррекции. Ограничение по времени для работы экспертов 1 и 3 не оказывает существенного влияния на точность коррекции. В отличие от них, ограничение времени коррекции для эксперта 2 оказывает заметное влияние на точность коррекции (без ограничения времени она заметно выше).
Таким образом, точность ручной коррекции существенно зависит от квалификации эксперта-лингвиста. В случае очень хорошего знания языка эксперт корректирует искаженный текст точнее, чем автоматический корректор. При этом введенное ограничение на время проведения коррекции незначительно влияет на качество работы. В случае коррекции искаженного текста квалифицированным экспертом результаты его работы несколько ниже точности автоматического корректора. Однако если эксперту предоставить дополнительное время для работы, он заметно улучшает свои результаты. Для эксперта-лингвиста с квалификацией ниже средней точность коррекции искаженных текстов заметно хуже, чем точность работы автоматического корректора.
Выводы. Для объективизации экспертных оценок информационных характеристик языка в задаче коррекции искаженных текстов разработана программная система лингвистической оценки читаемости искаженных текстов. Программная система реализована как веб-приложение, состоящее из серверной и клиентской частей. Клиентская часть выполняется в браузере пользователя, а серверная - на удаленном сервере. Система позволяет экспертам-лингвистам корректировать искаженный текст, выставлять оценку читаемости искаженного и скорректированного текстов, оценивать достоверность участков этих текстов, размечать фрагменты текстов по трудоемкости коррекции, а также проводить автоматизированную обработку результатов работы экспертов. Продемонстрирована эффективность ее использования для сравнения результатов ручной и автоматической коррекции искаженных текстов на арабском языке. Выявлено существенное влияние квалификации эксперта-лингвиста на качество ручной коррекции.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Shannon C.E. Prediction and entropy of printed English // Bell Syst. Techn. J., Jan. - 1951.
- P. 50-64.
2. Пиотровский Р.Г. Информационные измерения языка. - Изд-во «Наука», Лен. отд., 1968. - 117 с.
3. Яглом А.М., Яглом И.М. Вероятность и информация. - 5-е изд., стереотипное. - М.: КомКнига, 2007. - 512 с.
4. Al-SuwaylM.I. On the entropy of Arabic // The Arabian Journal for Science and Engineering.
- 31 Oct. 1991. - Vol. 16, Issue 4 (s). - P. 557-563.
5. Manin D.Yu. Experiments on predictability of word in context and information rate in natural language // J. Information Processes. - 2006. - No. 6 (3). - P. 229-236.
6. Alvarez-Lacalle E., Dorow B., Eckmann J.-P., Moses E. Hierarchical structures induce longrange dynamical correlations in written texts // Proceedings of the National Academy of Sciences of the United States of America. - 2006. - Vol. 103 (21). - P. 7956-7961. - Doi: 10.1073 pnas.0510673103.
7. Montemurro M.A. Quantifying the information in the long-range order of words: Semantic structures and universal linguistic constraints // Cortex. - 2014. - Vol. 55. - P. 5-16.
- Doi:10.1016/j.cortex.2013.08.008.
8. Estevez-Rams E., Mesa-Rodriguez A., Estevez-Moya D. Complexity-entropy analysis at different levels of organisation in written language // PLoS One. - 2019 May 8;14(5):e0214863.
- Doi: 10.1371/journal.pone.0214863.
9. Van LeijenhorstD.C., Van der Weide Th. P. A formal derivation of Heaps' Law // Information Sciences. - 2005. - Vol. 170 (2-4). - P. 263-272. - Doi:10.1016/j.ins.2004.03.006.
10. Altmann E.G., Gerlach M. Statistical Laws in Linguistics // in: M. Degli Esposti et al. (eds.), Creativity and Universality in Language. Lecture Notes in Morphogenesis, Springer, Cham, 2016. -P. 7-26. - Doi: 10.1007/978-3-319-24403-7_2.
11. Ferrer-I-Cancho R., Elvevag B. Random texts do not exhibit the real Zipf s law-like rank distribution // PLoS One. - 2010 Mar 9, 5 (3):e9411. - Doi: 10.1371/journal.pone.0009411.
12. Serrano M.A., Flammini A., Menczer F. Modeling Statistical Properties of Written Text // PLoS One. - 2009. - No. 4 (4), e5372. - Doi: 10.1371/journal.pone.0005372.
13. Tanaka-Ishii K., Bunde A. Long-Range Memory in Literary Texts: On the Universal Clustering of the Rare Words // PLoS One. - 2016 Nov 28, 11(11):e0164658. - Doi: 10.1371/journal.pone.0164658.
14. Hahn L.W., Sivley R.M. Entropy, semantic relatedness and proximity // Behavior Research Methods. - 2011. - P. 746-760. - Doi: 10.3758/s13428-011-0087-7.
15. Yu S., Cong J., Liang J., Lie H. The distribution of information content in English sentences // Retrieved from https://arXiv: 1609.07681, 2016.
16. Teahan W., Cleary J. The Entropy Of English Using PPM-based Models // Proceedings of Data Compression Conference-DCC'96, IEEE Computer Society Press, 1996. - P. 53-62.
17. Alghamdi N., Berriche L. Capacity Investigation of Markov Chain-Based Statistical Text Ste-ganography: Arabic Language Case // In Proceedings of the 2019 Asia Pacific Information Technology Conference (APIT 2019). ACM, New York, USA. - P. 37-43. - Doi: 10.1145/3314527.3314532.
18. Мельников С.Ю., Пересыпкин В.А. О применении вероятностных моделей языка для обнаружения ошибок в искаженных текстах // Вестник компьютерных и информационных технологий. - 2016. - № 5. - С. 29-34. - Doi: 10.14489/vkit.2016.05.pp.029-033.
19. Subramaniam L. V. et al. A survey of types of text noise and techniques to handle noisy text // Proceedings of The Third Workshop on Analytics for Noisy Unstructured Text Data, July 2324, 2009, Barcelona, Spain. - Doi: 10.1145/1568296.1568315.
20. Потапова Р.К., Потапов В.В., Хитина М.В. Определение темы текста, воспринятого в затрудненных условиях (экспериментальное исследование) // Proceedings of the 14th International Conference "Speech and computer" (SPECOM 2011), Moscow-Kazan, 2011. - C. 168-172.
21. Ребер А.С. Большой толковый психологический словарь: Основные термины и понятия по психологии и психиатрии: В 2 т. Т. 2: П-Я (пер. с англ. Чеботарева Е.Ю.). - М., -АСТ, Вече, 2003. - 560 с.
22. Dubay W.H. The Principles of Readability. Cosa Mesa, CA: Impact Information. 2004. - 72 p.
23. Бирин Д.А., Мельников С.Ю., Пересыпкин В.А., Писарев И.А., Цопкало Н.Н. Об эффективности средств коррекции искаженных текстов в зависимости от характера искажений // Известия ЮФУ. Технические науки. - 2018. - № 8 (202). - С. 104-114.
24. Ширинкина Л.В. Восприятие текста как психологический феномен: дисс. ... канд. пси-хол. наук. - Пермь: ПГУ, 2004. - 235 c.
25. Benajiba Y., Rosso P. Towards a measure for Arabic corpora quality // In Proc. of the International Colloquium on Arabic Language Processing - CITALA-2007. - Rabat, Morroco June 18-19. 2007. - P. 213-221.
REFERENCES
1. Shannon C.E. Prediction and entropy of printed English, Bell Syst. Techn. J., Jan., 1951, pp. 50-64.
2. PiotrovskiyR.G. Informatsionnye izmereniya yazyka [nformation dimensions of the language]. Izd-vo «Nauka», Len. otd., 1968, 117 p.
3. Yaglom A.M., Yaglom I.M. Veroyatnost' i informatsiya [Probability and information]. 5 ed. Moscow: KomKniga, 2007, 512 p.
4. Al-Suwayl M.I. On the entropy of Arabic, The Arabian Journal for Science and Engineering, 31 Oct. 1991, Vol. 16, Issue 4 (s), pp. 557-563.
5. Manin D.Yu. Experiments on predictability of word in context and information rate in natural language, J. Information Processes, 2006, No. 6 (3), pp. 229-236.
6. Alvarez-Lacalle E., Dorow B., Eckmann J.-P., Moses E. Hierarchical structures induce long-range dynamical correlations in written texts, Proceedings of the National Academy of Sciences of the United States of America, 2006, Vol. 103 (21), pp. 7956-7961. Doi: 10.1073 pnas.0510673103.
7. Montemurro M.A. Quantifying the information in the long-range order of words: Semantic structures and universal linguistic constraints, Cortex, 2014, Vol. 55, pp. 5-16. Doi:10.1016/j.cortex.2013.08.008.
8. Estevez-Rams E., Mesa-Rodriguez A., Estevez-Moya D. Complexity-entropy analysis at different levels of organisation in written language, PLoS One, 2019 May 8;14(5):e0214863. Doi: 10.1371/journal.pone.0214863.
9. Van Leijenhorst D.C., Van der Weide Th. P. A formal derivation of Heaps' Law, Information Sciences, 2005, Vol. 170 (2-4), pp. 263-272. Doi:10.1016/j.ins.2004.03.006.
10. Altmann E.G., Gerlach M. Statistical Laws in Linguistics, in: M. Degli Esposti et al. (eds.), Creativity and Universality in Language. Lecture Notes in Morphogenesis, Springer, Cham, 2016, pp. 7-26. Doi: 10.1007/978-3-319-24403-7_2.
11. Ferrer-I-Cancho R., Elvevag B. Random texts do not exhibit the real Zipf's law-like rank distribution, PLoS One, 2010 Mar 9, 5 (3):e9411. Doi: 10.1371/journal.pone.0009411.
12. Serrano M.A., Flammini A., Menczer F. Modeling Statistical Properties of Written Text, PLoS One, 2009, No. 4 (4), e5372. Doi: 10.1371/journal.pone.0005372.
13. Tanaka-Ishii K., Bunde A. Long-Range Memory in Literary Texts: On the Universal Clustering of the Rare Words, PLoS One, 2016 Nov 28, 11(11):e0164658. Doi: 10.1371/journal.pone.0164658.
14. Hahn L.W., Sivley R.M. Entropy, semantic relatedness and proximity, Behavior Research Methods, 2011, pp. 746-760. Doi: 10.3758/s13428-011-0087-7.
15. Yu S., Cong J., Liang J., Lie H. The distribution of information content in English sentences, Retrieved from https://arXiv:1609.07681, 2016.
16. Teahan W., Cleary J. The Entropy Of English Using PPM-based Models, Proceedings of Data Compression Conference-DCC'96, IEEE Computer Society Press, 1996, pp. 53-62.
17. Alghamdi N., Berriche L. Capacity Investigation of Markov Chain-Based Statistical Text Steganog-raphy: Arabic Language Case, In Proceedings of the 2019 Asia Pacific Information Technology Conference (APIT2019). ACM, New York, USA, pp. 37-43. Doi: 10.1145/3314527.3314532.
18. Mel'nikov S.Yu., Peresypkin V.A. O primenenii veroyatnostnykh modeley yazyka dlya obnaruzheniya oshibok v iskazhennykh tekstakh [On the use of probabilistic language models for detecting errors in distorted texts], Vestnik komp'yuternykh i informatsionnykh tekhnologiy [Bulletin of computer and information technologies], 2016, No. 5, pp. 29-34. Doi: 10.14489/vkit.2016.05.pp.029-033.
19. Subramaniam L.V. et al. A survey of types of text noise and techniques to handle noisy text, Proceedings of The Third Workshop on Analytics for Noisy Unstructured Text Data, July 2324, 2009, Barcelona, Spain. Doi: 10.1145/1568296.1568315.
20. Potapova R.K., Potapov V.V., Khitina M.V. Opredelenie temy teksta, vosprinyatogo v zatrudnennykh usloviyakh (eksperimental'noe issledovanie) [Determining the topic of a text perceived in difficult conditions (experimental study)], Proceedings of the 14th International Conference "Speech and computer" (SPECOM2011), Moscow-Kazan, 2011, pp. 168-172.
21. Reber A.S. Bol'shoy tolkovyy psikhologicheskiy slovar': Osnovnye terminy i ponyatiya po psikhologii i psikhiatrii [Large explanatory psychological dictionary: Basic terms and concepts in psychology and psychiatry]: In 2 vol. Vol. 2: P-Ya (transl. from engl. Chebotareva E.Yu.). Moscow, -AST, Veche, 2003, 560 p.
22. Dubay W.H. The Principles of Readability. Cosa Mesa, CA: Impact Information. 2004, 72 p.
23. Birin D.A., Mel'nikov S.Yu., Peresypkin V.A., Pisarev I.A., Tsopkalo N.N. Ob effektivnosti sredstv korrektsii iskazhennykh tekstov v zavisimosti ot kharaktera iskazheniy [On the effectiveness of correction tools for distorted texts depending on the nature of distortions], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2018, No. 8 (202), pp. 104-114.
24. Shirinkina L. V. Vospriyatie teksta kak psikhologicheskiy fenomen: diss. ... kand. psikhol. nauk [Perception of text as a psychological phenomenon: cand. psychol. sc. diss.]. Perm': PGU, 2004, 235 p.
25. Benajiba Y., Rosso P. Towards a measure for Arabic corpora quality, In Proc. of the International Colloquium on Arabic Language Processing - CITALA-2007. Rabat, Morroco June 18-19. 2007, pp. 213-221.
Статью рекомендовал к опубликованию дтн, профессор Р.В. Мещеряков.
Германович Андрей Валерьевич - Московский государственный университет им. М.В. Ломоносова, Институт стран Азии и Африки; e-mail: [email protected]; 125009, г. Москва, ул. Моховая, д. 11, стр. 1; доцент кафедры арабской филологии, к.и.н.
Мельников Сергей Юрьевич - ООО «Линфо»; e-mail: [email protected]; 127018, г. Москва, ул. Образцова, д. 38, стр. 1; тел.: +79037222824; зам. директора; к.ф.-м.н.
Сидоров Евгений Сергеевич - эксперт.
Пересыпкин Владимир Анатольевич - ФГУП «НТЦ «Орион»; e-mail: [email protected]; 127018, г. Москва, ул. Образцова, д. 38, стр. 1; научный консультант; к.т.н.
Цопкало Николай Николаевич - Южный федеральный университет; e-mail: [email protected]; 347922, г. Таганрог, ул. Чехова, 2; с.н.с.; к.т.н.
Germanovich Andrey Valer'evich - Moscow State University, Institute of Asian and African Studies; e-mail: [email protected]; 11, Mokhovaya street, str. 1, Moskow, 125009, Russia; assistant professor at the arabic philology department; PhD.
Melnikov Sergey Yur'evich - OOO "Lingvisticheskie I informatsionye tehnologii" (Limited Liability Company); e-mail: [email protected]; 38, Obrazcova street, str. 1, Moskow, 127018, Russia; deputy director;cand. of phys. and math. sc.
Sidorov Evgeniy Serggevich - expert.
Peresypkin Vladimir Anatol'evich - FGUP "NTC "Orion""; e-mail: [email protected]; 38, Obrazcova street, str. 1, Moskow, 127018, Russia; research consultant; cand. of eng. sc.
Copkalo Nikolaj Nikolaevich - Southern Federal University; e-mail: [email protected]; 2, Chekhova street, Taganrog, 347922, Russia; senior researcher; cand. of eng. sc.