Научная статья на тему 'Автоматизация оценки благозвучия текстов'

Автоматизация оценки благозвучия текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
673
142
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Иванов К. В.

Статья посвящена описанию метода автоматизированной оценки благозвучия текстов на русском языке.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Автоматизация оценки благозвучия текстов»

Автоматизация оценки благозвучия текстов

Иванов К.В.

МИЭМНИУВШЭ

Аннотация. Статья посвящена описанию метода автоматизированной оценки благозвучия текстов на русском языке.

Введение

Впервые явление эвфонии начали изучать философы Древней Греции. Они ставили искусство красивой речи на один уровень с сочинением музыки и стихосложением. Аристотель утверждал: «Написанное должно быть читабельно и легко произносимо, что одно и то же».

Благозвучный текст оказывает положительный эффект на качество восприятия информации слушателем. Наличие такой своеобразной звуковой гармонии делает информацию более доступной и запоминающейся. Неестественное звучание фраз отвлекает внимание слушателя, мешает общему восприятию. Человек на подсознательном уровне теряет интерес к соответствующей теме еще на раннем этапе пути к ее пониманию, не успевая задуматься о смысле поступающей информации.

Необычный эффект эвфонии можно также почувствовать, послушав определенный музыкальный мотив, способный остаться в памяти слушателя на долгое время. Похожая своеобразная мелодичность сопровождает и устную речь, порождая особый подсознательный резонанс у субъекта, от чего информация кажется более приятной.

Постановка задачи

Если попытаться подойти к вопросу об оценке благозвучия того или иного текста с научной точки зрения, окажется, что эта оценка является исключительно субъективной мерой. В первую очередь следует отметить отличия в межнациональных языковых структурах. Даже один и тот же текст может восприниматься по-разному людьми, разговаривающими на различных языках. Это следует из того, что каждый народ имеет свою уникальную фонетическую систему, постепенно формировавшуюся в течение многих веков. Некоторые фонемы одного языка могут вовсе отсутствовать в другом, что может привести к некоторым сложностям взаимосвязи людей разных национальностей. Диалектические особенности того или иного языка делают затруднительным общение внутри одной и той же страны. Поэтому чтобы иметь научное основание для оценки благозвучия, в первую очередь, следует проводить исследования в рамках лишь одного национального языка.

Однако даже субъекты одного региона могут иметь различные представления о красоте речи. Тут следует учитывать массу факторов, на которых строится базис восприятия каждого человека в отдельности. Вопросами восприятия речи как синтеза языковых средств активно занимаются психологи [1, 2], поэтому в данной работе не будут рассматриваться частные случаи, подразумевающие индивидуальное мышление. Для наших целей необходимо выделить особые критерии, по которым оценка благозвучия стала бы наиболее объективной, актуальной для большинства людей.

Кроме того, существует ряд особенностей, которые могут исказить качество информации того или иного источника (в тексте - шрифт, материал бумаги; в речи -голос, интонация). Поэтому благозвучие следует рассматривать при моделировании идеальных условий.

Но даже если таким образом сузить область рассмотрения вопроса, остается непонятным, по каким критериям оценивать благозвучность конкретных текстов.

Обзор существующих решений

Анализ благозвучия и читабельности текстов по своей идеологии преследует одну и ту же цель - оценить и, по возможности, стилистически улучшить исходный текст. Однако из-за отсутствия четко разработанной научной базы, исследования и разработки в области эвфонической оценки текстов за все время были немногочисленны. Оценка параметров удобочитаемости представляется более понятной и осязаемой. Поэтому именно в этой области уже имеется множество наработок.

Эксперт в области анализа читабельности Рудольф Флеш разработал метод [3], оценивающий сложность текста по формуле:

ИИЕ = 206.835 - (1.015 х АБЬ) - (84.6 х АБ^ где: АБЬ - средняя длина предложения в словах; ASW - средняя длина слова.

Позже эта формула была модернизирована для русского языка в связи с тем, что средняя длина предложения в русском языке меньше, а средняя длина слова -больше:

ИИЕ = 206.835 - (1.3 х АБЬ) - (60.1 х АБ^

Данный индекс удобочитаемости признан эталонной мерой оценки читабельности и широко используется во всем мире, в частности, для анализа текстов на экзаменах в школах и университетах.

Автоматизированный индекс читабельности был разработан для ВВС США в 1967 году. Данная оценка зависит от количества символов в слове и от количества слов в предложении:

АИ1 = (4,71 х ASW) + (0,5 х АБЬ) - 21,43

В американской журналистике часто применяется Индекс Фога. Метод включает учет так называемых сложных слов, не являющихся именами собственными и имеют более 3 слогов:

И = (^Б + ^Т) х 0,4, где:

- - среднее число слов в предложении текста;

^Т - среднее число слов с длиной 3 и более слогов.

В работе [4] приведено описание программы LightReader, производящей оперативную оценку качества восприятия текстов. Система собирает количественные характеристики текста, такие как среднее количество слогов в слове, среднее число слов в предложении, среднее количество согласных звуков в слове, среднее число знаков препинания в предложении и процент многосложных слов в тексте, содержащих более трёх слогов. Легкость чтения рассчитывается по вышеупомянутой формуле Флеша.

В работе [5] описан алгоритм разработки программного продукта для экспертной оценки сложности учебных текстов. В основе этой методики - поиск признаков, характеризующих трудность восприятия: по количеству найденных формулировок, абстрактных слов и сложносочиненных предложений, формируется конечная оценка.

Офисный пакет Office от корпорации Microsoft предоставляет достаточно внушительный набор средств по работе с текстом. Среди них имеется инструмент, собирающий статистику удобочитаемости. Помимо оценки легкости чтения и подсчета количества сложных фраз, программа способна оценивать благозвучие. Описание метода расчета оценки удобочитаемости нигде не приведено. Эмпирическим путем было установлено, что алгоритм представляет собой следующие шаги:

[1] Присвоение нулевого коэффициента буквам «с», «ц», «ч», «ш», «щ».

[2] Присвоение единичного коэффициента остальным буквам.

[3] Результат - отношение количества букв с единичным коэффициентом на общее количество букв в тексте.

Очевидно, что метод, основанный лишь на исключении каких-то неблагозвучных букв, не способен дать качественную эвфоническую оценку.

Разработка метода

В учебном пособии [6] представлен наиболее подробный свод стилистических правил русского языка, позволяющих добиться максимального качества звуковой сочетаемости при соединении слов в словосочетания и предложения. На основе этих данных был отобран ряд критериев, которые, в той или иной мере, затрудняют артикуляцию:

Диагностирующие признаки, ухудшающие благозвучие слова (диссонирующие единицы):

• Наличие более 2 идущих подряд уникальных согласных;

• Наличие идущих подряд гласных (внутреннее зияние);

• Наличие более 1 шипящего звука.

Диагностирующие признаки, ухудшающие благозвучие предложения на стыке слов (диссонирующие переходы):

6. Наличие более 3 идущих подряд уникальных согласных на стыке слов;

7. Наличие одинаковых или парных друг другу согласных на стыке слов;

8. Наличие гласных на стыке слов (внешнее зияние).

Также были предложены гипотезы о влиянии длины слов и частоты употребления той или иной буквы в предложении на общую эвфоническую картину. В ходе исследований был детально проанализирован корпус скороговорок, на основе которого удалось получить конкретные показатели неблагозвучия:

12.Наличие слов, у которых более 5 слогов;

13. Отношение частоты определенной согласной к общему количеству букв в предложении превышает значение 0,12.

В результате исследований была разработана мера оценки благозвучия -эвфонический индекс (Euphony Index):

Е

1

NDT + NDU

NIL NCW

х

NUL CSL

EI =_^_CSL_y "—_y , где

TNS

NDT - количество диссонирующих переходов (Number of Dissonant Transitions);

NDU - количество диссонирующих единиц (Number of Dissonant Units); CSL - длина текущего предложения (Current Sentence Length); NIL - количество нечастых букв (Number of Infrequent Letters); NUL - количество уникальных букв (Number of Unique Letters); NCW - количество недлинных слов (Number of Compact Words); TNS - общее количество предложений (Total Number of Sentences). Чем больше полученное значение, тем благозвучнее текст.

Результаты экспериментов

Для анализа работы метода алгоритм был применен к нескольким отрывкам текстов на русском языке._

Произведение Кол-во предложений EI

Художественные тексты 273 0.815

Новостная лента 145 0.712

Скороговорки 20 0.586

Результат в интервале от 0,6 до 1 является удовлетворительным.

Результат менее 0,6 является неудовлетворительным. Исходный текст необходимо доработать.

Выводы

В данной работе был изложен алгоритм, позволяющий измерить благозвучие текста. В ходе исследования был отобран ряд признаков русского языка, которые негативно сказываются на общей эвфонической картине. Для представления оценки в числовом виде, была введена специальная мера - эвфонический индекс.

Приведенный метод актуален только для русского языка, но может быть также модернизирован и переработан и для других языков при наличии соответствующей теоретической базы. Разработанный алгоритм может послужить основой для создания автоматизированной системы улучшения благозвучия. Метод также может быть включен в уже существующие системы оценки сложности и читабельности текстов.

Список литературы

[1] Лебединский С. И. Восприятие устной научной речи: стратегии сегментации звучащей речи и идентификации терминов: монография // С. И. Лебединский. -Минск: БГУ, 2008. - 535 с.

[2] Чистович Л. А., Венцов А. В., Гранстрем М. П. Физиология речи. Восприятие речи человеком // Издательство «Наука», 1978.

[3] Rudolf Flesch. A new readability yardstick, Journal of Applied Psychology, 32, С. 221—233, 1948.

[4] Оборнева И.В. Автоматизация оценки качества восприятия текста // Вестник МГПУ. Серия «Информатика и информатизация образования». - М.: МГПУ, 2005.

[5] Криони Н.К., Никин А.Д., Филиппова А.В. Автоматизированная система анализа сложности учебных текстов. Уфа: УГАТУ, 2008.

[6] Голуб И.Б. - Стилистика русского языка // М.: Рольф; Айрис-пресс, 1997 - 448 с.

Синтаксический анализ музыкальных текстов

Ирина Голубева1, Андрей Юрьевич Филиппович2 1МГТУ имени Н.Э. Баумана, Москва, Россия. irinadanshina@mail.ru 2МГТУ имени Н.Э. Баумана, Москва, Россия. philippovich@list.ru

Аннотация. Статья посвящена изучению синтаксиса музыкальных текстов. Показана возможность применения лингвистических методов для проведения анализа. В качестве конкретного материала для исследований выбраны музыкальные рукописи XI-XVII веков. Для их анализа предложены типы отношений между знаками, составлена синтаксическая модель, проведен статистический анализ.

Ключевые слова: модель языка, синтаксический анализ, статискический анализ, анализ музыки, знаменные песнопения, семиография, древние рукописи

Введение

В настоящее время актуально изучение вопросов невербальной коммуникации человека. В сообщениях, которые передаются, могут быть не только текстовые составляющие, но и музыкальные, эмоциональные, жестовые. Вопросы познания, восприятия, понимания музыки получили названия музыкальные инфо-когнитивные технологии. Инфо-когнитивные технологии (ИКТ) - технологии, которые связанны с тем, как построены процессы обработки и восприятия информации человеком. Это позволяет рассматривать не только то, как расположены знаки в тексте, но и то, как они зависят друг от друга (синтаксис) и как музыка воспринимается человеком (семантика).

В качестве конкретного материала для исследований выбраны музыкальные рукописи XI-XVII веков, записанные в знаменной нотации ( рисунок 1). Знаменные песнопения появились на Руси в XI веке вместе с принятием христианства. Они представляют собой музыкальные тексты, записанные с помощью специальных знаков, отличающихся по своей природе от современных нот. Основные их отличия в том, что одному знаку («знамени») может соотвестсвовать несколько звуков и нет точного соответствия между знаком и высотой звука.

В результате реформ музыкальных нотаций был утрачен «ключ» к расшифровке знаменных мелодий, который позволяет точно перевести старинные песнопения в ното-линейную систему [7].

Рж. 1. Страница музыкальной рукописи в знаменной нотации

Для достоверного перевода необходимо выявлять в знаменной нотации внутренние законы, в силу которыгх мелодии записывались с помощью одних знамен, а не других.

Данная работа выполняется в рамках проекта «Автоматизированная система научныгх исследований в области компьютерной семиографии (АНСИ КС)», а также поддержана грантом РГНФ №110412025в. Было проведено исследование и выявлено, что знаменные песнопения имеют аналогичную структуру, что и естественный язык. В качестве подтверждения этого можно привести примеры аналогий между ними: Знаменный алфавит ^ Лексикон, Последовательность знамен ^ Словосочетания,

i Надоели баннеры? Вы всегда можете отключить рекламу.