Научная статья на тему 'Расширенный механизм формальной идентификации функциональных стилей русскоязычных текстов'

Расширенный механизм формальной идентификации функциональных стилей русскоязычных текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
127
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ ОБРАБОТКИ ТЕКСТОВ / АНАЛИЗ / АЛГОРИТМ / ФУНКЦИОНАЛЬНЫЙ СТИЛЬ РЕЧИ / ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ / AUTOMATED TEXT PROCESSING SYSTEMS / ANALYSIS / ALGORITHM / FUNCTIONAL STYLE OF SPEECH / SOFTWARE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Головко Николай Вячеславович

В статье представлены итоги расчета и сравнения массовых долей различных словарных групп в русскоязычных текстах. В сочетании с авторским аналитическим алгоритмом они позволяют с определенной степенью точности различать основные функциональные стили.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Extended Mechanism for Formal Identification of Functional Styles within Texts in Russian

The author presents the results of estimation and comparison of the percentage share of various dictionary groups within Russian texts. In combination with the author's previously developed analytical algorithm, these results allow us to detect the main functional styles with the specified degree of accuracy.

Текст научной работы на тему «Расширенный механизм формальной идентификации функциональных стилей русскоязычных текстов»

Расширенный механизм формальной идентификации функциональных стилей русскоязычных текстов*

Н. В. Головко (Ставропольский государственный университет)**

В статье представлены итоги расчета и сравнения массовых долей различных словарных групп в русскоязычных текстах. В сочетании с авторским аналитическим алгоритмом они позволяют с определенной степенью точности различать основные функциональные стили.

Ключевые слова: автоматизированные системы обработки текстов, анализ, алгоритм, функциональный стиль речи, программное обеспечение.

В одной из наших работ (Головко, 2009: 19) мы рассматривали вопрос о возможности разработки аналитического алгоритма, позволяющего оперативно и эффективно классифицировать русскоязычные тексты по признаку их функционально-стилевой отнесенности. Последующее изучение упомянутого вопроса, построение алгоритма и программного обеспечения, его реализующего, подтвердили возможность подобной классификации с уверенным определением типов функциональных стилей (свободный тип — формальный тип); точность типизации по двум диагностическим критериям — средней длине слова и потенциальной поли-семантичности — в конечном счете составила 97%, что свидетельствует в пользу эффективности нашего алгоритма. Тем не менее мы считаем необходимым рассматривать и вопрос о более четкой классификации, позволяющей разграничивать стили внутри указанных групп (свободного и формального типов), поскольку критерии средней длины слова и потенциальной полисемантичности, используемые в аналитическом алгоритме, имея достаточную силу для различения типов стилей, внутри указанных групп не обладают необходимым разграничительным потенциалом, что обусловлено относительной

близостью соответствующих показателей однотипных стилей.

В нашем распоряжении имеются сведения о частотности тех или иных словарных групп (данным термином мы называем фрагмент словника лексикографического издания, объединяющий заголовочные слова по признаку инициальной буквы) в текстах различной функционально-стилевой отнесенности; эти данные были получены в процессе тестирования построенного нами программного обеспечения на выборке из 100 образцов, и мы находим уместным предпринять попытку использовать их для уточнения аналитических механизмов нашего анализатора.

Поскольку программное обеспечение, реализующее алгоритм классификации русскоязычных текстов на основании формальных маркеров функционально-стилевой принадлежности (для краткости мы называем его «МФСП-анализатор»), уже продемонстрировало высокую степень эффективности в различении свободных (художественного и публицистического) и формальных (научного и официально-делового) стилей, нам остается лишь предпринять попытку обнаружить дифференцирующие признаки в пределах этих групп, не рассматривая вопрос

* Статья подготовлена в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг. (НК-523П).

** Головко Николай Вячеславович — аспирант кафедры межкультурной коммуникации Ставропольского государственного университета. Тел.: +7 (8652) 35-34-02. Эл. адрес: пу0о1оу[email protected]

о проведении границ между стилями различных типов. Для этих целей мы сопоставили среднеарифметические значения массовых долей различных словарных групп в свободных и формальных стилях, дабы выявить несоответствия показателей, которые могут быть использованы в качестве детектирующих критериев.

В итоге мы обнаружили ряд выраженных несоответствий — к примеру, переход показателя массовой доли от группы «З» к группе «И» для художественного стиля оказался более резким, а для публицистического — более сглаженным. Всего наш анализ позволил выявить десять подобных несоответствий, по пять — для каждого типа функциональных стилей. Отсюда нами был сделан вывод о том, что, изучая разности массовых долей некоторых словарных групп и сопоставляя их с эталоном, можно с некоторой точностью классифицировать тексты внутри свободного и формального типов.

В результате для свободных стилей были отобраны следующие диагностические показатели: З-И, Ф-Х, Щ-Э, Э-Ю, П-Я; в свою очередь, для формализованных стилей различительными элементами выступили корреляции В-Г, З-И, Ч-Ш, Э-Ю, Т-У. Вычислив разности для каждой пары и определив эталон в виде среднего арифметического, после чего, сравнив полученные разности с эталоном и истолковав отличие от указанного эталона соответствующим образом, мы получили следующие данные:

1) художественный стиль: 23 вердикта в пользу художественного стиля, 2 вердикта в пользу публицистического стиля (точность определения — 92 %). Совпадение всех 5 субвердиктов в пользу художественного стиля отмечено в 6 случаях, 4 из 5 — в 12 случаях, 3 из 5 — в 5 случаях. В остальных 2 случаях —

3 из 5 вердиктов совпали в пользу публицистического стиля. Соотношение верных / неверных субвердиктов: «З-И» — 17/8; «Ф-Х» — 19 / 6; «Щ-Э» — 21 / 4; «Э-Ю» — 21 / 4; «П-Я» — 19 / 6;

2) публицистический стиль: 19 вердиктов в пользу публицистического стиля, 6 вердик-

тов в пользу художественного стиля (точность определения — 76%). Совпадение всех 5 субвердиктов в пользу публицистического стиля отмечено в 10 случаях, 4 из 5 — в 2 случаях, 3 из 5 — в 7 случаях. В 2 случаях — 4 из 5 вердиктов совпали в пользу художественного стиля, в 4 случаях — 3 из 5. Соотношение верных / неверных субвердиктов: «З-И» — 18 / 7; «Ф-Х» — 19 / 6; «Щ-Э» — 16 / 9; «Э-Ю» — 16 / 9; «П-Я» — 20 / 5;

3) научный стиль: 21 вердикт в пользу научного стиля, 4 вердикта в пользу официально-делового стиля (точность определения — 84%). Совпадение всех 5 субвердиктов в пользу научного стиля отмечено в 7 случаях, 4 из 5 — в 7 случаях, 3 из 5 — также в 7 случаях. В 1 случае — 5 из 5 вердиктов совпали в пользу официально-делового стиля, в 2 случаях —

4 из 5, в 1 случае — 3 из 5. Соотношение верных / неверных субвердиктов: «В-Г» — 18 / 7; «З-И» — 20 / 5; «Ч-Ш» — 14 / 11; «Э-Ю» — 16 / 9; «Т-У» — 20 / 5;

4) официально-деловой стиль: 20 вердиктов в пользу официально-делового стиля,

5 вердиктов в пользу научного стиля (точность определения — 80%). Совпадение всех 5 субвердиктов в пользу научного стиля отмечено в 10 случаях, 4 из 5 — в 4 случаях, 3 из 5 — в 6 случаях. В 5 случаях — 3 из 5 вердиктов совпали в пользу научного стиля. Соотношение верных / неверных субвердиктов: «В-Г» — 16 / 9; «З-И» — 15 / 10; «Ч-Ш» — 20 / 5; «Э-Ю» — 23 / 2; «Т-У» — 20 / 5.

Соответственно можно заключить, что на основании дополнительной процедуры анализа некоторых ключевых разностей можно разграничивать функциональные стили с относительно высокой точностью — от 76 до 92%, в среднем — 83%. Соответственно МФСП-анализатор может быть дополнен такой процедурой для последующего четкого определения функциональных стилей.

Отметим, что подобное исследование применимо лишь после того, как основной аналитический алгоритм классифицирует изучаемый текст по его типу («свободный» — «формальный»), поскольку разностная про-

цедура построена именно на отличиях однотипных стилей, а не на признаках, которые дифференцируют тот или иной функциональный стиль вообще от всех прочих. Таким образом может быть реализовано последовательное сужение вердикта и снятие неопределенности: первым шагом является разделение по типам, вторым шагом — разграничение по конкретным функциональным стилям.

Кроме того, необходимо указать, что полученный результат существенно менее точен, нежели итог, получаемый посредством основного аналитического алгоритма. Вердикты, выносимые в процессе работы разностной процедуры, обладают недостаточной четкостью; для улучшения показателей может требоваться последующее накопление и изучение статистики на материале более объемной выборки, а также построение вспомогательных подалгоритмов, позволяющих устранять ложные срабатывания.

СПИСОК ЛИТЕРАТУРЫ

Головко, Н. В. (2009) К вопросу о формальной идентификации функционального стиля

в русском языке // Вестник Пятигорского государственного лингвистического университета. №2. С. 16-19.

EXTENDED MECHANISM FOR FORMAL IDENTIFICATION OF FUNCTIONAL STYLES WITHIN TEXTS IN RUSSIAN

N. V. Golovko (Stavropol State University)

The author presents the results of estimation and comparison of the percentage share ofvarious dictionary groups within Russian texts. In combination with the author’s previously developed analytical algorithm, these results allow us to detect the main functional styles with the specified degree of accuracy.

Keywords: automated text processing systems, analysis, algorithm, functional style of speech, software.

BIBLIOGRAPHY (TRANSLITERATION)

Golovko, N. V. (2009) K voprosu o formal’-noi identifikatsii funktsional’nogo stilia v rus-skom iazyke // Vestnik Piatigorskogo gosu-darstvennogo lingvisticheskogo universiteta. № 2. S. 16-19.

Научные проекты МосГУ, поддержанные научными фондами

Российский гуманитарный научный фонд поддержал проект по созданию научного информационного интернет-ресурса «Алгоритмы, прогнозирование и автоматизация управления финансовыми ресурсами на рынках капитала» (проект №11-02-12036). Руководитель проекта — профессор В. И. Мажукин, заведующий кафедрой математического и компьютерного моделирования МосГУ.

i Надоели баннеры? Вы всегда можете отключить рекламу.