Научная статья на тему 'Оценка эффективности статистического показателя "отношение шансов"'

Оценка эффективности статистического показателя "отношение шансов" Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
366
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВЫХ ДОКУМЕНТОВ / ВЗВЕШИВАНИЕ ТЕРМИНОВ / ПОКАЗАТЕЛЬ ОТНОШЕНИЯ ШАНСОВ

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Яцко Вячеслав Александрович

Предлагается методика оценки эффективности применения статистического показателя "отношение шансов" с целью взвешивания терминов текстовых документов, что имеет значение для их автоматической классификации

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценка эффективности статистического показателя "отношение шансов"»

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №6/2016 ISSN 2410-700Х_

УДК 004.912

Яцко Вячеслав Александрович

д. филол. наук, профессор ХГУ им. Н.Ф.Катанова,

E-mail: [email protected]

ОЦЕНКА ЭФФЕКТИВНОСТИ СТАТИСТИЧЕСКОГО ПОКАЗАТЕЛЯ "ОТНОШЕНИЕ ШАНСОВ"

Аннотация

Предлагается методика оценки эффективности применения статистического показателя "отношение шансов" с целью взвешивания терминов текстовых документов, что имеет значение для их автоматической классификации

Ключевые слова

Автоматическая обработка текстовых документов, взвешивание терминов, показатель отношения шансов

Взвешивание терминов широко применяется в информационно-поисковых системах, системах автоматического реферирования и классификации, а также других предметных областях, связанных с автоматической обработкой текстовых документов [1]. В результате взвешивания каждому термину текстового документа приписывается числовой коэффициент и составляется ранжированный список. Термины с наиболее высокими коэффициентами, находящиеся в верхней части списка, считаются статистически значимыми (salient) и могут использоваться в качестве словаря, отражающего содержание данного документа/документов или/и его/их идентификации. Единицами текста (терминами), которым приписываются весовые коэффициенты в процессе взвешивания, выступают отдельные символы (графемы), словоформы (токены), основы слов (стеммы, леммы), словосочетания (н-грамы), предложения, группы предложений, а также и текст в целом.

Цель настоящей статьи - разработать и описать методику оценки эффективности взвешивания терминов текстового документа на основе статистического показателя "отношение шансов" (odds ratio -

OR) [2].

По формуле отношения шансов (1) проводится взвешивание, в результате которого каждому термину класса С приписывается числовой коэффициент, указывающий на его дискриминирующую силу, то есть способность уникально идентифицировать некоторый текст, относящийся к данному классу.

где d, a, c, b - ячейки в таблице сопряженности.

OR = (1)

с*Ъ

Таблица 1

Таблица сопряженности

Термин Класс Сумма

C ~C

w a b S3

~w c d S4

Сумма S1 S2 S5

В данной таблице: a - частотность термина w в классе C; b - частотность термина w в классе ~C; c -частотность остальных терминов в классе C (c=S1 - a); d - частотность остальных терминов в классе ~C (d=S2 - b).

Вследствие большого разброса числовых значений терминов в текстовых документах мы предлагаем использовать модифицированный вариант формулы:

„„ _ logi;(H*(q+1)) , ,

log!(t*(b+1)) ( )

Предлагаемая методика оценки эффективности включает следующие этапы.

1. Выбор текстов, представляющих класс C, и класс ~C. Целесообразно выбирать тексты, в которых совпадает основная терминология и, вместе с тем наблюдаются различия в распределении терминов по

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №6/2016 ISSN 2410-700Х_

частотностям, что обеспечивает адекватное начисление весовых коэффициентов. Оптимальный вариант -выбор текстов с родо-видовым соотношением между ними: текст, представляющий класс C, является видом текста, представляющего класс ~C. Например, в тексте класса ~C могут обсуждаться общие проблемы предметной области, а в тексте, относящемся к классу C описываться одно из направлений этой предметной области.

2. Предварительная обработка исходных текстов.

2.1. Удаление стоп-слов - служебные слова, к которым обычно относятся артикли, местоимения, предлоги, союзы, частицы. Эти слова являются наиболее частотными, и их удаление позволяет существенно сократить размер текста. В интернете размещены списки стоп-слов для разных языков1.

2.2. Стемминг, распознавание основ слов. Весовые коэффициенты целесообразно начислять не конкретным словоформам, а основам слов, что позволяет провести более адекватное взвешивание терминов. Например, словоформы с одной семантикой computer, computers, computes, computed, computation, computations, computing, computational в процессе стемминга будут отождествлены по основе comput, что позволит начислить ей коэффициент, представляющий сумму коэффициентов отдельных словоформ. Распознавание стемм можно выполнить с помощью стеммера Paice/Husk2, либо других стеммеров, распространяемых бесплатно с открытым исходным кодом.

3. Получение исходных статистических данных. К ним относятся частотности и ранги терминов, представленные в виде ранжированного списка. Такой список можно получить с помощью бесплатно распространяемых программ статистического анализа текстов, например конкорданса AntConc 3.4.43.

4. Составление эталонного словаря текста класса C. Для этого эксперты-лингвисты выбирают из текста некоторое количество терминов (основ ключевых слов), отражающих его содержание и приписывают каждому термину числовой коэффициент, отражающий степень его значимости для данного текста. Далее производится пересечение списков, составленных экспертами, и выявляются термины, совпадающие во всех списках. На их основе составляется эталонный словарь. Так снимается субъективность экспертной оценки. Оптимальное количество привлекаемых экспертов - три-четыре человека. Меньшее количество снижает достоверность результатов, а его увеличение снижает размер эталонного словаря, так как в область пересечения попадает меньше терминов. Числовые коэффициенты, предложенные экспертами, нормализуются.

5. Получение коэффициентов терминов в тексте класса C по формуле (2). Коэффициенты нормализуются тем же способом, что и коэффициенты терминов эталонного словаря.

6. Вычисление коэффициента для каждого термина эталонного словаря, который находится по сумме коэффициента, указанного экспертом и коэффициента, полученного по формуле (2).

7. Вычисление суммы коэффициентов всех терминов эталонного словаря. Полученное число и представляет эффективность взвешивания на основе статистического показателя ''отношение шансов''.

8. Сопоставление эффективности взвешивания на основе статистического показателя ''отношение шансов'' с другими методами взвешивания. Для этого повторяются шаги 1-7. Проведённые нами предварительные эксперименты показали, что эффективность рассматриваемого метода взвешивания существенно выше эффективности взвешивания на основе вероятностных величин и взвешивания на основе распределения хи-квадрат.

Список использованной литературы

1. Яцко В.А. Методы генерации словарей // Научно-техническая информация. Сер. 2. - 2012. - № 10. - С. 14-20.

2. IEEE Transactions on pattern analysis and machine intelligence. - 2009. - Vol. 31. - Issue 4. - P. 721-735. -URL: https://www.comp.nus.edu.sg/~tancl/publications/j2009/PAMI2007-v3.pdf (дата обращения 23.06. 2016).

© Яцко В.А., 2016

1 http://snowball.tartarus.org/algorithms/russian/stop.txt

2 http ://www. scientificpsychic. com/paice/paice.html

3 http ://www. laurenceanthony.net/software.html

i Надоели баннеры? Вы всегда можете отключить рекламу.