_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №6/2016 ISSN 2410-700Х_
УДК 004.912
Яцко Вячеслав Александрович
д. филол. наук, профессор ХГУ им. Н.Ф.Катанова,
E-mail: [email protected]
ОЦЕНКА ЭФФЕКТИВНОСТИ СТАТИСТИЧЕСКОГО ПОКАЗАТЕЛЯ "ОТНОШЕНИЕ ШАНСОВ"
Аннотация
Предлагается методика оценки эффективности применения статистического показателя "отношение шансов" с целью взвешивания терминов текстовых документов, что имеет значение для их автоматической классификации
Ключевые слова
Автоматическая обработка текстовых документов, взвешивание терминов, показатель отношения шансов
Взвешивание терминов широко применяется в информационно-поисковых системах, системах автоматического реферирования и классификации, а также других предметных областях, связанных с автоматической обработкой текстовых документов [1]. В результате взвешивания каждому термину текстового документа приписывается числовой коэффициент и составляется ранжированный список. Термины с наиболее высокими коэффициентами, находящиеся в верхней части списка, считаются статистически значимыми (salient) и могут использоваться в качестве словаря, отражающего содержание данного документа/документов или/и его/их идентификации. Единицами текста (терминами), которым приписываются весовые коэффициенты в процессе взвешивания, выступают отдельные символы (графемы), словоформы (токены), основы слов (стеммы, леммы), словосочетания (н-грамы), предложения, группы предложений, а также и текст в целом.
Цель настоящей статьи - разработать и описать методику оценки эффективности взвешивания терминов текстового документа на основе статистического показателя "отношение шансов" (odds ratio -
OR) [2].
По формуле отношения шансов (1) проводится взвешивание, в результате которого каждому термину класса С приписывается числовой коэффициент, указывающий на его дискриминирующую силу, то есть способность уникально идентифицировать некоторый текст, относящийся к данному классу.
где d, a, c, b - ячейки в таблице сопряженности.
OR = (1)
с*Ъ
Таблица 1
Таблица сопряженности
Термин Класс Сумма
C ~C
w a b S3
~w c d S4
Сумма S1 S2 S5
В данной таблице: a - частотность термина w в классе C; b - частотность термина w в классе ~C; c -частотность остальных терминов в классе C (c=S1 - a); d - частотность остальных терминов в классе ~C (d=S2 - b).
Вследствие большого разброса числовых значений терминов в текстовых документах мы предлагаем использовать модифицированный вариант формулы:
„„ _ logi;(H*(q+1)) , ,
log!(t*(b+1)) ( )
Предлагаемая методика оценки эффективности включает следующие этапы.
1. Выбор текстов, представляющих класс C, и класс ~C. Целесообразно выбирать тексты, в которых совпадает основная терминология и, вместе с тем наблюдаются различия в распределении терминов по
_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №6/2016 ISSN 2410-700Х_
частотностям, что обеспечивает адекватное начисление весовых коэффициентов. Оптимальный вариант -выбор текстов с родо-видовым соотношением между ними: текст, представляющий класс C, является видом текста, представляющего класс ~C. Например, в тексте класса ~C могут обсуждаться общие проблемы предметной области, а в тексте, относящемся к классу C описываться одно из направлений этой предметной области.
2. Предварительная обработка исходных текстов.
2.1. Удаление стоп-слов - служебные слова, к которым обычно относятся артикли, местоимения, предлоги, союзы, частицы. Эти слова являются наиболее частотными, и их удаление позволяет существенно сократить размер текста. В интернете размещены списки стоп-слов для разных языков1.
2.2. Стемминг, распознавание основ слов. Весовые коэффициенты целесообразно начислять не конкретным словоформам, а основам слов, что позволяет провести более адекватное взвешивание терминов. Например, словоформы с одной семантикой computer, computers, computes, computed, computation, computations, computing, computational в процессе стемминга будут отождествлены по основе comput, что позволит начислить ей коэффициент, представляющий сумму коэффициентов отдельных словоформ. Распознавание стемм можно выполнить с помощью стеммера Paice/Husk2, либо других стеммеров, распространяемых бесплатно с открытым исходным кодом.
3. Получение исходных статистических данных. К ним относятся частотности и ранги терминов, представленные в виде ранжированного списка. Такой список можно получить с помощью бесплатно распространяемых программ статистического анализа текстов, например конкорданса AntConc 3.4.43.
4. Составление эталонного словаря текста класса C. Для этого эксперты-лингвисты выбирают из текста некоторое количество терминов (основ ключевых слов), отражающих его содержание и приписывают каждому термину числовой коэффициент, отражающий степень его значимости для данного текста. Далее производится пересечение списков, составленных экспертами, и выявляются термины, совпадающие во всех списках. На их основе составляется эталонный словарь. Так снимается субъективность экспертной оценки. Оптимальное количество привлекаемых экспертов - три-четыре человека. Меньшее количество снижает достоверность результатов, а его увеличение снижает размер эталонного словаря, так как в область пересечения попадает меньше терминов. Числовые коэффициенты, предложенные экспертами, нормализуются.
5. Получение коэффициентов терминов в тексте класса C по формуле (2). Коэффициенты нормализуются тем же способом, что и коэффициенты терминов эталонного словаря.
6. Вычисление коэффициента для каждого термина эталонного словаря, который находится по сумме коэффициента, указанного экспертом и коэффициента, полученного по формуле (2).
7. Вычисление суммы коэффициентов всех терминов эталонного словаря. Полученное число и представляет эффективность взвешивания на основе статистического показателя ''отношение шансов''.
8. Сопоставление эффективности взвешивания на основе статистического показателя ''отношение шансов'' с другими методами взвешивания. Для этого повторяются шаги 1-7. Проведённые нами предварительные эксперименты показали, что эффективность рассматриваемого метода взвешивания существенно выше эффективности взвешивания на основе вероятностных величин и взвешивания на основе распределения хи-квадрат.
Список использованной литературы
1. Яцко В.А. Методы генерации словарей // Научно-техническая информация. Сер. 2. - 2012. - № 10. - С. 14-20.
2. IEEE Transactions on pattern analysis and machine intelligence. - 2009. - Vol. 31. - Issue 4. - P. 721-735. -URL: https://www.comp.nus.edu.sg/~tancl/publications/j2009/PAMI2007-v3.pdf (дата обращения 23.06. 2016).
© Яцко В.А., 2016
1 http://snowball.tartarus.org/algorithms/russian/stop.txt
2 http ://www. scientificpsychic. com/paice/paice.html
3 http ://www. laurenceanthony.net/software.html