Научная статья на тему 'Распределение хи-квадрат и взвешивание терминов'

Распределение хи-квадрат и взвешивание терминов Текст научной статьи по специальности «Науки о Земле и смежные экологические науки»

CC BY
312
61
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВЫХ ДОКУМЕНТОВ / ВЗВЕШИВАНИЕ ТЕРМИНОВ / МЕТРИКА ХИ-КВАДРАТ

Аннотация научной статьи по наукам о Земле и смежным экологическим наукам, автор научной работы — Яцко Вячеслав Александрович

Описываются особенности применения распределения хи-квадрат с целью взвешивания терминов текстовых документов, что имеет значение для их автоматической классификации

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Распределение хи-квадрат и взвешивание терминов»

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №3/2016 ISSN 2410-700Х_

образовании гидроизоляционной пленки высокой эластичности в результате использования полужидкого состава [2]. Выбор способа защиты зависит от степени влажности почвы, объема грунтовых вод.

Горизонтальные подземные газгольдеры в отличие от наземных сосудов не требуют дополнительного испарения жидкой фазы СУГ и могут использоваться как на промышленных объектах, так и для резервной газификации поселка или в качестве основного газоснабжения загородного частного дома. Наиболее эффективным способом защиты подземных газгольдеров является анодная защита, которая не влияет на экологию почвы.

Список использованной литературы:

1. Газгольдер. Сектор автономного газа [Электронный ресурс]: Газгольдеры. Виды и назначение резервуаров СУГ. URL: http://газгольдер.su/reservyary-sug.html

2. Оборудование для сжиженных углеводородных газов. ГК Газовик [Электронный ресурс]: Емкости (резервуары) для СУГ подземные. URL: http://gazovik-lpg.ru/cat/sug/0001/

3. Толкова Т.С., Куликова М.Г. Методы экологического мониторинга нефтяных загрязнений [Текст] / Т.С. Толкова, М.Г. Куликова // Современные наукоемкие технологии. Пенза, 2014. - №5-1. С. 90-91

4. Сидорова А.И., Егоров А.Н., Куликова М.Г. Технические решения снижения уровня механических примесей в природном газе [Текст] / А.И. Сидорова, А.Н. Егоров, М.Г. Куликова // Современные материалы, техника и технологии. Курск, 2015. - № 1 (1). С. 187-189

© Хрисаненкова Т.М., Остапенко Л.Ф., 2016

УДК 004.912

Яцко Вячеслав Александрович

д. филол. наук, профессор ХГУ им. Н.Ф.Катанова,

Е-mail: [email protected]

РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ И ВЗВЕШИВАНИЕ ТЕРМИНОВ

Аннотация

Описываются особенности применения распределения хи-квадрат с целью взвешивания терминов текстовых документов, что имеет значение для их автоматической классификации

Ключевые слова

Автоматическая обработка текстовых документов, взвешивание терминов, метрика хи-квадрат

Взвешивание терминов - один из фундаментальных алгоритмов, применяемых во всех направлениях лингвистической информатики [1]. На входе у программы, выполняющей взвешивание - термины текста (как правило, слова), на выходе - список терминов (словарь) с числовыми коэффициентами, отражающими значимость данного термина для данного текстового документа/документов. Цель настоящей статьи -рассмотреть особенности применения метрики хи-квадрат с целью взвешивания терминов текстового документа. По формуле хи-квадрат (1) проводится взвешивание, в результате которого каждому объекту класса С приписывается числовой коэффициент, указывающий на его дискриминирующую силу, то есть способность уникально идентифицировать данный класс.

х О^-^——— (1),

где О - наблюдаемая частотность объекта w, а Е - его ожидаемая частотность в /-ой ячейке таблицы сопряженности.

МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №3/2016 ISSN 2410-700Х_

Таблица 1

Таблица сопряженности.

Термин Класс Сумма

C ~C

w a b S3

~w c d S4

Сумма S1 S2 S5

В данной таблице: a - частотность объекта w в классе C; b - частотность объекта w в классе ~C; c -частотность остальных объектов в классе C (c= S1- a); d - частотность остальных объектов в классе ~C (d= S2- b). Ожидаемая частотность вычисляется как произведение сумм ряда и колонки, в которых располагается данная ячейка, делённое на общее количество объектов в двух классах по формуле: E(WJ) = (2)

Также применяется сокращенная формула, по которой хи-квадрат вычисляется только для ячейки a:

xV^'^r2 (3)

Для вычисления коэффициентов терминов следует: составить файлы с текстами, относящимися к двум классам. Класс C представляет собой эталонный текст, либо файл, включающий ряд текстов, представляющих данный класс. Класс ~C включает тексты, с которыми сопоставляются документы, относящиеся к классу C, и его состав определяется задачами, решаемыми в ходе реализации конкретного проекта; подсчитать суммы и значения категорий (наблюдаемые частотности); найти ожидаемые частотности по формуле (2); вычислить по формуле (3) коэффициент для каждого термина w в классе C. Полученный коэффициент определяет степень зависимости между данным термином и классом C. Чем меньше коэффициент термина, тем меньше его зависимость от данного класса и, соответственно, меньше его дискриминирующая сила; создать ранжированный список терминов и из верхней части списка выбрать в словарь некоторое количество терминов в соответствии с заданным пороговым уровнем.

Для оценки возможностей использования метрики хи-квадрат с целью взвешивания терминов в текстовых документах из Американского национального корпуса [2] был произвольно выбран газетный текст Weighing the risks of liposuction. Данный текст является входным и представляет класс C, т.е. t(C). Для класса ~C из газеты The New York Times был выбран текст t(~C) Body and mind; the high cost of thinness1. В t(C) описывается конкретный случай операции липосакции, а в t(~C) обсуждаются общие проблемы пластической хирургии; родо-видовое соотношение меду содержанием двух текстов обеспечивает с одной стороны совпадение основной терминологии, а с другой - различие в её распределении по частотностям, что обеспечивает адекватное начисление весовых коэффициентов. Оба текста примерно соответствуют по размеру, в t(C) количество уникальных слов - 604, токенов - 1418, а в t(~C) - 604 и 1450 соответственно. Статистические данные были получены с помощью конкорданса AntConc 3.4.42; из текстов были удалены стоп слова; также было выполнено распознавание стемм (основ слов) с помощью стеммера Paice/Husk3. В вычислениях учитывалось только распределение стемм.

В таблице 2 приводится ранжированный список (первые 10 стемм) с результатами взвешивания терминов в исходном тексте t(C) по формуле (3).

Таблица 2

Коэффициенты терминов исходного текста

№ стемма X 2

1 hall 7,4420474

2 fat 6,7551513

1 http://www.nytimes.com/1988/02/28/magazine/body-and-mind-the-high-cost-of-thinness.html

2 http ://www. laurenceanthony.net/software.html

3 http ://www. scientificpsychic. com/paice/paice.html

МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №3/2016 ISSN 2410-700Х

Продолжение таблицы 2

3 skin 3,8550607

4 liposuc 2,8319722

5 compress 2,6266050

6 medic 2,2286485

7 francisco 2,1888375

8 kim 2,1888375

9 san 2,1888375

10 call 1,9275304

Можно отметить следующие особенности применения метрики хи-квадрат для взвешивания терминов текстового документа. 1) Более адекватные результаты дает анализ распределения стемм, а не конкретных словоформ. Например, в исходном тексте clot встречается З раза, а clots - 7 раз. Целесообразно отождествить эти словоформы по основе clot с суммарной частотностью 10. 2) Для сокращения размерности текста в процессе предварительной обработки следует удалить стоп слова. С этой целью мы использовали список Фокса [З]. З) Целесообразно применять сокращённую формулу (З). Применение полной формулы затруднительно из-за большого разброса значений. Для стеммы с наибольшим коэффициентом hall /(0=7,4420474, у?(Ъ) =656,1263736, /(c)=50383,8829659, /(4=0,1099032. 4) Пороговый уровень (Q) находится на основе количества степеней свободы df и уровня значимости а. Количество степеней свободы рассчитывается по формуле df =(R- 1)(M-1), где R - количество рядов, M - количество колонок, соответственно, для таблицы 1 df=1. Общепринятой величиной уровня значимости является а=0.05 [4]; также может использоваться обратная величина - пи-значение pv=0.95. В MS Excel по формуле ХИ2.ОБР(pv;df) с округлением до трёх десятичных знаков можно получить Q=3,841. Первые три термина в таблице З, чей вес превышает это значение, войдут в словарь класса С. Создание такого словаря имеет значение для разработки систем автоматической классификации текстов. Список использованной литературы

1. Яцко В.А. Компьютерная лингвистика или лингвистическая информатика? // Научно-техническая информация. Сер.2. - 2014. - № 5. - С.1-10.

2. Reppen R., Ide N., Suderman K. American National Corpus (ANC). Second release [Электронный ресурс]. -Philadelphia: Linguistic Data Consortium, 2005. 1 CD-ROM.

3. Fox C. A. Stop list for general text // ACMSIGIR Forum. - 1989. - Vol. 24. - No 1-2. - P. 19-35.

4. Марапов Д. Критерий хи-квадрат Пирсона. - 2013. - URL: http://medstatistic.ru/theory/hi_kvadrat.html (дата обращения 20.0З. 2016).

© Яцко В А., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.