_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №3/2016 ISSN 2410-700Х_
образовании гидроизоляционной пленки высокой эластичности в результате использования полужидкого состава [2]. Выбор способа защиты зависит от степени влажности почвы, объема грунтовых вод.
Горизонтальные подземные газгольдеры в отличие от наземных сосудов не требуют дополнительного испарения жидкой фазы СУГ и могут использоваться как на промышленных объектах, так и для резервной газификации поселка или в качестве основного газоснабжения загородного частного дома. Наиболее эффективным способом защиты подземных газгольдеров является анодная защита, которая не влияет на экологию почвы.
Список использованной литературы:
1. Газгольдер. Сектор автономного газа [Электронный ресурс]: Газгольдеры. Виды и назначение резервуаров СУГ. URL: http://газгольдер.su/reservyary-sug.html
2. Оборудование для сжиженных углеводородных газов. ГК Газовик [Электронный ресурс]: Емкости (резервуары) для СУГ подземные. URL: http://gazovik-lpg.ru/cat/sug/0001/
3. Толкова Т.С., Куликова М.Г. Методы экологического мониторинга нефтяных загрязнений [Текст] / Т.С. Толкова, М.Г. Куликова // Современные наукоемкие технологии. Пенза, 2014. - №5-1. С. 90-91
4. Сидорова А.И., Егоров А.Н., Куликова М.Г. Технические решения снижения уровня механических примесей в природном газе [Текст] / А.И. Сидорова, А.Н. Егоров, М.Г. Куликова // Современные материалы, техника и технологии. Курск, 2015. - № 1 (1). С. 187-189
© Хрисаненкова Т.М., Остапенко Л.Ф., 2016
УДК 004.912
Яцко Вячеслав Александрович
д. филол. наук, профессор ХГУ им. Н.Ф.Катанова,
Е-mail: [email protected]
РАСПРЕДЕЛЕНИЕ ХИ-КВАДРАТ И ВЗВЕШИВАНИЕ ТЕРМИНОВ
Аннотация
Описываются особенности применения распределения хи-квадрат с целью взвешивания терминов текстовых документов, что имеет значение для их автоматической классификации
Ключевые слова
Автоматическая обработка текстовых документов, взвешивание терминов, метрика хи-квадрат
Взвешивание терминов - один из фундаментальных алгоритмов, применяемых во всех направлениях лингвистической информатики [1]. На входе у программы, выполняющей взвешивание - термины текста (как правило, слова), на выходе - список терминов (словарь) с числовыми коэффициентами, отражающими значимость данного термина для данного текстового документа/документов. Цель настоящей статьи -рассмотреть особенности применения метрики хи-квадрат с целью взвешивания терминов текстового документа. По формуле хи-квадрат (1) проводится взвешивание, в результате которого каждому объекту класса С приписывается числовой коэффициент, указывающий на его дискриминирующую силу, то есть способность уникально идентифицировать данный класс.
х О^-^——— (1),
где О - наблюдаемая частотность объекта w, а Е - его ожидаемая частотность в /-ой ячейке таблицы сопряженности.
МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №3/2016 ISSN 2410-700Х_
Таблица 1
Таблица сопряженности.
Термин Класс Сумма
C ~C
w a b S3
~w c d S4
Сумма S1 S2 S5
В данной таблице: a - частотность объекта w в классе C; b - частотность объекта w в классе ~C; c -частотность остальных объектов в классе C (c= S1- a); d - частотность остальных объектов в классе ~C (d= S2- b). Ожидаемая частотность вычисляется как произведение сумм ряда и колонки, в которых располагается данная ячейка, делённое на общее количество объектов в двух классах по формуле: E(WJ) = (2)
Также применяется сокращенная формула, по которой хи-квадрат вычисляется только для ячейки a:
xV^'^r2 (3)
Для вычисления коэффициентов терминов следует: составить файлы с текстами, относящимися к двум классам. Класс C представляет собой эталонный текст, либо файл, включающий ряд текстов, представляющих данный класс. Класс ~C включает тексты, с которыми сопоставляются документы, относящиеся к классу C, и его состав определяется задачами, решаемыми в ходе реализации конкретного проекта; подсчитать суммы и значения категорий (наблюдаемые частотности); найти ожидаемые частотности по формуле (2); вычислить по формуле (3) коэффициент для каждого термина w в классе C. Полученный коэффициент определяет степень зависимости между данным термином и классом C. Чем меньше коэффициент термина, тем меньше его зависимость от данного класса и, соответственно, меньше его дискриминирующая сила; создать ранжированный список терминов и из верхней части списка выбрать в словарь некоторое количество терминов в соответствии с заданным пороговым уровнем.
Для оценки возможностей использования метрики хи-квадрат с целью взвешивания терминов в текстовых документах из Американского национального корпуса [2] был произвольно выбран газетный текст Weighing the risks of liposuction. Данный текст является входным и представляет класс C, т.е. t(C). Для класса ~C из газеты The New York Times был выбран текст t(~C) Body and mind; the high cost of thinness1. В t(C) описывается конкретный случай операции липосакции, а в t(~C) обсуждаются общие проблемы пластической хирургии; родо-видовое соотношение меду содержанием двух текстов обеспечивает с одной стороны совпадение основной терминологии, а с другой - различие в её распределении по частотностям, что обеспечивает адекватное начисление весовых коэффициентов. Оба текста примерно соответствуют по размеру, в t(C) количество уникальных слов - 604, токенов - 1418, а в t(~C) - 604 и 1450 соответственно. Статистические данные были получены с помощью конкорданса AntConc 3.4.42; из текстов были удалены стоп слова; также было выполнено распознавание стемм (основ слов) с помощью стеммера Paice/Husk3. В вычислениях учитывалось только распределение стемм.
В таблице 2 приводится ранжированный список (первые 10 стемм) с результатами взвешивания терминов в исходном тексте t(C) по формуле (3).
Таблица 2
Коэффициенты терминов исходного текста
№ стемма X 2
1 hall 7,4420474
2 fat 6,7551513
1 http://www.nytimes.com/1988/02/28/magazine/body-and-mind-the-high-cost-of-thinness.html
2 http ://www. laurenceanthony.net/software.html
3 http ://www. scientificpsychic. com/paice/paice.html
МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №3/2016 ISSN 2410-700Х
Продолжение таблицы 2
3 skin 3,8550607
4 liposuc 2,8319722
5 compress 2,6266050
6 medic 2,2286485
7 francisco 2,1888375
8 kim 2,1888375
9 san 2,1888375
10 call 1,9275304
Можно отметить следующие особенности применения метрики хи-квадрат для взвешивания терминов текстового документа. 1) Более адекватные результаты дает анализ распределения стемм, а не конкретных словоформ. Например, в исходном тексте clot встречается З раза, а clots - 7 раз. Целесообразно отождествить эти словоформы по основе clot с суммарной частотностью 10. 2) Для сокращения размерности текста в процессе предварительной обработки следует удалить стоп слова. С этой целью мы использовали список Фокса [З]. З) Целесообразно применять сокращённую формулу (З). Применение полной формулы затруднительно из-за большого разброса значений. Для стеммы с наибольшим коэффициентом hall /(0=7,4420474, у?(Ъ) =656,1263736, /(c)=50383,8829659, /(4=0,1099032. 4) Пороговый уровень (Q) находится на основе количества степеней свободы df и уровня значимости а. Количество степеней свободы рассчитывается по формуле df =(R- 1)(M-1), где R - количество рядов, M - количество колонок, соответственно, для таблицы 1 df=1. Общепринятой величиной уровня значимости является а=0.05 [4]; также может использоваться обратная величина - пи-значение pv=0.95. В MS Excel по формуле ХИ2.ОБР(pv;df) с округлением до трёх десятичных знаков можно получить Q=3,841. Первые три термина в таблице З, чей вес превышает это значение, войдут в словарь класса С. Создание такого словаря имеет значение для разработки систем автоматической классификации текстов. Список использованной литературы
1. Яцко В.А. Компьютерная лингвистика или лингвистическая информатика? // Научно-техническая информация. Сер.2. - 2014. - № 5. - С.1-10.
2. Reppen R., Ide N., Suderman K. American National Corpus (ANC). Second release [Электронный ресурс]. -Philadelphia: Linguistic Data Consortium, 2005. 1 CD-ROM.
3. Fox C. A. Stop list for general text // ACMSIGIR Forum. - 1989. - Vol. 24. - No 1-2. - P. 19-35.
4. Марапов Д. Критерий хи-квадрат Пирсона. - 2013. - URL: http://medstatistic.ru/theory/hi_kvadrat.html (дата обращения 20.0З. 2016).
© Яцко В А., 2016