_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №12/2015 ISSN 2410-700Х_
2. Сайт федеральной службы государственной статистики [Электронный ресурс]. URL: http://www.gks.ru/ (дата обращения: 22.11.2015 г.).
3. Елисеева И.И. Практикум по эконометрике: Учебное пособие / И.И. Елисеева. М.: Финансы и статистика, 2005.192 с.
© Хазиев Р.Р., 2015
УДК 004.912
Яцко Вячеслав Александрович
д. филол. наук, профессор ХГУ им. Н.Ф.Катанова,
Е-mail: [email protected]
ИММЕТРИЧНОЕ ВЗВЕШИВАНИЕ ТЕРМИНОВ Аннотация
Описывается методика взвешивания, позволяющая распознать предложения, представляющие содержание текстовых документов. Методика может использоваться с целью автоматического реферирования текстов
Ключевые слова
Автоматическая обработка текстовых документов, взвешивание терминов, симметричное
взвешивание предложений
Взвешивание терминов является фундаментальным алгоритмом, который применяется во всех предметных областях, связанных с автоматической обработкой текстовых документов [1]. На входе у программы, выполняющей взвешивание, - термины текстового документа, на выходе - список терминов с приписанными числовыми коэффициентами, которые отражают значимость терминов для данного текстового документа. Термины с наиболее высокими коэффициентами отбираются в словарь, репрезентирующий содержание текста. Взвешиваться могут отдельные слова, словосочетания, предложения, группы предложений, а также и текст в целом. В процессе автоматической классификации содержание абзацев, а также всего текста может представляться в виде векторной модели [2].
Как мы полагаем, алгоритмы взвешивания можно разделить на два основных вида: интертекстуальные и интратекстуальные. Итертекстуальные алгоритмы предполагают сопоставление распределения терминов в данном тексте с их распределением в другом тексте/текстах. Интратекстуальные алгоритмы выполняются только с учётом внутренней структуры данного текста.
В настоящей статье будет описано симметричное взвешивание терминов, которое относится к
интратекстуальным методам. Симметричное взвешивание характеризуется следующими особенностями. 1)
Весовые коэффициенты приписываются предложениям. В этой связи симметричное взвешивание актуально
для тех программ и систем, на выходе которых тест, включающий предложения, например, для систем
автоматического реферирования. 2) Весовой коэффициент предложения определяется по его
функциональному весу, который равен связей данного предложения с другими предложениями текста. Под
связью понимается повторение основ слов из словаря (стемм) в других предложениях текста. Учитываются
связи данного предложения как с предшествующими, так и с последующими предложениями. Весовой
коэффициент предложения вычисляется по формуле
т
п=1,1=1
где Т(зп) - количество вхождений данной стеммы в предложение а Т(з{) - количество вхождений данной стеммы в другое предложение данного текста.
_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №12/2015 ISSN 2410-700Х_
3) Весовые коэффициенты начисляются на основе принципа симметричности: если предложение Х имеет n связей с предложением Y, то предложение Y имеет n связей с предложением Х.
Для выполнения симметричного взвешивания необходимо выполнить следующие процедуры. 1) составить словарь токенов и выделить их основы (стеммы); 2) начислить весовые коэффициенты предложениям с учётом их функционального веса и принципа симметричности. 3) Составить ранжированный список предложений. Некоторое количество предложений (m) из верхней части списка будет представлять содержание данного текстового документа.
Продемонстрируем применение симметричного взвешивания на примере небольшой (27 предложений, 96 уникальных токенов) статьи New Substance Is Harder Than Diamond, Scientists Say из газеты The New York Times1. Для получения словаря токенов применим предложенную ранее модифицированную формулу TF*IDF [3],
N_
{n +1| n = 0} ,
где Wij = вес термина tj в документе dt- tfj = частотность термина tj в документе dt- N = общее количество документов в корпусе; n = количество документов в корпусе, в которых термин tj встречается хотя бы один раз. Вычисления по формуле можно выполнять с помощью разработанного нами программного обеспечения TF*IDF Ranker2. В таблице 1 представлены коэффициенты первых токенов из ранжированного списка (с округлением до 5 десятичных знаков), а также коэффициенты предложений с наибольшим весом, вычисленные по методу симметричного взвешивания.
Таблица 1
Распределение весовых коэффициентов
Wj = tfl} * --, (2)
Ранг Токен Стемма Коэффициент TF*IDF № предложения коэффициент
1 carbon carbon 0,03558 3 40
2 diamond diamond 0,02135 8 31
3 Q Q 0,02135 12 25
4 creating creat 0,01779 13 25
5 Narayan Narayan 0,01779 9 19
6 technique techn 0,01249 22 19
7 Journal journal 0,01068 23 19
8 Researchers research 0,01068 16 17
9 synthetic synthet 0,0106879 10 16
10 technology techn 0,00816 15 16
Особенности симметричного взвешивания можно продемонстрировать на примере анализа связей предложений (3) и (8); слова из словаря выделены жирным шрифтом и подчеркиванием.
(3) Researchers at North Carolina State University say they have developed a technique for creating a substance they are calling Q-carbon, which represents a third phase, or distinct form, of carbon alongside graphite and diamond.
(8) The process of creating Q-carbon — which involves concentrating a very short pulse of laser light onto carbon — can produce minuscule synthetic diamond "seeds," which can yield gems.
Стеммы research и techn, которые есть в (3), отсутствуют в (8), а synth используется в (8), но отсутствует в (3), соответственно, они не дают никаких связей для начисления функционального веса. Стеммы Q, creat, и diamond используются один раз в обоих предложениях, что даёт по одной связи; стемма carbon встречается два раза в обоих предложениях, что даёт четыре связи. В соответствии с формулой (1) W(s3)=1*0+1*0+1*1+1*1+2*2+1*1=7. По принципу симметричности количество связей предложения (8) с предложением (3) также будет равно 7. Заметим, что данные два предложения достаточно адекватно и в связном виде передают содержание текста, что свидетельствует о возможности использования симметричного взвешивания в целях автоматического реферирования текстовых документов.
1 http://www.nytimes.com/2015/12/03/science/q-carbon-harder-than-diamond.html
2 http://yatsko.zohosites.com/tf-idf-ranker1.html
_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №12/2015 ISSN 2410-700Х_
Список использованной литературы
1. Яцко В.А. Компьютерная лингвистика или лингвистическая информатика? // Научно-техническая информация. Сер.2. - 2014. - № 5. - С.1-10.
2. Le Q, Mikolov T. Distributed representations of sentences and documents [Электронный ресурс] // Proceedings of the 31st International conference on machine learning. - Beijing, China, 2014. - P.1188—1196. Режим доступа: URL: https: //cs. stanford. edu/~quocle/paragraph_vector.pdf
3. Яцко В.А. Достоинства и недостатки взвешивания терминов по формуле tf*idf // В мире научных открытий. - 2013. - № 6 . - С. 229-244.
© Яцко В.А., 2015