Оптимизация метода классификации текстов, основанного на tf-idf, за счет введения дополнительных коэффициентов

Оськина К. А.

УДК 81'371

К. А. Оськина

аспирант кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики английского МГЛУ; е-mail: [email protected]

ОПТИМИЗАЦИЯ МЕТОДА КЛАССИФИКАЦИИ ТЕКСТОВ, ОСНОВАННОГО НА TF-IDF, ЗА СЧЕТ ВВЕДЕНИЯ ДОПОЛНИТЕЛЬНЫХ КОЭФФИЦИЕНТОВ1

Целью статьи является описание оптимизированного метода классификации документов на основе статистической меры TF-IDF применительно к предметной области прикладной лингвистики для русского языка. Материалом для исследования послужил корпус текстов из предметной области прикладной лингвистики (ПЛ) и корпус текстов, не относящийся к данной области (неПЛ), а также книга Р. К. Потаповой «Речь: коммуникация, информация, кибернетика». К основным методам, имплементируемым в данной работе, относятся: статистическая мера TF-IDF, оценочная мера косинусного сходства (векторная модель), а также механизм введения дополнительных весовых коэффициентов. В результате проведенного исследования был разработан программный продукт, осуществляющий определение принадлежности текста к ПЛ или неПЛ, и определены дальнейшие перспективы для применения данного подхода при классификации текстов на других языках.

Ключевые слова: машинный перевод; предредактирование; настройка на предметную область; классификация документов; TF-IDF; векторная модель; косинусное сходство.

Oskina K. A.

Postgraduate Student, Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the Humanities and Applied Sciences, MSLU; е-mail: [email protected]

OPTIMISATION OF TF-IDF TEXT CLASSIFICATION METHOD BY INTRODUCING ADDITIONAL WEIGHTING COEFFICIENTS

This article is aimed at describing an optimized method of document classification on the statistical measure of TF-IDF in relation to the subject area of Applied Linguistics applied to the Russian language. A corpus of texts from the domain of Applied Linguistics (AL) and a corpus of texts from other domains

1 Исследование выполнено в рамках научного проекта Российского фонда фундаментальных исследований (РФФИ) №14-06-00363. Научный руководитель - доктор филологических наук, профессор, действительный член Международной Академии Информатизации Р. К. Потапова.

(nonAL), as well as the book of R. K. Potapova «Speech: communication, information, cybernetics» were used as the material for the current study. The main methods implemented in the study are the statistical measure of the TF-IDF, cosine similarity measure (vector space model), as well as the mechanism for introducing additional weighting coefficients. As the result of the study a software program has been developed which classifies some input text into two categories: AL and nonAL. Further prospects of application of this text classification method to other languages are determined.

Key words: machine translation (MT); automatic pre-editing; domain adaptation; document classification; TF-IDF term weighting; vector space model; cosine similarity.

Введение

Существующие в настоящее время системы машинного перевода, несмотря на все прилагаемые усилия к их совершенствованию, имеют массу недостатков и, как следствие, выдают при переводе научных и научно-технических текстов результаты, далекие от идеальных. Одним из этих недостатков является отсутствие настройки применяемого лингвистического аппарата на предметную область (например, область «Прикладная лингвистика»). На примере перевода нескольких предложений из книги по прикладной лингвистике [4], выполненного системами Google translate [5] и Prompt [9], можно продемонстрировать необходимость доработки семантической составляющей современных систем машинного перевода (см. табл. 1). Полужирным шрифтом обозначены слова, которые система перевела некорректно, а именно: просодия, просодема, просодика, просодеми-ка, семиологически, звучащая речь, главноударный, интонационные инварианты (далее - ИИ), маркированный, ударный, заударный.

Одним из способов достижения необходимой настройки системы на предметную область и получения высококачественных релевантных переводов является встраивание модулей пред- и постредактирования, а также использование многоязычного контекстно-ориентированного терминологического словаря [8].

В данной статье будет рассмотрен способ оптимизации алгоритма определения принадлежности текста к тематике «Прикладная лингвистика» TF-IDF, используемого в качестве составной части модуля предредактирования (см. рис. 1).

Исходное предложение Google Translate PROMPT

Наряду с терминами «просодия» и «просодема» в конце 1960-х гг. фонетисты стали использовать термин «просодика», которая рассматривается как частное, соподчиненное просодии понятие Along with the terms «prosody» and «prosodeme» at the end of the 60s phoneticians began to use the term «prosody», which is regarded as a private, subordination prosody concept Along with the terms «prosody» and «prosodema» in the late sixties phoneticians began to use the term «prosodik» which is considered as the private, coordinated prosodies concept

В терминах просодемики описываются семиологически значимые явления звучащей речи (например, наличие / отсутствие особого явления «толчка» в датском языке, 1-й и 2-й акценты в шведском языке, тоны в тональных языках, реализация главноударного слога в нетональных языках и др.) In terms prosodemiki described semialogicheski significant phenomenon sounding speech (eg, the presence - absence of special effects «push» in Danish, 1 st and 2 nd accents in the Swedish language, tones in tonal languages, the implementation glavnoudarnogo syllable in non-tonal languages, and others.) In terms of a prosodemika semialogichesk the significant phenomena of the sounding speech are described (for example, existence - lack of the special phenomenon of «push» in Danish, the 1 st and 2nd accents in Swedish, tones in voice-frequency languages, realization of a glavnoudarny syllable in nontonal languages, etc.)

Распределение Р0 в структуре ИИ свидетельствует о различной информативности отдельных участков огибающей Б,,. Маркированными оказываются участки последнего ударного и заударного слогов ритмической группы; ударного слога, несущего фразовое ударение Distribution F0 in AI structure shows different information content of individual sections of the envelope F0. Labeled sections are the last stroke and rhythmic syllables zaudarnogo group; stressed syllable carrying the phrase stress Distribution of F0 in structure of AI testifies to various informational content of separate sites of the bending-around F0. Marked there are sites of the last shock and zaudarny syllables of rhythmic group; the shock syllable bearing a phrase accent

Табл. 1. Пример перевода предложений в предметной области «Прикладная лингвистика»

Рис. 1. Модуль предредактирования для системы машинного перевода, настроенного на предметную область «Прикладная лингвистика»

Данный алгоритм был впервые описан в работе [7] и показал эффективность своих результатов, например, в [11], где, однако, вместо косинусного сходства применяется наивный байесовский классификатор.

Алгоритм, имплементируемый для предметной области прикладной лингвистики, может быть с тем же успехом применен и к другим узкоспециализированным предметным областям, как в целях реализации машинного перевода, так и для поиска необходимой информации.

Реализация алгоритма

Алгоритм реализовывался в четыре этапа. Общая схема алгоритма изображена на рисунке 2.

Рис. 2. Алгоритм классификации неизвестного текста

Этап I. Подготовительная работа. Для проведения процедуры лемматизации анализируемых текстов был сформирован список лемм и словоформ предметной области «Прикладная лингвистика».

Основой для формирования указанного списка явился перечень словоформ русского языка, взятый с сайта http://www.speakrus.ru/dict/ [1]. Далее при помощи скрипта, написанного на языке программирования Perl [10], примененного к тексту книги Р. К. Потаповой «Речь: коммуникация, информация, кибернетика» [4], были извлечены термины, отсутствующие в списке словоформ русского языка. При их объединении общий объем списка составил 2.390.327 словоформ. Таким образом, в результате был получен список словоформ, относящихся к предметной области прикладной лингвистики, на основе которого был составлен список лемм и словоформ (1181 лемма) и добавлен к списку лемм и словоформ русского языка (86.336 лемм). Общий объем полученного списка составил 87.517 лемм.

Этап 2. Формирование обучающей выборки. Далее была сформирована обучающая выборка из 100 статей, 50 % которых относились к предметной области «Прикладная лингвистика» (далее - ПЛ), 50 % соответственно не относились (далее - неПЛ). Статьи по прикладной лингвистике были взяты из журналов «Речевые технологии» [3] и «Компьютерная лингвистика и интеллектуальные технологии» [2] 2014-2015 гг. общим объемом 147.408 словоупотреблений (средний объем статьи = 2.948 слов), аналогично для корпуса по неприкладной лингвистике были собраны новостные статьи с сайта lenta.ru [6] 2015 г. общим объемом 151.186 словоупотреблений (средний объем статьи составил 550 слов).

Каждая статья была обработана при помощи скрипта на языке Perl: проведена процедура токенизации, подсчитано общее количество термов в каждой статье, а также проведена процедура леммати-зации и подсчитано количество употребления каждого терма. Полученные данные отображены на рисунке 3.

Далее для каждого терма был подсчитан TF-IDF [7]. TF-IDF -это статистическая мера, определяющая вес каждого элемента формируемой термдокументной матрицы. Из каждого документа выбирается по одному терму, для которого подсчитывается вес на основании частоты его встречаемости как в данном документе, так и во всей анализируемой выборке (т. е. его распространенность). Данная статистическая мера позволяет понизить вес слишком часто встречающихся терминов и повысить вес тех терминов, которые встречаются реже.

Tctal

45L7

признак ; 7 «4

речь :: 4Б

ЯЗЫК 1 : 44

речевой :: 44

араеаяичесхий :;

страх :: 40

слсг :: 40

состсянне : * 40

::

EliCK43!iaai£Mt ::

iip-acoac 35

реализат^я 34

эросоаия 33

сжсжмой 33

ipi^a решали

33

32

семантически» дискурс :: радость :: чат :: 2Z тон :: 26

32

3Q

26

44

40 39

я вралннгвистический

32

Рис. 3. Результат обработки статьи по прикладной лингвистике

Сначала подсчитывается TF для каждого терма в каждом документе в отдельности. TF (term frequency - частота слова) - это отношение числа вхождения некоторого слова к общему количеству слов документа. TF вычисляется по следующей формуле:

tf(t, d)

Хл

(1)

где t - терм; d - документ; п. - число вхождений терма в документ; - общее число термов в документе.

n

С помощью ТБ оценивается важность терма 1 в пределах отдельного документа. Первые десять слов для корпусов ПЛ и неПЛ приведены в таблице 2.

Таблица 2

Наивысшее значение TF для корпусов ПЛ и неПЛ TF (ПЛ)

TF (ПЛ) TF (неПЛ)

глагол 0,0692607 он 0,057377049

бывать 0,055929722 быть 0,040229885

предложение 0,053511706 год 0,037037037

орех 0,046704722 уязвимость 0,035532995

слово 0,043507589 первый 0,035087719

справедливость 0,042921687 город 0,034482759

модный 0,040472175 святой 0,032467532

вектор 0,038461538 заём 0,031088083

поиск 0,037643208 документ 0,028901734

быть 0,036310395 один 0,027777778

Далее для каждого терма был просчитан IDF, который позволил уменьшить вес широкоупотребительных слов. IDF (inverse document frequency - обратная частота документа) - инверсия частоты, с которой некоторое слово встречается в документах коллекции. IDF был просчитан по формуле:

tdf(t, D) = log ¡^ (2)

где |D| - количество документов в корпусе; |(dpi.)| - количество документов, в которых встречается t (когда n Ф 0). Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов. IDF, в отличие от TF, считается не для одного конкретного документа, а для всего корпуса в целом.

Наиболее низкий IDF получили следующие слова, которые встретились в каждой из 50 статей корпуса в таблице 3.

Таблица 3

Значение IDF для наиболее употребительных слов

IDF (ПЛ)

быть 0

весь 0

который 0

мочь 0

он 0

такой 0

являться 0

Таким образом, мера ТБ-ГОБ является произведением двух сомножителей:

tf idf (г, d, Б) = tf (t, d) х idf (t, Б) (3)

Большой вес в ТБ-ГОБ получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Значение ТБ-ГОБ выводится отдельно для каждого терма в каждом документе. Далее полученные значения были нормированы (посчитано математическое ожидание для значений ТБ-ГОБ для каждого из термов) для контрольной группы по прикладной лингвистике и для неприкладной лингвистики.

В таблице приведены десять наиболее часто употребляемых терминов по ТБ-ГОБ (см. табл. 4).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 4

10 наиболее употребительных термов для корпусов ПЛ и неПЛ

TF-IDF (ПЛ) TF-IDF (неПЛ)

справедливость 0,072922658 уязвимость 0,060369493

скороговорка 0,054899517 святой 0,055161364

несправедливость 0,05245314 заём 0,05281772

саундлет 0,052407936 боец 0,044709737

графовый 0,051274777 флаг 0,044709737

рекуррентный 0,030980489 волк 0,043404343

интродукция 0,029818657 беженец 0,040939036

реферирование 0,029442998 конопля 0,039975765

соматический 0,022672229 курд 0,035151104

саундлетный 0,020010303 часовой 0,033204625

В ходе II этапа в качестве результата исследования была получены две термдокументные матрицы, два одномерных массива, из которых были сформированы два результирующих вектора: вектор А для ПЛ (объем = 7561 терм) и вектор В для неПЛ (объем = 10488 термов). Данные значения являются эталонными, на их основании программа будет принимать решение об отнесении текста к той или иной группе.

Этап III. Формирование тестовой выборки. В качестве тестовой выборки был собран корпус из 200 статей: 100 статей по прикладной лингвистике общим объемом 388728 словоупотреблений и 100 статей по неприкладной лингвистике общим объемом 128375 словоупотреблений. Статьи по прикладной лингвистике были также собраны из журналов «Речевые технологии» и «Компьютерная лингвистика и интеллектуальные технологии». Таким образом, в контрольную группу вошли тексты не только новостной тематики, но и тексты об информационных технологиях, экономике и на другие темы, чтобы сформировать наиболее репрезентативную исходную выборку.

Этап IV. Разработка приложения для оценки тестовой выборки. В ходе исследования было разработано консольное приложение для классификации неизвестного входного текста в Visual Studio 2013 на языке C++. На вход программе поступает неизвестный текст. Далее с помощью скрипта на языке программирования Perl проводится процедура лемматизации, в ходе которой определяются термы и подсчи-тывается их количество. Затем рассчитывается TF-IDF для каждого терма, при этом параметр IDF представляется тот, который был определен для классифицирующей выборки. Таким образом, в ходе обработки неизвестного текста получается два вектора: вектор С (с параметром IDF для ПЛ) и вектор D (с параметром IDF для неПЛ).

Для каждого вектора рассчитывается косинусное сходство с векторами для ПЛ и для неПЛ, соответственно. Косинусное сходство - это мера сходства между двумя векторами предгильбертового пространства, которая используется для измерения косинуса угла между ними [7]. Косинусное сходство отражает коэффициент корреляции между двумя векторами. Если даны два вектора признаков, A и B, то косинусное сходство, cos(0) может быть представлено, используя скалярное произведение и норму:

1*1 Ах в,

(4)

similarity = cos 0 =

Далее полученные векторы С и Б сравниваются с двумя эталонными векторами А и В, которые были определены статистически. Подсчитывается косинусное расстояние между векторами {А и С} и {В и Б}. К кому из векторов А или В оказываются ближе полученные векторы, такое решение и принимается программой. Косинусное сходство двух документов изменяется в диапазоне от 0 до 1, поскольку частота терма (веса ТБ-ГОБ) не может быть отрицательной. Таким образом, решение о принадлежности неизвестного текста к той или иной тематике принимается в сторону векторов, чье косинусное сходство оказывается ближе к единице. Пример классификации текста по прикладной лингвистике представлен в таблице 5.

Таблица 5

Пример классификации статьи по прикладной лингвистике

Обработка Графодина-мический Омонимичный Семантический Исследование cos(9)

ПЛ 0,00147 0,01281 0,00098 0,00091 0,00015 0.66

статья х 0.00292 0.01397 0.00077 0.00443 0.00013

неПЛ 0,00566 0.33

статья х 0 0 0 0 0.00182

Полученные результаты

Правильно классифицированные тексты составили 90 % (причем косинусное сходство для четырех векторов в 10 %о ошибки не очень велико: для некоторых текстов косинусное сходство составило для ПЛ - 0.62074, для неПЛ - 0.606344; для ПЛ - 0.625622, для неПЛ -0.587069). Причиной ошибки в классификации одного из текстов по прикладной лингвистике явилось избыточное количество в нем слов негативной коннотации, относящихся к семантическим полям войны, агрессии, угрозы, анализ которых являлся целью нашей статьи в контрольной выборке для ПЛ. Таким образом, экспертное заключение совпадает с результатом работы программы, что свидетельствует о ее эффективности.

Первоначально в исследовании использовалась контрольная выборка текстов для неПЛ объемом 16.681 словоупотребление. Как показали дальнейшие результаты, этой выборки оказалось недостаточно для получения релевантных результатов при определении значений IDF. Следствием этого явилось наличие высокого значения IDF для таких слов, как, например, август, актуальный, анализ, база, бежать,

ввод, книга, ключ, километр и пр. (IDF = 1,69897), что в итоге приводило к ошибочному определению тематики у 24 % неизвестных текстов. После того как контрольная выборка была увеличена в 10 раз (до 151 тыс. словоупотреблений), результаты удалось значительно улучшить (10 % ошибки).

Описанный выше подход позволяет определить принадлежность текста к предметной области прикладной лингвистики. Созданную программу можно встроить в качестве стороннего модуля в систему машинного перевода и использовать в качестве отправной точки для определения принадлежности текста к узкой предметной области, который впоследствии мог бы быть обработан, используя список характерных для данной предметной области семантических и грамматических правил, которые смогут быть применены для оптимизации перевода текстов в данной предметной области.

Модернизация метода

TF-IDF дает хорошие результаты по определению веса термов. В то же время следует учитывать, что в текстах по прикладной лингвистике могут рассматриваться те или иные семантические поля, лексический состав которых не характерен для области прикладной лингвистики в целом. Из-за того, что один терм имеет высокую частоту лишь для одного текста, он получает неоправданно большой вес, что может привести к искажению результатов.

Например, высокие показатели TF для слов «орех» и «модный» обусловлены тем, что в одном из текстов корпуса рассматривалось семантическое поле «орехи», а в другом - концепт «модных слов». В результате программой была выявлена высокая частота их встречаемости в рамках одного текста, и принято решение об их принадлежности к области прикладной лингвистики. В то же время термины, которые заведомо принадлежат к области прикладной лингвистики (например, альвеолярный, вокализованный, дискурс, монофтонг и др.) могут встречаться в текстах реже общеупотребительных слов и, как следствие, иметь низкий TF. Поэтому необходим экспертный анализ по крайней мере 20 термов, имеющих самый высокий показатель TF из обучающей выборки. В целях устранения описанного феномена предлагается метод увеличения веса тех терминов, для которых заведомо известна их принадлежность к области прикладной лингвистики.

Суть метода заключается в квантовании подсчета числа вхождений термина в текст (ш) по предложениям и в введении дополнительного коэффициента в общепринятую формулу расчета ТЕ Таким образом, в случае, если в рамках одного предложения встречаются N терминов прикладной лингвистики, то при подсчете количества вхождений в текст (п.) каждого оно умножается на N.

Например, для текста с предложениями: «Исследователи обобщили доступные Фредди Меркьюри частоты. Они констатируют, что певец обладал редкой способностью к тремоляции на частоте 7,0 Гц» -ТБ будет рассчитываться следующим образом:

ТР = ^ + , (5)

частота п^

где п1 - встречаемость слова «частота» в первом предложении; ^п2 -встречаемость слова «частота» во втором предложении, умноженная на коэффициент, образованный сочетанием слова «частота» со словом «тремоляция»; п - общее количество слов в тексте.

В первом предложении единственным лингвистическим термином является слово «частота», следовательно, коэффициент N равен 1. Во втором обнаруживается суперпозиция терминов «частота» и «тремоляция», следовательно, коэффициент N полагается равным 2. В итоге при подсчете ТБ для термина «частота» число вхождений его в текст будет искусственно завышено и, как следствие, будет увеличен его вес при подсчете косинусного сходства.

Предложенный подход позволяет решить проблему полисемии. Так, например, термин «частота» может широко использоваться в текстах по физике, откуда он был заимствован в область прикладной лингвистики, однако из-за отсутствия в статье по физике терминов по прикладной лингвистике, термин «частота» получит весовой коэффициент 1, что позволит классифицировать анализируемую статью как неПЛ.

Термины, определяемые как заведомо относящиеся к области прикладной лингвистики, выделены на I (подготовительном) этапе алгоритма «классификации неизвестного текста» (1181 лемма из книги Р. К. Потаповой).

Заключение

В статье представлен способ оптимизации метода классификации текстов, основанного на ТЕГОЕ за счет квантования подсчета числа

вхождений терминов в текст и введения дополнительных коэффициентов, которые вводятся на основании выявления нескольких терминов, относящихся к области прикладной лингвистики, в пределах одного предложения. Данный способ позволяет искусственно увеличить вес заведомо лингвистических терминов и свести к минимуму вероятности ошибки при классификации текстов. В дальнейшем планируется программная реализация метода и статистическая оценка результатов его работы с целью определения его эффективности.

СПИСОК ЛИТЕРАТУРЫ

1. Архивы форума «Говорим по-русски» [Электронный ресурс]. - Режим доступа: http://www.speakrus.ru/dict/, свободный. - Загл. с экрана.

2. Журнал «Компьютерная лингвистика и информационные технологии» [Электронный ресурс]. - Режим доступа: http://www.dialog-21.ru/digest/, свободный. - Загл. с экрана.

3. Журнал «Речевые технологии» [Электронный ресурс]. - Режим доступа: http://speechtechnology.ru/, свободный. - Загл. с экрана.

4. Потапова Р. К. Речь: коммуникация, информация, кибернетика. - М.: Либроком, 2010. - 600 с.

5. Google Translate. - URL: https://translate.google.ru/?hl=ru, свободный. -Загл. с экрана.

6. Lenta.ru. - URL: https://lenta.ru/, свободный. - Загл. с экрана.

7. Manning Ch. D., Raghavan P., Schütze H. An Introduction to Information Retrieval. - С. : Cambridge University Press, 2009. - P. 109-134.

8. Potapova R. K., Oskina K. A. Semantic Multilingual Differences of Terminological Definitions Regarding the Concept «Artificial Intelligence» // Ronzhin, A. et al. (Eds.) SPECOM 2015. LNAI, vol. 9319. - H., Springer, 2015. - P. 356-363

9. Prompt. - URL: http://www.translate.ru/, свободный. - Загл. с экрана.

10. The Perl Programming Language. - URL: https://www.perl.org/, свободный. -Загл. с экрана.

11. Yoo J. Y., Yang D. Classification Scheme of Unstructured Text Document using TF-IDF and Naive Bayes Classifier // COMCOMS 2015. ASTL. - Vol. 111. -T. : SERSC, 2015. - P. 263-266.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Оськина К. А.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Оськина К. А.

OPTIMISATION OF TF-IDF TEXT CLASSIFICATION METHOD BY INTRODUCING ADDITIONAL WEIGHTING COEFFICIENTS

Текст научной работы на тему «Оптимизация метода классификации текстов, основанного на tf-idf, за счет введения дополнительных коэффициентов»