Научная статья на тему 'Предобработка текстовых сообщений для метрического классифкатора'

Предобработка текстовых сообщений для метрического классифкатора Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
871
124
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / ОБРАБОТКА ТЕКСТОВ / МАШИННОЕ ОБУЧЕНИЕ / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ / АЛГОРИТМ ОБУЧЕНИЯ / SCIKIT-LEARN / PYMORPHY2 / МЕТРИКА КАЧЕСТВА / TF-IDF / RSS НОВОСТИ / КОЛЛЕКЦИИ ДОКУМЕНТОВ / ПРЕДОБРАБОТКА ТЕКСТОВ / ЛЕКСИКА / КЛАССИФИКАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Климов Д. В.

Статья посвящена вопросам машинного обучения в области компьютерной лингвистики, в частности классификации неструктурированных потоков текстовых сообщений. Цель данной статьи исследовать зависимость различных методов предобработки коротких текстовых сообщений на качество метрического классификатора, при использовании небольших корпусов для обучения. Вычислительные эксперименты проводились с использованием скриптов на языке Python, а также библиотеки машинного обучения Scikitlearn и библиотека морфо-анализатора pymorphy2. В качестве решающей функции классификатора использовалась логистическая регрессия, а в качестве образцов коротких текстовых сообщений использовались новости RSS лент. В результате были получены данные о качестве классификаторов, обученных на корпусе с нормализацией слов текстовых сообщений и без нормализации. Применение нормализации существенно не влияет на качество классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Климов Д. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Предобработка текстовых сообщений для метрического классифкатора»

2. КМК 2.01.03-96 «Строительство в сейсмических районах» / Госархитектстрой РУз.-Ташкент - 1996-65 с.

3. «Повышение энергосбережения в жилищно-гражданском строительстве путём совершенствования нормативной базы, разработки эффективных теплоизоляционных материалов и ограждающих конструкций на основе местного сырья и отходов производства» НТО за 2012 год (промежуточный) по теме НТП-14 А 14-019.- 73 с.

© Дедаханов Б., 2017

УДК 004.852

Д.В. Климов

Студент Московского технологического института, МТИ

г. Москва, РФ E-mail: xfile2003@mail.ru

ПРЕДОБРАБОТКА ТЕКСТОВЫХ СООБЩЕНИЙ ДЛЯ МЕТРИЧЕСКОГО

КЛАССИФКАТОРА

Аннотация

Статья посвящена вопросам машинного обучения в области компьютерной лингвистики, в частности классификации неструктурированных потоков текстовых сообщений. Цель данной статьи исследовать зависимость различных методов предобработки коротких текстовых сообщений на качество метрического классификатора, при использовании небольших корпусов для обучения. Вычислительные эксперименты проводились с использованием скриптов на языке Python, а также библиотеки машинного обучения Scikit-learn и библиотека морфо-анализатора pymorphy2. В качестве решающей функции классификатора использовалась логистическая регрессия, а в качестве образцов коротких текстовых сообщений использовались новости RSS лент. В результате были получены данные о качестве классификаторов, обученных на корпусе с нормализацией слов текстовых сообщений и без нормализации. Применение нормализации существенно не влияет на качество классификации.

Ключевые слова

Компьютерная лингвистика, обработка текстов, машинное обучение, логистическая регрессия, алгоритм обучения, scikit-learn, pymorphy2, метрика качества, TF-IDF, RSS новости, коллекции документов,

предобработка текстов, лексика, классификация.

Введение

Очень часто в современном арсенале инструментов аналитиков по работе с текстовыми документами встречается информационные системы (далее ИС) с использованием интеллектуального анализа текстов (далее ИАТ) [5]. Одной из задач интеллектуального анализа текстов является классификация текстов.

Для создания ИС автоматической классификации коллекций текстовых документов часто используют алгоритмы машинного обучения с учителем. Процесс обучения представляет собой следующее: сперва алгоритму классификации предоставляется тексты с уже соотнесенным классом (так называемый корпус для обучения), а потом предоставляется тексты для определения класса по которым считается метрика качества классификации. Результатом обучения алгоритма классификатора служит модель, которая соотносит все входящие тексты к тому или иному классу [1].

В силу всевозрастающего объема и скорости событий в современном мире, которые отражаются в виде новостных текстовых сообщений в сети интернет, особенный интерес представляет ИС по автоматической классификации неструктурированного потока новостных текстовых сообщений.

В данной статье будем использовать в качестве алгоритма классификации один из метрических

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_

классификаторов - логистическую регрессию. Данный алгоритм легко интерпретируем, особенно процесс обучения.

В области машинного обучения одну из главных ролей играет сами данные, а точнее их подготовка перед использованием алгоритмами машинного обучения. Поэтому целью данной статьи является исследование влияние методов предобработки текстов для формирования корпуса и обучение по нему алгоритма классификации с решающей функцией - логистической регрессии [2].

Для решения поставленной задачи в течение нескольких месяцев был осуществлен сбор новостных сообщений в формате RSS (далее RSS новости) от разных источников: информационные порталы, новостные агрегаты, новостные сайты информационных агентств РФ.

В качестве классов были выбраны RSS новости по следующим категориям:

• Автомобили и транспорт;

• Экономика и бизнес;

• Происшествия;

• Политика;

• Наука и техника;

• Спорт.

Количество RSS новостей в каждом классе составляет не более 9 тыс.

Последовательность создания обученной модели классификации по выше описанным классам, представлена диаграммой состояний на унифицированном языке моделирования (UML) на рис. 1 [3].

Рисунок 1 - Последовательность создания классификатора

Предобработка текстовых сообщений

Корпус для обучения классификатора - это файлы с предобработанными данными, а именно:

• файл с совокупностью текстовых сообщений и с соответствующими закодированными метками класса;

• файл с именами классов и их кодом.

Кодировать числом имена классов требует метрический алгоритм машинного обучения классификатора в частности алгоритм логистической регрессии [4].

На рис. 2 отображена диаграмма состояний отражающая процесс формирования корпуса для обучения классификатора.

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_

Отчистка текстовых сообщение от неинформативных символов включает в себя следующую последовательность действий:

1. Замена символа табуляции и тире на символ пробела;

2. Удаление спецсимволов HTML;

3. Удаление всех символов, кроме цифр и букв (латинского и русского алфавита).

Рисунок 2 - Формирование корпуса для обучения

Как видно на диаграмме будет сформировано два корпуса, в одном из ни текстовые сообщения будут только отчищены от неинформативных символов, во втором корпусе каждое слово текстовых сообщений будет приведено к нормальной форме (т.е. слово в единственном числе и в именительном падеже) с помощью морфоанализатора: pymorphy2 [6].

Векторная модель текстовых сообщений Для обучения метрических классификаторов все текстовые сообщения состоящие из слов (далее терминов) корпуса кодируют в вектора Мп, где п - размерность векторов, соответствующая количеству уникальных слов в корпусе [6]. Таким образом векторная модель - это функция отображающая пространство текстовых сообщений в векторное пространство:

£: С ^ Мп, (1)

где С - пространство текстовых сообщений. В процессе формирования моделей использовались две метрики:

• TF (частотность термина, которая показывает как часто данный термин встречается в данном документе/текстовом сообщении);

• TF-IDF (где IDF это обратная частотность документов/текстовых сообщений содержащих термин).

Также для создания векторных моделей для каждой из двух метрик использовался гиперпараметр N-

грамм, т.е. извлечение из текста сообщений не только терминов, но их последовательностей [6].

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_

В ходе формирование векторных моделей с разными метриками и гиперпараметрами, было получено 6 моделей, со следующими характеристиками:

• TF N1 (метрика TF, 1-граммы)

• TF N2 (метрика TF, биграммы)

• TF N3 (метрика TF, 3-граммы)

• TF-IDF N1 (метрика TF-IDF, 1-граммы)

• TF-IDF N2 (метрика TF-IDF, биграммы)

• TF-IDF N3 (метрика TF-IDF, 3-граммы)

Обучение и тестирование классификатора

В качестве метрики качества обученных моделей классификации использовались следующие показатели: точность (precision), полнота (recall) и fl-мера (f1-score) [4].

В таблице 1 приведены результаты тестирования логистической регрессии с использованием всех моделей векторизации текстовых сообщений (далее просто модель векторизации) и корпуса без нормализации термов.

Соответственно в таблице 2 приведены результаты тестирования с корпусом нормализованных термов в текстовых сообщениях.

Следует отметить что несовпадение размерности векторного пространства у двух типов векторных моделей происходит от того, что при создании векторной модели текстов в TF использовался список стоп-слов. Этот список содержит около 440 слов местоимений, предлогов, междометий, союзов и других часто встречаемых частей речи русского языка, которые не передают значимую для классификации текстов информацию.

Таблица 1

Векторные модели и не нормализованный текст корпуса

Тип векторной модели Количество признаков Точность

Обучающая выборка Тестовая выборка

TF N1 123172 0,996 0,915

TF N2 872863 0,997 0,918

TF N3 1817630 0,997 0,916

TF/IDF N1 123553 0,949 0,905

TF/IDF N2 916958 0,962 0,899

TF/IDF N3 2020840 0,967 0,893

Таблица 2

Векторные модели и нормализованный текст корпуса

Тип векторной модели Количество признаков Точность

Обучающая выборка Тестовая выборка

TF N1 59803 0,991 0,912

TF N2 687130 0,997 0,918

TF N3 1593110 0,997 0,916

TF/IDF N1 59948 0,9423 0,909

TF/IDF N2 706562 0,956 0,905

TF/IDF N3 1752255 0,963 0,900

В обоих таблицах жирным курсивом выделены те модели векторизации, которые показали лучший результат точности классификации логистической регрессии. Далее будет использоваться векторная модель на метрике TF с биграммами.

В ходе обучения моделей классификации использовалась стратегия обучения и тестирования в которой 80% корпуса использовалось для обучения и 20% для тестирования, причем в обучающей и тестовых выборках все классы сбалансированы, т.е. присутствуют текстовые сообщения всех классов в примерно одинаковом количестве [4].

В таблицах 3 и 4 представлены результаты измерения качества логистической регрессии при соответствующем обучающем корпусе. Точность на обучающей выборке в обоих случаях составляет 0,997.

Таблица 3

Метрика TF и биграммы, без нормализации

Класс Точность Полнота F1-мера Количество экземпляров

Автомобили 0,89 0,92 0,90 1588

Экономика и бизнес 0,88 0,85 0,86 1642

Происшествия 0,93 0,92 0,93 1649

Политика 0,89 0,92 0,91 1555

Наука и техника 0,95 0,94 0,94 1630

Спорт 0,98 0,96 0,97 1623

среднее/всего 0,92 0,92 0,92 9687

Таблица 4

Метрика TF и биграммы, с нормализацией

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Класс Точность Полнота F1-мера Количество экземпляров

Автомобили 0,89 0,92 0,91 1610

Экономика и бизнес 0,88 0,85 0,87 1618

Происшествия 0,92 0,91 0,92 1622

Политика 0,90 0,92 0,91 1627

Наука и техника 0,94 0,95 0,95 1604

Спорт 0,98 0,95 0,96 1606

среднее/всего 0,92 0,92 0,92 9687

В каждом этапе обучения использовались 6 логистических регрессий, каждая из которых обучалась распознавать свой класс текстовых сообщений, т.е. 6 классификаторов решали задачу бинарной классификации каждый для своего класса.

Модель классификации представляет собой совокупность классификаторов, каждый из которых считает вероятность принадлежности входящего сообщения к соответствующему классу. Метка класса присваивается сообщению от того классификатора, который покажет наибольшую вероятность принадлежности [2].

В таблице 5 приведена лексика первых 10 самых популярных слов для каждого из классов текстовых сообщений из потока RSS новостей. Данную лексику формирует для себя каждый классификатор в процессе обучения. Как видно из данной таблицы каждому классу соответствует довольно релевантная совокупность слов, наиболее часто встречаемая в данном классе текстовых сообщений.

Таблица 5

Лексика классификаторов

Текст с обработкой без Текст с обработкой с

Класс нормализации нормализацией

Слово / вес Слово / вес

автомобили / 2,031 пробка / 1,834

дорог / 2,006 внедорожник / 1,682

авто / 1,743 автомобиль / 1,652

Volkswagen / 1,686 дорога / 1,562

Автомобили и транспорт автомобилей / 1,638 кроссовер / 1,546

кроссовер / 1,622 Volkswagen / 1,489

nissan / 1,593 авто / 1,457

пробки / 1,547 суперкар / 1,438

проезд / 1,531 хэмилтон / 1,415

ржд / 1,497 электрокар / 1,406

цб / 2,149 экономика / 2,069

экономики / 1,701 цб / 1,703

нефти / 1,644 продукция / 1,668

банка / 1,635 нефть / 1,582

Экономика и бизнес роснефть / 1,555 сбербанк / 1,553

рубль / 1,538 роснефть / 1,52

бизнес / 1,52 минфин / 1,464

банк / 1,52 банка / 1,458

сбербанка / 1,431 бизнес / 1,387

говорит / 1,409 предприниматель / 1,278

Продолжение таблицы 5

Происшествия пожар / 1,861 пожар / 1,78

полиция / 1,784 погибнуть / 1,655

эвакуировали / 1,596 теракт / 1,616

пострадавших / 1,524 эвакуировать / 1,603

задержан / 1,519 погибший / 1,56

дтп / 1,507 задержать / 1,483

ск / 1,501 ск / 1,478

пожара / 1,469 землетрясение / 1,451

ребенка / 1,425 следствие / 1,364

мужчина / 1,399 пропасть / 1,348

Политика собчак / 2,125 собчак / 1,712

выборах / 1,79 лавров / 1,632

лавров / 1,758 выборы / 1,446

выборы / 1,475 путин / 1,328

мид / 1,437 трамп / 1,307

нато / 1,419 политик / 1,239

партии / 1,364 война / 1,23

политолог / 1,333 нато / 1,229

трампа / 1,323 политический / 1,21

войны / 1,319 народ / 1,206

Наука и техника ученые / 4,3 учёный / 4,011

iphone / 2,319 смартфон / 2,226

учёные / 2,232 спутник / 2,193

ран / 2,221 iphone / 2,158

смартфон / 2,079 космический / 1,99

ученых / 2,004 рана / 1,868

исследователи / 1,961 исследователь / 1,843

nasa / 1,958 археолог / 1,731

смартфонов / 1,887 робот / 1,645

пользователей / 1,799 земля / 1,627

Спорт чм / 2,692 спорт / 2,562

турнира / 2,359 турнир / 2,332

сборной / 2,324 тренер / 2,293

спорта / 2,321 спортсмен / 2,286

клуба / 2,044 футболист / 2,19

матч / 1,95 чм / 2,07

мок / 1,946 клуб / 2,066

клуб / 1,936 матч / 2,026

матча / 1,836 сборный / 1,978

матче / 1,771 бой / 1,917

В таблице 6 и 7 приведены матрицы смежности, которые показывают отношения множеств слов (т.е. лексики) каждого из классификатора. Данные матрицы строились следующем образом: берутся слова лексики одного классификатора, и вычитаются слова которые встречаются в лексиках других классификаторов. При этом рассматриваются слова только те у которых вес больше 0,5. Значения веса для каждого слова лексики у классификатора формируются в процессе обучения логистическое регрессии. Средний вес уникальных слов для каждого классификатора приведен в последнем столбце таблиц. По диагонали матрицы жирным курсивом приведено количество слов в лексике классификатора соответствующего класса.

Таблица 6

Матрица смежности с ненормализованным корпусом

Автомобили Экономика и бизнес Происшестви я Политика Наука и техника Спорт Средний вес слова

Автомобили 362 0 1 0 0 0 0,776

Экономика и бизнес 0 445 0 3 1 1 0,72

Происшествия 1 0 390 3 0 2 0,741

Политика 0 3 3 378 1 1 0,716

Наука и техника 0 1 0 1 330 0 0,819

Спорт 0 1 2 1 0 318 0,845

Количество уникальных слов 361 440 384 370 328 314 -

МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_

Таблица 7

Матрица смежности с нормализованным корпусом

Автомобили Экономика и бизнес Происшестви я Политика Наука и техника Спорт Средний вес слова

Автомобили 254 1 0 0 0 1 0,743

Экономика и бизнес 1 371 2 1 1 0 0,72

Происшествия 0 2 307 3 0 1 0,751

Политика 0 1 3 311 1 1 0,695

Наука и техника 0 1 0 1 243 0 0,822

Спорт 1 0 1 1 0 196 0,894

Количество уникальных слов 252 366 301 305 241 193 -

Как можно видеть из данных таблиц 6 и 7, использование нормализации слов в обучающем корпусе приводит к уменьшению «рабочей» лексики каждого из классификаторов, причем средний вес лексики существенно не отличается.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рис. 3 отображена зависимость среднего веса слов и точности классификаторов для каждого класса текстовых сообщений. Зеленым светом показаны значения классификаторов при нормализации обучающего корпуса, а синим цветом показаны значения классификаторов без нормализации обучающего корпуса.

Рисунок 3 - Средние значения веса слов и точность

Выводы

Как показали результаты вычислительных экспериментов нормализация текстовых сообщений небольшого обучающего корпуса не увеличивает точность классификации. Стоит отметить, что лучшие результаты точности классификации показали классификаторы с моделью векторизации основанной на метрике TF с биграммами.

Также была выявлена характерная зависимость среднего веса слова в лексике классификаторов и точности их предсказаний метки класса. Очевидно при увеличении количества текстовых сообщений представленных классов в обучающем корпусе приведет к увеличению среднего веса слова в уникальных лексиках классификаторов, и как следствие увеличению качества их классификации.

Список использованной литературы: 1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. Пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. - М.: МИЭМ,

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_

2011. - 272 с.

2. Грант С. Ингерсолл, Томас С. Мортон, Эндрю Л. Фэррис Обработка неструктурированных тестов. Поиск, организация и манипулирование. / Пер. с англ. Слинкин А.А. - М.: ДМК Пресс, 2015. - 414 с.: ил.

3. Ларман, Крэг Применение UML 2.0 и шаблонов проектирования. Практическое руководство. 3-е издание.: Пер. с англ. - М.: ООО «И.Д. Вильямс», 2013. - 736 с.: ил.

4. Луис Педро Коэльо, Вилли Ричард Построение систем машинного обучения на языке Python. 2-е издание/ пер. с англ. Слинкин А.А. - М.: ДМК Пресс, 2016. - 302 с.: ил.

5. Морозов В.К. Моделирование информационных и динамических систем. - М.: Издательский центр «Академия», 2001. - 384 с.

6. Пиотровский Р.Г. и др. Математическая лингвистика. Учеб. Пособие для пед. ин-тов. М., «Высшая. школа», 1977. - 383 с. с ил.

© Климов Д.В., 2017

УДК 62-529

Сидоренков В.А.

Студент 2 курса магистратуры МГТУ им. Н.Э. Баумана,

г. Москва, РФ E-mail: sidorenkov.slava@gmail. com

Лосев О.Д.

Студент 2 курса магистратуры МГТУ им. Н.Э. Баумана,

г. Москва, РФ E-mail: Beeberg@bk.ru Анчутин В.А.

Студент 2 курса магистратуры МГТУ им. Н.Э. Баумана,

г. Москва, РФ E-mail: viktor-anchutin@yandex.ru Научный руководитель: Рубцов В.И., Доцент МГТУ им. Н.Э. Баумана, г. Москва, РФ E-mail: rubtsov@mail.ru

МЕХАТРОННОЕ УСТРОЙСТВО ДЛЯ ВЫРАЩИВАНИЯ РАСТЕНИЙ НА КОСМИЧЕСКИХ АППАРАТАХ И СТАНЦИЯХ

Аннотация

В статье представлена разработка установки по выращиванию растений в заданных пользователем параметрах. Устройства подобного типа использовались при создании оранжерей для космических станций.

Мехатронное устройство «Фитотрон», представленное автором этой статьи, позволяет создать наиболее благоприятные условия для выращивания растений в искусственной среде. Интеллектуальная система гибкой настройки дает возможность обеспечить оптимальную температуру, влажность, уровень освещенности и воздухообмена. При необходимости, можно моделировать разные условия для проведения опытов.

Представлены характеристики разрабатываемого фитотрона, его структурная и функциональная схемы. Параметры системы, описание и принцип работы основных узлов.

i Надоели баннеры? Вы всегда можете отключить рекламу.