2. КМК 2.01.03-96 «Строительство в сейсмических районах» / Госархитектстрой РУз.-Ташкент - 1996-65 с.
3. «Повышение энергосбережения в жилищно-гражданском строительстве путём совершенствования нормативной базы, разработки эффективных теплоизоляционных материалов и ограждающих конструкций на основе местного сырья и отходов производства» НТО за 2012 год (промежуточный) по теме НТП-14 А 14-019.- 73 с.
© Дедаханов Б., 2017
УДК 004.852
Д.В. Климов
Студент Московского технологического института, МТИ
г. Москва, РФ E-mail: xfile2003@mail.ru
ПРЕДОБРАБОТКА ТЕКСТОВЫХ СООБЩЕНИЙ ДЛЯ МЕТРИЧЕСКОГО
КЛАССИФКАТОРА
Аннотация
Статья посвящена вопросам машинного обучения в области компьютерной лингвистики, в частности классификации неструктурированных потоков текстовых сообщений. Цель данной статьи исследовать зависимость различных методов предобработки коротких текстовых сообщений на качество метрического классификатора, при использовании небольших корпусов для обучения. Вычислительные эксперименты проводились с использованием скриптов на языке Python, а также библиотеки машинного обучения Scikit-learn и библиотека морфо-анализатора pymorphy2. В качестве решающей функции классификатора использовалась логистическая регрессия, а в качестве образцов коротких текстовых сообщений использовались новости RSS лент. В результате были получены данные о качестве классификаторов, обученных на корпусе с нормализацией слов текстовых сообщений и без нормализации. Применение нормализации существенно не влияет на качество классификации.
Ключевые слова
Компьютерная лингвистика, обработка текстов, машинное обучение, логистическая регрессия, алгоритм обучения, scikit-learn, pymorphy2, метрика качества, TF-IDF, RSS новости, коллекции документов,
предобработка текстов, лексика, классификация.
Введение
Очень часто в современном арсенале инструментов аналитиков по работе с текстовыми документами встречается информационные системы (далее ИС) с использованием интеллектуального анализа текстов (далее ИАТ) [5]. Одной из задач интеллектуального анализа текстов является классификация текстов.
Для создания ИС автоматической классификации коллекций текстовых документов часто используют алгоритмы машинного обучения с учителем. Процесс обучения представляет собой следующее: сперва алгоритму классификации предоставляется тексты с уже соотнесенным классом (так называемый корпус для обучения), а потом предоставляется тексты для определения класса по которым считается метрика качества классификации. Результатом обучения алгоритма классификатора служит модель, которая соотносит все входящие тексты к тому или иному классу [1].
В силу всевозрастающего объема и скорости событий в современном мире, которые отражаются в виде новостных текстовых сообщений в сети интернет, особенный интерес представляет ИС по автоматической классификации неструктурированного потока новостных текстовых сообщений.
В данной статье будем использовать в качестве алгоритма классификации один из метрических
_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_
классификаторов - логистическую регрессию. Данный алгоритм легко интерпретируем, особенно процесс обучения.
В области машинного обучения одну из главных ролей играет сами данные, а точнее их подготовка перед использованием алгоритмами машинного обучения. Поэтому целью данной статьи является исследование влияние методов предобработки текстов для формирования корпуса и обучение по нему алгоритма классификации с решающей функцией - логистической регрессии [2].
Для решения поставленной задачи в течение нескольких месяцев был осуществлен сбор новостных сообщений в формате RSS (далее RSS новости) от разных источников: информационные порталы, новостные агрегаты, новостные сайты информационных агентств РФ.
В качестве классов были выбраны RSS новости по следующим категориям:
• Автомобили и транспорт;
• Экономика и бизнес;
• Происшествия;
• Политика;
• Наука и техника;
• Спорт.
Количество RSS новостей в каждом классе составляет не более 9 тыс.
Последовательность создания обученной модели классификации по выше описанным классам, представлена диаграммой состояний на унифицированном языке моделирования (UML) на рис. 1 [3].
Рисунок 1 - Последовательность создания классификатора
Предобработка текстовых сообщений
Корпус для обучения классификатора - это файлы с предобработанными данными, а именно:
• файл с совокупностью текстовых сообщений и с соответствующими закодированными метками класса;
• файл с именами классов и их кодом.
Кодировать числом имена классов требует метрический алгоритм машинного обучения классификатора в частности алгоритм логистической регрессии [4].
На рис. 2 отображена диаграмма состояний отражающая процесс формирования корпуса для обучения классификатора.
_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_
Отчистка текстовых сообщение от неинформативных символов включает в себя следующую последовательность действий:
1. Замена символа табуляции и тире на символ пробела;
2. Удаление спецсимволов HTML;
3. Удаление всех символов, кроме цифр и букв (латинского и русского алфавита).
Рисунок 2 - Формирование корпуса для обучения
Как видно на диаграмме будет сформировано два корпуса, в одном из ни текстовые сообщения будут только отчищены от неинформативных символов, во втором корпусе каждое слово текстовых сообщений будет приведено к нормальной форме (т.е. слово в единственном числе и в именительном падеже) с помощью морфоанализатора: pymorphy2 [6].
Векторная модель текстовых сообщений Для обучения метрических классификаторов все текстовые сообщения состоящие из слов (далее терминов) корпуса кодируют в вектора Мп, где п - размерность векторов, соответствующая количеству уникальных слов в корпусе [6]. Таким образом векторная модель - это функция отображающая пространство текстовых сообщений в векторное пространство:
£: С ^ Мп, (1)
где С - пространство текстовых сообщений. В процессе формирования моделей использовались две метрики:
• TF (частотность термина, которая показывает как часто данный термин встречается в данном документе/текстовом сообщении);
• TF-IDF (где IDF это обратная частотность документов/текстовых сообщений содержащих термин).
Также для создания векторных моделей для каждой из двух метрик использовался гиперпараметр N-
грамм, т.е. извлечение из текста сообщений не только терминов, но их последовательностей [6].
_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_
В ходе формирование векторных моделей с разными метриками и гиперпараметрами, было получено 6 моделей, со следующими характеристиками:
• TF N1 (метрика TF, 1-граммы)
• TF N2 (метрика TF, биграммы)
• TF N3 (метрика TF, 3-граммы)
• TF-IDF N1 (метрика TF-IDF, 1-граммы)
• TF-IDF N2 (метрика TF-IDF, биграммы)
• TF-IDF N3 (метрика TF-IDF, 3-граммы)
Обучение и тестирование классификатора
В качестве метрики качества обученных моделей классификации использовались следующие показатели: точность (precision), полнота (recall) и fl-мера (f1-score) [4].
В таблице 1 приведены результаты тестирования логистической регрессии с использованием всех моделей векторизации текстовых сообщений (далее просто модель векторизации) и корпуса без нормализации термов.
Соответственно в таблице 2 приведены результаты тестирования с корпусом нормализованных термов в текстовых сообщениях.
Следует отметить что несовпадение размерности векторного пространства у двух типов векторных моделей происходит от того, что при создании векторной модели текстов в TF использовался список стоп-слов. Этот список содержит около 440 слов местоимений, предлогов, междометий, союзов и других часто встречаемых частей речи русского языка, которые не передают значимую для классификации текстов информацию.
Таблица 1
Векторные модели и не нормализованный текст корпуса
Тип векторной модели Количество признаков Точность
Обучающая выборка Тестовая выборка
TF N1 123172 0,996 0,915
TF N2 872863 0,997 0,918
TF N3 1817630 0,997 0,916
TF/IDF N1 123553 0,949 0,905
TF/IDF N2 916958 0,962 0,899
TF/IDF N3 2020840 0,967 0,893
Таблица 2
Векторные модели и нормализованный текст корпуса
Тип векторной модели Количество признаков Точность
Обучающая выборка Тестовая выборка
TF N1 59803 0,991 0,912
TF N2 687130 0,997 0,918
TF N3 1593110 0,997 0,916
TF/IDF N1 59948 0,9423 0,909
TF/IDF N2 706562 0,956 0,905
TF/IDF N3 1752255 0,963 0,900
В обоих таблицах жирным курсивом выделены те модели векторизации, которые показали лучший результат точности классификации логистической регрессии. Далее будет использоваться векторная модель на метрике TF с биграммами.
В ходе обучения моделей классификации использовалась стратегия обучения и тестирования в которой 80% корпуса использовалось для обучения и 20% для тестирования, причем в обучающей и тестовых выборках все классы сбалансированы, т.е. присутствуют текстовые сообщения всех классов в примерно одинаковом количестве [4].
В таблицах 3 и 4 представлены результаты измерения качества логистической регрессии при соответствующем обучающем корпусе. Точность на обучающей выборке в обоих случаях составляет 0,997.
Таблица 3
Метрика TF и биграммы, без нормализации
Класс Точность Полнота F1-мера Количество экземпляров
Автомобили 0,89 0,92 0,90 1588
Экономика и бизнес 0,88 0,85 0,86 1642
Происшествия 0,93 0,92 0,93 1649
Политика 0,89 0,92 0,91 1555
Наука и техника 0,95 0,94 0,94 1630
Спорт 0,98 0,96 0,97 1623
среднее/всего 0,92 0,92 0,92 9687
Таблица 4
Метрика TF и биграммы, с нормализацией
Класс Точность Полнота F1-мера Количество экземпляров
Автомобили 0,89 0,92 0,91 1610
Экономика и бизнес 0,88 0,85 0,87 1618
Происшествия 0,92 0,91 0,92 1622
Политика 0,90 0,92 0,91 1627
Наука и техника 0,94 0,95 0,95 1604
Спорт 0,98 0,95 0,96 1606
среднее/всего 0,92 0,92 0,92 9687
В каждом этапе обучения использовались 6 логистических регрессий, каждая из которых обучалась распознавать свой класс текстовых сообщений, т.е. 6 классификаторов решали задачу бинарной классификации каждый для своего класса.
Модель классификации представляет собой совокупность классификаторов, каждый из которых считает вероятность принадлежности входящего сообщения к соответствующему классу. Метка класса присваивается сообщению от того классификатора, который покажет наибольшую вероятность принадлежности [2].
В таблице 5 приведена лексика первых 10 самых популярных слов для каждого из классов текстовых сообщений из потока RSS новостей. Данную лексику формирует для себя каждый классификатор в процессе обучения. Как видно из данной таблицы каждому классу соответствует довольно релевантная совокупность слов, наиболее часто встречаемая в данном классе текстовых сообщений.
Таблица 5
Лексика классификаторов
Текст с обработкой без Текст с обработкой с
Класс нормализации нормализацией
Слово / вес Слово / вес
автомобили / 2,031 пробка / 1,834
дорог / 2,006 внедорожник / 1,682
авто / 1,743 автомобиль / 1,652
Volkswagen / 1,686 дорога / 1,562
Автомобили и транспорт автомобилей / 1,638 кроссовер / 1,546
кроссовер / 1,622 Volkswagen / 1,489
nissan / 1,593 авто / 1,457
пробки / 1,547 суперкар / 1,438
проезд / 1,531 хэмилтон / 1,415
ржд / 1,497 электрокар / 1,406
цб / 2,149 экономика / 2,069
экономики / 1,701 цб / 1,703
нефти / 1,644 продукция / 1,668
банка / 1,635 нефть / 1,582
Экономика и бизнес роснефть / 1,555 сбербанк / 1,553
рубль / 1,538 роснефть / 1,52
бизнес / 1,52 минфин / 1,464
банк / 1,52 банка / 1,458
сбербанка / 1,431 бизнес / 1,387
говорит / 1,409 предприниматель / 1,278
Продолжение таблицы 5
Происшествия пожар / 1,861 пожар / 1,78
полиция / 1,784 погибнуть / 1,655
эвакуировали / 1,596 теракт / 1,616
пострадавших / 1,524 эвакуировать / 1,603
задержан / 1,519 погибший / 1,56
дтп / 1,507 задержать / 1,483
ск / 1,501 ск / 1,478
пожара / 1,469 землетрясение / 1,451
ребенка / 1,425 следствие / 1,364
мужчина / 1,399 пропасть / 1,348
Политика собчак / 2,125 собчак / 1,712
выборах / 1,79 лавров / 1,632
лавров / 1,758 выборы / 1,446
выборы / 1,475 путин / 1,328
мид / 1,437 трамп / 1,307
нато / 1,419 политик / 1,239
партии / 1,364 война / 1,23
политолог / 1,333 нато / 1,229
трампа / 1,323 политический / 1,21
войны / 1,319 народ / 1,206
Наука и техника ученые / 4,3 учёный / 4,011
iphone / 2,319 смартфон / 2,226
учёные / 2,232 спутник / 2,193
ран / 2,221 iphone / 2,158
смартфон / 2,079 космический / 1,99
ученых / 2,004 рана / 1,868
исследователи / 1,961 исследователь / 1,843
nasa / 1,958 археолог / 1,731
смартфонов / 1,887 робот / 1,645
пользователей / 1,799 земля / 1,627
Спорт чм / 2,692 спорт / 2,562
турнира / 2,359 турнир / 2,332
сборной / 2,324 тренер / 2,293
спорта / 2,321 спортсмен / 2,286
клуба / 2,044 футболист / 2,19
матч / 1,95 чм / 2,07
мок / 1,946 клуб / 2,066
клуб / 1,936 матч / 2,026
матча / 1,836 сборный / 1,978
матче / 1,771 бой / 1,917
В таблице 6 и 7 приведены матрицы смежности, которые показывают отношения множеств слов (т.е. лексики) каждого из классификатора. Данные матрицы строились следующем образом: берутся слова лексики одного классификатора, и вычитаются слова которые встречаются в лексиках других классификаторов. При этом рассматриваются слова только те у которых вес больше 0,5. Значения веса для каждого слова лексики у классификатора формируются в процессе обучения логистическое регрессии. Средний вес уникальных слов для каждого классификатора приведен в последнем столбце таблиц. По диагонали матрицы жирным курсивом приведено количество слов в лексике классификатора соответствующего класса.
Таблица 6
Матрица смежности с ненормализованным корпусом
Автомобили Экономика и бизнес Происшестви я Политика Наука и техника Спорт Средний вес слова
Автомобили 362 0 1 0 0 0 0,776
Экономика и бизнес 0 445 0 3 1 1 0,72
Происшествия 1 0 390 3 0 2 0,741
Политика 0 3 3 378 1 1 0,716
Наука и техника 0 1 0 1 330 0 0,819
Спорт 0 1 2 1 0 318 0,845
Количество уникальных слов 361 440 384 370 328 314 -
МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_
Таблица 7
Матрица смежности с нормализованным корпусом
Автомобили Экономика и бизнес Происшестви я Политика Наука и техника Спорт Средний вес слова
Автомобили 254 1 0 0 0 1 0,743
Экономика и бизнес 1 371 2 1 1 0 0,72
Происшествия 0 2 307 3 0 1 0,751
Политика 0 1 3 311 1 1 0,695
Наука и техника 0 1 0 1 243 0 0,822
Спорт 1 0 1 1 0 196 0,894
Количество уникальных слов 252 366 301 305 241 193 -
Как можно видеть из данных таблиц 6 и 7, использование нормализации слов в обучающем корпусе приводит к уменьшению «рабочей» лексики каждого из классификаторов, причем средний вес лексики существенно не отличается.
На рис. 3 отображена зависимость среднего веса слов и точности классификаторов для каждого класса текстовых сообщений. Зеленым светом показаны значения классификаторов при нормализации обучающего корпуса, а синим цветом показаны значения классификаторов без нормализации обучающего корпуса.
Рисунок 3 - Средние значения веса слов и точность
Выводы
Как показали результаты вычислительных экспериментов нормализация текстовых сообщений небольшого обучающего корпуса не увеличивает точность классификации. Стоит отметить, что лучшие результаты точности классификации показали классификаторы с моделью векторизации основанной на метрике TF с биграммами.
Также была выявлена характерная зависимость среднего веса слова в лексике классификаторов и точности их предсказаний метки класса. Очевидно при увеличении количества текстовых сообщений представленных классов в обучающем корпусе приведет к увеличению среднего веса слова в уникальных лексиках классификаторов, и как следствие увеличению качества их классификации.
Список использованной литературы: 1. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. Пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. - М.: МИЭМ,
_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» № 12/2017 ISSN 2410-700Х_
2011. - 272 с.
2. Грант С. Ингерсолл, Томас С. Мортон, Эндрю Л. Фэррис Обработка неструктурированных тестов. Поиск, организация и манипулирование. / Пер. с англ. Слинкин А.А. - М.: ДМК Пресс, 2015. - 414 с.: ил.
3. Ларман, Крэг Применение UML 2.0 и шаблонов проектирования. Практическое руководство. 3-е издание.: Пер. с англ. - М.: ООО «И.Д. Вильямс», 2013. - 736 с.: ил.
4. Луис Педро Коэльо, Вилли Ричард Построение систем машинного обучения на языке Python. 2-е издание/ пер. с англ. Слинкин А.А. - М.: ДМК Пресс, 2016. - 302 с.: ил.
5. Морозов В.К. Моделирование информационных и динамических систем. - М.: Издательский центр «Академия», 2001. - 384 с.
6. Пиотровский Р.Г. и др. Математическая лингвистика. Учеб. Пособие для пед. ин-тов. М., «Высшая. школа», 1977. - 383 с. с ил.
© Климов Д.В., 2017
УДК 62-529
Сидоренков В.А.
Студент 2 курса магистратуры МГТУ им. Н.Э. Баумана,
г. Москва, РФ E-mail: sidorenkov.slava@gmail. com
Лосев О.Д.
Студент 2 курса магистратуры МГТУ им. Н.Э. Баумана,
г. Москва, РФ E-mail: Beeberg@bk.ru Анчутин В.А.
Студент 2 курса магистратуры МГТУ им. Н.Э. Баумана,
г. Москва, РФ E-mail: viktor-anchutin@yandex.ru Научный руководитель: Рубцов В.И., Доцент МГТУ им. Н.Э. Баумана, г. Москва, РФ E-mail: rubtsov@mail.ru
МЕХАТРОННОЕ УСТРОЙСТВО ДЛЯ ВЫРАЩИВАНИЯ РАСТЕНИЙ НА КОСМИЧЕСКИХ АППАРАТАХ И СТАНЦИЯХ
Аннотация
В статье представлена разработка установки по выращиванию растений в заданных пользователем параметрах. Устройства подобного типа использовались при создании оранжерей для космических станций.
Мехатронное устройство «Фитотрон», представленное автором этой статьи, позволяет создать наиболее благоприятные условия для выращивания растений в искусственной среде. Интеллектуальная система гибкой настройки дает возможность обеспечить оптимальную температуру, влажность, уровень освещенности и воздухообмена. При необходимости, можно моделировать разные условия для проведения опытов.
Представлены характеристики разрабатываемого фитотрона, его структурная и функциональная схемы. Параметры системы, описание и принцип работы основных узлов.