Научная статья на тему 'Исследование и разработка интеллектуальной системы поддержки принятия решений для службы удаленной технической поддержки на основе методов word-embedding'

Исследование и разработка интеллектуальной системы поддержки принятия решений для службы удаленной технической поддержки на основе методов word-embedding Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
173
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМА ПОДДЕРЖКИ ПРИНЯТИЙ РЕШЕНИЙ / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / WORD2VEC / ИНФОРМАЦИОННЫЙ ПОИСК

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Черноусов Е.О., Чикунов Н.С.

В работе рассматривается разработка системы поддержки принятия решений, позволяющей сократить сроки обработки заявок специалистами службы удаленной технической поддержки. Предложен способ поиска по архиву обращений службы, позволяющий повторно использовать апробированные решения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Черноусов Е.О., Чикунов Н.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование и разработка интеллектуальной системы поддержки принятия решений для службы удаленной технической поддержки на основе методов word-embedding»

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №12/2017 ISSN 2410-6070_

Список использованной литературы:

1. Соколов Б.А. Котельные установки и их эксплуатация/ Б.А. Соколов. - М.: Академия, 2005. 2. Галустов В.С. Утилизация теплоты дымовых газов // Энергия и менеджмент (Минск). - 2004. - № 6.

© Червинский В.Н., Рожков Н.Н., 2017

УДК 004.891.2

Е.О. Черноусов

магистр, ФГБОУ ВО МГТУ «СТАНКИН»,

г. Москва, РФ E-mail: tonko22x@ gmail.com Н.С. Чикунов магистр, ФГБОУ ВО МГТУ «СТАНКИН»,

г. Москва, РФ E-mail: artlicasio@ gmail.com

ИССЛЕДОВАНИЕ И РАЗРАБОТКА ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ДЛЯ СЛУЖБЫ УДАЛЕННОЙ ТЕХНИЧЕСКОЙ ПОДДЕРЖКИ НА

ОСНОВЕ МЕТОДОВ WORD-EMBEDDING

Аннотация

В работе рассматривается разработка системы поддержки принятия решений, позволяющей сократить сроки обработки заявок специалистами службы удаленной технической поддержки. Предложен способ поиска по архиву обращений службы, позволяющий повторно использовать апробированные решения.

Ключевые слова

Система поддержки принятий решений, обработка естественного языка, word2vec, информационный поиск.

E.O. Chernousov

magister, MSTU «STANKIN», Moscow, Russian Federation E-mail: tonko22x@ gmail.com N.S. Chikunov magister, MSTU «STANKIN», Moscow, Russian Federation E-mail: artlicasio@ gmail.com

RESEARCH AND DEVELOPMENT OF INTELLIGENT DECISION SUPPORT SYSTEM FOR REMOTE TECHNICAL SUPPORT SERVICES BASED ON WORD-EMBEDDING METHODS

Annotation

The paper considers the development of a decision support system that allows to reduce the processing time of tickets by specialists of the remote support service. A method for searching in the knowledge base is proposed, allowing you to find ready-made solutions based on the intellectual analysis of the description of appeals.

Keywords

Decision support system, nattural language processing, word2vec, information search.

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №12/2017 ISSN 2410-6070_

Введение

Задача сокращения сроков обработки заявок является одной из важнейших задач оптимизации труда специалистов технической поддержки, так как значительную часть времени специалист тратит на поиск и документирование повторяющихся решений. В то же время, в связи с ростом объемов хранимой и обрабатываемой информации, и развитием области машинного обучения, становится всё более востребованным эффективный информационный поиск на основе интеллектуального анализа данных.

Трудностью поиска по текстовому содержанию обращений является то, что симптомы одинаковых по сути неисправностей, от раза к разу, описываются различными словами. Кроме того, описания часто содержат сленг, грамматические ошибки и формы почтовой отправки, так как большинство заявок поступает по e-mail. Механизмы полнотекстного поиска практически бесполезны в случаях, когда результатов, удовлетворяющих запросу много, а эффективная сортировка по релевантности отсутствует. Современные системы учета обращений системы не работают с подобными задачами.

Однако, не так давно появились инструменты [1] на основе подхода word-embedding [2] — метода представления текстов, который позволяет словам с похожим значением иметь аналогичное векторное представление. Такие представления позволяют снимать многозначность слов и определять синонимы, что в свою очередь сильно повышает качество поиска и позволяет ранжировать результаты по релевантности.

Результатом данной работы является разработка и внедрение системы, позволяющей организовать подбор апробированных решений на основе семантического анализа описаний неисправностей.

Результаты исследования

Архив обращений службы удаленной технической поддержки состоит из текстовых документов с описанием проблем и связанных с ними документов с описанием инструкций для их решения. Перед тем как строить модель архива, текстовые описания неполадок следует предварительно обработать для того, чтобы получить лексическую основу содержания каждого обращения.

Так как обращения в основном поступают через e-mail, они содержат в себе множество "шумовых" слов, имена, адреса, формы почтовой отправки и т.д., что сильно мешает при извлечении семантических признаков описаний неполадок. Для решения этой проблемы был разработан алгоритм предварительной обработки текстовых содержаний (Рис.1).

Рисунок 1 - Алгоритм предварительной обработки содержания обращений

Word-embedding это набор методов машинного обучения в обработке естественного языка, с помощью которого слова или фразы из словаря сопоставляются с векторами реальных чисел. Концептуально он включает математическое вложение из пространства с одним измерением на слово в непрерывное векторное пространство с гораздо меньшей размерностью.

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №12/2017 ISSN 2410-6070_

Методы word-embedding довольно тесно связаны с языковыми моделями. Качество языковых моделей измеряется на основе их способности оценивать распределение вероятности совместной встречаемости слов. Фактически, Многие современные методы на основе word-embedding пытаются предсказать следующее слово на основе его контекста. Принцип обучения word-embedding основывается на предположении, что слова, встречающиеся в схожих контекстах, являются близкими по смыслу. К примеру, слова «интернет» и «подключение» часто встречаются в схожих контекстах, например: «Пропал интернет на сервере 1С» и «Пропало подключение на сервере 1С». Алгоритм анализирует текстовые описания обращений и делает вывод, что слова «интернет» и «подключение» являются семантически близкими. Адекватность подобных выводов тем выше, чем больше текстовых данных будет использовать алгоритм.

Алгоритм обучения состоит в следующем: на вход сети поочередно подаются значения из мешков слов, на выходе им сопоставляются значения соседей. В ходе обучения, сеть учится предсказывать соседей для каждого слова в документе, тем самым фиксируя семантические признаки в весовой матрице. Весовая матрица (скрытый слой) обученной сети извлекается в качестве векторного представлением документа и содержит его семантические признаки (Рис. 2).

Рисунок 2 - Алгоритм обучения word-embedding

Векторные представления позволяют численно оценивать меру схожести между документами, отдельными словами и парами документ-слово.

В работе использовалась реализация doc2vec [3] в библиотеке Gensim — как вычислительно оптимизированная и задокументированная библиотека с открытым исходным кодом.

В основе программного решения лежит архитектура микросервисов - подход, регламентирующий реализацию функциональных элементов в виде самостоятельных модулей, обменивающихся сообщениями. Такая архитектура позволяет легко производить интеграцию с системами учета и обработки обращений службы удаленной технической поддержки, а также масштабирование.

Система включает в себя следующие модули (Рис. 3):

•Модуль поисковых запросов — содержит в себе интерфейсы ранжированного поиска и семантическую модель архива обращений на основе модели doc2vec.

•Модуль оптимизации параметров обучения — отвечает за поиск оптимальных параметров обучения, анализ отчетов, содержащих параметры обучения и качество обученных моделей.

•Удаленный вычислительный сервер — отвечает за обучение и оценку качества моделей, запись отчетов в базу данных.

•База данных — выступает как единое хранилище отчетов о поиске оптимальных параметров, а также файлов регистрации запросов к семантической модели.

Рисунок 3 - Архитектура программного решения

Исследована, разработана и внедрена система поддержки принятия решений, позволяющая сократить сроки обработки обращений специалистами службы удаленной технической поддержки за счет подбора апробированных решений. Система подбора решений построена на основе методов word-embedding, позволяющих учитывать семантические признаки текстовых содержаний обращений для более точного поиска и ранжирования (Рис. 4). В основе программного решения лежит микросервисная архитектура, позволяющая легко производить интеграцию с системами учета и обработки обращений службы удаленной технической поддержки. На основе автоматической оценки качества поиска, получен результат в 73% успешно найденных решений в первых пяти результатах запроса. Ручная оценка качества специалистами первой линии технической поддержки показала результат в 85%.

Входящее обращение Наиболее похожее обращение из архива % похожести

"Ре:Диагностика ПК ПК 12471 уходит в ребут после подключения флеш накопителя. Проверить логи. Диагностировать, понять в чем проблема." "перезагружается пк, при подключении флешки пк ребутается. пк 37214 Проверить в чем проблема. Пк на гарантии." 61.5

"Тертнальный сервер после отключения питания не загружается. BSOD" "После перезагрузки сервера, сервер не загружается пищит" 68.6

"Не работает камера" " Камеры не работают" 78.3

"RE:The Bat Не отправляются письма, пишет переполнена папка. "Re: не принимается почта Переполнение папки в THE Bat! папка более 2 ГБ" 68.14

Рисунок 4 - Пример подбора похожих обращений

Список использованной литературы:

1. Pennington J., Socher R., D. Manning C. GloVe: Global Vectors for Word Representation // The Stanford Natural Language Processing Group. 2008. URL: https://nlp.stanford.edu/projects/glove/ (дата обращения: 1.12.2017).

2. Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed representations of words and phrases and their compositionality // Neural Information Processing Systems. 2013. URL: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf (дата обращения: 1.12.2017).

3. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR. 2013. URL: https://radimrehurek.com/gensim/models/doc2vec.html (дата обращения: 1.12.2017).

© Черноусов Е.О., Чикунов Н.С., 2017

УДК 637.5.03

А.С. Чертова

магистрант 2 курса СГАУ им. Н.И. Вавилова,

г. Саратов, РФ Д.Н. Рузаева

магистрант 2 курса СГАУ им. Н.И. Вавилова,

г. Саратов, РФ Научный руководитель: Т.М. Гиро д-р. техн. наук, профессор СГАУ им. Н.И. Вавилова,

г. Саратов, РФ

СПОСОБЫ ФЕРМЕНТИРОВАНИЯ КОЛЛАГЕНСОДЕРЖАЩЕГО СЫРЬЯ

Аннотация

В статье подчеркнута перспективность включения низкосортного сырья в процесс производства, описаны способы обработки коллагенсодержащего сырья ферментными препаратами отечественных производителей, а также бактериальными культурами.

Ключевые слова

Соединительная ткань, коллаген, ферменты, биомодификация, бифидобактерии

Соединительная ткань является одной из основных тканей животного организма, входит в состав межклеточного вещества в мышцах, связок, сухожилий, хрящей, кровеносных сосудов и составляет около 16% мясной туши. В ней в большом количестве находится коллаген, что делает ее основным источником коллагенсодержащего сырья [6].

Коллагеновые фракции по своим свойствам не уступают растительным пищевым волокнам. Кийковой, Антиповой и Сторублевцевым были проведены исследования, подтверждающие сорбционные свойства коллагенового гидролизата. Это свойство коллагена позволяет использовать его для профилактики отравлений солями тяжелых металлов, следовательно, использовать коллаген в качестве функциональной добавки [3].

Включение коллагенсодержащего сырья в процесс производства без предварительной обработки сопряжено с рядом трудностей из-за его низких функционально-технологических и органолептических характеристик, повысить которые помогает ферментативная биотрансформация сырья [6].

Ферменты — это функциональные единицы клеточного метаболизма, присутствуют во всех живых клетках и способствуют превращению веществ. Ферменты выступают в роли катализаторов практически всех биохимических реакций живых организмов. Протеолитические ферменты в мясной промышленности позволяют использовать части туши, имеющие повышенную жесткость [4].

Протеолитические ферменты являются продуктами синтеза растительных и животных клеток, а также клеток микроорганизмов. Так ферментные препараты протепсина, пепсина, трипсина, химотрипсина,

i Надоели баннеры? Вы всегда можете отключить рекламу.