Научная статья на тему 'ОПТИМАЛЬНЫЙ МЕТОД ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПОДБОРА ВАКАНСИЙ'

ОПТИМАЛЬНЫЙ МЕТОД ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПОДБОРА ВАКАНСИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
85
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бондарчук Дмитрий Вадимович

Интеллектуальный анализ данных в последние годы получил широкое распространение в связи с увеличением количества документов, хранящихся в электронном виде, и возникшей необходимостью их упорядочения. В данном исследовании, во-первых, рассмотрены методы интеллектуального анализа текстов, во-вторых, сделан выбор оптимального метода, а также разработано необходимое программное обеспечение. Результаты исследования расширяют знания о методах интеллектуального анализа текстовой информации и могут быть использованы для разработки метода персонального подбора вакансий.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бондарчук Дмитрий Вадимович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OPTIMAL METHOD OF DATA MININIG FOR VACANCIES SELECTION

Data mining in recent years is widely used in connection with the increase in the number of documents stored in electronic form, and the perceived need to streamline them. In this study, first, the methods text mining, secondly, choosing the optimal method, as well as to develop the necessary software. The findings extend knowledge of methods of text mining and information can be used to develop a method for personal selection of vacancies.

Текст научной работы на тему «ОПТИМАЛЬНЫЙ МЕТОД ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПОДБОРА ВАКАНСИЙ»

Шаг 2. Определение необходимости осуществления регулирующего воздействия. Если

С

-2

't >St , St

)gQ t, t = 1, •.., T,

то останов - регулирующее воздействие со стороны администрации региона не требуется.

Шаг 3. Решение задачи векторной оптимизации (4),

(3).

3.1. Решение задачи скалярной оптимизации с кри-

терием " 1 и ограничениями (3). Обозначим через оптимальное значение функции цели.

3.2. Решение задачи скалярной оптимизации следующего вида:

= Xа1 ' (и* тах,

г=1 (6) при условии добавления к ограничениям (3) ограничения вида:

^ = 5 (VI, ..., )< ~

Решение задачи (6) - векторы

v )*, к} -

являются

t = 1,„., T

решением задачи согласования, где

* ~ 1"', П . Останов.

Заметим, что детальное описание шагов представленного алгоритма основывается на конкретизации типов регулирующего воздействия со стороны администрации региона и математических зависимостей (1)-(3). Такие

конкретизации, апробированные на практике, приведены в работах ([1],[4]).

Рассмотренный алгоритм реализован среде Delphi 7.0. Практические расчеты проводились на базе и на основе данных администрации Хлевенского муниципального района Липецкой области. Результаты практической реализации позволили сделать выводы об адекватности представленного подхода и возможности его широкого внедрения.

Литература

1. Горошко И.В. Согласование социальных и экономических показателей развития региона: понятие и механизмы / И.В. Горошко, Ю.В. Бондаренко // Проблемы управления. - 2015. - № 1. - С. 63-72.

2. Теория и практика управления качеством в социально-экономических системах / С.А. Баркалов, В.Е. Белоусов, Л.Р. Маилян; под ред. В.Н. Буркова. - Воронеж: «Научная книга», 2013. - 580 с.

3. Горошко И.В. Согласование социального и экономического развития в регионе как предпосылка повышения качества жизни населения / И.В. Горошко, Ю.В. Бондаренко, В.Г. Сидорова // Экономика и менеджмент систем управления, 2014. - № 3.1 (13). -С. 101-114.

4. Бондаренко Ю.В. Математический инструментарий оказания эффективной поддержки хозяйствующим субъектам региона / Ю.В. Бондаренко, В.Л. Порядина, А.Н. Чекомазов // Системы управления и информационные технологии, 2015. - Т.39. - № 1. -С. 20-24.

ОПТИМАЛЬНЫЙ МЕТОД ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

ДЛЯ ПОДБОРА ВАКАНСИЙ

Бондарчук Дмитрий Вадимович

аспирант каф. Высшей и прикладной математики, УрГУПС, г. Екатеринбург

OPTIMAL METHOD OF DATA MININIG FOR VACANCIES SELECTION Bomdarchuk Dmitry, PhD student, USURT, Yekaternburg, Russia

АННОТАЦИЯ

Интеллектуальный анализ данных в последние годы получил широкое распространение в связи с увеличением количества документов, хранящихся в электронном виде, и возникшей необходимостью их упорядочения. В данном исследовании, во-первых, рассмотрены методы интеллектуального анализа текстов, во-вторых, сделан выбор оптимального метода, а также разработано необходимое программное обеспечение. Результаты исследования расширяют знания о методах интеллектуального анализа текстовой информации и могут быть использованы для разработки метода персонального подбора вакансий.

ABSTRACT

Data mining in recent years is widely used in connection with the increase in the number of documents stored in electronic form, and the perceived need to streamline them. In this study, first, the methods text mining, secondly, choosing the optimal method, as well as to develop the necessary software. The findings extend knowledge of methods of text mining and information can be used to develop a method for personal selection of vacancies.

Ключевые слова: интеллектуальный анализ данных

Keywords: data mining

Введение

Интеллектуальный анализ данных в последние годы получил широкое распространение в связи с увеличением количества документов, хранящихся в электрон-

ном виде, и возникшей необходимостью их упорядочения. Наиболее перспективным подходом к решению задач данного класса является применение технологий, основанных на машинном обучении.

В настоящее время существует колоссальное число методов интеллектуального анализа данных[1, 3, 4]. Большинство этих методов основано на одном из 3-х основных подходов: вероятностном подходе, искусственных нейронных сетях или деревьях решений. Кроме того следует помнить, что данные зачастую зашумлены лишней информацией, которая может создать дополнительные проблемы для анализа [2].

1 Обзор существующих подходов

1.1 Ручная классификация

Ручной анализ данных - анализ, полностью осуществляемый пользователем, зачастую даже без использования компьютера. Очень дорогой метод, который неприменим в случаях, когда необходимо анализировать значительное количество документов с высокой скоростью.

1.2 Машинное обучение

В этом подходе набор правил или более общий критерий принятия решения текстового классификатора, вычисляется автоматически из обучающих данных (другими словами, производится обучение классификатора). Обучающие данные - это некоторое количество хороших образцов документов из каждого класса. В машинном обучении сохраняется необходимость ручной разметки.

Таким образом, классификация текстов, основанная на машинном обучении, является примером обучения с учителем, где в роли учителя выступает человек, задающий набор классов и размечающий обучающее множество [3].

1.2.1 Наивная байесовская модель

Наивная байесовская модель является вероятностным методом обучения. Вероятность того, что документ d попадёт в класс с, записывается как Р(с^). Поскольку цель классификации - найти самый подходящий класс для данного документа, то в наивной байесовской классификации задача состоит в нахождении наиболее вероятного класса ст, который рассчитывается по формуле:

(1)

где с - класс, d - документ, а^тах - элемент, на котором достигается максимум.

Вычислить значение этой вероятности напрямую невозможно, поскольку для этого нужно, чтобы обучающее множество содержало все (или почти все) возможные комбинации классов и документов. Однако, используя формулу Байеса, можно переписать выражение для Р(с|с1), в виде:

Р(с | </)Р(с)

ст = arg max

сеС

P(d)

= arg max P(c | d)P(c)

(2)

где знаменатель P(d) опущен, так как не зависит от c и, следовательно, не влияет на нахождение максимума; P(c) - вероятность того, что встретится класс с, независимо от рассматриваемого документа; P(d|c) - вероятность встретить документ d среди документов класса с.

Используя обучающее множество, вероятность P(c) можно оценить по формуле:

N

Р(с) = — N

где № - количество документов в классе с, N - общее количество документов в обучающем множестве. Здесь использован другой знак для вероятности, поскольку с помощью обучающего множества можно лишь оценить вероятность, но не найти её точное значение.

1.2.2 Латентно-семантический анализ

Этот метод позволяет выявлять значения слов с учетом контекста их использования путем обработки большого объема текстов.

Модель представления текста, используемая в латентно-семантическом анализе (ЛСА), во многом схожа с восприятием текста человеком. Например, с помощью этого метода можно оценить текст на соответствие заданной теме.

В качестве исходной информации используется терм-документная матрица. Терм-документная матрица -это математическая матрица, описывающая частоту терминов, которые встречаются в коллекции документов. Строки соответствуют документам в коллекции, а столбцы соответствуют терминам.

К матрице применяется сингулярное разложение.

Сингулярное разложение - это математическая операция, раскладывающая матрицу на 3 составляющих

[6]. Сингулярное разложение можно представить в виде формулы:

где А - исходная матрица, и и VT - ортогональные матрицы, а S - диагональная матрица, значения, на диагонали которой называются сингулярными коэффициентами матрицы А. Сингулярное разложение позволяет выделить ключевые составляющие исходной матрицы [6].

Основная идея ЛСА состоит в том, что если в качестве матрицы А использовалась терм-документная матрица, то матрица А*, содержащая только к первых линейно независимых компонент, отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов [1].

Схожесть между любой комбинацией термов и/или документов чаще всего вычисляют с помощью скалярного произведения их векторов, однако на практике лучший результат дает вычисление схожести с помощью коэффициента корреляции Пирсона [4].

1.2.4 Векторные методы

Такие методы используют векторную модель представления текста. Как правило, для классификации используется скалярное произведение векторов. Вектор документа последовательно скалярно перемножается с векторами категорий и чем больше скалярное произведение, тем больше вероятность, что документ попадет в эту категорию.

2 Модели представления данных

2.1 Матрица термы на документы

Терм-документная матрица представляет собой математическую матрицу, описывающую частоту терминов, которые встречаются в коллекции документов. В терм-документной матрице строки соответствуют документам в коллекции, а столбцы соответствуют терминам

[7]. Существуют различные схемы для определения значения каждого элемента матрицы. Одной из таких является схема TF-IDF. Они полезны в области обработки естественного языка, особенно в методах латентно-семантического анализа.

2.2 Векторная модель

Векторная модель - в информационном поиске представление коллекции документов векторами из одного общего для всей коллекции векторного пространства.

Векторная модель является основой для решения многих задач информационного поиска, как то: поиск документа по запросу, классификация документов, кластеризация документов.

Различными способами можно определить вес терма в документе - «важность» слова для идентификации данного текста. Например, можно просто подсчитать количество употреблений терма в документе, так называемую частоту терма, - чем чаще слово встречается в документе, тем больший у него будет вес. Если терм не встречается в документе, то его вес в этом документе равен нулю.

Более формально это утверждение можно представить в виде формулы:

(5)

где dj - векторное представление j-го документа, wij - вес 1-го терма в j-м документе, п - общее количество различных термов во всех документах коллекции.

3 Анализ предметной области и выбор метода

Следуя названию данной статьи, предметной областью данного исследования является автоматический подбор наиболее подходящих вакансий разовой работы.

В терминах анализа данных, вакансия и пользователь - это документы, содержащие некоторый набор атрибутов, а именно:

1) Вакансия:

- временные рамки;

- стоимость;

- географическое местоположение;

- текстовое описание.

2) Пользователь:

- географическое местоположение;

- текстовое описание профессиональных навыков.

Подбор вакансий на основании первых трех атрибутов (стоимость, время, местоположение) не представляет никакой сложности и в данном исследовании не рассматривается.

Очевидно, что текстовые описания формируются обычными людьми и как следствие имеет место быть сильная зашумленность данных. В связи с этим, прежде, чем переходить к анализу данных необходимо произвести ряд действий для освобождения текста от шумов. Для этого предлагается использовать: семантическое ядро и стемминг.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Стемминг - это процесс нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова. Данный процесс применяется в поисковых системах для обобщения поискового запроса пользователя [9].

Конкретные реализации стемматизации называются алгоритм стемматизации или просто стеммер. Наиболее удачный алгоритм стемминга - стеммер Портера.

Стеммер Портера - алгоритм стемминга, опубликованный Мартином Портером в 1980 году[9].

Поскольку тексты описания вакансии или профессиональных навыков имеют минимальную длину, поэтому в данном случае наиболее привлекательной моделью представления данных является вектор.

Для проверки вышеуказанных фактов было разработано специальное программное обеспечение. В качестве обучающей выборки было выбрано 150 текстов описаний вакансий и 150 текстов описаний профессиональных навыков работников с известного сайта по поиску работы. Рассматривались латентно-семантический анализ и стандартный векторный метод. Байесовская модель и сеть Кохонена-Гройсберга в данном случае неприменимы, поскольку позволяют относить анализируемый текст к одной из заранее выделенных категорий, в нашем же случае выделить конечный список категорий не представляется возможным. Вывод

В статье приведен сравнительный анализ основных методов интеллектуального анализа данных. Сделан вывод о том, что при использовании интеллектуального анализа данных для подбора разовых вакансий наиболее эффективным является стандартный векторный метод.

Литература

1. Бондарчук Д.В. Использование латентно-семантического анализа в задачах классификации текстов по эмоциональной окраске. // Бюллетень результатов научных исследований. 2012. №2 (3). С. 146-151

2. Бондарчук Д.В. Система интеллектуальной классификации и ранжирования веб-контента. // Сборник материалов конференции ДНИ НАУКИ ОТИ НИЯУ МИФИ-2012. Озерск, 2012. С. 47-49.

3. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. - Springer: Verlag, 2009. - 746 с., ил.

4. Toby Segaran. Programming Collective Intelligence. -LA: O'REILLY, 2008. - 368 с., ил.

5. Зиновьев А. Ю. Визуализация многомерных данных. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.

6. William H. Press, Saul A. Teukolsky, William T. Vetterling, Brian P. Flannery. 2.6 Singular Value Decomposition // Numerical Recipes in C. — 2nd edition. — Cambridge: Cambridge University Press. — ISBN 0-521-43108-5

7. Salton G., Buckley C. 1988 Term-weighting approaches in automatic text retrieval. Information Processing & Management 24(5): 513—523

8. Daniel Jurafsky, James H. Martin Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. Second Edition. Pearson Education International. - 2009. - 1024 pp.

9. P. Willett The Porter stemming algorithm: then and now (англ.) // Program: Electronic Library and Information Systems. — 2006. — В. 3. — Т. 40. — С. 219—223. — ISSN 0033-0337

10. Гмурман В. Е. Теория вероятностей и математическая статистика - М., Высш.шк., 2003.- 479 с.

11. Галушкин А. Нейронные сети. Основы теории -Москва, Горячая линия - Телеком, 2012. - 496 с.

12. Ручкин В., Злобин В. Нейросети и нейрокомпьютеры - С-Петербург БХВ-Петербург, 2011. - 256 с.

13. Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.

i Надоели баннеры? Вы всегда можете отключить рекламу.