Интернет-журнал «Науковедение» ISSN 2223-5167 http ://naukovedenie.ru/
Том 9, №2 (2017) http://naukovedenie.ru/vol9-2.php
URL статьи: http://naukovedenie.ru/PDF/09TVN217.pdf
Статья опубликована 16.03.2017
Ссылка для цитирования этой статьи:
Валитова Ю.О., Фазанова А.Д. Алгоритм автоматизированного сбора и анализа данных для формирования модели личности специалиста, востребованного рынком труда // Интернет-журнал «НАУКОВЕДЕНИЕ» Том 9, №2 (2017) http://naukovedenie.ru/PDF/09TVN217.pdf (доступ свободный). Загл. с экрана. Яз. рус., англ.
УДК 004.62
Валитова Юлия Олеговна
ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных
технологий, механики и оптики», Россия, Санкт-Петербург1
Доцент кафедры «ИТГС» Кандидат педагогических наук E-mail: julijawal@gmail.com
Фазанова Алиса Дмитриевна
ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных
технологий, механики и оптики», Россия, Санкт-Петербург
Магистрант E-mail: fas-ali-da@yandex.ru
Алгоритм автоматизированного сбора и анализа данных для формирования модели личности специалиста,
востребованного рынком труда
Аннотация. Основой для проведения исследования послужило отсутствие в литературе описания модели личности специалиста, востребованной рынком труда, учитывающей динамику развития, своеобразие и специфику рынка труда для конкретной профессиональной области. Авторами получен ответ на вопрос о принципиальной возможности формирования новой, динамической модели специалиста.
Формирование модели личности специалиста предлагается осуществить на основе автоматизированного сбора данных с профильных сайтов и их обработку с использованием методов Text Mining. Исследование проводилось на основе мониторинга вакансий и данных, предоставляемых популярными Интернет-ресурсами по трудоустройству, такими как HeadHunter, Яндекс.Работа и другими.
Проблема решена на основе разработанного авторами алгоритма и парсера, написанного на языке Python, для автоматизированного сбора и анализа данных для формирования динамической модели специалиста в конкретной профессиональной области, в частности, «Администратор баз данных», востребованного рынком труда.
1 197101, Российская Федерация, Санкт-Петербург, Кронверкский пр., д. 49 Страница 1 из 9 http://naukovedenie.ru 09TVN217
Авторами доказано, что разработанный ими алгоритм позволяет:
1. быстро и качественно собрать большой объем данных о требованиях работодателей;
2. глубинно проанализировать данные, визуализировав результаты;
3. ответить на насущные вопросы о возможности трудоустройства молодого специалиста (количество предлагаемых вакансий в той или иной сфере, ключевые требования работодателей в конкретной области и т.п.).
Ключевые слова: модель личности специалиста; алгоритм; автоматизация; сбор данных; анализ данных; парсер; Web Mining; Text Mining
Как показывают современные исследования, успешное трудоустройство выпускника вуза является сложным и трудоемким процессом, требующим от молодого специалиста умения выстоять в условиях высокой конкуренции на рынке труда [1; 2; 3; 4; 5].
Для эффективной конкуренции с профессионалами, присутствующими на рынке труда, выпускнику вуза необходимо не только получить практический опыт, который является одним из наиболее частых требований к потенциальному соискателю, но и соответствовать требованиям работодателей по ряду компетенций, связанных со знаниями, умениями, навыками и личностными качествами. Но, как показывают статистические данные, 43% выпускников вузов и техникумов считают, что знания и навыки не востребованы работодателями [2]. Это является следствием того, что выпускники вуза, как правило, не представляют, каким видят потенциального работника работодатели.
Совокупность требований, предъявляемых работодателями к соискателю, можно считать своеобразной «моделью личности специалиста», которую работодатели строят исходя из прагматических соображений и учета динамики, развития, своеобразия и специфики рынка труда в определенной профессиональной области.
Требования работодателей в каждой конкретной профессиональной области индивидуальны и претерпевают изменения с течением времени. Поэтому возникает необходимость постоянного мониторинга рынка труда с тем, чтобы владеть актуальной информацией по компетенциям, которыми должен обладать специалист, востребованный рынком труда.
Несмотря на то, что в работах [3; 5] представлены модели специалистов, востребованных рынком труда, следует отметить, что они не учитывают компетенции, которые требуются специалисту для востребованности работодателями в конкретных профессиональных областях. Но и те модели, которые разработаны для определенной профессии [4; 6], не учитывают изменения требований работодателей. Особенностью рассмотренных моделей является также то, что они являются обобщенными моделями некоего абстрактного специалиста, не привязаны к конкретной профессиональной области, статичны, академичны, не учитывают динамику и специфику рынка труда в определенном регионе.
В связи с выше изложенным, была поставлена и решена задача создания динамической модели личности специалиста для конкретной профессиональной области на основе разработанного авторами алгоритма, включающего в себя специальный парсер для извлечения специфических требований работодателей.
В соответствии с нашим исследованием, проведенным в 2015 году [7], примерами специфических требований работодателей, относящихся к конкретным областям трудоустройства, могут быть:
• в области «Web-программирование»: знание языков программирования html, css, php, javascript, основ SEO, принципов веб-разработки, владение базами данных SQL, аналитический склад ума, желание обучаться и развиваться и т.п.;
• в области «Обработка данных, аналитика»: знание бизнес-процессов, опыт работы в сфере аналитики, опыт работы с языками R, Python, базовые навыки программирования, владение математическим аппаратом в области статистики, ответственность, аккуратность и т.д.
Подобные требования могут существенно видоизменить модель личности специалиста, востребованного рынком труда. Они могут быть выявлены посредством мониторинга вакансий, предоставляемых популярными Интернет-ресурсами по трудоустройству, такими как Яндекс.Работа, Job.ru, SuperJob.ru, HeadHunter и др.
Так, данное исследование позволило доказать, что формирование динамической модели личности специалиста можно осуществить посредством выполнения алгоритма, состоящего из следующих этапов:
1. Автоматизированный сбор данных:
• выбор Интернет-ресурса по трудоустройству;
• выбор областей трудоустройства и профессий, по которым будет формироваться модель личности специалиста;
• сбор данных с использованием парсера.
2. Автоматизированный анализ данных:
• подготовка данных: очистка от знаков пунктуации, стоп-слов;
• лемматизация данных;
• составление списка ключевых слов и словосочетаний по каждой выбранной области трудоустройства и профессии;
• объединение полученных слов, словосочетаний в группы, на основе автоматизированной кластеризации;
• формирование модели личности специалиста, востребованного рынком труда по той или иной профессиональной области.
3. Дополнение полученной модели личности характеристиками, которые носят универсальный характер и востребованы во всех областях трудоустройства.
В качестве ресурса для автоматизированного сбора данных был выбран Интернет-ресурс группы компаний HeadHunter (hh.ru), который, по статистике, является одним из лучших онлайновых ресурсов для поиска работы и найма персонала. К его положительным особенностям относятся: четкая структура организации хранения данных, наличие своего API, что существенно упрощает автоматизированный сбор данных с сайта.
С помощью HeadHunter API был осуществлен Web Mining - технология сбора данных с последующим сохранением в нужном машиночитаемом формате. Для этого применялся язык программирования высокого уровня Python, являющийся одним из самых распространенных языков, используемых в сфере интеллектуального анализа данных.
Написанный на языке Python парсер осуществил следующие функции:
1. установление параметров: индивидуальные ключи пользователя HeadHunter API, профессиональная область, регион;
2. составление запросов с характеристиками вакансий;
3. получение и сохранение полной информации по вакансиям в формате json;
4. перевод данных в строковый тип и вычленение требований работодателей с помощью регулярных выражений;
5. сохранение выделенных требований в новый текстовый файл.
Экспериментально было определено, что наилучшими средствами языка Python для реализации данных функций являются следующие программные пакеты: urllib, json, httplib, requests, string, re. С помощью них возможен доступ к целому ряду протоколов Интернета, а получение данных становится быстрым процессом, после которого возможно сразу обрабатывать полученные данные.
Так были получены данные по вакансиям нескольких профессиональных областей трудоустройства выпускников вузов. Данные были сохранены в текстовые файлы в нужном формате и кодировке (txt), т.е. в пригодном для дальнейшего анализа виде. Результаты работы парсера представлены на рисунке 1.
хороший представление о принцип работа вебприложение служба и сервис Internet опыт работа с RubyRuby on Rai! опыт проектирование архитектура автоматизированный система отличный знание и опыт работа с Java SE Java ЕЕ PI кий образование технический математический или экономический знание принцип и метод менеджмент качество орг; интерфейс их понимание основа системный анализ обязательный требование к профессиональный опыт навык работа обеспечение технический задание сопроводительный документация от 2 год необходимый опыт работа знание бухг; сокий образование технический отличный коммуникативный способность уметь обязательный опыт работа в сфера р, квозной аналитика и умение внедрять ее реальный опыт работа медиабаер агентство брокер рекламный площадка < аммный продукт опыт управление ветвление опыт работа над кроссплатформенный продукт не менее два год высок! ие база данные PostgreSQL знание технология 0SM опытный руководитель способный в тесный взаимодействие с ганалитикменеджер по продуктубизнес высокий образование техническоематематический - быть ваш преимущество of е Excel развитый коммуникативный навык опыт работа с Google Analytics и яндексметрика опыт подготовка маке" приоритетный специализация экономика финансы опытный пользователь пк знание 1С Excel внимательность ответст! стемный аналитик от Зх год опыт подготовка тз и много два год опыт в нагрузочный тестирование хороший пониг зование компетенция ориентация на результат способность к эффективный коммуникация навык расстановка приорит* ый пользователь пк аналитический склад ум внимательность к деталь умение работать с большой высокий образов; ть инженертехнолог инженертестировщик инженер по сопровождение менеджер по сопровождение ответственность и i r область аналитик топговый маркетинг r FMrfl и Retail_пинок не менее Я1Й гол аналитический мышление и_обяза
Рисунок 1. Результаты работы парсера, разработанного авторами
Для автоматизированного анализа данных была применена технология Text Mining, которая позволяет эффективно решать задачи классификации, кластеризации текстовых данных, извлекать ключевые понятия из текста и т.д. [8]. В качестве основного инструмента может использоваться язык программирования R, так как он является признанным многими исследователями программным продуктом для статистического анализа и обладает большим количеством возможностей для осуществления анализа и визуализации данных [9].
Так, на собранных данных была успешно выполнена очистка от знаков пунктуации и стоп-слов, т.е. служебных и вспомогательных слов, которые, по сути, не влияют на смысловую нагрузку текста и в процессе подсчета частотности слов являются «шумовыми». Для этого может быть использовано большое количество средств, например, библиотека nltk языка Python, пакет RcmdrPlugin.temis языка R и др. [10]. С нашей точки зрения, наиболее эффективно это можно сделать с помощью пакета tm - Text Mining Package - языка R, т.к. очистка производится за счет 2-3 строчек кода. В рамках этого пакета возможно также создание матрицы текстового документа, нахождение частотности слов и выявление корреляции между словами на русском языке.
Для решения задачи лемматизации текста (приведения слов к нормальной форме) был использован пакет pymystem3 языка Python, реализующий функции анализатора Mystem -морфологического анализатора текста на русском языке, разработанного в компании «Яндекс».
Mystem является консольной программой, которая умеет не только проводить лемматизацию слов, имеющихся в словаре, но и строить гипотетические разборы для слов, не входящих в словарь. Это является большим преимуществом по сравнению с аналогичными пакетами языка R, например: SnowballC, RcmdrPlugin.temis, wordnet, которые, для имеющихся словарей на русском языке, не всегда достаточно точны [11].
Выполненная с помощью pymystem3 лемматизация позволила получить текст со словами в нормальной форме, что дало возможность избежать повторов при подсчете частотности слов. Из полученного текста средствами языка R был составлен список частотности слов и словосочетаний по выбранной области трудоустройства (функция findFreqTerms).
Полученные данные были визуализированы для лучшей наглядности (см. рисунки 2, 3). Как видно из примеров, использование облака тегов более удобно для зрительного восприятия, но для дальнейшей обработки данных более удобной является гистограмма частотности словосочетаний. Было выявлено, что более эффективно исследовать выборку по одному слову или словосочетаниям по два слова. Дальнейшее увеличение количества слов в словосочетаниях не принесло весомых результатов, поскольку частотность составила 2-3 случая из 200 вакансий.
-д пх
кампания учет
конфигурация наличие
lentCKE
2011
sircng mi ¡rose ft работать
НЭВЫК
5 аз P>ythOfl dnscrm
£ |ьoffice
-о о ОС 2-
§ ^ years
pisqi experience
Html skills cms
глуб D К И И . ^ сервер Зж
I l™jsva
^ 3d hep unix
sanpsc. hardware software
технология программирование bash принцип
пользователь эдмини с три рование хр пк данные windows^ с умение
образование
знание
опыт
^ехничесм ™
работа
техника
tag™* хелание
^Ч1 tcpç fa Ее
хороший
ad 2':':32012 сфера
ability
mysql excel oracle
I?
un о
система
язык Ш5 о- 1г
2х И С
уровень разработка владение понимание уверенный
желательно
е2з 1 linux 1
ит а ^
server aiioess
to m со ID
php lat
dba
основа проект 5д Р°пь g t
^^ ad vanned ОТЛИЧНЫЙ сетевой apache платформа
Большой У111
j
I
X
с
Q.
О
-е-
X
Рисунок 2. Облако частотных слов по области «Администратор баз данных»,
полученное авторами
Рисунок 3. Гистограмма частотности словосочетаний по области «Администратор баз данных», полученная авторами в ходе исследования
Как видно из рисунков 2 и 3 есть слова или словосочетания, по которым невозможно определить, с какими качествами или характеристиками личности они связаны, например: знание, система, опыт работы, опыт разработки.
Объединение слов и словосочетаний в группы позволяет выявить основные составляющие модели личности специалиста, востребованного рынком труда. Это достигается применением алгоритмов кластеризации слов. В рамках данной работы были опробованы и сравнены следующие алгоритмы: кластеризация k-средних, метод Варда, для чего потребовался пакет fpc, и функции kmeans, dist, hclust, cutree языка R. Наилучшая реализация была достигнута путем применения метода Варда.
Опробовав разработанный алгоритм на примере данных по области «Администратор баз данных», можно сделать вывод о том, что наиболее часто встречающимися требованиями работодателей в этой области являются:
1. наличие опыта работы (100 вакансий из 200);
2. наличие высшего образования (38 вакансий из 200), в том числе высшего технического (18 вакансий из 200);
3. хорошие знания языка SQL (39 вакансий из 200);
4. понимание вопросов разработки или принципов работы баз данных (18 вакансий из 200);
5. владение СУБД (96 из 200), причем из них наиболее востребованным является MySQL (36 вакансий из 200), а PostgreSQL менее востребованной (4 из 200);
6. знание и уверенное владение ОС Linux (36 вакансий из 200) и Windows (47 вакансий из 200) на уровне уверенного пользователя, менее востребованной оказалась ОС Unix (10 вакансий из 200);
7. знание 1С (34 вакансии из 200), MS SQL Server (17 вакансий из 200); владение офисными программами (43 вакансии из 200).
Эти качества являются определяющими для высокой конкуренции на рынке труда по данной области трудоустройства.
При анализе данных было выявлено, что во многих объявлениях о вакансиях указываются характеристики сотрудников, которые являются преимуществами при отборе. Выделение группы слов, отражающих качества личности, связанные с преимуществами, позволит соискателям определить, какие знания, умения и навыки необходимо формировать, чтобы повысить свою востребованность на рынке труда. Для изучаемой области такими качествами стали навыки программирования на C#, Perl, Python и других языках; аналитические навыки; владение английским языком.
Так, с помощью Web Mining и Text Mining на языках Python и R была получена базовая информация о том, что требуется молодому выпускнику вуза для того, чтобы быть востребованным и конкурентоспособным на рынке труда по определенным областям трудоустройства.
Но углубленный анализ вакансий является не единственным средством, которое должно использоваться при формировании модели специалиста, востребованного рынком труда. Опыт показывает, что существуют неявные компетенции выпускника вуза, которые не указываются работодателями. Они кажутся работодателям объективно необходимыми, «само собой разумеющимися» и поэтому, как правило, в требованиях не указываются. Отсюда следует, что модель личности специалиста необходимо дополнять качествами, которые являются универсальными и, зачастую, не указываются в объявлениях о вакансиях и поэтому не могут быть выявлены в процессе автоматизированного анализа данных.
Анализ литературы по проблемам трудоустройства и повышения конкурентоспособности на рынке труда, а также профильных сайтов показал, что к ним относятся: ответственность, коммуникабельность, стрессоустойчивость, умение работать в команде, нацеленность на результат, креативность, организованность, дисциплинированность, аналитический склад ума, быстрая обучаемость, владение иностранными языками.
Перечисленные выше качества дополняются в модель автоматически на последнем этапе работы алгоритма, при этом производится проверка на их наличие в уже сформированной модели.
Разработанный алгоритм был опробован на других областях трудоустройства и на основе информации из других Интернет-ресурсов по трудоустройству. Результаты опробования показали, что эффективность алгоритма не зависит от анализируемого Интернет-ресурса и области трудоустройства.
Таким образом, разработанный алгоритм позволяет:
1. быстро и качественно собрать большой объем данных о требованиях работодателей;
2. углубленно проанализировать данные, визуализировав результаты;
3. ответить на насущные вопросы о возможности трудоустройства молодого специалиста (количество предлагаемых вакансий в той или иной сфере, ключевые требования работодателей в конкретной области и т.п.);
4. сформировать модель личности специалиста по определенной области трудоустройства.
Результаты исследования могут быть полезны студентам и выпускникам вузов, ищущим себя на рынке труда, а также лицам, активно вовлеченным в процесс обучения студентов вузов: специалистам по профориентации, преподавателям, руководителям кафедр и образовательных программ.
ЛИТЕРАТУРА
1. Медведева, И.В. Трудоустройство выпускников: проблемы и пути решений [Текст] / И.В. Медведева // Инновационные технологии и экономика в машиностроении: сборник трудов V Международной научно-практической конференции, г. Юрга, 22-23 мая 2014 г.: в 2 т. - Томск: Изд-во ТПУ, 2014. - Т. 2. - С. 128-131.
2. Подцероб М. Работать или заработать. - 2016. [Электронный ресурс]: - URL: http://www.vedomosti.ru/management/artides/2016/05/26/642444-molodih-spetsialistov (дата обращения: 15.02.2017).
3. Ярошенко, С.Н. Моделирование конкурентоспособности выпускников вуза [Текст] / С.Н. Ярошенко // Вестник ЮУрГУ. Серия «Образование. Педагогические науки». - 2012. - №26. - С. 77-81.
4. Королева, Л.Ю., Хайруллина Э.Р. Формирование конкурентоспособности студентов-дизайнеров технических вузов [Текст] / Л.Ю. Королева, Э.Р. Хайруллина // Вестник Оренбургского государственного университета. - 2014. -№5 (166). - С. 245-250.
5. Шилова, М.И., Белых И.Л. Формирование конкурентоспособности выпускника вуза [Текст] / М.И. Шилова, И.Л. Белых // Вестник Томского государственного педагогического университета. - 2010. - №4 (94). - С. 39-45.
6. Насейкина, Л.Ф., Эталонная компетентностная модель специалиста в области сетевых информационных технологий [Текст] / Л.Ф. Насейкина // Вестник Оренбургского государственного университета. - 2014. - №2 (163). - С. 148-154.
7. Фазанова, А.Д. Разработка алгоритма определения конкурентоспособности выпускника вуза на рынке труда на основе анализа факторов внешней среды. [Текст] // Аннотированный сборник научно-исследовательских выпускных квалификационных работ бакалавров Университета ИТМО / Гл. ред. д.т.н., проф. В О. Никифоров. - СПб.: Университет ИТМО, 2015. - С. 76-78.
8. Багдасарян, А.А., Анализ данных и процессов: учебное пособие [Текст] / А.А. Багдасарян, М.С. Куприянов, И.И. Холод, М.Д. Тесс, С.И. Елистратов. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2009. - 512 с.
9. Кабаков, Р.И., R в действии. Анализ и визуализация данных в программе R [Текст] / пер. с англ. Полины А. Волковой. - М.: ДМК Пресс, 2014. - 588 с.
10. Yanchang Zhao. R and Data Mining: Examples and Case Studies. [Электронный ресурс]: - URL: http://researchswinger.org/others/Rdatamining.pdf (дата обращения: 12.02.2017).
11. Управителев, Ф. Стемминг текстов на естественном языке. [Электронный ресурс]: - URL: http://r.psylab.info/blog/2015/05/26/text-stemming/ (дата обращения: 15.02.2017).
Valitova Yulia Olegovna
Saint Petersburg national research university of information technologies, mechanics and optics, Russia, Saint Petersburg
E-mail: julijawal@gmail.com
Fazanova Alisa Dmitrievna
Saint Petersburg national research university of information technologies, mechanics and optics, Russia, Saint Petersburg
E-mail: fas-ali-da@yandex.ru
Automated data collection and analysis algoritm that is used to form the model of demanded on the labor market specialist personality
Abstract. The model of personality specialist required by the labor market for the concrete professional field has no description in literature. This formed the basis of the study. The authors found out the fundamental possibility to form a new, dynamic of the specialist personality model.
The formation is proposed to be carried based on automated data collection from the relevant sites and its processing using Text Mining methods. The study was carried out based on vacancies and data monitoring provided by popular Internet resources for job seeking, such as the HeadHunter, Yandex.Work, etc.
The problem was solved through the algorithm developed by the authors and parser written in Python. Parser was used for automated data collection and analysis to form the dynamic specialist model in the concrete professional field demanded by the labor market. As an example, the vacancy of "database administrator" was reviewed.
The authors showed that the developed algorithm allows the following:
1. to collect the large amount of data on the employers' requirements quickly and accurately;
2. to analyze the data in-depth and to visualize the results;
3. to answer important questions about young specialist employment opportunities (the number of vacancies in a particular area, the key employers' requirements in concrete fields, etc.).
Keywords: specialist personality model; algorithm; automatisation; data collection; data analysis; parser; Web Mining; Text Mining