Научная статья на тему 'Универсализация категорий и автоматизация процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала'

Универсализация категорий и автоматизация процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
26
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
вовлечённость персонала / факторы вовлечённости сотрудников / автоматизация процесса контент-анализа / универсализация категорий / обработка естественного языка / классификация с несколькими метками / employee engagement / employee engagement drivers / content-analysis automation / category universalization / natural language processing / multilabel classification

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Глебова Дарья Сергеевна, Дегтярёв Павел Александрович

Работа посвящена разработке способа автоматизации процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала. В проекте приняли участие более 16 тысяч сотрудников пяти российских компаний, чьи ответы на два открытых вопроса были проанализированы с использованием метода обработки естественного языка (natural language processing, NLP) и классификации с несколькими метками (multilabel classification). Категории, использованные для классификации, были получены из результатов ручного варианта контент-анализа, осуществлённого экспертами-кодировщиками, путём составления матрицы совпадений. Созданный инструмент представляет из себя две модели, разработанные на основе алгоритмов машинного обучения с учителем (supervised machine learning) — «случайный лес» и «градиентный бустинг», которые с высокой точностью (accuracy = .86 и .70 соответственно) автоматизируют процесс контент-анализа ответов на открытые вопросы в исследованиях вовлечённости. Были выявлены агрегированные и претендующие на универсальность категории факторов вовлечённости сотрудников, не зависящие от контекста сбора данных, и соотносящиеся с факторами вовлечённости, которые выделялись другими авторами. Кроме того, были определены наиболее ценные паттерны речи (слова и словосочетания) для прогноза, к какой из категорий будет отнесён тот или иной ответ сотрудника. Разработанный инструмент может быть использован для эталонного сопоставительного анализа вовлечённости в компаниях из различных областей деятельности, что представлялось затруднительным без данного инструмента. Ценность результатов. Обсуждается возможность исследования представленных в данной работе категорий на предмет их возможной внутренней взаимосвязи, а также доработка самого инструмента с целью улучшения его предсказательной силы, добавление в инструмент тематического моделирования и анализа сентимента.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The universalization of categories and process automation for content analysis in engagement surveys with open questions

This paper aims to develop a solution for content analysis automation for answers to openended questions in engagement studies. Responses to two open questions by more than 16,000 employees of five Russian companies were processed using a natural language processing method and a multilabel classification. The categories used for classification were obtained by building a co-occurrence matrix from the results of manual content analysis. The solution contains two separate models developed with supervised machine learning algorithms — random forest and gradient boosting. These models automate the content analysis process for answers to open questions in engagement studies with the accuracy of .86 and .70 respectively. Aggregated and potentially universal categories of engagement studies were identified, the categories being independent of the context of data collection. They also were compared with the engagement factors defined by other authors. Besides, the most important speech patterns (words and phrases) that predict to which of the categories a particular employee’s response would be assigned were named. The solution can be used by companies for benchmarking factors of engagement in different domain areas. Research opportunities for the categories as regards their possible internal relationship are discussed. Improvement of the tool is also considered, as well as adding topic modeling and sentiment analysis methods to refine its predictive power.

Текст научной работы на тему «Универсализация категорий и автоматизация процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала»

Организационная психология. 2024. Т. 14. № 2. С. 80-111. DOI: 10.17323/2312-5942-2024-14-2-80-111

ОРГАНИЗАЦИОННАЯ ПСИХОЛОГИЯ

www.orgpsyjournal.hse.ru

Универсализация категорий и автоматизация процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала

ГЛЕБОВА Дарья Сергеевна

ORCID: 0000-0002-1617-9426

Национальный исследовательский университет «Высшая школа экономики», Москва, Россия

ДЕГТЯРЁВ Павел Александрович

ORCID: 0000-0001-7275-0765 ЭКОПСИ Консалтинг, Москва, Россия

Аннотация. Работа посвящена разработке способа автоматизации процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала. В проекте приняли участие более 16 тысяч сотрудников пяти российских компаний, чьи ответы на два открытых вопроса были проанализированы с использованием метода обработки естественного языка (natural language processing, NLP) и классификации с несколькими метками (multilabel classification). Категории, использованные для классификации, были получены из результатов ручного варианта контент-анализа, осуществлённого экспертами-кодировщиками, путём составления матрицы совпадений. Созданный инструмент представляет из себя две модели, разработанные на основе алгоритмов машинного обучения с учителем (supervised machine learning) — «случайный лес» и «градиентный бустинг», которые с высокой точностью (accuracy = .86 и .70 соответственно) автоматизируют процесс контент-анализа ответов на открытые вопросы в исследованиях вовлечённости. Были выявлены агрегированные и претендующие на универсальность категории факторов вовлечённости сотрудников, не зависящие от контекста сбора данных, и соотносящиеся с факторами вовлечённости, которые выделялись другими авторами. Кроме того, были определены наиболее ценные паттерны речи (слова и словосочетания) для прогноза, к какой из категорий будет отнесён тот или иной ответ сотрудника. Разработанный инструмент может быть использован для эталонного сопоставительного анализа вовлечённости в компаниях из различных областей деятельности, что представлялось затруднительным без данного инструмента. Ценность результатов. Обсуждается возможность исследования представленных в данной работе категорий на предмет их возможной внутренней взаимосвязи, а также доработка самого инструмента с целью улучшения его предсказательной силы, добавление в инструмент тематического моделирования и анализа сентимента.

Ключевые слова: вовлечённость персонала, факторы вовлечённости сотрудников, автоматизация процесса контент-анализа, универсализация категорий, обработка естественного языка, классификация с несколькими метками.

Адрес: 101000, Москва, ул. Мясницкая, 20.

E-mail: dariaglebova00@gmail.com

Введение

В мире, который меняется как с точки зрения распространения перехода на режим удалённой работы, так и с позиции старения рабочей силы, вовлечённые сотрудники становятся конкурентным преимуществом компаний (Bloom, 2016; Saad, Wigert, 2021). Вовлечённость сотрудников находится в центре внимания специалистов по управлению персоналом и консалтинговых фирм, а также учёных по всему миру, так как её представляется возможным использовать для удержания кадров, большей удовлетворённости клиентов, косвенно — улучшения финансовых показателей и для эффективной работы организации в целом (Bailey, 2016; Chi, Gursoy, 2009; Harter et al., 2002; Gupta, Sharma, 2016; Rich et al., 2010). При этом сами вовлечённые сотрудники с большей вероятностью будут наиболее продуктивны (Saks, 2006).

С одной стороны, исследования вовлечённости используют качественные методы сбора и анализа данных, применение которых позволяет добиться системного, расширенного понимания изучаемого объекта (Клюева, 2016; Robson, McCartan, 2011; Sharma, Kaur, 2014; Shrotryia, Dhanda, 2020). Качественные методы подходят для сохранения смысловых значений в анализе новых и малоизученных явлений, позволяя идентифицировать и объяснять, почему и как они происходят, делая упор на их описание, понимание и открытие новых аспектов (Куликэн, 2002; Jakubik, Vakkuri, 2015). В то же время использование качественных методов приводит к существенному росту трудозатрат на проведение исследований вовлечённости; это особенно значимо для практиков и специалистов по управлению персоналом, так как определяет и эффективность проведения таких исследований, и скорость получения выводов, а значит и дальнейших управленческих решений.

Возможным способом решения данной технической задачи может быть применение технологий на основе машинного обучения, чтобы упростить процесс анализа стремительно растущего массива данных. На сегодняшний день существует потребность в надёжном и универсальном инструменте по автоматизации обработки качественных данных в исследованиях вовлечённости, применимого для многих организаций. При рассмотрении качественных и количественных подходов к сбору и анализу данных как находящихся на разных концах условной шкалы, в центре него будут находиться такие инструменты, как контент-анализ, являющийся количественно-качественным методом и сочетающий в себе преимущества обоих подходов (Frost, 2011).

Данная работа посвящена теме автоматизации процесса контент-анализа (а именно — процесса выделения категорий) в качественных исследованиях вовлечённости персонала (Garg et al., 2021; Christian et al., 2011; Shrotryia, Dhanda, 2020) и направлена на разработку инструмента по выявлению универсальных категорий в контент-анализе в качественных исследованиях вовлеченности, который может быть применен к широкому спектру организаций.

Таким образом, концепция вовлечённости персонала, ставшая часто упоминаемой в последнее десятилетие (например, Shrotryia, Dhanda, 2020; Garg et al., 2021; Zhang et al., 2022 и др.) и особенно в период всеобщего перехода на дистанционный режим работы, который по окончанию пандемии, вероятно, останется одним из ведущих форматов взаимодействия, а также область автоматизации процесса обработки качественных данных, ставшая распространённой среди гуманитарных исследователей вследствие лавинообразного роста объёма неструктурированной информации (Бочаров, 2011), послужили предпосылками для данного исследования.

Цель исследования

Цель настоящего исследования — автоматизировать контент-анализ и унифицировать категории в опросах о вовлечённости сотрудников с открытыми вопросами. Для этого планируется отобрать универсальные категории, выделенные экспертами-кодировщиками, подготовить текстовые данные для моделирования, создать и протестировать базовую и альтернативные модели для категоризации, корректируя параметры и выбрать наилучшую модель на основе основных метрик, определив ценные речевые паттерны для прогнозирования категорий наиболее точной моделью.

Теоретические основы

Вовлечённость персонала как психологический конструкт

Существует множество представлений о содержательным смысле вовлечённости как конструкта, отраженное в публикациях разных авторов. Оригинальное определение, появившееся вместе с самим термином «вовлечённость», указывает на «поведение, которое способствует связям с работой и другими людьми, личному присутствию (физическому, когнитивному и эмоциональному) и активному полному ролевому исполнению» (Kahn, 1990). Вовлечённость как конструкт, противоположный по смыслу для выгорания, то есть низкий уровень эмоционального истощения (emotional exhaustion) и цинизма (cynicism) на работе, и высокая степень так называемой «корневой энергии» (root energy), участия (involvement) и эффективности (efficacy) у работника (Maslach et al., 2001). Вовлечённость как «степень, в которой люди получают удовольствие и верят в то, что они делают, и чувствуют, что их ценят за это» (Wellins et al., 2005, p. 2). Вовлечённость сотрудников как позитивное состояние ума, характеризующееся энергией, преданностью делу и увлеченностью (Schaufeli et al., 2002, p. 74). Н. Губта и В. Шарма, используя метод всестороннего структурированного обзора 149 статей, предложили интегративное определение вовлечённости как «совокупности различных психологических конструктов, которые выражаются в чувствах, эмоциях и поведении» (Gupta, Sharma, 2016).

Важно заметить, что многообразие возможных определений конструкта «вовлечённость персонала» на данном этапе развития науки не означает отсутствия самого конструкта или недостаточность его концептуальной и практической полезности (Macey, Schneider, 2008). Поскольку ещё нет чёткого общепринятого определения используемого в данной работе понятия, вовлечённость персонала будет пониматься в ней как «увлечённость человека своей работой, готовность находить смысл, интерес и удовольствие в ней... сопричастность и личная заинтересованность в успехе конкретного подразделения и компании в целом, ответственность за этот успех» (Онучин, 2019, p. 34), так как данная работа основана на прагматической модели вовлечённости, разработанной консалтинговой компании «ЭКОПСИ Консалтинг», и использует данные, полученные из исследований вовлечённости ЭКОПСИ (Онучин, 2019).

Сравнительный обзор количественных и качественных исследований вовлечённости

В научном сообществе ведутся активные и непрекращающиеся дебаты об относительных достоинствах применения количественных или качественных методов, в частности — в исследованиях человеческого поведения (Robson, McCartan, 2011). Количественные методы изучения вовлечённости, такие как «Аудит рабочего места института Гэллапа» (Gallup Workplace Audit, GWA) (The Gallup Organization, 1992-1999); методика, разработанная В. Шауфели с коллегами и его краткая версия измеряют вовлечённость и её влияние

на клиентскую лояльность и финансовые показатели «Утрехтская шкала вовлечённости в работу» (Utrecht Work Engagement Scale, UWES-9) (Carmona-Halty et al., 2019; Harter et al., 2002; Schaufeli et al., 2002; Schaufeli et al., 2017). Кроме того, количественные методы включают в себя шкалу вовлечённости в работу (Job engagement Scale, JES), состоящую из 18 пунктов и разработанную Б. Л. Рич (Rich et al., 2010); шкалу «Опросник вовлечённости персонала» (Employee Engagement Survey) из 20 вопросов (Wellins et al., 2005); субшкалу «анти-вовле-чённость (disengagement) опросника OLBI (Demerouti et al., 2003); 13-балльную шкалу (May et al., 2004) и многие другие. Множество консалтинговых фирм проводят свои собственные исследования и разрабатывают опросы вовлечённости персонала (например, «ЭКОПСИ Консалтинг», «Great Places to Work», «Blessings White», «Hay Group», «Culture IQ» и другие).

Однако «Аудит рабочего места института Гэллапа» критикуют за недостаточную достоверность и ограниченность оценки реального состояния вовлеченности (Christian et al., 2011; Macey, Schneider, 2008), а «Утрехтскую шкалу вовлечённости в работу» — за смешивание конструктов и вопросы о практической полезности (Rich et al., 2010; Sari et al., 2020). При этом столь краткие опросы будут сильно зависеть от концептуализации и интерпретации конструкта вовлечённости, что может создавать серьёзные проблемы в практическом применении количественных методов.

Последнее время увеличивается признание качественных методов исследования вовлечённости, таких как интервью, в ходе которых работнику предоставляется возможность получить от коллег и высказать свою обратную связь, или использование в опросах открытых вопросов (Garg et al., 2021; Robson, McCartan, 2011). Например, было указано на связь между двумя изучаемыми концепциями и предположено, что условия вовлечённости сотрудников также являются элементами внутреннего брендинга компании (Suomi et al., 2019). Несмотря на субъективность в обработке первичных данных и интерпретации результатов, а также ограничения выборки, качественные методы предполагают открытый характер и достаточно общую формулировку проблем и гипотез, которые конкретизируются в самом процессе рассмотрения явления (Клюева, 2016), и позволяют извлечь больший объём информации, который сложно получить количественными методами (Frost, 2011; Jakubik, Vakkuri, 2015). Таким образом, качественные методы могут быть альтернативой количественным, позволяя исследовать нестандартизированные явления и недостаточно изученные объекты (Клюева, 2016). Однако из-за энерго- и времязатратности обработки качественных данных, существует потребность в инструменте, позволяющего упростить анализ вплоть до его автоматизации.

Автоматизация контент анализа методами обработки естественных языков

Человеческий язык, как «сложная и многоуровневая система знаков, возникшая для обмена информацией в процессе практической деятельности человека, и постоянно изменяющаяся в связи с этой деятельностью» (Большакова и др., 2017) — сложен для компьютерной обработки. Для того чтобы компьютер мог приблизиться к пониманию естественного языка, ему необходимо учитывать множество языковых аспектов, таких как грамматика, орфография, пунктуация, контекст, сленг и акронимы.

Обработка естественного языка (natural language processing, NLP) — важная область искусственного интеллекта, которая иммитирует способность человека понимать язык и оказывает существенное влияние на взаимодействие между компьютерами и людьми (Shruthi, Suma Swamy, 2020). Интеллектуальный анализ текста на основе данных позволяет выделять категории из неструктурированных текстов, подобно классическому контент-анализу (Yu et al., 2011) и преобразовать свободный текст в структурированный набор ключевых тем и настроений.

Автоматизированный контент-анализ имеет ряд преимуществ, включая быструю обработку больших объёмов данных, исключение необходимости ручной кодировки, и увеличение скорости обработки текстов, что позволяет исследователям быстрее проводить анализ данных и получать более последовательные и повторяемые результаты по сравнению с анализом кодировщиков-людей. Автоматизация помогает избежать проблемы субъективности при анализе ответов на открытые вопросы и повышает межэкспертную надёжность в качественных исследованиях (Yu et al., 2011). Благодаря современным программным разработкам, такие проблемы как усталость, скука, различные эмоциональные состояния и невнимательность экспертов-кодировщиков, становятся преодолимыми.

Исследования, направленные на использование новых технологий для анализа и повышения уровня вовлечённости персонала, только начинают появляться. Так, Р. Гарг и коллеги при помощи компьютерного ПО провели оценку релевантности комментариев к пульс-опросам — математическое вычисление косинуса угла между двумя векторами для каждого слова или словосочетания (Garg et al., 2021). Схожие комментарии были сгруппированы вместе, после чего были автоматически извлечены теги для каждой из групп слов. В результате была приведена ранжированная по частоте встречаемости комбинация часто используемых ключевых слов, оформляющих набор ситуаций или проблем, которые наиболее волнуют сотрудников конкретной компании, что может быть полезно менеджерам по управлению человеческими ресурсами и руководителям.

Р. Е. Сэйри с коллегами представили ещё один пример использования искусственного интеллекта в изучении вовлечённости. Исследование включало 39 личных и онлайн-интер-вью с сотрудниками индонезийской компании, где оценивались стресс, счастье и вовлечённость. Расшифровки интервью сравнивались с данными из приложения на базе искусственного интеллекта, генерирующего вопросы для каждого работника на основе его предыдущих ответов. Полученные данные были использованы для прогнозирования динамики вовлечённости сотрудников компании (Sari et al., 2020).

В исследовании Дж. Р. Дэниелс вовлечённости сотрудников религиозных университетов использовался сравнительный тематический анализ 53 интервью как вручную, так и с помощью компьютерного программного обеспечения (ПО) (Daniels, 2016). Кодирование слов и фраз, группировка семантически схожих элементов, разработка структурного описания опыта сотрудников позволили выявить институциональные характеристики, способствующие вовлечённости сотрудников в двух университетских кампусах. Результаты показали, что общие темы миссии, сообщества, уполномоченных отделов кадров и ощущение позитивного импульса («a sense of positive momentum») способствовали необычно высокому уровню вовлечённости, что поддерживало позитивную и вдохновляющую организационную культуру в учебных заведениях.

С. К. Шарма и С. Каур провели исследование с целью определить факторы, влияющие на вовлечённость сотрудников (Sharma, Kaur, 2014). В результате анализа 300 уникальных статей и публикаций в области управления ресурсами человеческих ресурсов, были выявлены ключевые слова и характеристики, связанные с вовлечённостью сотрудников. С помощью кодирования текстов вручную и при помощи компьютерного ПО исследователи выявили два наиболее важных фактора вовлечённости: эмоциональные психологические инвестиции и правильное освоение роли сотрудника. На основе этих факторов было сформулировано рабочее определение вовлечённости: «степень, в которой сотрудник чувствует психологическую заинтересованность в своей работе, так что он (она) поведенчески (социально) и интеллектуально сосредоточен на организационных целях» (Sharma, Kaur,

2014, р. 45), которое в некоторой мере агрегирует и обобщает прошлые исследования, проведённые учёными в области управления, и консультантами по управлению персоналом.

Приведённые исследования представляют новые способы анализа уровня вовлечённости персонала с применением обработки естественного языка и новых технологий в области «Больших данных». Тем не менее, требуется дальнейшее исследование для разработки универсального инструмента автоматической обработки текстовых данных, применимых к различным организациям и контекстам.

Методология

Методы

На основании частоты упоминания некоторых слов или словосочетаний (см. Приложение А, Б) в текстах ответов на открытые вопросы исследования вовлечённости был определён ряд верхнеуровневых категорий, находящихся в рамках конструкта «вовлечённость сотрудников». Для анализа данных был использован метод обработки естественного языка (МОЕЯ), в частности, такой метод «обучения с учителем» (supervised learning) как «классификация с несколькими метками» (multilabel classification), при которой некоторый элемент (в данном случае — слово или словосочетание) может быть отнесён более чем к одному из существующих классов (универсальных категорий) одновременно.

Далее на основе выбранной стратегии анализа в рамках разработки модели была построена первая базовая модель класса «случайный лес» (random forest) для каждого из наборов данных, с которой впоследствии сравнивались последующие модели по основным показателям — метрикам качества модели. С целью потенциального улучшения качества также были построены и протестированы модели класса «экстремального градиентного бустинга1» (Extreme Gradient Boosting, XGBoost) и «наивной Байесовской классификации» (naïve Bayes). Вся работа по обработке и анализу данных была выполнена с использованием бесплатного программного обеспечения R-Studio (64-bit, Windows 10) с открытым исходным кодом версии 4.1.2.

Выборка

Данные для исследования были собраны в 2021 г. и в первом квартале 2022 г. компанией «ЭКОПСИ Консалтинг» в целях проверки уровня вовлечённости персонала и для сбора дополнительной информации от сотрудников организаций, в которых проводился аудит. В аудите приняло участие 16 241 сотрудников из пяти групп компаний (восемь организаций), принадлежащих различным бизнес-областям: розничная торговля; фармацевтика; информационные технологии; добывающая промышленность; химическая промышленность.

Ввыборкувошлисотрудникиразличныхуровней(отрядовогодоуровнятоп-менеджмента и правления) и отделов, в частности: маркетинг; контроль качества; подбор и адаптация персонала; системное администрирование; визуальный мерчандайзинг и магазиностроение; международная логистика; внутренняя логистика; информационные технологии; корпоративный центр и другие.

Финальная выборка составила 11 726 респондентов — сотрудников организаций, которым было предложено письменно в электронном формате ответить на открытый

1 Бустинг — метод, используемый в машинном обучении для уменьшения количества ошибок при прогностическом анализе

данных. Градиентный бустинг представляет собой ансамбль деревьев решений. В основе данного алгоритма лежит итеративное обучение деревьев решений с целью минимизировать функцию потерь. Подробнее см.: Котюбеев Р. Ансамблевые алгоритмы Spark ML: градиентный бустинг. URL: https://spark-school.ru/ Прим. ред.

вопрос: «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?», и 16 234 респондента, ответивших на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать её более привлекательным работодателем?», которые косвенно выявляли степень их вовлечённости.

Анализ данных

Работа производилась над базой комментариев сотрудников и таблицей, содержащей распределение комментариев по универсальным категориям. Список категорий формировался экспертами-кодировщиками, обрабатывавшими комментарии сотрудников вручную. Так как аудиты и опросы сотрудников проводились независимо в каждой отдельной компании, представлялось необходимым выделить из каждого списка универсальные категории — повторяющиеся, безотносительно сферы деятельности компании (см. Приложения А, Б). Данный шаг был произведён вручную, путем просмотра всех категорий, выделенных кодировщиками, определения наиболее часто встречающихся из них и некоторых модификаций с целью унификации категорий. Ниже представлены три основные действия, осуществлённые для отбора и выделения универсальных категорий.

Первое. Формулировки ряда категорий были унифицированы, с сохранением смысла (так, категория «Коллектив», «Атмосфера в коллективе» и «Отношения с коллегами» были обозначены как «Атмосфера и коллеги»; категории «Карьера», «Возможность карьерного роста», «Карьера, ротация» были объединены под общим названием «Карьерные возможности») (см. Приложения А, Б).

Второе. Другие категории были объединены друг с другом, поскольку были не дифференцируемы между собой и схожи по содержанию (например, «Уровень оплаты труда», «Стабильность выплат» и «Система материальной мотивации» были объединены в единую категорию — «Заработная плата»; «График работы», «Условия труда», «График, условия труда» объединены под названием «График и условия труда») — подобные объединённые категории выделены одним цветом в матрице (см. Приложения А, Б).

Третье. Окончательный список универсальных категорий был сформирован из категорий, повторяющихся как минимум в четырёх из пяти компаний (см. Приложения В, Г). Каждый комментарий, таким образом, был закодирован как совокупность меток о наличии или отсутствии той или иной категории, причём один комментарий мог содержать одну или сразу несколько категорий, или не содержать ни одной из них.

Затем манипуляция по подготовке данных к анализу была продолжена в программной среде R-Studio (версия 4.1.2, 64-Ы1:). Были произведены необходимые этапы предобработки текстовых ответов сотрудников, напоминающие работу по ручному контент-анализу: этап стемминга — одной из форм нормализации текстов, представляющей собой обрезку изменяющейся части слов; этап токенизации — разбиения текстов на отдельные слова-токены (маркером для такого разбиения служил «пробел»); этап удаления шумовых слов, не несущих самостоятельной смысловой нагрузки. В итоге было получено 189 наиболее часто встречающихся слов и словосочетаний (состоящих из двух слов) для базы ответов на первый открытый вопрос, и 186 — для базы ответов на второй вопрос. Данные слова и словосочетания представляют собой тот «экстракт» полученных текстов, который предстояло распределить по универсальным категориям посредством обучения классификационных моделей машинного обучения. Для реализации обучения и тестирования моделей каждая база данных была случайным образом разделена на две выборки: выборку обучения (составила 70% от исходных данных) и выборку проверки (30% от исходных данных).

В качестве первой модели для прогноза, к какой категории относится то или иное высказывание, был выбран алгоритм «случайного леса» (random forest), относительно которого далее производилось сравнение моделей по ключевым метрикам (см. Таблицы 1 и 2) (Breiman, 2001; Rivolli, Carvalho, 2018). Базовый алгоритм был построен на минимальном количестве «деревьев», равном 500, после чего была предпринята попытка увеличения качества модели. Для этого были протестированы модели с количеством «деревьев» равным 1500, 2000, 2500 и 2750, что действительно привело к желаемому результату (Таблица 1, 2). Версия модели с показателем количества «деревьев», равным 2750, разработанная для базы ответов на вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?», и модель на 1500 «деревьях» для базы ответов на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать её более привлекательным работодателем?» показали наилучшие предсказательные мощности среди моделей данного семейства (Таблицы 1-4).

Вторым семейством моделей был выбран «экстремальный градиентный бустинг». Базовая модель данного семейства использует в качестве максимального значение в 500 итераций для обучения, параметр ц — показатель контроля скорости масштабирования вклада каждого дерева в модель, в дефолтной модели равен 0.3, а «глубина деревьев» равен шести «узлам» (Rivolli, Carvalho, 2018). Затем, как и в случае моделей первого семейства, были приняты попытки улучшить качество моделей путем модификации вышеперечисленных параметров. При количестве итераций 1500, параметре ц = 0.01 и «глубине дерева» в восемь «узлов» для базы ответов на первый открытый вопрос показатели метрик модели показали себя наилучшим образом (см. Таблица 1). Для базы ответов на второй открытый вопрос модель показала наилучшие метрики при ц равном 0.02, «глубине дерева» — восемь, и количестве итераций в 1000 (см. Таблица 2).

В качестве третьего типа моделей было выбрано семейство простых вероятностных классификаторов «наивного Байеса» (naïve Bayes), основанное на применении Байесовской теоремы (Caruana, Niculescu-Mizil, 2006; Rivolli, Carvalho, 2018). Метрики первой построенной базовой версии модели не показали хорошего качества и значительно отставали от базовой модели «случайного леса» (см. Таблицы 1-4), в связи с чем далее попытки улучшить качество модели не предпринимались.

Результаты

Для оценки качества моделей были выбраны следующие, наиболее часто используемые в задачах машинного обучения, метрики (Charte, Charte, 2015):

• точность прогноза (accuracy): доля правильных классификаций, рассчитываемая как отношение количества правильных прогнозов к их общему количеству;

• макро-точность (macro-precision): доля экземпляров, действительно принадлежащих данному классу по отношению ко всем экземплярам, которые модель отнесла к этому классу;

• макро-полнота (macro-recall): доля верно предсказанных элементов класса к общему количеству элементов данного класса;

• F-мера (macro-F1) гармоническое среднее между точностью и полнотой, стремящееся к нулю, в случае если один из этих показателей стремится к нулю;

• расстояние Хэмминга (hamming loss): доля ошибочных меток во всем наборе меток;

• точность подмножества (subset accuracy): тем больше, чем больше наблюдений внутри меток были классифицированы верно, и наоборот. Иными словами, значение данной метрики равно единице, только если предсказанный набор меток равен истинному. Все вышеперечисленные метрики позволяют говорит о высоком качестве модели при приближении их показателей к единице. Поскольку не существует «пороговых» индикаторов показателей метрик, позволяющих однозначно заявить о высоком качестве прогноза модели, было принято решение построить сравнительные таблицы для показателей метрик. В Таблице 1 представлены метрики для моделей, построенных на основе ответов на вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?», и в Таблице 2 — для моделей, построенных для ответов на опрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать её более привлекательным работодателем?».

Таблица 1. Основные метрики моделей для ответов на вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?»

Метрики моделей 1 2 3 5 Модели 4 5 6 7 8

Точность прогноза .7991 .8007 .8020 .8602 .7861 .8006 .8026 .8028 .3557

Макро-точность .8416 .8449 .8263 .9244 .8237 .8119 .8164 .8152 .3648

Макро-полнота .6922 .6919 .7002 .7995 .6923 .7106 .7061 .7167 .8539

Б-мера .7479 .7485 .7508 .8508 .7409 .7546 .7522 .7561 .4589

Расстояние Хэмминга .0433 .0430 .0424 .0280 .0461 .0434 .0428 .0435 .2713

Точность подмножества .6767 .6799 .6820 .7781 .6614 .6724 .6777 .6737 .0372

Примечание: Модель 1 Случайный лес / кол-во деревьев = 500; Модель 2 Случайный лес / кол-во деревьев = 2000; Модель 3 Случайный лес / кол-во деревьев = 2500; Модель 4 Случайный лес / кол-во деревьев = 2750; Модель 5 Градиентный бустинг / кол-во итераций = 500, ц = 0.3, глубина = 6 узлов; Модель 6 Градиентный бустинг / кол-во итераций = 1000, ц = 0.03, глубина = 8 узлов; Модель 7 Градиентный бустинг / кол-во итераций = 1000, ц = 0.01, глубина = 9 узлов; Модель 8 Градиентный бустинг / кол-во итераций = 1500, П = 0.01, глубина = 8 узлов; Модель 9 Наивный Байес.

Таблица 2. Основные метрики моделей для ответов на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать её более привлекательным работодателем?»

Метрики моделей 1 2 3 4 Модели 5 6 7 8 9

Точность прогноза .6991 .6949 .7195 .7059 .6671 .7019 .7011 .7183 .2182

Макро-точность .7536 .7558 .7435 .7580 .7437 .7347 .7525 .7380 .2584

Макро-полнота .5656 .5637 .5868 .5789 .5549 .5850 .5617 .6060 .8813

Б-мера .6292 .6281 .6402 .6377 .6246 .6419 .6334 .6593 .3295

Расстояние Хэмминга .0657 .0664 .0615 .0641 .0708 .0657 .0647 .0607 .4929

Точность подмножества .5335 .5289 .5649 .5423 .4887 .5353 .5321 .5589 .0000

Примечания: Модель 1 Случайный лес / кол-во деревьев = 500; Модель 2 Случайный лес / кол-во деревьев = 2000; Модель 3 Случайный лес / кол-во деревьев = 1500; Модель 4 Случайный лес / кол-во деревьев = 2500; Модель 5 Градиентный бустинг / количество итераций = 500, ц = 0.3, глубина = 6 узлов; Модель 6 Градиентный бустинг / кол-во итераций = 1000, ц = 0.03, глубина = 8 узлов; Модель 7 Градиентный бустинг / кол-во итераций = 1500, ц = 0.01, глубина = 8 узлов; Модель 8 Градиентный бустинг / кол-во итераций = 1000, г| = 0.02, глубина = 8 узлов; Модель 9 Наивный Байес.

Для каждой категории были построены сравнительные таблицы по наиболее универсальной и распространённой из вышеперечисленных метрик — точности прогноза (accuracy), обозначающей отношение всех правильных прогнозов к общему числу всех прогнозов. При этом, чем ближе показатель точности прогноза к единице, тем более высокое качество у самой модели. Метрика точности прогноза, оценивающая долю верно соотнесённых высказываний с универсальными категориями, может являться наиболее значимой в контексте оценки возможностей использования разработанной модели в качестве инструмента, не уступаю-

щего по точности ручному контент-анализу. Метрика точности прогноза, таким образом, была рассчитана для всех моделей и для каждой универсальной категории внутри них. Показатели основной метрики точности прогноза представлены в сравнительной Таблице 3 для базы ответов на первый, и в Таблице 4 для базы ответов на второй открытый вопрос.

Таблица 3. Показатели точности прогноза моделей по каждой категории для ответов на вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?»

Категории 1 2 3 Точность прогноза 4 5 6 7 8 9

Заработная плата .4944 .4946 .4944 .9023 .4981 .4979 .4987 .9205 .4989

Нематериальная мотивация .6301 .6290 .6290 .9639 .6314 .6277 .6277 .9601 .5798

Соблюдение обязательств и Трудового Кодекса работодателем .6306 .6296 .6301 .9644 .6344 .6285 .6279 .9596 .5798

График и условия труда .7283 .7289 .7291 .9599 .7291 .7289 .7294 .9566 .6734

Обучение, профессиональное развитие .8397 .8397 .8391 .9569 .8359 .8343 .8340 .9526 .6868

Руководство .9077 .9079 .9079 .9759 .9066 .9093 .9085 .9772 .6116

Атмосфера и коллеги .7556 .7540 .7540 .9510 .7634 .7591 .7594 .9430 .6566

Внимательное отношение к сотрудникам .8027 .8030 .8035 .9446 .7974 .7990 .7987 .9465 .6625

Бизнес-процессы и организация работы .9077 .9098 .9095 .9513 .9117 .9026 .9058 .9478 .4031

Карьерные возможности .8978 .8983 .8986 .9839 .8956 .8969 .8967 .9826 .7187

Интересная работа и проекты .8745 .8742 .8742 .9845 .8731 .8747 .8745 .9826 .6416

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Положение компании на рынке труда, репутация и бренд .9050 .9047 .8996 .9345 .9093 .8932 .8988 .9350 .7246

Профессиональная среда .9441 .9443 .9441 .9735 .9414 .9371 .9392 .9703 .1772

Примечания: 1 — Случайный лес / кол-во деревьев = 500; 2 — Случайный лес / кол-во деревьев = 2000; 3 — Случайный лес / кол-во деревьев = 2500; 4 — Случайный лес / кол-во деревьев = 2750; 5 — Градиентный бустинг / кол-во итераций = 500, ц = 0.3, глубина = 6 узлов; 6 — Градиентный бустинг / кол-во итераций = 1000, ц = 0.03, глубина = 8 узлов; 7 — Градиентный бустинг / кол-во итераций = 1000, ц = 0.01, глубина = 9 узлов; 8 — Градиентный бустинг / кол-во итераций = 1500, ц = 0.01, глубина = 8 узлов; 9 — Наивный Байес.

Таблица 4. Показатели точности прогноза моделей по каждой категории для ответов на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать её более привлекательным работодателем?»

Точность прогноза (accuracy)

Категории

1 2 3 4 5 6 7 8 9

Заработная плата .5954 .9219 .9229 .9247 .5533 .5741 .5718 .9390 .5506

Нематериальная мотивация .8291 .9178 .9201 .9159 .8517 .8360 .8383 .9210 .7215

График и условия труда .5178 .7339 .7367 .7224 .4993 .5159 .5104 .7173 .5109

Обучение, профессиональное развитие .8901 .9769 .9760 .9667 .8924 .8924 .8938 .9769 .7353

Руководство .9247 .9667 .9663 .9788 .9187 .9266 .9256 .9663 .1358

Атмосфера и коллеги .9635 .9792 .9788 .9714 .9603 .9598 .9612 .9774 .0351

Взаимодействие между подразделениями .9335 .9700 .9704 .9695 .9293 .9229 .9242 .9695 .2711

Бизнес-процессы и организация работы .8573 .9261 .9275 .9224 .8707 .8550 .8573 .9312 .6947

Информирование, наличие обратной связи .8878 .9732 .9737 .9644 .8915 .8887 .8891 .9741 .7455

Карьерные возможности .9635 .9834 .9829 .9861 .9598 .9612 .9607 .9824 .0249

Кадры и методы управления персоналом .9072 .9441 .9441 .9436 .8965 .8961 .8979 .9497 .3686

Оборудование, техническая оснащённость .8716 .9617 .9630 .9644 .8711 .8730 .8734 .9667 .3469

Примечания: 1 — Случайный лес / кол-во деревьев = 500; 2 — Случайный лес / кол-во деревьев = 2000; 3 — Случайный лес / кол-во деревьев = 1500; 4 — Случайный лес / кол-во деревьев = 2500; 5 — Градиентный бустинг / кол-во итераций = 500, ц = 0.3, глубина = 6 узлов; 6 — Градиентный бустинг / кол-во итераций = 1000, ц = 0.03, глубина = 8 узлов; 7 — Градиентный бустинг / кол-во итераций = 1500, ц = 0.01, глубина = 8 узлов; 8 — Градиентный бустинг / кол-во итераций = 1000, ц = 0.02, глубина = 8 узлов; 9 — Наивный Байес.

После сравнения методом «голосования большинством» метрик всех построенных моделей (то есть определения, какая модель чаще других оказывалась наиболее качественной), а также метрик для каждой универсальной категории, выбор был остановлен на следующих двух моделях: 1) для данных, на основе ответов на открытый вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?» была выбрана модель «случайного леса» с показателем 2750 «деревьев» (Таблицы 1, 3); 2) для данных, на основе ответов сотрудников на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать её более привлекательным работодателем?» была выбрана модель «экстремального градиентного бустинга», с переданными параметрами количества «деревьев» в 1000, «шагом модели» П 0.02, и «глубиной дерева» в восемь «узлов» (Таблицы 2, 4).

Обсуждение результатов

В результате реализации исследовательского проекта был разработан инструмент, представляющий из себя две модели, построенные на основе метода контролируемого классифицирования — с заранее заданными классами, для автоматизации процесса контент-анализа ответов на открытые вопросы в исследованиях вовлечённости персонала. Важным отличием, характеризующим данную работу от проекта коллектива авторов под руководством Р. Гарга, разработавших сходное решение, которое, посредством обработки естественного языка, выводит ранжированный по частоте встречаемости в комментариях список слов и словосочетаний, является процесс классификации слов и словосочетаний в заранее выделенные классы, претендующие на универсальность, вне зависимости от контекста сбора данных — сферы деятельности компании (Garg et al., 2021).

Для содержательной интерпретации универсальных категорий и определения, какие паттерны речи являются наиболее ценными для прогноза тех или иных категорий конструкта вовлеченности, был использован график «среднего снижения показателя точности прогноза» (mean decrease accuracy), который показывает, насколько метрика точности прогноза модели снижается при исключении каждого из предикторов метки категории: чем больше значение среднего снижения показателя точности прогноза, тем важнее данная переменная (см. Приложение З). Первые десять наиболее важных предикторов (слова и словосочетания — в исходных комментариях сотрудников), удаление которых приведёт к неверному классифицированию комментариев, приведены в Приложении И — для ответов на вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?», и в Приложении К — для ответов на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать её более привлекательным работодателем?». В качестве моделей для данного ранжирования были взяты модели, показавшие себя наиболее качественными (см. Таблицы 1-4). Таким образом, наиболее значимыми словами и словосочетаниями, описывающими категорию «Заработная плата» являются стеммы «стабильн», «плат», «заработн_плат» и другие (см. Приложение И), категория «Обучение и профессиональное развитие» описывается такими стеммами, как «обучен», «развит», «квалификац», «курс», «тренинг» (см. Приложение К) и так далее. При этом некоторые графики более резко «обрываются», например, «Нематериальная мотивация» и «Соблюдение обязательств и Трудового Кодекса работодателем» (см. Приложение З), в то время как другие выглядят более полого — «Заработная плата» и «Атмосфера и коллеги» (см. Приложение З), при этом масштаб также отличается от графика к графику. То есть, в некоторых категориях лишь первые несколько

предикторов являются наиболее важными, а в других — множество слов и словосочетаний весомы для классификации.

Важно отметить, что часть категорий имеет интуитивно очевидные и «верные» слова-предикторы: например, понятно, что, комментарий о кадрах, штате и персонале будет с наибольшей вероятностью отнесён в категорию «Кадры и методы управления персоналом» (см. Приложение К), а если в ответах сотрудников встречаются такие слова как «коллектив», «сотрудники» и «мероприятия» (см. Приложение И), то данные высказывания относятся к категории «Атмосфера и коллеги».

Однако в это же время встречаются категории, наиболее ценными предикторами к которым служат слова, в действительности не описывающие их. Так, в категорию «Положение компании на рынке труда» сильно вкладываются стеммы «стабильн», «компан», «проект», «благодар» и «пакет» (Приложение И), что не является интуитивно понятным: часть из предикторов вероятнее всего стоило бы отнести к другим категориям. Другим примером подобного рода расхождений служит «примесь» таких стеммов, как «соц», «пакет» в категории, не относящиеся к нематериальному поощрению (см. Приложение И), что также необходимо учитывать в будущих корректировках моделей. Кроме того, определённые стеммы, такие как «стабильн» и другие, встречаются в качестве важных предикторов во многих категориях (см. Приложения И, К).

Возможным объяснением полученных ошибочных отнесений комментариев к неверным категориям может служить сама структура данных, несбалансированность классов (см. Приложение В, Г), а также возможная интеркорреляция метрик (см. Приложение Д, Е). В подтверждение данному предположению можно привести «графики совпадения» (concurrence plot) (см. Приложения Д, Е), имеющие круглую форму, где сама окружность разделена на несколько непересекающихся дуг, представляющих собой категории. Каждая дуга имеет длину, пропорциональную количеству наблюдений, в которых присутствует та или иная метка. Эти дуги, в свою очередь, разделены на полосы, которые соединяют две из них, показывая отношения между метками. Ширина каждой полосы указывает на силу связи, поскольку она пропорциональна количеству случаев, когда обе метки появляются одновременно.

Из данных графиков заметно, что многие категории сильно пересекаются друг с другом и часто упоминаются вместе (см. Приложения Д, Е). В связи с этим, возможно, в будущих модификациях инструмента, сами некоторые категории следует объединить с другими (например, универсальные категории «Нематериальная мотивация» и «Соблюдение обязательств и Трудового Кодекса работодателем») или, наоборот, разделить на отдельные категории (например, «График и условия работы»), выделив из единой категории несколько более мелких и конкретных.

Обращая внимание на такой показатель выделенных категорий, как частота их встречаемости, важно заметить некоторое несоответствие с моделями, которые используют ранжирование категорий, влияющих на вовлечённость, по их значимости. Например, в качестве наиболее важного показателя для сотрудников выделяются обучение и развитие на рабочем месте, что совсем не соответствует показателю частоты упоминания данной категории (см. Приложения В, Г) (Robinson et al., 2004). В это же время наиболее популярными по упоминаниям категориями комментариев выступают «Заработная плата», «График и условия работы», «Нематериальная мотивация» (см. Приложения В, Г), которые стоят на достаточно низких позициях по важности для работников в сравниваемой модели (Robinson et al., 2004). Здесь объяснением может выступить само заявление авторов: компоненты вовлечённости и относительная сила каждого из них специфичны для каждой отдельно взятой организа-

ции и может варьироваться между культурами разных стран, поэтому важность категорий в контексте их универсализации, скорее всего, не может быть адекватно оценена (Gupta, Sharma, 2016; Robinson et al., 2004).

В связи с этим примечательно, что если ряд исследователей (например, А. Хьюитт, Н. Гупта, В. Шарма, Д. Робинсон с коллегами) выделяли финансовые инструменты увеличения вовлеченности сотрудников как сравнительно менее эффективные, чем нематериальные, то, как видно из графика встречаемости категорий (см. Приложения В, Г), среди российских работников более часто упоминаются именно материальные (финансовые) поощрения (Hewiit, 2013; Gupta, Sharma, 2016; Robinson et al., 2004). Кроме того, если Ф. Херцберг с коллегами отмечали, что отсутствие гигиенических факторов на рабочем месте способствует неудовлетворённости сотрудников, в то время как их наличие не может привести к состоянию положительной удовлетворённости, то по результатам данного исследования важно заметить, что российские сотрудники выделяют целый ряд гигиенических факторов как способствующих их вовлечённости (см. Приложения В, Г) (Herzberg, 1959). В их число входят, например, график и условия труда, соблюдение обязательств и Трудового Кодекса работодателем, бизнес-процессы и организация работы, нематериальная мотивация и широкий социальный пакет.

Некоторое противоречие результатов исследования с общепринятыми предположениями необходимо изучить отдельно в дальнейших исследованиях. Интуитивным объяснением подобного рода результатов может выступать низкое материальное положение работников российских компаний: по статистике на конец 2020 г. медианная заработная плата в России составила всего 32.422 рубля, 50% трудоспособного населения России получает заработную плату, меньше данного показателя (Росстат, 2021). Логично предположить, что такие гигиенические факторы, как заработная плата, социальный пакет и его объём, иные стимуляции будут иметь большое значение для российских работников.

Поскольку в качестве модели, операционализирующей конструкт «вовлечённость персонала», была выбрана модель ЭКОПСИ Консалтинг, необходимо сопоставить полученные результаты с её положениями (Онучин, 2019). Первостепенные факторы, в наибольшей степени влияющие на вовлечённость российских сотрудников, по мнению практиков, можно разделить на следующие группы:

• контроль своей жизни, которой соответствует выделенная универсальная категория «Информирование и наличие обратной связи»;

• корпоративная идеология, с которой связаны категории «Положение компании на рынке труда, репутация и бренд», «Руководство» и «Внимательное отношение к сотрудникам»;

• эффективная рабочая среда, в которую интуитивно можно отнести «Заработную плату» и «Нематериальную мотивацию», «Оборудование и техническую оснащённость», «Соблюдение обязательств и Трудового Кодекса работодателем», «График и условия труда», «Кадры и методы управления персоналом», «Обучение и профессиональное развитие», «Карьерные возможности» и «Профессиональную среду»;

• интеграция, к которой можно отнести категории «Атмосфера и коллеги» и «Интересная работа и проекты (Онучин, 2019).

Схожие категории вовлечённости выделяет институте Гэллапа:

• основные потребности работника — «Оборудование и техническая оснащённость», «Заработная плата», «Нематериальная мотивация», «Соблюдение обязательств и Трудового Кодекса работодателем», «График и условия труда»;

• поддержка управления — «Руководство», «Информирование, наличие обратной связи», «Внимательное отношение к сотрудникам»;

• работа в команде — «Атмосфера и коллеги», «Профессиональная среда», «Взаимодействие между подразделениями»;

• рост — «Обучение и профессиональное развитие», «Карьерные возможности» (The Gallup Organization, 1992-1999).

Что же касается академического подхода к пониманию вовлечённости, выделенные в ходе обработки результатов ручного контент-анализа ответов сотрудников на открытые вопросы категории во многом пересекаются с моделью, разработанной зарубежными коллегами, где часть категорий-факторов вовлечённости полностью совпадают с представленными в данной работе (такие как «Обучение и развитие», «Карьера» и другие), в то время как другие составляют обобщённые группы категорий (например, «Оплата и бонусы» объединяют в себе категории «Заработная плата» и «Нематериальная мотивация»; а «Здоровье и безопасность» — «Оборудование, техническую оснащенность», «График и условия труда», «Бизнес-процессы и организацию работы») (Gupta, Sharma, 2016). При этом, «Удовлетворённость работой», выделенная авторами, по смыслу совпадает с «Интересной работой и проектами», поскольку данная категория была выведена из оценочных высказываний сотрудников, которые, предположительно, относятся к аффективной составляющей их вовлечённости, а именно — к удовлетворённости трудом (Gupta, Sharma, 2016).

Наиболее точно выделенные в работе универсальные категории вписываются в модель вовлечённости К. Суоми с коллегами, также выделяющих восемь сфер-предпосылок вовлечённости (Suomi, 2019), и в модель А. Хьюитта, который обозначал следующие побудители вовлечённости сотрудников:

• непосредственно работа, куда можно отнести категории «Интересная работа и задачи», «Соблюдение обязательств и Трудового Кодекса работодателем»;

• качество жизни: «График и условия работы», «Оборудование и техническую оснащённость»;

• люди: «Атмосфера и коллеги», «Руководство», «Профессиональная среда», «Внимательное отношение к сотрудникам»;

• возможности: «Карьерные возможности», «Обучение и профессиональное развитие»;

• общее вознаграждение, то есть выделенные из результатов контент-анализа «Заработная плата» и «Нематериальная мотивация»;

• практики компании: «Бизнес-процессы и организация работы», «Положение компании на рынке труда, ее и бренд», «Взаимодействие между подразделениями», «Кадры и методы управления персоналом», «Информирование, наличие обратной связи» (Hewitt, 2011, p. 7).

Ограничения

С целью чёткого очерчивания возможностей применения разработанного инструмента, описания характеристик изучаемого конструкта «вовлечённость персонала» и для однозначности контекста, необходимо обсудить ряд ограничений проекта.

1. Поскольку в настоящее время не существует общепринятого определения понятия «вовлечённость персонала», а также не было разработано единой модели конструкта, в данной работе «вовлечённость» была операционализирована на основании модели, разработанной компанией «ЭКОПСИ Консалтинг».

2. Построение и обучение моделей производилось на стеммах, образованных из исходных слов, что потенциально могло отрицательно повлиять на качество моделей. Альтернативой стеммингу выступает иная форма нормализации — лемматизация, являющаяся более тонким процессом с использованием морфологического анализа слова, который приводит все слова в тексте к их исходным формам — леммам.

3. Другим потенциальным недостатком данной работы является высокоуровне-вость выделенных категорий (например, категорию «Заработная плата» представляется возможным разбить на ряд подкатегорий, например: «Размер заработной платы», «Система поощрений», «Стабильность выплат», «Прозрачность заработной платы»), поэтому для более детального понимания категорий потребуются дальнейшие исследования.

4. Существенным ограничением исследования является возможная внутренняя взаимосвязь предикторов (рассматриваемых категорий внутри конструкта вовлечённости) между собой, которая базово не учитывалась при разработке инструмента по автоматизации контент-анализа. Данное ограничение вытекает из самого принципа задач классификации с несколькими метками, в которых неравное распределение меток в большинстве наборов данных с несколькими метками и разным уровнем дисбаланса бросает вызов многим из существующих алгоритмов предварительной обработки и применения некоторых методов классификации (Charte et al., 2017).

Как видно из «графиков совпадения» (см. Приложения Д, Е), существует взаимосвязь между такими категориями, как «Нематериальная мотивация», «Соблюдение обязательств и Трудового Кодекса работодателем» и «Заработная плата» (Вопрос 1); а также между категориями «Заработная плата» и «График и условия труда» (Вопрос 2).

Для преодоления ограничения возможно выбрать стратегию классификации, отличную от бинарной релевантности (binary relevance), которая была использована в настоящей работе. Функция бинарной релевантности, разбивая многоэтапную задачу обучения на ряд независимых бинарных обучающих задач (по одной на метку класса), потенциально ограничена при значительных корреляциях между метками. Важно более глубоко изучить взаимодействие между метками, особенно между представленными в большинстве (такие как «Заработная плата», «Социальный пакет и нематериальная мотивация», «Соблюдение обязательств ТК РФ») и меньшинстве наблюдений («Положение компании на рынке труда, репутация», «Профессиональная среда»).

5. Кроме того, качество самих моделей по их основным метрикам может быть улучшено посредством дополнительной подгонки параметров. При этом, с прикладной точки зрения необходим компромисс между точностью прогноза модели и её затратностью в плане вычислительных мощностей. В дальнейших доработках данного инструмента необходимо добиться большего качества модели, не снижая в то же время скорости её вычисления.

6. Поскольку создаваемый инструмент был разработан на основе качественных исследований вовлечённости персонала в преимущественно российских компаниях, результаты исследования не представляется возможным обобщить на международные и зарубежные организации.

7. Несмотря на стремление к созданию инструмента по выявлению полностью универсальных категорий из ответов сотрудников, результаты работы могут быть неприменимы или частично неприменимы к другим областям или организациям из нерассмотренных бизнес-областей. Для более глубокого понимания психологического конструкта вовлечённости будут необходимы дальнейшие исследования с расширенным диапазоном сфер деятельности компаний, взятых для анализа.

Заключение

В настоящее время наиболее важным ресурсом любой компании, с точки зрения удержания кадров, прибыльности, удовлетворённости клиентов, являются её вовлечённые сотрудники, в связи с чем данному конструкту уделяется всё больше внимания как в академической среде, так и среди практиков (Онучин, 2019; Bailey, 2016; Harter et al., 2002; Chi, Gursoy, 2009). Данная работа была направлена на выявление универсальных категорий внутри конструкта «вовлечённость персонала» и на разработку инструмента, позволяющего упростить процесс анализа вовлечённости посредством автоматизации контент-анализа ответов сотрудников на открытые вопросы.

В ходе исследования были получены два разных вида результатов. С теоретической точки зрения, были выявлены агрегированные универсальные категории конструкта вовлечённости, не зависящие от контекста сбора данных — доменных областей компаний, позволяющие относительно точно прогнозировать вовлечённость сотрудников. Это означает, что в разных организациях могут присутствовать некие общие конструкты и сущности, которые могут служить сигналом о степени вовлечённости. Кроме того, были представлены содержательные интерпретации категорий, основанные на предыдущих исследованиях вовлечённости персонала на надындивидуальном уровне и на выводах практической части текущего исследования (см. Приложение З) (Shrotryia, Dhanda, 2020; Garg et al., 2021). Выделенные универсальные категории были сопоставлены с известными моделями вовлечённости (Hewitt, 2011; Garg et al., 2021; Gupta, Sharma, 2016; The Gallup Organization, 1992-1999). При этом было отмечено, что такие гигиенические факторы — предпосылки вовлечённости, — как финансовые, для российских сотрудников имеют большее значение, чем нефинансовые, что скорее противоречит утверждениям некоторых авторов, например, Ф. Херцберга, и требует дальнейшего изучения (Herzberg et al., 1959).

С практической точки зрения, в качестве результата данной работы был представлен инструмент для обработки естественного языка — автоматизация обработки контент-анализа русскоязычных ответов на открытые вопросы в прикладных исследованиях вовлечённости сотрудников. Кроме того, было выявлено, какие именно речевые паттерны наиболее ценны для предсказания, к какой из универсальных категорий вовлечённости будет отнесено то или иное высказывание. Этот инструмент представлен в виде кода в программной среде R-Studio (версия 4.1.2, 64-bit), который можно использовать в качестве вспомогательного диагностического инструмента деятельности компании «ЭКОПСИ Консалтинг» для дальнейших исследований и аудитов, сопоставительного анализа компаний из разных бизнес-областей, которые невозможно было бы сопоставить без данного инструмента. Таким образом, основная цель данной работы — разработка ПО по автоматизации процесса анализа контента ответов на открытые вопросы и универсализации категорий в исследованиях вовлечённости персонала — может считаться выполненной.

Ожидается, что данный проект прокладывает первые шаги к расширению контекста вовлечённости персонала и может помочь как исследователям, так и практикам измерить вовлечённость на уровне организации и даже на уровне доменной бизнес-области. Кроме того, результаты могут стать основой для понимания специфики вовлечённости в межорганизационном контексте. Описание выявленных универсальных категорий потенциально может быть применимо для последующего теоретического осмысления конструкта «вовлечённость персонала».

Литература

Большакова, Е. И., Воронцов, К. В., Ефремова, Н. Э., Клышинский, Э. С., Лукашевич, Н. В., Сапин, А. С. (2017). Автоматическая обработка текстов на естественном языке и анализ данных:учеб. пособие, Москва: ИД ВШЭ.

Бочаров, А. В. (2011). Автоматизация обработки неструктурированной текстовой информации и перспективы гуманитарных наук в XXI веке. Человек — текст — эпоха, Вып. 41(5-37). Томск: Изд-во ТГУ.

Бусыгина, Н. П. (2021). Методология качественных исследований в психологии: учебное пособие, Москва: ИНФРА-М.

Долженко, Р. А. (2014). Удовлетворенность, лояльность, вовлеченность персонала: уточнение и конкретизация понятий. Вестник Алтайского государственного аграрного университета, 9(119), 157-162.

Клюева, Н. В. (2016). Качественные методы исследования: учебно-методическое пособие. Ярославль: ЯрГУ

Куликэн, Х. (2002). Методы исследования. В сб.: М. Айзенк (ред.), Психология: комплексный подход (667-730). Минск: Новое знание.

Окулик, М. С. (2019). Вовлеченность персонала в деятельность организации. Научные исследования и современное образование: материалы IX Международной научно-практической Конференции, 27 декабря (160-162). Чебоксары: ЦНС «Интерактив плюс».

Онучин, А. Н. (2013). Изучение вовлечения. The Human Resources Times, Журнал о людях в бизнесе, 24, Ноябрь, 29-35. URL: https://www.ecopsy.ru/insights/izuchenie-vovlecheniya/ (дата обращения: 24.02.2022).

Федеральная служба государственной статистики Российской Федерации (2021). Медианная заработная плата, рассчитанная на основе административных данных Пенсионного фонда Российской Федерации. URL: https://rosstat.gov.ru (дата обращения: 01.05.2022).

Чуланова О. Л., Припасаева, О. И. (2016). Вовлеченность персонала организации: основные подходы, базовые принципы, практика использования в работе с персоналом. Вестник евразийской науки, 8, 2(33), 86.

Bailey, C. (2016). Employee engagement: Do practitioners care what academics have to say — And should they? Human Resource Management Review, 40.

Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.

Bloom, D. E. (2016). The global demography of aging. In J. Piggott, A. Woodland (Eds.), Handbook of the Economics of Population Aging, Volume 1 (3-56). Elsevier.

Carmona-Halty, M. A., Schaufeli, W. B., Salanova, M. (2019). The utrecht work engagement scale for students (UWES-9S): Factorial validity, reliability, and measurement invariance in a chilean sample of undergraduate university students. Frontiers in Psychology, 10, 1017.

Caruana, R., Niculescu-Mizil, A. (2006). An empirical comparison of supervised learning algorithms. Proc. 23rd International Conference on Machine Learning.

Charte, F., Charte, D. (2015). Working with multilabel datasets in R: The mldr Package. The R Journal, Vol. 7/2, December, 149-162.

Charte, F., Rivera, A. J., del Jesus, M. J., Herrera, F. (2017). Dealing with difficult minority labels in imbalanced mutilabel data sets. Neurocomputing.

Chi, C. G., Gursoy, D. (2009). Employee satisfaction, customer satisfaction, and financial performance: an empirical examination. International Journal of Hospitality Management, 28, 245-253.

Christian, M. S., Garza, A. S., Slaughter, J. E. (2011). Work engagement: A quantitative review and test of its relations with task and contextual performance. Personnel Psychology, 64(1), 89-136.

Crowston, K., Allen, E. E., Heckman, R. (2012). Using natural language processing technology for qualitative data analysis. International Journal of Social Research Methodology, 15(6), 523-543.

Daniels, J. R. (2016). An exploratory comparative case study of employee engagement in christian higher education. Christian Higher Education, 15(3), 126-139.

Demerouti, E., Bakker, A. B., Vardakou, I., Kantas, A. (2003). The convergent validity of two burnout instruments: A multitrait-multimethod analysis. European Journal of Psychological Assessment, 19, 12-23.

Frost, N. (2011). Qualitative research methods in psychology: combining core approaches. Maidenhead: McGraw-Hill Education.

Garg, R., Kiwelekar, A. W., Netak, L. D., Ghodake, A. (2021). i-Pulse: A NLP based novel approach for employee engagement in logistics organization. International Journal of Information Management Data Insights, 1(1), 100011.

The Gallup Organization (1992-1999). Gallup Workplace Audit (Copyright Registration Certificate TX-5 080 066). Washington, DC: U.S. Copyright Office.

Gupta, N., Sharma, V. (2016). Exploring employee engagement — A way to better business performance. Global Business Review, 17(3S) 1S-19S.

Guest, D. (2014). Employee engagement: A sceptical analysis. Journal of Organizational Effectiveness: People and Performance, 1(2), 141-156.

Harter, J. K., Schmidt, F. L., Hayes, T. L. (2002). Business-unit-level relationship between employee satisfaction, employee engagement, and business outcomes: A meta-analysis. Journal of Applied Psychology, 87(2), 268-279.

Harwood, T. G., Garry, T. (2003). An overview of content analysis. The Marketing Review, 3(4), 479-498.

Herzberg, F., Mausner, B., Snyderman, B. B. (1959). The Motivation to Work (2nd ed.). New York: John Wiley.

Hewitt, A. (2011). Trends in global employee engagement. Consulting, Talent & Organization. England.

Hewitt, A. (2013). 2013 trends in global employee engagement. Consulting, Performance, Reward and Talent. England.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Jakubik, M., Vakkuri, M. (2015). The E-experience: Exploring employee engagement. Haaga-Helia Publication Series R&D Reports, 36.

Kahn, W. A. (1990). Psychological conditions of personal engagement and disengagement at work. The Academy of Management Journal, 33(4), 692-724.

Macey, W. H., Schneider, B. (2008). The meaning of employee engagement. Industrial and Organizational Psychology, 1(01), 3-30.

Maslach, C., Schaufeli, W. B., Leiter, M. P. (2001). Job burnout. Annual Review of Psychology, 52(1), 397-422.

May, D. R., Gilson, R. L., Harter, L. M. (2004). The psychological conditions of meaningfulness, safety and availability and the engagement of the human spirit at work. Journal of Occupational and Organizational Psychology, 77, 11-37.

Probst, P., Au, Q., Casalicchio, G., Stachl, C., Bischl, B. (2017). Multilabel Classification with R Package mlr. The RJournal, 9/1, June. 352-369.

Pugh, S. D., Dietz, J. (2008). Employee engagement at the organizational level of analysis. Industrial and Organizational Psychology, 1(01), 44-47.

Rich, B. L., Lepine, J. A., Crawford, E. R. (2010). Job engagement: Antecedents and effects on job performance. Academy of Management Journal, 53(3), 617-635.

Rivolli, A., Carvalho, A. (2018). The utiml package: multi-label classification in R. The R Journal, 10/2, December 24-37.

Robinson, D., Perryman, S., Hayday, S. (2004). The Drivers of Employee Engagement Report 408. Institute for Employment Studies, UK.

Robson, C., McCartan, K. (2011). Real world research: A Resource for Users of Social Research Methods in Applied Settings (533) (Fourth Edition).

Saad, L., Wigert, B. (2021). Remote work persisting and trending permanent. Gallup. URL: https:// news.gallup.com/poll/355907/remote-work-persisting-trending-permanent.aspx. (дата

обращения: 24.02.2022).

Saks, A. M. (2006). Antecedents and consequences of employee engagement. Journal of Managerial Psychology, 21(7), 600-619.

Sari, R. E., Min, S., Purwoko, H., Furinto, A., Tamara, D. (2020). Artificial Intelligence for a Better Employee Engagement. International Research Journal of Business Studies, XIII(02) (August — November),173-188.

Schaufeli, W. B. (2006). The measurement of work engagement with a short questionnaire: A cross-national study. Educational and Psychological Measurement, 66(4), 701-716.

Schaufeli, W. B., Salanova, M., Gonzalez-Româ, V., Bakker, A. B. (2002). The measurement of engagement and burnout: A confirmative analytic approach. Journal of Happiness Studies, 3, 71-92.

Schaufeli, W. B., Shimazu, A., Hakanen, J., Salanova, M., De Witte, H. (2017, October 17). An ultra-short measure for work engagement: The UWES-3 validation across five countries. European Journal of Psychological Assessment.

Sharma, S. K., Kaur, S. (2014). An introspection of employee engagement: A quantitative content analysis approach. IUPJournal of Organizational Behavior, Hyderabad, 13(2), 38-57.

Shrotryia, V. K., Dhanda, U. (2020). Development of employee engagement measure: experiences from best companies to work for in India. Measuring Business Excellence, 24(3), 319-343.

Shruthi, J., Suma, S. (2020). A prior case study of natural language processing on different domain. International Journal of Electrical and Computer Engineering (IJECE), 10(5), 4928-4936.

Suomi, K., Saraniemi, S., Vahatalo, M., Kallio, T. J., Tevameri, T. (2019). Employee engagement and internal branding: Two sides of the same coin? Corporate Reputation Review, 24(1), 48-63.

Tsareva, N. A., Boldyhanova, V. A. (2020). Educating the concepts of retention factor of a company with the case of employee engagement level increase. Propos. represent, 8(3), e515.

Wellins, R. S., Bernthal, P., Phelps, M. (2005). Employee engagement: The key to realizing competitive advantage. Development Dimensions International, 1-30.

Yu, C. H., Jannasch-Pennell, A., DiGangi, S. (2011). Compatibility between text mining and qualitative research in the perspectives of grounded theory, content analysis, and reliability. The Qualitative Report, 16(3), 730-744.

Zhang, M.-L., Li, Y.-K., Liu, X.-Y., Geng, X. (2017). Binary relevance for multi-label learning: An overview. Frontiers of Computer Science.

Zhang, T. C., Ronzoni, G., Medeiros, M., Bufquin, D. (2022). A qualitative assessment of hotel employee

engagement in anti-human-trafficking initiatives. International Journal of Hospitality Management, 102.

Поступила 04.08.2022

Приложения

Приложение А

Таблица А. Матрица совпадений категорий, для ответов на вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?»

Имя категории 1 2 Номер 3 (2021) компании 3 (2022) 4 5

Стабильность выплат, «белая» зарплата 1 0 0 0 1 1

Размер заработной платы 1 0 0 0 1 1

Соцпакет 1 1 1 1 1 1 0 1 1 1 1 1

Соблюдение обязательств, работа по Трудовому Кодексу Система материальной мотивации 1 1 1 1 1 1 1 1 1 1 1

График работы 1 1 1 1 1

Обучение, профессиональное развитие 1 1 1 1 1 1

Внимательное отношение к сотрудникам 1 1 1 1 1 1

Атмосфера и коллеги 1 1 1 1 1 1

Самостоятельность сотрудников, доверие персоналу, поощрение 1 1 1 1

инициативы

Условия труда в целом 1 1 1

Положение компании на рынке, репутация, бренд 1 1 1 1 1 1

Бизнес-процессы и организация работы 1 1 1 1 1

Интересная работа 1 1 1 1 1 1

Старт карьеры 1 1 1 1

Стабильность компании, уверенность в завтрашнем дне 1 1 1 1

Информирование, оценка, обратная связь 1 1 1

Руководство 1 1 1 1 1 1

Карьерные возможности 1 1 1 1 1 1

Корпоративная культура и ценности 1 1 1 1

Оборудование, ремонты, техническая оснащённость 0 1 1 1

Профессиональная среда 0 1 1 1 1 1

Нематериальная мотивация 0 1 0 0 0

Автоматизация, новое программное обеспечение 0 1 1 1 0 1

Возможность самореализации 1 0 0 0

Продукция компании 1 0 0 0

Корпоративные мероприятия 0 1 1 0 0 0

Стратегия компании 1 0 1 0 1 0

Рост, развитие компании 0 0 1 0 1 1

Антиковидные меры 0 0 1 0 0 0

Наличие большого количества рабочих мест 0 0 0 0 1 1

Социальная ориентированность компании 0 0 0 0 1 1

Примечание: цветами обозначены объединенные категории.

Приложение Б

Таблица Б. Матрица совпадений категорий, для ответов на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать её более привлекательным работодателем?»

Имя категории 1 2 Номер компании 3 (2021) 3 (2022) 4 5

Социальный пакет 1 1 0 0 1 1

Система мотивации 1 0 0 0 1 1

Размер оплаты труда 1 1 1 1 1 1

Кадры и управление персоналом 1 1 1 1 1

Обучение и развитие сотрудников 1 1 1 1 1 1

Взаимодействие между подразделениями 1 1 1 1 1 1

Взаимодействие внутри команд 0 1 1

Скорость согласований и Бюрократия 0 1 1 1 1

Бизнес-процессы, организация работы 1 1 1 1 1 1

Карьерные возможности 1 1 1 1 1 1

Условия труда 1 1 1 0 1 1

Атмосфера и коллеги 1 1 1 1 1 1

Нагрузка, переработки, завышенные планы 0 0 1

Планирование и постановка задач 1 1 1 1

Оборудование, ремонты, техническая оснащённость 1 0 1 1 1 1

Отношение к сотрудникам 1 1 0 1

Информирование, оценка, ОС 1 1 1 1 1

Руководство 1 0 1 0 1 1

Командообразование, неформальное общение 1 0 1 1 0

Профсоюз 0 0 0 1 1

Поощрение идей сотрудников, внимание к мнению сотрудников 1 1 0 0 0

Баланс между работой и личной жизнью 1 0 1 1 0

Нематериальная мотивация 1 1 1 1 0

Корпоративный транспорт 0 0 0 1 0

График работы 1 1 1 1 1 1

Автоматизация, новое ПО 0 1 1 1 0

Новые заказчики, проекты, рынки 0 0 1 1 1

Экология 0 0 0 0 1 1

Компенсация за переработки и праздники 1 0 0 0 1 0

Возможность удалённой работы 1 0 0 0 0 0

Качество товара, разнообразие ассортимента 1 0 0 0 0 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Стратегия (цели) 0 1 0 1 0 0

Другое (мусор) 0 0 0 0 0 0

Примечание: цветами обозначены объединенные категории.

Приложение В

График. Частота встречаемости категорий в ответах на вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?»

Примечание: По оси х - категории, где: 1 - «Заработная плата», 2 - «Нематериальная мотивация», 3 - «Соблюдение обязательств и Трудового Кодекса работодателем», 4 - «График и условия труда», 5 - «Обучение, профессиональное развитие», 6 - «Руководство», 7 - «Атмосфера и коллеги», 8 - «Внимательное отношение к сотрудникам», 9 - «Бизнес-процессы и организация работы», 10 -«Карьерные возможности», 11 - «Интересная работа и проекты», 12 - «Положение компании на рынке труда, репутация и бренд», 13 - «Профессиональная среда». По оси у - количество наблюдений в процентах.

Приложение Г

График. Частота встречаемости категорий в ответах на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать ее более привлекательным работодателем?»

□ о ■

I ■ ■

Примечание: По оси Х - категории, где: 1 - «Заработная плата», 2 - «Нематериальная мотивация», 3 - «График и условия труда», 4 - «Обучение, профессиональное развитие», 5 - «Руководство», 6 - «Атмосфера и коллеги», 7 - «Взаимодействие между подразделениями», 8 - «Бизнес-процессы и организация работы», 9 - «Информирование, наличие обратной связи», 10 - «Карьерные возможности», 11 - «Кадры и методы управления персоналом», 12 - «Оборудование, техническая оснащенность». По оси у - количество наблюдений в процентах.

Приложение Д

График. Совпадение категорий для ответов на вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?»

о>

на

М

Примечание: 1 — «Заработная плата», 2 - «Нематериальная мотивация», 3 - «Соблюдение обязательств и Трудового Кодекса работодателем», 4 - «График и условия труда», 5 - «Обучение, профессиональное развитие», 6 - «Руководство», 7 - «Атмосфера и коллеги», 8 - «Внимательное отношение к сотрудникам», 9 - «Бизнес—процессы и организация работы», 10 - «Карьерные возможности», 11 - «Интересная работа и проекты», 12 - «Положение компании на рынке труда, репутация и бренд», 13 - «Профессиональная среда».

Приложение Е

График. Совпадение категорий для ответов на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать ее более привлекательным работодателем?»

о* "—........

0« -------а 1

Примечание: 1 — «Заработная плата», 2 — «Нематериальная мотивация», 3 — «График и условия труда», 4 — «Обучение, профессиональное развитие», 5 — «Руководство», 6 — «Атмосфера и коллеги», 7 — «Взаимодействие между подразделениями», 8 — «Бизнес—процессы и организация работы», 9 — «Информирование, наличие обратной связи», 10 — «Карьерные возможности», 11 — «Кадры и ЫЯ—практики», 12 — «Оборудование, техническая оснащённость».

Приложение И

Таблица. Топ—10 важных предикторов категорий для наиболее качественной модели, построенной на основе ответов на вопрос «Как Вы считаете, благодаря чему нашу Компанию можно назвать хорошим работодателем?»

Категория Десять наиболее важных предикторов Категория Десять наиболее важных предикторов

1. Заработная плата стабильн 8. Внимательное отношение к сотрудник

заработн_плат сотрудникам отношен

плат отношен_сотрудник

заработн забот

сотрудник забот_сотрудник

соц работник

соц_пакет поддержк

пакет пакет

зарплат вниман

оплат зп пакет стабильн

2. Нематериальная 9. Бизнес—процессы и орга- работ

мотивация соц_пакет соц социальн_пакет социальн соцпакет заработн плат заработн_плат дмс низация работы услов труд стабильн задач услов_работ организац процесс пакет соц

3. Соблюдение обяза- пакет 10. Карьерные возможности карьерн_рост

тельств и Трудового соц_пакет карьерн

Кодекса работодателем соц социальн_пакет социальн соцпакет заработн плат заработн_плат дмс рост возможн_карьерн возможн возможн_рост стабильн перспектив развит профессиональн

4. График и условия труда услов 11. Интересная работа и интересн

услов_труд проекты проект

труд интересн_проект

график задач

услов_работ интересн_задач

комфортн интересн_работ

удобн работ

удобн_график крупн

комфортн_услов возможн

график_работ стабильн

5. Обучение, профессио- возможн 12. Положение компании на стабильн

нальное развитие обучен рынке труда, репутация и компан

развит бренд проект

профессиональн благодар

возможн_развит пакет

рост атмосфер

карьерн_рост рынк

карьерн крупн

развива сотрудник

сотрудник отношен_сотрудник

Категория Десять наиболее важных предикторов Категория Десять наиболее важных предикторов

6. Руководство руководств 13. Профессиональная среда экспертиз

руководител профессионализм

стабильн ответствен

адекватн профессиональн

коллект специалист

услов стабильн

открыт коллег

благодар команд

сотрудник сотрудник

коллектив интересн

7. Атмосфера и коллеги коллект

атмосфер

коллектив

люд

дружн

команд

дружн_коллект

отношен

коллег

внутр

Приложение К

Таблица. Топ—10 важных предикторов категорий для наиболее качественной модели, построенной на основе ответов на вопрос «Как Вы считаете, что в Компании стоило бы улучшить, чтобы сделать её более привлекательным работодателем?»

Категория Десять наиболее важных Категория Десять наиболее важных

предикторов предикторов

1. Заработная плата плат 7. Взаимодействие между взаимодейств

заработн_плат подразделениями отдел

заработн подразделен

зарплат практик

оплат коммуникац

зп согласован

оплат_труд процесс

повыс опыт

труд плат

уровен зарплат

2. Нематериальная взаимодейсвт 8. Бизнес—процессы и оплат

мотивация персона организация работы процесс

зарплат организац

подразделен труд

штат оплат_труд

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

отдел задач

плат работ

заработн плат

специалист решен

кадр планирован

3. График и условия заработн_плат 9. Информирование, обучен

труда плат наличие обратной связи развит

заработн квалификац

зарплат курс

оплат тренинг

оплат_труд провод

зп сотрудник

труд повышен

повыс возможн

сотрудник плат

4. Обучение, обучен 10. Карьерные возможности карьерн

профессиональное развит карьерн_рост

развитие квалификац рост

курс возможн

тренинг обучен

сотрудник развит

повышен сотрудник

возможн компан

профессиональн проект

провод зарплат

5. Руководство руководств 11. Кадры и методы персона

руководител управления персоналом штат

плат кадр

отношен зарплат

смен специалист

заработн увелич

заработн_плат сотрудник

зарплат заработн_плат

сотрудник плат

отношен_рабоч заработн

Категория Десять наиболее важных предикторов Категория Десять наиболее важных предикторов

6. Атмосфера и коллеги коллектив 12. Оборудование, плат

сотрудник техническая оснащенность заработн_плат

мероприят заработн

зарплат оборудован

работ техник

зп нов

плат ремонт

уровен техническ

рабоч обеспечен

отношен сотрудник

ORGANIZATIONAL PSYCHOLOGY

The universalization of categories and process automation for content analysis in engagement surveys with open questions

Daria GLEBOVA

ORCID: 0000-0002-1617-9426

Abstract. This paper aims to develop a solution for content analysis automation for answers to open-ended questionsin engagement studies. Responses to two open questions by more than 16,000 employees of five Russian companies were processed using a natural language processing method and a multilabel classification. The categories used for classification were obtained by building a co-occurrence matrix from the results of manual content analysis. The solution contains two separate models developed with supervised machine learning algorithms — random forest and gradient boosting. These models automate the content analysis process for answers to open questions in engagement studies with the accuracy of .86 and .70 respectively. Aggregated and potentially universal categories of engagement studies were identified, the categories being independent of the context of data collection. They also were compared with the engagement factors defined by other authors. Besides, the most important speech patterns (words and phrases) that predict to which of the categories a particular employee's response would be assigned were named. The solution can be used by companies for benchmarking factors of engagement in different domain areas. Research opportunities for the categories as regards their possible internal relationship are discussed. Improvement of the tool is also considered, as well as adding topic modeling and sentiment analysis methods to refine its predictive power.

Keywords: employee engagement, employee engagement drivers, content-analysis automation, category universalization, natural language processing, multilabel classification.

Bailey, C. (2016). Employee engagement: Do practitioners care what academics have to say — And should they? Human Resource Management Review, 40.

Bloom, D. E. (2016). The global demography of aging. In J. Piggott, A. Woodland (Eds.), Handbook of the Economics of Population Aging, Volume 1 (3-56). Elsevier.

Bocharov, A. V. (2011). Avtomatizatsiya obrabotki nestrukturirovannoy tekstovoy informatsii i perspektivy gumanitarnykh nauk v XXI veke [Automation of unstructured text information

Address: 20 Mysnitskaya Str., Moscow 101000, Russian Federation. E-mail: dariaglebova00@gmail.com

ORCID: 0000-0001-7275-0765

ECOPSY Consulting, Moscow, Russia

References

processing and prospects for the humanities in the 21st century]. Chelovek—tekst—epokha, 4, 15-37. Tomsk: Izd-vo TGU. (in Russian) Bol'shakova, Ye. I., Vorontsov, K. V., Yefremova, N. E., Klyshinskiy, E. S., Lukashevich, N. V., Sapin, A. S. (2017). Avtomaticheskaya obrabotka tekstovnayestestvennomyazyke i analizdannykh [Automatic text processing in natural language and data analysis]. Posobiye, Moskva: ID HSE. (in Russian) Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.

Busygina, N. P. (2021). Metodologiya kachestvennykh issledovaniy v psikhologii [Methodology of

qualitative research in psychology]. Moskva: INFRA-M. (in Russian) Carmona-Halty, M. A., Schaufeli, W. B., Salanova, M. (2019). The utrecht work engagement scale for students (UWES-9S): Factorial validity, reliability, and measurement invariance in a chilean sample of undergraduate university students. Frontiers in Psychology, 10, 1017. Caruana, R., Niculescu-Mizil, A. (2006). An empirical comparison of supervised learning algorithms.

Proc. 23rd International Conference on Machine Learning. Charte, F., Charte, D. (2015). Working with multilabel datasets in R: The mldr Package. The R Journal,

Vol. 7/2, December, 149-162. Charte, F., Rivera, A. J., del Jesus, M. J., Herrera, F. (2017). Dealing with difficult minority labels in

imbalanced mutilabel data sets. Neurocomputing. Chi, C. G., Gursoy, D. (2009). Employee satisfaction, customer satisfaction, and financial performance:

an empirical examination. International Journal of Hospitality Management, 28, 245-253. Christian, M. S., Garza, A. S., Slaughter, J. E. (2011). Work engagement: A quantitative review and test

of its relations with task and contextual performance. Personnel Psychology, 64(1), 89-136. Chulanova O. L., Pripasayeva, O. I. (2016). Vovlechennost' personala organizatsii: osnovnyye podkhody, bazovyye printsipy, praktika ispol'zovaniya v rabote s personalom [Involvement of the organization's personnel: basic approaches, basic principles, practice of use in working with personnel]. Vestnikyevraziyskoy nauki, 8, 2(33), 86. (in Russian) Coolican, H. (2002). Metody issledovaniya [Research methods]. In: M. Eysenk (ed.), Psikhologiya:

kompleksnyy podkhod (667-730). Minsk: Novoye znaniye. Crowston, K., Allen, E. E., Heckman, R. (2012). Using natural language processing technology for

qualitative data analysis. International Journal of Social Research Methodology, 15(6), 523-543. Daniels, J. R. (2016). An exploratory comparative case study of employee engagement in christian

higher education. Christian Higher Education, 15(3), 126-139. Demerouti, E., Bakker, A. B., Vardakou, I., Kantas, A. (2003). The convergent validity of two burnout instruments: A multitrait-multimethod analysis. European Journal of Psychological Assessment, 19, 12-23.

Dolzhenko, R. A. (2014). Udovletvorennost', loyal'nost', vovlechennost' personala: utochneniye i konkretizatsiya ponyatiy [Satisfaction, loyalty, staff involvement: clarification and specification of concepts]. VestnikAltayskogogosudarstvennogo agrarnogo universiteta, 9(119), 157-162. (in Russian) Federal'naya sluzhba gosudarstvennoy statistiki Rossiyskoy Federatsii (2021). Mediannaya zarabotnaya plata, rasschitannaya na osnove administrativnykh dannykh Pensionnogo fonda Rossiyskoy Federatsii [Median salary calculated based on administrative data from the Pension Fund of the Russian Federation]. URL: https://rosstat.gov.ru/storage/mediabank/F3TdgVKV/ Mediana_2019-2020.xlsx (in Russian) Frost, N. (2011). Qualitative research methods in psychology: combining core approaches. Maidenhead: McGraw-Hill Education.

Garg, R., Kiwelekar, A. W., Netak, L. D., Ghodake, A. (2021). i-Pulse: A NLP based novel approach for employee engagement in logistics organization. International Journal of Information Management Data Insights, 1(1), 100011.

Guest, D. (2014). Employee engagement: A sceptical analysis. Journal of Organizational Effectiveness: People and Performance, 1(2), 141-156.

Gupta, N., Sharma, V. (2016). Exploring employee engagement — A way to better business performance. Global Business Review, 17(3S) 1S-19S.

Harter, J. K., Schmidt, F. L., Hayes, T. L. (2002). Business-unit-level relationship between employee satisfaction, employee engagement, and business outcomes: A meta-analysis. Journal of Applied Psychology, 87(2), 268-279.

Harwood, T. G., Garry, T. (2003). An overview of content analysis. The Marketing Review, 3(4), 479-498.

Herzberg, F., Mausner, B., Snyderman, B. B. (1959). The Motivation to Work (2nd ed.). New York: John Wiley.

Hewitt, A. (2011). Trends in global employee engagement. Consulting, Talent & Organization. England.

Hewitt, A. (2013). 2013 trends in global employee engagement. Consulting, Performance, Reward and Talent. England.

Jakubik, M., Vakkuri, M. (2015). The E-experience: Exploring employee engagement. Haaga-Helia Publication Series R&D Reports, 36.

Kahn, W. A. (1990). Psychological conditions of personal engagement and disengagement at work. The Academy of Management Journal, 33(4), 692-724.

Klyuyeva, N. V. (2016). Kachestvennyye metody issledovaniya: uchebno-metodicheskoye posobiye [Qualitative research methods: educational and methodological manual]. Yaroslavl': YarGU. (in Russian)

Macey, W. H., Schneider, B. (2008). The meaning of employee engagement. Industrial and Organizational Psychology, 1(01), 3-30.

Maslach, C., Schaufeli, W. B., Leiter, M. P. (2001). Job burnout. Annual Review of Psychology, 52(1), 397-422.

May, D. R., Gilson, R. L., Harter, L. M. (2004). The psychological conditions of meaningfulness, safety and availability and the engagement of the human spirit at work. Journal of Occupational and Organizational Psychology, 77, 11-37.

Okulik, M. S. (2019). Vovlechennost' personala v deyatel'nost' organizatsii [Involvement of personnel in the activities of the organization]. Nauchnyye issledovaniya i sovremennoye obrazovaniye: materialy IX Mezhdunarodnoy nauchno-prakticheskoy Konferentsii, 27 dekabrya (160-162). Cheboksary: TSNS «Interaktiv plyus». (in Russian)

Onuchin, A. N. (2013). Izucheniye vovlecheniya [Exploring engagement]. The Human Resources Times, Zhurnal o lyudyakh v biznese, 24, Noyabr, 29-35. URL: https://www.ecopsy.ru/insights/ izuchenie-vovlecheniya/ (in Russian)

Probst, P., Au, Q., Casalicchio, G., Stachl, C., Bischl, B. (2017). Multilabel Classification with R Package mlr. The RJournal, 9/1, June. 352-369.

Pugh, S. D., Dietz, J. (2008). Employee engagement at the organizational level of analysis. Industrial and Organizational Psychology, 1(01), 44-47.

Rich, B. L., Lepine, J. A., Crawford, E. R. (2010). Job engagement: Antecedents and effects on job performance. Academy of Management Journal, 53(3), 617-635.

Rivolli, A., Carvalho, A. (2018). The utiml package: multi-label classification in R. The R Journal, 10/2, December, 24-37.

Robinson, D., Perryman, S., Hayday, S. (2004). The Drivers of Employee Engagement Report 408. Institute for Employment Studies, UK.

Robson, C., McCartan, K. (2011). Real world research: A Resource for Users of Social Research Methods in Applied Settings (533) (Fourth Edition).

Saad, L., Wigert, B. (2021). Remote work persisting and trending permanent. Gallup. URL: https:// news.gallup.com/poll/355907/remote-work-persisting-trending-permanent.aspx. (дата

обращения: 24.02.2022).

Saks, A. M. (2006). Antecedents and consequences of employee engagement. Journal of Managerial Psychology, 21(7), 600-619.

Sari, R. E., Min, S., Purwoko, H., Furinto, A., Tamara, D. (2020). Artificial Intelligence for a Better Employee Engagement. International Research Journal of Business Studies, XIII(02) (August — November),173-188.

Schaufeli, W. B. (2006). The measurement of work engagement with a short questionnaire: A cross-national study. Educational and Psychological Measurement, 66(4), 701-716.

Schaufeli, W. B., Salanova, M., Gonzalez-Roma, V., Bakker, A. B. (2002). The measurement of engagement and burnout: A confirmative analytic approach. Journal of Happiness Studies, 3, 71-92.

Schaufeli, W. B., Shimazu, A., Hakanen, J., Salanova, M., De Witte, H. (2017, October 17). An ultra-short measure for work engagement: The UWES-3 validation across five countries. European Journal of Psychological Assessment.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Sharma, S. K., Kaur, S. (2014). An introspection of employee engagement: A quantitative content analysis approach. IUPJournal of Organizational Behavior, Hyderabad, 13(2), 38-57.

Shrotryia, V. K., Dhanda, U. (2020). Development of employee engagement measure: experiences from best companies to work for in India. Measuring Business Excellence, 24(3), 319-343.

Shruthi, J., Suma, S. (2020). A prior case study of natural language processing on different domain. International Journal of Electrical and Computer Engineering (IJECE), 10(5), 4928-4936.

Suomi, K., Saraniemi, S., Vahatalo, M., Kallio, T. J., Tevameri, T. (2019). Employee engagement and internal branding: Two sides of the same coin? Corporate Reputation Review, 24(1), 48-63.

The Gallup Organization (1992-1999). Gallup Workplace Audit (Copyright Registration Certificate TX-5 080 066). Washington, DC: U.S. Copyright Office.

Tsareva, N. A., Boldyhanova, V. A. (2020). Educating the Concepts of Retention Factor of a Company with the Case of Employee Engagement Level Increase. Propos. represent, 8(3), e515.

Wellins, R. S., Bernthal, P., Phelps, M. (2005). Employee engagement: The key to realizing competitive advantage. Development Dimensions International, 1-30.

Yu, C. H., Jannasch-Pennell, A., DiGangi, S. (2011). Compatibility between text mining and qualitative research in the perspectives of grounded theory, content analysis, and reliability. The Qualitative Report, 16(3), 730-744.

Zhang, M.-L., Li, Y.-K., Liu, X.-Y., Geng, X. (2017). Binary relevance for multi-label learning: an overview. Frontiers of Computer Science.

Zhang, T. C., Ronzoni, G., Medeiros, M., Bufquin, D. (2022). A qualitative assessment of hotel employee engagement in anti-human-trafficking initiatives. International Journal of Hospitality Management, 102.

Received 04.08.2022

i Надоели баннеры? Вы всегда можете отключить рекламу.