Научная статья на тему 'ЭМБЕДДИНГ КАК МЕТОД ИССЛЕДОВАНИЯ В ЮРИДИЧЕСКОЙ ПСИХОЛОГИИМ'

ЭМБЕДДИНГ КАК МЕТОД ИССЛЕДОВАНИЯ В ЮРИДИЧЕСКОЙ ПСИХОЛОГИИМ Текст научной статьи по специальности «Психологические науки»

CC BY
29
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
эмбеддинг / психологические исследования / метод / искусственный интеллект / искусственная нейронная сеть / embedding / psychological research / method / artificial intelligence / artificial neural network

Аннотация научной статьи по психологическим наукам, автор научной работы — Марьин Михаил Иванович, Курдин Денис Алексеевич

В статье рассматривается проблема применения психологами психодиагностических методов. Приводятся данные о возможности цифровизации методов психодиагностики и применения искусственного интеллекта. В качестве инновационной методики используется эмбеддингметод обработки естественного языка, в котором слова представляются в виде числовых векторов. Описываются результаты пилотажного исследования с целью проверки возможности эмбеддинга для применения в пенитенциарной психологии. Основная гипотеза исследования была представлена в виде тезиса о целесообразности использования эмбеддинга в качестве метода в психологических исследованиях, отвечающего требованиям методов изучения психических явлений, которые должны быть воспроизводимы, алгоритмичны и адекватны предмету науки психологии, а также должны раскрывать особенности исследуемого психологического процесса.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по психологическим наукам , автор научной работы — Марьин Михаил Иванович, Курдин Денис Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EMBEDDING AS A RESEARCH METHOD IN LEGAL PSYCHOLOGY

The article deals with the problem of the use of psychodiagnostic methods by psychologists. The data on the possibility of digitalization of psychodiagnostic methods and the use of artificial intelligence are presented. Embedding, a natural language processing method in which words are represented as numeric vectors, is used as an innovative technique. The results of a pilot study are described in order to test the possibility of embedding for use in penitentiary psychology. The main hypothesis of the study was presented in the form of a thesis on the expediency of using embedding as a method in psychological research that meets the requirements of methods for studying mental phenomena, which must be reproducible, algorithmic and adequate to the subject of the science of psychology, as well as reveal the features of the studied psychological process.

Текст научной работы на тему «ЭМБЕДДИНГ КАК МЕТОД ИССЛЕДОВАНИЯ В ЮРИДИЧЕСКОЙ ПСИХОЛОГИИМ»

118 ПСИХОЛОГИЧЕСКАЯ НАУКА И ПРАКТИКА

Научная статья УДК 159.9:343.8

ЭМБЕДДИНГ КАК МЕТОД ИССЛЕДОВАНИЯ В ЮРИДИЧЕСКОЙ ПСИХОЛОГИИМ

Михаил Иванович Марьин1, Денис Алексеевич Курдин2

1 Московский государственный психолого-педагогический университет, г. Москва, Россия, marin [email protected], https://orcid.org/0000-0003-1142-8857

2 Академия ФСИН России, г. Рязань, Россия, [email protected], https://orcid.org/0000-0002-9292-7342

Аннотация. В статье рассматривается проблема применения психологами психодиагностических методов. Приводятся данные о возможности цифровизации методов психодиагностики и применения искусственного интеллекта. В качестве инновационной методики используется эмбеддинг - метод обработки естественного языка, в котором слова представляются в виде числовых векторов. Описываются результаты пилотажного исследования с целью проверки возможности эмбеддинга для применения в пенитенциарной психологии. Основная гипотеза исследования была представлена в виде тезиса о целесообразности использования эмбеддинга в качестве метода в психологических исследованиях, отвечающего требованиям методов изучения психических явлений, которые должны быть воспроизводимы, алгоритмичны и адекватны предмету науки психологии, а также должны раскрывать особенности исследуемого психологического процесса.

Ключевые слова: эмбеддинг, психологические исследования, метод, искусственный интеллект, искусственная нейронная сеть

Для цитирования

Марьин М. И., Курдин Д. А. Эмбеддинг как метод исследования в юридической психологии // Векторы психолого-педагогических исследований. 2023. № 1(01). С. 118-125.

© Марьин М. И., Курдин Д. А., 2023

/й)®®@ Статья лицензируется в соответствии с лицензией Creative Commons by nc sa Attribution-NonCommercial-ShareAlike 4.0

ПСИХОЛОГИЧЕСКАЯ НАУКА И ПРАКТИКА 119

Original article

EMBEDDING AS A RESEARCH METHOD IN LEGAL PSYCHOLOGY

Mihail Ivanovich Mar'in1, Denis Alekseevich Kurdin2

1 Moscow State Psychological and Pedagogical University, Moscow, Russia, marin misha@ mail.ru, https://orcid.org/0000-0003-1142-8857

2 Academy of the FPS of Russia, Ryazan, Russia, [email protected], https://orcid.org/0000-0002-9292-7342

Abstract. The article deals with the problem of the use of psychodiagnostic methods by psychologists. The data on the possibility of digitalization of psychodiagnostic methods and the use of artificial intelligence are presented. Embedding, a natural language processing method in which words are represented as numeric vectors, is used as an innovative technique. The results of a pilot study are described in order to test the possibility of embedding for use in penitentiary psychology. The main hypothesis of the study was presented in the form of a thesis on the expediency of using embedding as a method in psychological research that meets the requirements of methods for studying mental phenomena, which must be reproducible, algorithmic and adequate to the subject of the science of psychology, as well as reveal the features of the studied psychological process.

Keywords: embedding, psychological research, method, artificial intelligence, artificial neural network

For citation

Mar'in, M. I. & Kurdin, D. A. 2023, 'Embedding as a research method in legal psychology', Vectors of psychological and pedagogical research, iss. 1(01). pp. 118-125.

Введение

Цифровая обработка данных позволяет открывать новые связи, которые обычные методы не в состоянии уловить. Слова «интеллектуальный анализ данных» (data mining), «большие данные» (big data), «нейронные сети» уже не принадлежат только математикам и программистам, а постепенно входят в психологический дискурс. Основанные на таких понятиях методы становятся частью психологических исследований в России и за рубежом. Это объективно назревшая ситуация, обусловленная накоплением больших объемов психологической информации и несовершенством традиционных методов исследования (тестирование, экспертная оценка и др.).

Следует обратить внимание на некорректное применение психологами психодиагностических методов, неактуальные стимулы в методиках. Данный тезис также подтверждается рядом ученных. Например, А. С. Эльзессер, Т. В Капустина пишут: «Объективные причины широкого распространения ненадежных методик: использование устаревших методик; доступность методик; использование методик специалистами непсихологических направлений; механическое использование интерпретатора методики специалистами-психологами - все это снижает диагностические возможности психологических методик» [4].

120 ПСИХОЛОГИЧЕСКАЯ НАУКА И ПРАКТИКА

Перечисленное подтверждает необходимость использования достижений цифровой реальности для развития методов психодиагностики. В силу этого обратимся к методам, основанным на искусственном интеллекте. Согласно приказу Министерства экономического развития Российской Федерации от 29 июня 2021 г. № 392 «Об утверждении критериев определения принадлежности проектов к проектам в сфере искусственного интеллекта» к технологиям искусственного интеллекта относятся технологии, основанные на использовании искусственного интеллекта, включая: а) компьютерное зрение; б) обработку естественного языка; в) распознавание и синтез речи; г) интеллектуальную поддержку принятия решений; д) перспективные методы искусственного интеллекта.

Одним из распространенных методов зачаточного искусственного интеллекта является искусственная нейронная сеть (ИНС). Это метод в искусственном интеллекте, математическая модель, алгоритм, а также программное воплощение, построенные по принципу организации и функционирования биологических нейронных сетей. ИНС способна к обучению и самоорганизации. Примеры использования ИНС довольно широки: от обучения вождению автомобилей до применения в голосовых помощниках. Описать более подробную систему построения и функционирование рассматриваемого математического алгоритма не позволяют рамки настоящей статьи, однако следует учесть, что данный метод обладает большой перспективой, а свойства ИНС при распознавании связей могут использоваться в психодиагностике [3].

Итак, как указывалось ранее, к технологиям искусственного интеллекта относится обработка естественного языка. Ее основным инструментом является так называемый эмбеддинг - метод, основанный на ИНС, результатом работы которого является циф-ровизация смысла некоего сообщения. Эмбеддинг - это представление слова в виде вектора, оцифровывание его смысла, который можно представить графически.

Единицей смысла в конкретном предложении выступает слово в составе синтаксемы. Смысл всего высказывания передается с помощью сложных конструкций, образуемых отдельными синтаксемами. Смысл текста, с точки зрения описываемого подхода, восстанавливается путем выделения в нем отдельных синтаксем, установления их значений и определения ролей для таких предикатов с помощью векторных представлений слов (эмбеддингов) [1].

В русскоязычной литературе эмбеддингами обычно называют числовые векторы, которые получены из слов или других языковых средств. Числовым вектором размерности k называют список из чисел k, в котором порядок чисел строго определен. Например, трехмерным вектором можно считать (2.3, 1.0, 7.35), а (1, 0, 0, 2, 0.1, 0, 0, 7.9) -восьмимерным числовым вектором.

Эмбеддинг - метод обработки естественного языка, в котором слова представляются в виде числовых векторов. Он представляет собой матрицу n на m чисел. Чисел в этой матрице может быть от нескольких сотен до нескольких тысяч, все зависит от модели для эмбеддинга.

Ранее анализ слова компьютером был невозможен без его распознавания в буквенном выражении, что предполагало подсчет знаков, пробелов и математический анализ этих данных. Однако в таком случае опускается смысл полученных данных, он теряться при их обработке. Например, смысл слов «петух», «курица», «цыпленок» человеку понятен и легко им объединяется смысловую группу. Однако начертание букв этих слов различно, например, омонимы создают определенную проблему для распознавания машиной (сушка как процесс и как кондитерское изделие). Данная проблема не решается простым кодированием букв, слов или словосочетаний в цифры, машина будет интерпретировать их одинаково.

ПСИХОЛОГИЧЕСКАЯ НАУКА И ПРАКТИКА 121

Визуально объяснить разницу и продемонстрировать эмбеддинг возможно следующим образом. Если учесть, что эмбеддинг (от англ. embedding) - вложение, то возможно продемонстрировать данное вложение, то есть оцифрованный смысл слова. Например, слово «печь» обладает следующим вектором (рис. 1). В результате программного преобразования возможно спроецировать данные векторы на двумерную сетку координат (рис. 2).

У слов с одинаковым написанием могут быть разные смыслы. На рисунке 2 изображен пример проецирования смысла слова «печь» в разных контекстах: а) «Я буду печь пирожки»; б) «Я буду топить печь пирожками». Координаты слова «печь» находятся на противоположных полюсах. Другие слова, например, местоимения «Я» и глагол «буду», примерно в тех же областях, хотя последние не совпадают, поскольку из-за контекста также могут менять часть смысла. Слова «пирожки» и «пирожками» имеют разные, но относительно схожие смыслы, поэтому на координатной сетке они располагаются недалеко друг от друга.

[-0.01136075 •0.23160739 в. 9454009 -0.0325595 -e.aessiMi -0.91945336

а.8066865 -0.20493323 6.56193364 -6.55052423 -6.5562415 -0.3427965

-0.1336286! 0.10840102 0.34036277 6.5869993 6.32003762 0.6519262

0.44237153 0.13461974 -6,02100517 -6.3341292 -6.2556192 -0.53779936

-0.24333915 0.13810544 -0.81313336 6.55729985 6.6112134 0.21635778

е,2иезт 0.8979658 0,42833978 6.43283092 -6.98938773 0.3434822

-В.29517155 0.377868 0.0295661В -6.10662676 -6.46310398 0.5064578

-0.2Ш1643 0.29672262 -0.6838596 0.67649764 -9.19365735 0.83977824

-0.15263254 0.16496597 6.13969463 -6.24178664 -6.35380316 -0.02162013

-0.2216356 0.15699924 -0.20823078 -6.13563062 6.1496006 -0.03847416

-0.20554513 -0.646308 -6,627595 6.49312344 -6.96138189 0.1752066

-0.61280426 0.02406667 0.6251611 6.04228494 -6.24798371 -0.5171094

■0.1619439 ■0,61144758 -6.4738475 -6.3875337 6.93941553 -0.21880098

0.13196764 0.22791919 -0.24338093 6.052265 6.81526532 0.52280945

0.11467616 ъ.шкт ■1.0485817 -е.еаэемг 0.31311217 -0.03598732

-0.37043913 -0.34663152 -0.7145737 -6.16016213 -6.02910335 6.14315982

-0.5380323 0.10635779 0.5868868 0.11425438 6.17850073 -0.17582823

-0.32193656 0.35593433 -0.197837SS -6.23333905 -6.05137948 0.27994165

-0.22663892 0.9018936 0.09616869 6.29477313 6.21424369 -0.98133722

-0.27219442 0.52154978 -0,14688929 6.14238608 -6.74994436 0.99587999

0.54171163 0.13279387 -0.42706094 6.21083619 6.96117271 0.14243321

0.36555863 -0.45854267 -0.12591943 0.54371184 6.2242603 -0.17780629

-0.1515071 -0.67810455 -0.19518237 -6.17226351 6.5570392 -0.3996402

-0.15962681 0.15171698 0.36455926 6.26764816 -6.35490745 -0.62583095

-0.39296464 -0.3343748 0.3258819 -6.44798023 -6.97022218 0.5634997

-0.28445444 -0.Ш37892 -0.5113458 6.13646803 6.02058944 0.34832853

0.2502752 -0,52534944 -0.32781493 -1.0229346 6,26475555 0.49043855

-0.13620429 0.22862232 0.80917686 6.2318206 6.15149085 -0.09536232

■ 0.31469892 0.22943394 0.19578943 -0.23845348 0.20397569 -0.8505013

-0.66463229 0.65659954 0.4919643 6.57488394 6.6192224 0.25394958

0.26346436 -0.8641609 0.04372343 -6.02508783 0.59688526 -0.7244796

0.899172 -0.15629067 -0.45846405 6.05343081 -6.27381682 0.19161755

0.56260127 0.22581875 -0.25244972 -6.18729049 -6.5265474 -0.790254

-0.69349646 -0,69762313 -6,01423997 6.21044013 1.9379835 -0.93160438

0.33660342 0.11151879 0.09306628 -6.50090027 6.36314496 -0.08227072

■0.25314903 0.54779488 0.14590538 0.2531973 -9.47383895 -0.2539363

0.23289436 0.60794245 0.31617126 6.09212031 -6.08304523 -0.21115129

0.32714072 •0.6576086 -0.00309606 -6.11629348 6.33236754 -0.30142692

0.24236953 -0.17492138 0.79579558 -6.24926914 6.4617728 0.3672536

-0.30530575 0.67718785 -0.6393662 6.26881984 6.5614346 -0.37067947

■0.60660364 0.64352674 0.23551548 6.19042581 6.3371458 -0.311449

-0.42382553 0.73600256 -0.36386776 -6.18039742 6.5939648 -0.38900575

■0.20447552 0.66622235 ■0.32475306 0.0280698 6.6639673 0.21896818

0.3661781 -0.10320444 -0.28146347 6.37961113 6.1944493 -0.01533087

-0.2297043 0.68951918 0.10416844 -6.3506819 6.36151022 0.35748914

-0,17569111 -0.4994412 0.5420365 6.41316396 -6.30343937 0.7592813

0.63473383 -0.20763385 0.02387033 -6.27994165 6.55996534 0.5368753

0.16584867 0,27482998 0.99505603 -6+40929642 -6.25490984 0.45280957

0.22910671 0.22870362 -0.19604152 6.01533751 6.25653428 0.17929718

0-6828513 ■0.5205298 0.08492059 -0.09145571 9.93899252 ■0.23337269]

Рис. 1. Вектор слова «печь» в трехсотмерном пространстве

Рис. 2. Графическое представление эмбеддинга слова «печь»

122 ПСИХОЛОГИЧЕСКАЯ НАУКА И ПРАКТИКА

Результаты исследования

Мы провели пилотажное исследование с целью проверки возможностей эмбеддинга для применения в пенитенциарной психологии. Основная гипотеза была представлена в виде тезиса о целесообразности использования эмбеддинга в качестве метода в психологических исследованиях, который должен отвечать требованиям методов исследования психических явлений, то есть быть воспроизводимым, алгоритмичным и адекватным предмету науки психологии, а также раскрывать особенности исследуемого психологического процесса.

В качестве образцов текста взяты личные сообщения на сайте https://pikabu.ru. Сайт посещают 534 тыс. чел. в день. Сайт предоставляет возможность в том числе описывать различные ситуации из жизни и делить их по разной тематике. Для анализа выбраны следующие разделы сайта: «Истории из жизни» (33 352 поста, 71 752 подписчика); «Офисные будни» (4611 постов, 15 745 подписчиков); «Лига разбитых сердец» (3116 постов, 12 590 подписчиков). 10 самых популярных постов из этих разделов переведены в текстовой файл и программно проанализированы. Далее результаты были перенесены на сетки координат, представленные на рисунках 3, 4 и 5.

Анализируя представленные рисунки можно заключить, что истории из жизни, которыми люди делились на сайте, по смыслу, то есть графическому представлению эмбеддинга, отличаются от историй, рассказанных в разделах «Офисные будни» и «Лига разбитых сердец». Можно также отметить, что переживания, которыми люди делились в категории «Офисные будни», схожи с переживаниями из категории «Лига разбитых сердец». Следовательно, работа в офисе, по мнению написавших истории людей, больше связанна с межличностными половыми переживаниями, чем с повседневной жизнью. Кроме того, описание так называемых офисных будней скуднее по использованию слов, чем истории в двух других группах.

Выводы

По результатам проведенного пилотажного исследования можно заключить следующее: 1) графическое представление эмбеддинга в качестве метода психодиагностического обследования вполне возможно; 2) оно позволяет наглядно изобразить смысл используемых текстовых сообщений в различных исследуемых группах.

Где находятся точки соприкосновения использования данного метода в юридической психологии?

1) ситуации, связанные с нежеланием испытуемых участвовать в психодиагностическом обследовании (осужденные исправительных учреждений отрицательной направленности). Можно связать графическое представление эмбеддинга с психологическими характеристиками, на этой основе использовать его в качестве вспомогательного метода, тем более что примеры похожих психологических исследований уже существуют (А. К. Ковалев, Ю. М. Кузнецова, М. Ю. Пенкина). «С помощью разработанного в ФИЦ ИУ РАН инструмента автоматического анализа текста и методов машинного обучения были получены первые результаты в задаче выявления текстовых параметров, специфичных для людей с определенными психологическими особенностями. Инструмент корпусных лингвостатистических исследований, опирающийся на использование реляционно-ситуационного анализа, психолингвистических показателей и словарей, охватывающих лексику эмоциональной и рациональной оценки, позволили получить значения для 177 текстовых признаков эссе, написанных 486 испытуемыми» [2];

2) ситуации, связанные с изучением социально-психологического климата различных групп. По текстовым сообщениям членов групп, переведенным в графическое пред-

ПСИХОЛОГИЧЕСКАЯ НАУКА И ПРАКТИКА 123

Рис. 3. Эмбеддинг постов из группы «Истории из жизни»

Рис. 4. Эмбеддинг постов из группы «Офисные будни»

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 5. Эмбеддинг постов из группы «Лига разбитых сердец»

124 ПСИХОЛОГИЧЕСКАЯ НАУКА И ПРАКТИКА

ставления смыслов, можно судить об основных тенденциях и интересах данной группы, что частично продемонстрировано в пилотажном исследовании, описанном в статье.

Список источников

1. Ениколопов С. Н., Кузнецова Ю. М., Осипов Г С. Метод реляционно-ситуационного анализа текста в психологических исследованиях // Психология. Журнал Высшей школы экономики. 2021. Т. 18, № 4. С. 748-769.

2. Ковалев А. К., Кузнецова Ю. М., Пенкина М. Ю. Возможности автоматического анализа текста в задаче определения психологических особенностей автора // Экспериментальная психология. 2020. Т. 13, № 1. С. 149-158.

3. Сорокоумова С. Н., Курдин Д. А. Использование data mining в изучении динамики личностного роста курсантов ведомственного вуза Федеральной службы исполнения наказаний // Человек: преступление и наказание. 2022. Т. 30, № 1. С. 86-95.

4. Эльзессер А. С., Капустина Т. В. Проблема диагностических возможностей психологических методик: современное состояние // Психолог. 2019. № 3. DOI: 10.25136/24098701.2019.3.30013.

References

1. Enikolopov, S. N., Kuznecova, Ju. M. & Osipov G. S. 2021, 'The method of relational situational analysis of the text in psychological research', Psychology, Journal of the Higher School of Economics, vol. 18, iss. 4, pp. 748-769.

2. Kovalev, A. K., Kuznecova, Ju. M. & Penkina, M. Ju. 2020, 'The possibilities of automatic text analysis in the task of determining the psychological characteristics of the author', Experimental psychology, vol. 13, iss. 1, pp. 149-158.

3. Sorokoumova, S. N. & Kurdin, D. A. 2022, 'The use of data mining in the study of the dynamics of personal growth of cadets of the departmental University of the Federal Penitentiary Service', Man: crime and Punishment, vol. 30, iss. 1, pp. 86-95.

4. Jel'zesser, A. S. & Kapustina, T. V. 2019, 'The problem of diagnostic capabilities of psychological techniques: the current state', Psychologist, iss. 3. DOI: 10.25136/24098701.2019.3.30013.

Информация об авторах

М. И. Марьин - доктор психологических наук, профессор, профессор кафедры научных основ экстремальной психологии;

Д. А. Курдин - кандидат психологических наук, старший преподаватель кафедры общей и педагогической психологии.

Information about the authors

M. I. Mar'in - Doctor of Psychological Sciences, Professor, Professor of the Department of Scientific Foundations of Extreme Psychology;

D. A. Kurdin - Candidate of Psychological Sciences, Senior Lecturer at the Department of General and Pedagogical Psychology.

Примечание

Содержание статьи соответствует научной специальности 5.3.9. Юридическая психология и психология безопасности (психологические науки).

ПСИХОЛОГИЧЕСКАЯ НАУКА И ПРАКТИКА 125

Статья поступила в редакцию 23.08.2023; одобрена после рецензирования 17.10.2023; принята к публикации 01.12.2023.

The article was submitted 23.08.2023; approved after reviewing 17.10.2023; accepted for publication 01.12.2023.

i Надоели баннеры? Вы всегда можете отключить рекламу.