Научная статья на тему 'МЕТОДИКА ВЫБОРА КОНФИГУРИРУЕМЫХ ГИПЕРПАРАМЕТРОВ ИНТЕЛЛЕКТУАЛЬНОГО КЛАССИФИКАТОРА НЕСТРУКТУРИРУЕМЫХ ТЕКСТОВЫХ ДАННЫХ ПО СТЕПЕНИ КОНФИДЕНЦИАЛЬНОСТИ НА ОСНОВЕ МЕТОДА АНАЛИЗА ИЕРАРХИЙ'

МЕТОДИКА ВЫБОРА КОНФИГУРИРУЕМЫХ ГИПЕРПАРАМЕТРОВ ИНТЕЛЛЕКТУАЛЬНОГО КЛАССИФИКАТОРА НЕСТРУКТУРИРУЕМЫХ ТЕКСТОВЫХ ДАННЫХ ПО СТЕПЕНИ КОНФИДЕНЦИАЛЬНОСТИ НА ОСНОВЕ МЕТОДА АНАЛИЗА ИЕРАРХИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
31
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
DLP-СИСТЕМА / НЕСТРУКТУРИРУЕМЫЕ ТЕКСТОВЫЕ ДАННЫЕ / ИНТЕЛЛЕКТУАЛЬНЫЙ КЛАССИФИКАТОР / ГИПЕРПАРАМЕТРЫ / МЕТОД АНАЛИЗА ИЕРАРХИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шадский В.В.

Приводится структурная модель интеллектуального ансамблевого классификатора неструктурируемых текстовых данных по степени конфиденциальности. Выделена наибольшим образом влияющая на эффективность классификации нейросетевая мета-модель. Произведена декомпозиция многокритериальной задачи конфигурирования интеллектуального классификатора на задачу выбора конфигурируемых гиперпараметров мета-модели и задачу подбора их значений. Осуществлено представление многокритериальной задачи выбора подлежащих конфигурированию гиперпараметров в виде иерархии, включающей в себя цель, критерии и альтернативы. Разработана методика выбора конфигурируемых гиперпараметров интеллектуального классификатора неструктурируемых текстовых данных по степени конфиденциальности на основе метода анализа иерархий.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шадский В.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE METHOD OF SELECTING CONFIGURABLE HYPERPARAMETERS OF THE INTELLIGENT CLASSIFIER OF UNSTRUCTURED TEXT DATA ACCORDING TO THE DEGREE OF CONFIDENTIALITY BASED ON THE HIERARCHY ANALYSIS METHOD

A structural model of an intelligent classifier of unstructured textual data according to the degree of confidentiality is presented, which is a two-level cascading ensemble of classifier models. The meta-model of a fully connected neural network architecture, which has the greatest impact on the classification efficiency, is highlighted. The multi-criteria task of configuring the intelligent classifier is decomposed into the task of selecting configurable hyperparameters of the meta-model and the task of selecting their values. Taking into account the selected hyperparameters of the neural network meta-model, the multi-criteria task of selecting hyperparameters to be configured is presented in the form of a hierarchy that includes the goal, criteria and alternatives. A method for selecting configurable hyperparameters of an intelligent classifier of unstructured text data by the degree of confidentiality based on the hierarchy analysis method has been developed.

Текст научной работы на тему «МЕТОДИКА ВЫБОРА КОНФИГУРИРУЕМЫХ ГИПЕРПАРАМЕТРОВ ИНТЕЛЛЕКТУАЛЬНОГО КЛАССИФИКАТОРА НЕСТРУКТУРИРУЕМЫХ ТЕКСТОВЫХ ДАННЫХ ПО СТЕПЕНИ КОНФИДЕНЦИАЛЬНОСТИ НА ОСНОВЕ МЕТОДА АНАЛИЗА ИЕРАРХИЙ»

М Инженерный вестник Дона, №4 (2023) ivdon.ru/ru/magazine/arcliive/n4y2023/8357

Методика выбора конфигурируемых гиперпараметров интеллектуального классификатора неструктурируемых текстовых данных по степени конфиденциальности на основе метода анализа

иерархий

В.В. Шадский Краснодарское высшее военное училище

Аннотация: В данной статье приведена структурная модель интеллектуального классификатора неструктурируемых текстовых данных по степени конфиденциальности, представляющего собой двухуровневый каскадный ансамбль моделей-классификаторов. Выделена наибольшим образом влияющая на эффективность классификации мета-модель полносвязной нейросетевой архитектуры. Произведена декомпозиция многокритериальной задачи конфигурирования интеллектуального классификатора на задачу выбора конфигурируемых гиперпараметров мета-модели и задачу подбора их значений. С учетом выделенных гиперпараметров нейросетевой мета-модели, многокритериальная задача выбора подлежащих конфигурированию гиперпараметров представлена в виде иерархии, включающей в себя цель, критерии и альтернативы. Разработана методика выбора конфигурируемых гиперпараметров интеллектуального классификатора неструктурируемых текстовых данных по степени конфиденциальности на основе метода анализа иерархий.

Ключевые слова: БЬР-система, неструктурируемые текстовые данные, интеллектуальный классификатор, гиперпараметры, метод анализа иерархий.

Стремительный рост количества утечек защищаемой информации [1,2] наряду с результатами проведенных исследований [3-5] подчеркивает необходимость внедрения в реализуемый ЭЬР-системами процесс анализа контента интеллектуальных методов. Способствуя расширению перечня детектируемых в составе анализируемых электронных документов конфиденциальных классификационных признаков, данные методы, в конечном итоге, позволяют повысить защищенность обрабатываемой информации.

Ввиду того, что заключительным этапом процесса контентного анализа является решение задачи бинарной классификации электронных документов по степени конфиденциальности, в целях повышения ее эффективности

разрабатываются интеллектуальные модели классификации, основанные на использовании алгоритмов машинного обучения.

В соответствии с [6-8], для решения задач бинарной классификации извлеченных из анализируемых электронных документов неструктурируемых текстовых данных по степени конфиденциальности разработана модель интеллектуального классификатора, состав и структура которой представлены на рис. 1.

1

I________]

Рис. 1. - Структурная модель интеллектуального классификатора неструктурируемых текстовых данных по степени конфиденциальности

Данная модель представляет собой двухуровневый каскадный ансамбль. Первый уровень каскада (бл. 1 на рис.1) представлен стекинговым ансамблем моделей слабых учеников, в качестве которых выступают

классические модели на основе метода опорных векторов LinearSVC (бл. 1.1), параметрическая модель SGD (бл. 1.2), модель последовательного обучения Passive Aggressive (бл. 1.3), метрическая модель kNN (бл. 1.4), а также мета-модель полносвязной нейросетевой архитектуры FFNN (бл. 1.5). В качестве модели-классификатора второго уровня каскада используется предобученная базовая модель ruBERT-base (бл. 3).

Стоит отметить, что значительная роль в повышении эффективности интеллектуального классификатора отводится наилучшим образом подобранным значениям гиперпараметров, входящих в состав ансамбля моделей-классификаторов. Ввиду относительной немногочисленности данных гиперпараметров моделей слабых учеников LinearSVC, SGD, Passive Aggressive и kNN, а также детерминированности архитектуры модели-классификатора ruBERT-base, наибольшее влияние на эффективность классификации оказывает мета-модель FFNN [9]. Следовательно, процесс конфигурирования интеллектуального классификатора неструктурируемых текстовых данных по степени конфиденциальности сводится к выбору наибольшим образом влияющих на эффективность классификации гиперпараметров мета-модели FFNN и последующему подбору их наилучших значений применительно к конкретной решаемой задачи классификации. В соответствии с работами [10,11], а также исследованиями отечественных ученых [12,13], данный процесс не имеет строгой методологической основы, носит интуитивный характер и базируется на эмпирическом опыте лица, осуществляющего конфигурирование. Кроме того, ввиду многочисленного количества гиперпараметров мета-модели FFNN, данный процесс является слабоинтерпретируемым.

С учетом вышеизложенного возникает необходимость в разработке методики выбора подлежащих конфигурированию гиперпараметров интеллектуального классификатора неструктурируемых текстовых данных

по степени конфиденциальности. После выделения основных гиперпараметров мета-модели БЕ^Ы [14], многокритериальная задача выбора наибольшим образом влияющих на эффективность интеллектуального классификатора и подлежащих конфигурированию гиперпараметров представлена в виде иерархии, изображенной на рис.2.

Цель

Критерии

Альтернативы 1 уровня

Альтернативы 2 уровня

Рис. 2. - Иерархическая декомпозиция многокритериальной задачи выбора конфигурируемых гиперпараметров интеллектуального классификатора

Исходя из рис.2, гиперпараметры мета-модели FFNN представлены в виде двухуровневой иерархии альтернатив, первый уровень которой включает в себя группы гиперпараметров, а второй - соответствующие данным группам гиперпараметры.

Методика выбора конфигурируемых гиперпараметров. Методика основывается на использовании предложенного американским ученым

М Инженерный вестник Дона, №4 (2023) ivdon.ru/ru/magazine/arcliive/n4y2023/8357

Томасом Саати метода анализа иерархий [15], являющегося математическим инструментом системного подхода к сложным проблемам принятия решений. Данная методика состоит из двух этапов: подготовительной части и выбора подлежащих конфигурированию гиперпараметров.

I. Подготовительная часть.

а) определение значимости критериев.

Составляется квадратная матрица парных сравнений критериев Сг и вычисляется ее собственный вектор (вектор-столбец) ХСг, значения элементов которого укажут на приоритет того или иного критерия.

б) определение значимости групп гиперпараметров. Составляются матрицы парных сравнений альтернатив первого уровня

иерархии, представляющих собой группы гиперпараметров, по каждому отдельному критерию А1Кез, А1Кег.

Для каждой из них вычисляются собственные векторы-столбцы, определяющие приоритет альтернатив первого уровня иерархии по каждому из критериев:

(хАШез1 хАШез2 хАШез3

(хАШег1\ хАШег2 ). хАШег3'

в) определение значимости гиперпараметров.

составляются матрицы парных сравнений альтернатив второго уровня иерархии, представляющих собой гиперпараметры соответствующих вышеприведенных групп, по каждому отдельному критерию:

- для группы «Архитектурные гиперпараметры» АгКез, АгКег;

- для группы «Гиперпараметры обучения и оптимизации» ЬКе5, ЬКег.

и

Для каждой из них вычисляются собственные векторы-столбцы, определяющие приоритет альтернатив второго уровня иерархии:

у _ (ХАгКез1\

*АгКез — (xArRes2),

X _ ^ХАгКег1\

АгЯег \ХАгЯег2),

(х1Яез1

хШез2

хЪЯез3>

(хЬЯег1

хЬЯег2

хЬЯег3/

II. Оценка гиперпараметров.

Ввиду самостоятельной оценки групп гиперпараметров осуществляется взвешивание полученных векторов приоритетов ХАгКез ХАгКег ХЬКе5 ХЬКег значениями приоритетов соответствующей группы по каждому из критериев:

у, _ (хАгКез1\

VАгЯез — хАШез1 I „ Ь

у, _ (хАгЯег1\

^АгЯег — хАШег1 I -у, „ „ Ь

(хЬКез1\ хШез2 ), хЬЯез3/

Так как группа «Гиперпараметры регуляризации» представлена одним единственным гиперпараметром, значение приоритета данного гиперпараметра будет определяться значением приоритета группы по каждому их критериев хДШе53, хАШег3.

Получение общих оценок гиперпараметров осуществляется посредством перемножения матриц, составленных из взвешенных вектор-столбцов приоритетов гиперпараметров по каждому отдельному критерию, на вектор-столбец приоритетов критериев:

Значения элементов полученных вектор-столбцов укажут на приоритеты гиперпараметров данных групп. В свою очередь, получение общего значения приоритета гиперпараметра «Значение коэффициента Ь2-регуляризации» осуществляется посредством перемножения вектор-столбца, составленного из соответствующих группе «Гиперпараметры регуляризации» значений приоритетов по каждому из критериев на транспонированный вектор-столбец приоритетов критериев:

Таким образом, полученные количественные оценки приоритетов укажут степень влияния того или иного гиперпараметра мета-модели FFNN на эффективность интеллектуального классификатора, позволяя тем самым осуществить последующий подбор их значений под условия конкретной решаемой задачи классификации неструктурируемых текстовых данных по степени конфиденциальности.

Литература

1. Отчёт об утечках данных за 1 полугодие 2022 года // InfoWatch URL: infowatch.ru/sites/default/files/analytics/files/otchyot-ob-utechkakh-dannykh-za-1 -polugodie-2022-goda_1.pdf (дата обращения: 04.04.2023).

2. 2021 Data Breach Investigations Report // Verizon: [сайт]. - URL: verizon.com/business/resources/reports/2021-data-breach-investigations-report.pdf (дата обращения: 04.04.2023).

3. Машечкин И.В., Петровский М.И., Царев Д.В. Применение методов интеллектуального анализа текстовой информации для предотвращения утечек данных // Программирование. -2015. - № 1. - С. 32-43.

4. Дятлов А.В., Коннова Н.С. Применение методов семантического анализа текста в системах предотвращения утечек информации // Безопасные информационные технологии. - 2017. - № 1. - С. 187-192.

5. Hart Michael, Manadhata Pratyusa, Johnson Rob. Text Classification for Data Loss Prevention // HP Laboratories. - 2011. - № 3. - С. 1-21.

6. Шадский В.В., Сизоненко А.Б., Козленко С.Л., Шишков А.В., Шестаков А.К., Ильин Н.А. Подсистема интеллектуальной адаптивной классификации электронных текстовых документов систем предотвращения утечек информации // Материалы II Межведомственной научно-практической конференции «Кибербезопасность: угрозы, тенденции, технологии защиты». - Краснодарское высшее военное училище. - 2022. -С. 76-79.

7. Шадский В.В., Сизоненко А.Б., Чекмарев М.А., Шишков А.В., Исакин Д. А. Исследование способов векторизации неструктурируемых текстовых документов на естественном языке по степени их влияния на качество работы различных классификаторов // Научно-технический вестник информационных технологий, механики и оптики. - 2022. - № 1. - С. 114119. doi: 10.17586/2226-1494-2022-22-1-114-119.

8. Шадский В.В., Сизоненко А.Б., Чекмарев М.А., Дудко А.Л. Методика определения архитектуры нейронных сетей для решения задач семантического поиска с использованием метода анализа иерархий // Материалы Всероссийской конференции «Информационные технологии в деятельности органов внутренних дел». - Московский университет Министерства внутренних дел Российской Федерации им. В.Я. Кикотя. -2021. - С. 129-133.

9. Шадский В.В., Сизоненко А.Б., Шишков А.В., Середин Д.В., Посохов Д.А., Козленко С.Л. Математическая модель оценки эффективности подсистем контентного анализа документов систем предотвращения утечек информации, реализующих дополнительный функционал анализа контента // Электронный сетевой политематический журнал «Научные труды КубГТУ». - 2023. - № 1. - С. 36-47.

10. Greeshma K.V., Sreekumar K. Hyperparameter Optimization and Regularization on Fashion-MNIST Classification // International Journal of Recent Technology and Engineering. - 2019. - № 8. - С. 3713-3719.

11. Kun Cheng Ke, Ming-Shyan Huang. Enhancement of multilayer perceptron model training accuracy through the optimization of hyperparameters: a case study of the quality prediction of injection-molded parts // The International Journal of Advanced Manufacturing Technology. - 2021. - № 118. - С. 2247-2263.

12. Тимофеев А.В. Метод выбора гиперпараметров в задачах машинного обучения для классификации стохастических объектов // Научно-

технический вестник информационных технологий, механики и оптики. -2020. - № 5. - С. 667-676.

13. Косых Н.Е. Оценка гиперпараметров при анализе тональности русскоязычного корпуса текстов // Интеллектуальные технологии на транспорте. - 2020. - № 3. - С. 41-44

14. Pramoditha Rukshan. Classification of Neural Network Hyperparameters // towards data science: [сайт]. - URL: towardsdatascience.com/classi-fication-of-neural-network-hyper-parameters-c7991b6937c3 (дата обращения: 04.04.2023).

15. Саати Т. Принятие решений: Метод анализа иерархий: учебное пособие / Пер. с англ. Р.Г. Вачнадзе. - Москва: Радио и связь, 1993. - 315 с.

References

1. Otchjot ob utechkah dannyh za 1 polugodie 2022 goda. InfoWatch. URL: infowatch.ru/sites/default/files/analytics/files/otchyot-ob-utechkakh-dannykh-za-1 -polugodie-2022-goda_1.pdf (data obrashhenija: 04.04.2023).

2. 2021 Data Breach Investigations Report. Verizon. URL: verizon.com/business/resources/reports/2021-data-breach-investigations-report.pdf (data obrashhenija: 04.04.2023).

3. Mashechkin I.V., Petrovskij M.I., Carev D.V. Programmirovanie. 2015. № 1. pp. 32-43.

4. Djatlov A.V., Konnova N.S. Bezopasnye informacionnye tehnologii. 2017. № 1. pp. 187-192.

5. Hart Michael, Manadhata Pratyusa, Johnson Rob. Text Classification for Data Loss Prevention. HP Laboratories. 2011. № 3. pp. 1-21.

6. Shadskij V.V., Sizonenko A.B., Kozlenko S.L., Shishkov A.V., Shestakov A.K., Il'in N.A. Podsistema intellektual'noj adaptivnoj klassifikacii jelektronnyh tekstovyh dokumentov sistem predotvrashhenija utechek informacii. Materialy II Mezhvedomstvennoj nauchno-prakticheskoj konferencii «Kiberbezopasnost':

ugrozy, tendencii, tehnologii zashhity». Krasnodarskoe vysshee voennoe uchilishhe. 2022. pp. 76-79.

7. Shadskij V.V., Sizonenko A.B., Chekmarev M.A., Shishkov A.V., Isakin D.A. Nauchno-tehnicheskij vestnik informacionnyh tehnologij, mehaniki i optiki. 2022. № 1. pp. 114-119. doi: 10.17586/2226-1494-2022-22-1-114-119.

8. Shadskij V.V., Sizonenko A.B., Chekmarev M.A., Dudko A.L. Metodika opredelenija arhitektury nejronnyh setej dlja reshenija zadach semanticheskogo poiska s ispol'zovaniem metoda analiza ierarhij. Materialy Vserossijskoj konferencii «Informacionnye tehnologii v dejatel'nosti organov vnutrennih del». Moskovskij universitet Ministerstva vnutrennih del Rossijskoj Federacii im. V.Ja. Kikotja. 2021. pp. 129-133.

9. Shadskij V.V., Sizonenko A.B., Shishkov A.V., Seredin D.V., Posohov D.A., Kozlenko S.L. Jelektronnyj setevoj politematicheskij zhurnal «Nauchnye trudy KubGTU». 2023. № 1. pp. 36-47.

10. Greeshma K.V., Sreekumar K. Hyperparameter Optimization and Regularization on Fashion-MNIST Classification. International Journal of Recent Technology and Engineering. 2019. № 8. pp. 3713-3719.

11. Kun Cheng Ke, Ming-Shyan Huang. The International Journal of Advanced Manufacturing Technology. 2021. № 118. pp. 2247-2263.

12. Timofeev A.V. Nauchno-tehnicheskij vestnik informacionnyh tehnologij, mehaniki i optiki. 2020. № 5. pp. 667-676.

13. Kosyh N.E. Intellektual'nye tehnologii na transporte. 2020. № 3. pp. 41-44

14. Pramoditha Rukshan. Classification of Neural Network Hyperparameters. Towards data science: [sajt]. URL: towardsdatascience.com/classi-fication-of-neural-network-hyper-parameters-c7991b6937c3 (data obrashhenija: 04.04.2023).

15. Saati T. Prinjatie reshenij: Metod analiza ierarhij [Decision-making: Hierarchy Analysis Method]: uchebnoe posobie. Per. s angl. R.G. Vachnadze. Moskva: Radio i svjaz', 1993. 315 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.