Научная статья на тему 'ИСПОЛЬЗОВАНИЕ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ТЕКСТОВЫХ ШАБЛОНОВ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ'

ИСПОЛЬЗОВАНИЕ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ТЕКСТОВЫХ ШАБЛОНОВ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
344
43
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА ЕСТЕСТВЕННЫХ ЯЗЫКОВ / МАШИННОЕ ОБУЧЕНИЕ / НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Томашевская Валерия Сергеевна, Старичкова Юлия Викторовна, Яковлев Дмитрий Андреевич

Актуальность и цели. В настоящее время в области искусственного интеллекта существуют технологии обработки естественного языка, назначение которых - решение задач в таких областях, как машинный перевод, анализ тональности текста и классификация текста. В рамках задачи распознавания текстовых шаблонов рассмотрено применение методов машинного обучения и интеллектуального анализа данных. Объектом исследования являются виды литературных источников. Предметом исследования являются классификация литературных источников с помощью методов машинного обучения. Цель работы - сравнение эффективности методов машинного обучения при решении задачи бинарной классификации литературных источников и выявление отличительных особенностей, присущих каждому из них. Материалы и методы. Проведена классификация литературных источников с помощью Наивного байесовского классификатора, логистической регрессии и методов Bag of Words и TF-IDF. Результаты. Проведен сравнительный анализ полученных моделей. Наибольшую эффективность демонстрирует модель, с которой совместно использовались Логистическая регрессия и метод Bag of Words. Выводы. Наибольшую эффективность при работе с текстовыми шаблонами продемонстрировала логистическая регрессия и метод Bag of Words, при этом использование стеммизации и лемматизации не влияло на итоговый показатель эффективности модели. Второй вид литературных источников содержит уникальные для него текстовые конструкции, такие как «[Электронный ресурс]» или «дата обращения», увеличивающие шанс правильной классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Томашевская Валерия Сергеевна, Старичкова Юлия Викторовна, Яковлев Дмитрий Андреевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING MACHINE LEARNING FOR RECOGNITION OF TEXT PATTERNS OF LITERARY SOURCES

Background. Today, in the field of artificial intelligence, there are natural language processing technologies, the purpose of which is to solve problems in such areas as machine translation, text sentiment analysis and text classification. In the article, within the framework of the problem of recognition of text patterns, the application of machine learning and data mining methods is considered. The object of the study is the types of literary sources. The subject of the research is the classification of literary sources using machine learning methods. The purpose of the work is to compare the effectiveness of machine learning methods in solving the problem of binary classification of literary sources and to identify the distinctive features inherent in each of them. Materials and methods. Classification of literary sources using the Naive Bayes classifier and Logistic regression, and the Bag of Words and TF-IDF methods. Results. A comparative analysis of the obtained models was carried out. The model with which the Logistic regression and the Bag of Words method were used together demonstrates the greatest efficiency. Conclusions. Logistic regression and the Bag of Words method demonstrated the greatest efficiency when working with text templates, while the use of stemmization and lemmatization did not affect the final model efficiency indicator. The second type of literary sources contains text constructions unique to it, such as “[Electronic resource]” or “date of access”, which increase the chance of correct classification.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ТЕКСТОВЫХ ШАБЛОНОВ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ»

УДК 004.85

doi:10.21685/2072-3059-2022-3-2

Использование машинного обучения для распознавания текстовых шаблонов литературных источников

В. С. Томашевская1, Ю. В. Старичкова2, Д. А. Яковлев3

МИРЭА - Российский технологический университет, Москва, Россия [email protected], [email protected], [email protected]

Аннотация. Актуальность и цели. В настоящее время в области искусственного интеллекта существуют технологии обработки естественного языка, назначение которых - решение задач в таких областях, как машинный перевод, анализ тональности текста и классификация текста. В рамках задачи распознавания текстовых шаблонов рассмотрено применение методов машинного обучения и интеллектуального анализа данных. Объектом исследования являются виды литературных источников. Предметом исследования являются классификация литературных источников с помощью методов машинного обучения. Цель работы - сравнение эффективности методов машинного обучения при решении задачи бинарной классификации литературных источников и выявление отличительных особенностей, присущих каждому из них. Материалы и методы. Проведена классификация литературных источников с помощью Наивного байесовского классификатора, логистической регрессии и методов Bag of Words и TF-IDF. Результаты. Проведен сравнительный анализ полученных моделей. Наибольшую эффективность демонстрирует модель, с которой совместно использовались Логистическая регрессия и метод Bag of Words. Выводы. Наибольшую эффективность при работе с текстовыми шаблонами продемонстрировала логистическая регрессия и метод Bag of Words, при этом использование стеммизации и лемматиза-ции не влияло на итоговый показатель эффективности модели. Второй вид литературных источников содержит уникальные для него текстовые конструкции, такие как «[Электронный ресурс]» или «дата обращения», увеличивающие шанс правильной классификации.

Ключевые слова: обработка естественных языков, машинное обучение, наивный байесовский классификатор, логистическая регрессия

Для цитирования: Томашевская В. С., Старичкова Ю. В., Яковлев Д. А. Использование машинного обучения для распознавания текстовых шаблонов литературных источников // Известия высших учебных заведений. Поволжский регион. Технические науки. 2022. № 3. С. 15-26. doi:10.21685/2072-3059-2022-3-2

Using machine learning for recognition of text patterns of literary sources

V.S. Tomashevskaya1, Yu.V. Starichkova2, D.A. Yakovlev3

MIREA - Russian Technological University, Moscow, Russia [email protected], [email protected], [email protected]

Abstract. Background. Today, in the field of artificial intelligence, there are natural language processing technologies, the purpose of which is to solve problems in such areas as machine translation, text sentiment analysis and text classification. In the article, within the framework of the problem of recognition of text patterns, the application of machine learn-

© Томашевская В. С., Старичкова Ю. В., Яковлев Д. А., 2022. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.

ing and data mining methods is considered. The object of the study is the types of literary sources. The subject of the research is the classification of literary sources using machine learning methods. The purpose of the work is to compare the effectiveness of machine learning methods in solving the problem of binary classification of literary sources and to identify the distinctive features inherent in each of them. Materials and methods. Classification of literary sources using the Naive Bayes classifier and Logistic regression, and the Bag of Words and TF-IDF methods. Results. A comparative analysis of the obtained models was carried out. The model with which the Logistic regression and the Bag of Words method were used together demonstrates the greatest efficiency. Conclusions. Logistic regression and the Bag of Words method demonstrated the greatest efficiency when working with text templates, while the use of stemmization and lemmatization did not affect the final model efficiency indicator. The second type of literary sources contains text constructions unique to it, such as "[Electronic resource]" or "date of access", which increase the chance of correct classification.

Keywords: natural language processing, machine learning, naive bayes classifier, logistic regression

For citation: Tomashevskaya V.S., Starichkova Yu.V., Yakovlev D.A. Using machine learning for recognition of text patterns of literary sources. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki = University proceedings. Volga region. Engineering sciences. 2022;(3):15-26. (In Russ.). doi:10.21685/2072-3059-2022-3-2

Введение

Естественные языки представляют собой большую систему знаков, используемую для обмена информацией в процессе практической деятельности человека, которая также изменяется в связи с этой деятельностью [1]. В области искусственного интеллекта существуют технологии обработки естественного языка (Natural Language Processing), назначение которых - решение задач в таких областях, как машинный перевод, анализ тональности текста и классификация текста [2]. Это направление стало самостоятельным в исследованиях искусственного интеллекта в конце 1960-х гг. [3].

В рамках задачи распознавания текста, написанного на естественном языке, также находится работа с текстовыми шаблонами, содержащими ценную информацию. Самым известным примером таких шаблонов являются шаблоны, используемые для оформления библиографических источников. Структурно они представляют собой последовательность смысловых конструкций, отведенных под определенные значения и структурированные соответственно. В данной статье будут рассмотрены два типа шаблонов, а также осуществлен процесс их распознавания с использованием технологии машинного обучения. Первый шаблон - это шаблон оформления описаний статей из газет или журналов. Структурно он имеет следующий вид (рис. 1).

Авторы Заглавие //Название -Год -Номер -Месгоп о ложени е

журнала выпуска выпуска статьи

Рис. 1. Шаблон оформления описаний статей из газет или журналов

Второй шаблон - это шаблон оформления описания источников электронного ресурса удаленного доступа. Структурный вид представлен на рис. 2.

Авторы Заглавие /■'Название источника [Электронный (дата обращения:

ресурс]. - Режим доступа: ссылка. число: месяц: год)

Рис. 2. Шаблон оформления описания источников электронного ресурса удаленного доступа

Для применения методов машинного обучения и интеллектуального анализа данных текстовые наборы необходимо преобразовать. Очистить от слов и символов, которые могут негативно сказаться на процессе распознавания. Одним из примеров подобной ситуации является использование иностранных слов в русскоязычных текстах. Наличие подобных текстовых фрагментов приводит к усложнению сбора данных как для задач, связанных с обработкой естественного языка (например, классификация текста), так и с задачами распознавания и синтеза речи [4]. В процессе подготовки текста к работе можно выделить следующие шаги:

- Уменьшение регистра - благодаря установке единого регистра для всех слов процесс их считывания станет легче.

- Токенизация - метод разбиения текста на небольшие составные части, такие как словосочетания или слова. После разбиения на составные части каждая из них подвергается анализу. Использование токенизации облегчает программную обработку полученной информации [5].

- Удаление стоп-слов. Исключение из обрабатываемой текстовой конструкции слов, не несущих какой-либо дополнительной информации в тексте, привносящих лишь шум в данные [6].

- Стеммизация и лемматизация. Первая представляет собой процесс приведения слова к его корню путем устранения суффиксов, приставок, окончаний [7]. В ходе процесса лемматизации слово приводится к его смысловой канонической форме [8]. В ходе выполнения работы к набору текстовых данных поочередно будут применены оба процесса.

Чтобы машина могла прочитать текст, его необходимо представить в машиночитаемой форме. Процесс, отвечающий за извлечение признаков из текста для выполнения задачи интеллектуального анализа текста, это процесс преобразования текстового документа в цифровой вектор, или процесс векторизации [9]. Он применяется в задачах обработки естественного языка и поиска информации, для которых ключевыми являются оценка семантического сходства и близости для сопоставления текстов, классификации и кластеризации текстовых документов [9]. При использовании методов векторных представлений текстов на естественном языке текст представляет собой вектор фиксированной длины, описывающий содержимое. Размерность определяется как единица, умноженная на размер словаря. Структурно сам вектор состоит из столбцов, символизирующих собой слово, а значение, которое содержится в столбце, символизирует количество вхождений данного слова в текст [10]. При построении векторных представлений текстов на естественном языке в качестве основных сущностей выступают: токен, документ, корпус, словарь.

- токен - элементарная единица текста;

- документ - упорядоченный набор токенов;

- корпус - совокупность всех документов;

- словарь - множество всех уникальных токенов, которые встречаются в корпусе.

Каждый токен получает в соответствие уникальный индекс диапазоном от 1 до последнего номера токена в словаре. Использование различных методов предобработки текстов, нормализация токенов, удаление слишком редко/часто используемых слов позволяет уменьшить размер словаря, улучшить качество векторных представлений текстов и сократить количество необходимых вычислений [11].

Результатом работы с примерами оформления библиографических источников будет сравнительный анализ результатов применения двух методов Bag of Words и TF-IDF. Bag of Word (BoW) - простейших из методов представления текста на естественном языке. Он определяет количество вхождений ключевых слов в анализируемый текст. Из данных слов образуется словарь, и на его основе создается вектор, имеющий длину этого словаря [5]. Отличительной особенностью данного метода является игнорирование порядка расположения токенов при рассмотрении текстовой последовательности. Логика BoW такова: два предложения одинаковы, если в их составе находятся одни и те же слова, независимо от порядка их расположения. Ключевыми недостатками метода являются чувствительность к набору слов и невозможность использования слов, которые не встречались при обучении модели. Как результат, данный метод не в состоянии определять полисемию в текстовой конструкции [12].

Term Frequency - Inverse Document Frequency (TF-IDF) - этот метод является модификацией BoW. В его основе лежит предположение о равной значимости токенов в текстовой конструкции. Если слово встречается в небольшом числе документов, то для них оно является важным. TF вычисляется как доля документов, в которых присутствует токен, а IDF - как инверсия частоты, с которой некоторое слово встречается в документах коллекции. Вес токена в документе вычисляется как произведение TF и IDF [11]. Логика метода основывается на том, что полезность слова, которое встречается в текстовых конструкциях, не велика. Таким образом, определяется уникальность слова по отношению ко всему корпусу. Данная статистическая мера позволяет понизить вес слишком часто встречающихся терминов и повысить вес тех терминов, которые встречаются реже [13]. За счет таких характеристик, как простота, эффективность и точность, оба описанных метода достигли высоких результатов в задачах классификации и кластеризации документов.

Последовательность действий при выполнении программы

В данной работе будет использовано четыре набора данных. Первая пара данных - это данные для обучения, содержащие примеры оформления описаний статей из газет или журналов и примеры оформления описания источников электронного ресурса удаленного доступа. Суммарное количество - 100. Каждый набор содержит равное количество примеров, число которых - 50. Вторая пара аналогична первой, но предназначена для тестирования. Примеры помещаются в датасеты из соответствующих текстовых файлов. После помещения каждому примеру выдается соответствующая метка, обозначающая его принадлежность к шаблону оформления. Для примеров оформления описаний статей из газет или журналов используется метка - 1, а для оформления описания источников электронного ресурса удаленного доступа - 0.

После все наборы данных объединяются в один общий для последующей обработки. Как уже было сказано, процесс обработки содержит: уменьшение регистра, токенизацию, удаление стоп-слов и стеммизацию/лемматизацию. После всех процедур переходим к созданию классификаторов. В процессе работы на основе результатов будем строить матрицу неточностей. Это даст нам информацию, классифицированную с помощью модели, о том, сколько точек данных верны, а сколько нет. Вначале посмотрим на результаты, полученные с помощью наивного байесовского классификатора с использованием BoW и с использованием TF-IDF. Байесовский подход к классификации является одним из старейших, но до сих пор сохраняет прочные позиции в теории распознавания. Основу данного классификатора составляет Теорема Байеса со строгими (наивными) предположениями о независимости переменных [14]. Затем проведем сравнительный анализ со значениями, полученными с применением логистической регрессии также с использованием BoW и TF-IDF.

Объяснение программного блока программы

Для реализации программной составляющей работы был использован высокоуровневый язык программирования Python. Данный язык обладает богатыми функциональными возможностями и огромным набором библиотек, ориентированных на работу с текстом [15]. Сначала производится загрузка данных из файлов и объединение их в единый набор (рис. 3).

df_train_statya = pd.DataFrame(pd.read_tableС'Source_Statya_train.txt', sep='\n', encodinq='utf-81, engine^'python')) df_train_statya['Метка'] = i

df_train_web = pd.DataFrame(pd.read_table('Source_Web_train.txt't sep='\n , encoding='utf-8 , engine='python')) df_train_web['Метка'] = Э

df_test_stat^a = pd.DataFrame(pd.read_table('Source_Stj^ya_test.txt', sep='\n', encodingsutf-8', engine='python')) df_test_statya['Метка'I = 1

df_test_web = pd.DataFrame (pd.read_tableCSource_Web_test.txt', sep='\n', encoding='utf-8', engine='python')) df_test_web['Метка'] = Э

df - pd.concat([df_train_statya, df_train_web, df_test_statya, df_test_web], ignore_index=True)

Рис. 3. Создание общего набора данных

Затем проводим подготовку текстовых данных к работе путем уменьшения регистра, токенизации, удаления стоп-слов (рис. 4). Отдельно необходимо выделить процессы стеммизации и лемматизации. В тексте программы они закомментированы. При таком подходе, убирая символ комментариев, мы добавляем к работе с текстом соответствующий шаг. В итоговых результатах будет указано влияние на получаемый результат наличие и отсутствие данных шагов.

Разделение данных: 70 % данных будет использовано для обучения модели, 30 % для ее тестирования (рис. 5).

Процесс векторизации текстовых данных представлен на рис. 6.

Создание модели и отображение матрицы неточностей для BoW и наивного байесовского классификатора представлено на рис. 7; создание модели и отображение матрицы неточностей для TIF-IDF и наивного байесовского классификатора - на рис. 8; создание модели и отображение матрицы неточностей для BoW и логистической регрессии - на рис. 9; создание моде-

ли и отображение матрицы неточностей для TIF-IDF и логистической регрессии - на рис. 10.

def data_preprocessing(fuYL_data'):

43 в Очистка Данных

44 а Я Уменьшение регистра

full_data = full_data.lowerO

46

№ Токенизация

tokens = nltk. word_tokenize(ful"L_data)

49

# Удаление Стоп-слов

full_data = [word for word in tokens if word not in stop.words]

52 i

53 # Стемминг

# full_data = [sterner.stem(word) for word in full_data]

55

# Лемматизация

57 # full_data = [T^JJlJiJ^^-bETmatizeCiNord) for word in full_data]

5B

full_data = .join(full_data)

60

_return full_data_

Рис. 4. Подготовка текстовых данных к работе

71 data = df.copyO

72 у = data['Метка'].values

73 data.dropCt'MeTKa'], axis=l, inplace-True)

75 X_train, X_test, y_train, y_ .test - train_test_split(data, y, test_size=0.3, stratify=y)

77 printC'flaHHbie для Обучения:' , X_train.shape, y_train.shape)

78 printfflaHHbie для Проверки:' , X_test.shapeJ y_test.shape)

Рис. 5. Разделение данных

аз s Векторизация текстовых данных 81 # BOW

32

from sklearn.feature_extraction.text import CountVeotorizer

34

yect = CountVectorizer(min_df=5)

36

X_train_full_data_boili = vect. fit_transform(X_train[1 Редактированное' ] 1 X_test_fulL_data_bow = vect.transform(X_test['Редактированное1])

3?

printC'BoW)

рг1п!('Данные для Обучения: , X_train_full_data_bow.shape) orintCflaHHbie для Проверки: , X_test_full_data_bow.shape)

93

94 if TFIDF

from sklearn.feature_extraction.text import TfidfVectorizer

94

yectorizer = TfidfVectorizer(min_df=5)

93

X_train_full_data_tfid-f = vectorizer.fit_transforuC*_train[1 Редактированное']) X_test_full_data_tfidf = vectorizer.transform(X_test['Редактированное'])

print('TF-IDF')

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

srintf'Данные для Обучения- , X_train_full_data_tfidf.shape) orintC'Данные для Проверки: , X_test_full_data_tfidf.shape)

Рис. 6. Векторизация текстовых данных

elf = MultinomialNBO

elf.fittt.train.full^data.bow, y_train)

y_pred - elf. predict(X_test_full_data_bow)

* wwvwv 1

printCHaMBHbiii Байесовский: BoW')

printCТочность: accuracy_score(y_test, y_pred))

xl = y_pred

from sklearn.metrics import confusion_matrix imgort matplotlib.pyplot as pit import seaborn as sns

ААЛАЛААЛАЛЛЛ

cm = confusion_matrix(y_test, y.pred)

plt.figure(figsize=C5, 3DD sns.heatmapicm, anrot=TrueJ fmt='d') pit.title( Матрица неточностей') plt.showO

Рис. 7. Создание моделей и матрицы неточностей для BoW

elf = MultinomialNB(alplia=l)

elf.fitCX_train„full_data,tfidf, y_train)

у pred = elf.predictix test full data tfidf) * ЛЛААЛЛЛЛ 1

134 printC'HaMBHbiü Байесовский: TF-IDF1)

printC Точность: , accuracy_score(y_test, y_pred))

136 x2 = y_pred

cm = confusion_matrix(y_test, y_pred)

139 plt.figure(figsize=(5, 3))

sns.heatniapfcm, annot=True, frnt='d )

141 plt.titlef Матрица неточностей')

pit.show О

Рис. 8. Создание моделей и матрицы неточностей для TF-IDF

Все результаты отображаются в виде таблицы (рис. 11).

Матрицы неточностей представлены на рис. 12, 13. Первые две матрицы отображают эффективность наивного байесовского классификатора и методов BoW и TF-IDF (рис. 12).

Оставшиеся две матрицы отображают эффективность логистической регрессии и методов BoW и TF-IDF (рис. 13).

Таблица сравнения эффективности представлена на рис. 14.

Заключение

В результате проделанной работы можно сделать несколько выводов. Во-первых, для определения принадлежности библиографического источника к одному из двух рассмотренных шаблонов больше всего подходит использование логистической регрессии и метода Bag of Words. Показатель эффективности при повторных запусках в данном случае варьировал в интервале от 98 до 100 %, что является лучшим значением из всех полученных.

import warninqs

warnings.filterwarningsi'ignore1)

fjrom sklearn.linear_model import LogisticRegression elf = LogisticRegression(penalty= U , solver='li|ilijrjear )

elf.fitCX_train_full_data_bow, y_train)

y_pred = elf.predict(X_test_full_data_bow)

* Лллллллл 1

printCJloriicTM4ecKaa Регрессия: BoW)

printC Точности: , accuracy_score(y_test, y_pred))

x3 = y_pred

from sklearn.metrics import confusion_iiiatrix import matplotlib.pyplot as pit

^VWWVWVW4 1 ■ T I ■

import seaborn as sns

.■VvWvVvVvW

cm = confusion_matrix(y_test, y_pred) plt.figure(figsize=(5, 3)) sns.heatmaptcm, amot^rue, fmt='d') pit.title(1 Матрица неточностей ) pit.show О

Рис. 9. Создание моделей и матрицы неточностей для BoW

from sklearn.linear_model import LogisticRegression

elf = LogisticRegressionCpenalty= '11', зо^ег^^^^учтмг')

elf.fitCX_train_fu!Udata_tfidf, y_train)

y_pred = elf.predict(X_test_full_data_tfidf)

I * МЛАЛЛЛЛ 1

рг^С'Логистическая Регрессия: TFIDF ) printt'ToHHOCTb: accuracy_score(y_test, y_pred)) x4 э y_pred

from sklearn.metrics import confusion_matrix import matplotlib.pyplot as pit

ЛЛЛЛАллллллл 1 ■ * ■ 1

import seaborn as sns

J ЛАААЛААААЛАЛ

cm = confusion_matrixCy_test, y_pred) plt.figure(figsize=(5, 3)) sns.heatmapfcm, annot=True, fmt='o ) plt.titlei Патрица неточностей ) pit.showO

Рис. 10. Создание моделей и матрицы неточностей для TF-IDF

Во-вторых, при повторных запусках с поочередным использованием стеммизации и лемматизации полученные результаты не подвергались изменению. Это связанно с тем, что ключевые характеристики для каждого шаблона определяются набором специальных символов или фиксированной по-

следовательностью слов, например: [Электронный ресурс]. Те же слова, которые обозначают ФИО авторов или название работы, не подходят для определения принадлежности к библиографическому источнику.

# Сравнение эффективности print('Сравнение эффективности') froII prettytable import PrettyTable

x = PrettyTableO

x.field_names = ['Векторизация , 1 Модель', "очнооть'] x.add_row(['BOW, 'Наивный Байесовский', accuracy_score(y_test, xl)]) x,add_row(['TFIDF', Наивный Байесовский', accuracy_score(y_test, x2)l) x.add_row(['BOI'r, 'Логистическая Регрессия', acc(jracy_score(y_test, x3)]) x.add_row(['TFIDF', 'Логистическая Регрессия1, accuracy_score(y_test, x4)]) printCx)

Рис. 11. Вывод таблицы, отображающей показатели эффективности

Матрица неточностей

30 0

3 27

-30

Матрица неточностей

I

0

Э

-3D

Рис. 12. Матрицы неточностей BoW и TF-IDF (наивный байесовский классификатор)

Рис. 13. Матрицы неточностей BoW и TF-IDF (логистическая регрессия)

Векторизация | Модель | | Точность

BOW | Наивный Байесовский | I В.95

TFIDF | Наивный Байесовский | | 0.95

BOW | Логистическая Регрессия | 1.0

TFIDF | Логистическая Регрессия | 0.966йййй6йййййй67

Рис. 14. Таблица эффективности

Список литературы

1. Юргель В. Ю. Сложности моделирования естественного языка // Вестник науки и образования. 2019. № 23-1 (77). C. 12-14.

2. Татарникова Т. М., Богданов П. Ю. Построение психологического портрета человека с применением технологий обработки естественного языка // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 1. C. 85-91.

3. Гашков А. В., Ельцова М. Н., Словикова Е. Л. Сопоставление синтаксических графов для улучшения модели вопросно-ответной системы // Вестник Пермского национального исследовательского политехнического университета. Проблемы языкознания и педагогики. 2021. № 1. С. 56-66.

4. Пикалев Я. С. Разработка автоматической системы трансформации английских вставок в русских текстах с применением глубокого обучения // Проблемы искусственного интеллекта. 2019. № 2 (13). C. 74-86.

5. Скитер Н. Н., Кетько Н. В. Методика отбора кадров с применением интеллектуального анализа письменной речи кандидатов // Международный научно-исследовательский журнал. 2020. № 5-2 (95). С. 58-63.

6. Фельдина Е. А., Махныткина О. В. Автоматическое построение дерева диалога по неразмеченным текстовым корпусам на русском языке // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 709-719.

7. Васильев В. И., Вульфин А. М., Кучкарова Н. В. Автоматизация анализа уязвимо-стей программного обеспечения на основе технологии text mining // Вопросы ки-бербезопасности. 2020. № 4 (38). С. 22-31.

8. Бородин А. И., Вейнберг Р. Р., Литвишко О. В. Методы обработки текста при создании чат-ботов // Humanitarian Balkan Research. 2019. Т. 3, № 3 (5). С. 108-111.

9. Кравченко Ю. А., Мансур А. М., Мохаммад Ж. Х. Векторизация текста с использованием методов интеллектуального анализа данных // Известия ЮФУ. Технические науки. 2021. № 2. C. 154-167.

10. Гринин И. Л. Разработка, тестирование и сравнение моделей сентиментального анализа коротких текстов // Инновации и инвестиции. 2020. № 6. С. 186-189.

11. Федоренко В. И., Киреев В. С. Использование методов векторизации текстов на естественном языке для повышения качества рекомендаций фильмов // Современные наукоемкие технологии. 2018. № 3. С. 102-106.

12. Спивак А. И., Лапшин С. В., Лебедев И. С. Классификация коротких сообщений с использованием векторизации на основе ELMo // Известия Тульского государственного университета. Технические науки. 2019. № 10. С. 410-418.

13. Оськина К. А. Оптимизация метода классификации текстов, основанного на tf-idf, за счет введения дополнительных коэффициентов // Вестник Московского государственного лингвистического университета. 2016. № 15 (754). С. 175-187.

14. Ястремский А. П., Извин А. И., Санников А. Г. [и др.]. Возможности и ограничения Наивного Байесовского классификатора при разработке экспертных систем в оториноларингологии // Успехи современного естествознания. 2015. № 1-4. С. 601-605.

15. Князев К. А., Корягин С. В. Проблемно-ориентированный язык для работы с текстом в качестве Python-модуля // Cloud of Science. 2020. Т. 7, № 3. С. 611-618.

References

1. Yurgel' V.Yu. Challenges of natural language modeling. Vestnik nauki i obrazovaniya = Bulletin of science and education. 2019;(23-1):12-14. (In Russ.)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Tatamikova T.M., Bogdanov P.Yu. Building a psychological portrait of a person using natural language processing technology. Nauchno-tekhnicheskiy vestnik infor-matsionnykh tekhnologiy, mekhaniki i optiki = Scientific and technical bulletin of information technologies, mechanics and optics. 2021;21(1):85-91. (In Russ.)

3. Gashkov A.V., El'tsova M.N., Slovikova E.L. Matching syntax graphs to improve the question-answer system model. Vestnik Permskogo natsional'nogo issledovatel'skogo politekhnicheskogo universiteta. Problemy yazykoznaniya i pedagogiki = Bulletin of Perm National Research Polytechnic Institute. Issues of linguistics and pedagogy. 2021;1:56-66. (In Russ.)

4. Pikalev Ya.S. Development of an automatic system for the transformation of English inserts in Russian texts using deep learning. Problemy iskusstvennogo intellekta = Issues of artificial intelligence. 2019;(2):74-86. (In Russ.)

5. Skiter N.N., Ket'ko N.V. Methodology for personnel selection using intellectual analysis of the written speech of candidates. Mezhdunarodnyy nauchno-issledovatel'skiy zhurnal = International scientific and research journal. 2020; (5-2):58-63. (In Russ.)

6. Fel'dina E.A., Makhnytkina O.V. Automatic construction of a dialogue tree based on untagged text corpora in Russian. Nauchno-tekhnicheskiy vestnik informatsionnykh tekhnologiy, mekhaniki i optiki = Scientific and technical bulletin of information technologies, mechanics and optics. 2021;21(5):709-719. (In Russ.)

7. Vasil'ev V.I., Vul'fin A.M., Kuchkarova N.V. Automation of software vulnerability analysis based on text mining technology. Voprosy ki-berbezopasnosti = Cyber security issues. 2020;(4):22-31. (In Russ.)

8. Borodin A.I., Veynberg R.R., Litvishko O.V. Text processing methods when creating chat bots. Humanitarian Balkan Research. 2019;3(3):108-111. (In Russ.)

9. Kravchenko Yu.A., Mansur A.M., Mokhammad Zh.Kh. Text vectorization using data mining methods. Izvestiya YuFU. Tekhnicheskie nauki = Proceedings of the South Federal University. 2021;(2):154-167. (In Russ.)

10. Grinin I.L. Development, testing and comparison of models of sentimental analysis of short texts. Innovatsii i investitsii = Innovation and investment. 2020;(6):186-189. (In Russ.)

11. Fedorenko V.I., Kireev V.S. Using natural language text vectorization methods to improve the quality of movie recommendations. Sovremennye naukoemkie tekhnologii = Modern high technologies. 2018;(3):102-106. (In Russ.)

12. Spivak A.I., Lapshin S.V., Lebedev I.S. Classification of short messages using vectorization based on ELMo. Izvestiya Tul'skogo gosudarstvennogo universiteta. Tekhnicheskie nauki = Proceedings of Tula State University. Technical sciences. 2019;(10):410-418. (In Russ.)

13. Os'kina K.A. Optimization of the text classification method based on tf-idf by introducing additional coefficients. Vestnik Moskovskogo gosu-darstvennogo lingvisticheskogo universiteta = Bulletin of the Moscow State Linguistic University. 2016;(15):175-187. (In Russ.)

14. Yastremskiy A.P., Izvin A.I., Sannikov A.G. et al. Possibilities and limitations of the Naive Bayes classifier in the development of expert systems in otorhinolaryngology. Uspekhi sovremennogo estestvoznaniya = Successes of modern natural science. 2015;(1-4):601-605. (In Russ.)

15. Knyazev K.A., Koryagin S.V. A domain-specific language for working with text as a Python-module. Cloud of Science. 2020;7(3):611-618. (In Russ.)

Информация об авторах / Information about the authors

Валерия Сергеевна Томашевская

кандидат технических наук, доцент кафедры корпоративных информационных систем, Институт информационных технологий, МИРЭА - Российский технологический университет (Россия, г. Москва, пр-кт Вернадского, 78)

E-mail: [email protected]

Valeriya S. Tomashevskaya Candidate of engineering sciences, associate professor of the sub-department of corporate information systems, Institute of Information Technologies, MIREA -Russian Technological University (78 Vernadskogo avenue, Moscow, Russia)

Юлия Викторовна Старичкова

кандидат технических наук, заведующий базовой кафедрой № 256 «Медицинские информационные системы», Институт информационных технологий, МИРЭА - Российский технологический университет (Россия, г. Москва, пр-кт Вернадского, 78)

E-mail: [email protected]

Yuliya V. Starichkova

Candidate of engineering sciences, head

of the sub-department No. 256 "Medical

Information Systems", Institute

of Information Technologies, MIREA -

Russian Technological University

(78 Vernadskogo avenue, Moscow, Russia)

Дмитрий Андреевич Яковлев аспирант, Институт информационных технологий, МИРЭА -Российский технологический университет (Россия, г. Москва, пр-кт Вернадского, 78)

E-mail: [email protected]

Dmitriy A. Yakovlev

Postgraduate student, Institute

of Information Technologies, MIREA -

Russian Technological University

(78 Vernadskogo avenue, Moscow, Russia)

Поступила в редакцию / Received 22.04.2022

Поступила после рецензирования и доработки / Revised 24.06.2022 Принята к публикации / Accepted 23.08.2022

i Надоели баннеры? Вы всегда можете отключить рекламу.