Извлечение статистических данных для определения уникальности документов на основе анализ контента учебных программ дисциплин

Кайбасова Д.Ж.

ИЗВЛЕЧЕНИЕ СТАТИСТИЧЕСКИХ ДАННЫХ ДЛЯ ОПРЕДЕЛЕНИЯ УНИКАЛЬНОСТИ ДОКУМЕНТОВ НА ОСНОВЕ АНАЛИЗ КОНТЕНТА УЧЕБНЫХ ПРОГРАММ ДИСЦИПЛИН

Кайбасова Д.Ж.

Докторант Евразийского национального университета им. Л.Н.Гумилева

EXTRACTION OF STATISTICAL DATA FOR DETERMINING THE UNIQUENESS OF DOCUMENTS BASED ON ANALYSIS OF THE CONTENT OF EDUCATIONAL PROGRAMS OF

DISCIPLINES

Kaibassova D.

Doctoral student, L.N. Gumilyov Eurasian National University

Аннотация

В данной статье описывается модель для формирования образовательных программ, удовлетворяющих заданным компетенциям на основе методов обработки текстовых документов через их векторные представления. Предложенная модель выполняет кластеризацию текстовых документов с учетом весовых коэффициентов отдельных слов в корпусе. Модель использует такие вспомогательные процедуры как удаление стоп-слов из документов, стемминг, определение важности терма в корпусе документов по tf-idf характеристикам терма. Для определения группы учебных программ дисциплин, характеризуемых общим свойством, нахождение групп схожих учебных программ дисциплин в выборке использовался кластерный анализ документов. На этапе кластерного анализа использовалась мера косинусного сходства векторов. Данное исследование решает задачи интеллектуальной поддержки процесса формирования учебных дисциплин образовательных программ высшего образования, с целью снижения трудоемкости разработки новых образовательных программ и повышения качества образовательного контента.

Abstract

This article describes a model for the formation of educational programs that satisfy predetermined competencies based on methods for processing text documents through their vector representations. The proposed model performs clustering of text documents, taking into account the weights of individual words in the corpus. The model uses such auxiliary procedures as removing stop words from documents, stemming, determining the importance of a term in the document body by the tf-idf characteristics of the term. To determine the group of syllabuses characterized by a common property, finding groups of similar syllabuses in the sample, we used a cluster analysis of documents. At the stage of cluster analysis a measure of cosine similarity of vectors was used. This study solves the problems of intellectual support of the process, syllabuses formation of educational programs for higher education, in order to reduce the complexity of developing new educational programs and improve the quality of educational content.

Ключевые слова: Анализ естественного языка, образовательная программа, извлечение информации, векторизация, извлечение текста, косинусное сходство, иерархическая кластеризация.

Keywords: natural language analysis, educational program, information extraction, vectorization, text extraction, cosine similarity, hierarchical clustering.

Введение

Внедрение информационных технологий для формирования образовательных программ в вузах является потребностью не только студентов, но и работодателей, т.к. имеется возможность посмотреть квалификационные требования к кандидатам на различные вакантные должности. Для формирования образовательных программ важным становится анализ содержания учебной дисциплины в их увязке с требованиями образовательных и профессиональных стандартов с учетом требований рынка труда для профессиональных дисциплин и направления (профиля) образовательной программы.

Разработка образовательных программ по выявлению совокупности дисциплин, соответствующих предъявленным компетенциям, является одним из основных задач учебных организации. Возможность внедрения компонентов интеллектуального анализа данных в широкий спектр прикладного программного обеспечения актуально. Одним из таких компонентов может быть анализ естественного языка. Популярной задачей в

области интеллектуального анализа образовательных данных является извлечение структуры знаний. Например, в работах [1, 3] из онтологии, которая описывает структуру и отношения между дидактическими единицами в рамках учебных курсов и программ.

Существуют множество работ для решения таких задач, где применяются методы машинного обучения. Авторы работы [2] предложили общую структуру системы, которая могла бы обеспечить информационную поддержку преподавателей в решении этой задачи. В работе [4] использовали такие хорошо известные методы анализа данных, как иерархический кластерный анализ, анализ основных компонентов и неотрицательную матричную факторизацию для усреднения весов компетенции. Авторы работы [2] предлагают для расчета сходства сравнения текстов использовать описание курса, учебные результаты курса и структуру учебного курса с использованием метрики «mean average precision». Метрика применима к задаче ранжирования документов по запросу и оценки

близости документа по показателям средней точности.

Существуют два способа анализа текста на естественном языке: лингвистический анализ, который основан на извлечении смысла текста по его семантической структуре и статистический анализ, основанный на извлечение смысла текста по частотному распределению слов в тексте. В настоящей работе используется статистический метод анализа текста, основывающийся на подсчете частоты встречаемости слов.

Первоначально необходимо построить векторную модель документов отобранных по запросам информационного поиска. В случае поиска документа по запросу, запрос представляется как вектор того же пространства и можно вычислить соответствие документов запросу [5]. Данный подход ориентирован на нахождение документов по их содержанию. В работе используется векторная модель (VSM - Vector Space Model) - это представление коллекции документов в информационном поиске векторами из одного общего для всей коллекции векторного пространства. Основная идея использования модели состоит в том, чтобы представить каждый текстовый документ из коллекции, как точку в пространстве (или вектор в векторном пространстве). Автоматическое извлечение термов из текстовой коллекции с помощью методов машинного обучения подробно рассмотрено в [7].

Векторная модель представления документов

При решении лингвистических задач обработки текста возможны различные подходы и методы преобразования текстовой информации в наборы числовых данных, которые будут использоваться для извлечения знаний. При сравнения текстов и выявления в них совпадений, необходимы средства автоматического лингвистического анализа. Алгоритм построения векторной модели можно записать в виде следующих последовательных этапов:

1. Предобработка текста. Извлекается тематическое содержание дисциплины. Конечным результатом данного этапа является корпус из коллекции документов.

2. Преобразование текста. Этот шаг представляет собой фильтрацию «стоп-слов», специальных символов и цифр, впоследствии чего формируется «мешок слов» для построения векторной модели.

3. Оценка документа по внешним признакам. Суть этого этапа заключается в определении принадлежности документа к соответствующей компетенции при помощи векторной модели.

Главным достоинством векторной модели является возможность поиска и ранжирования документов по их близости в векторном пространстве.

Для получения вектора весов d~\ для документа

необходимо провести индексацию документов. Процесс индексаций документа был рассмотрен в работе [7].

Ниже описывается модель формирования образовательной программы, удовлетворяющей заданным компетенциям. Постановка задачи:

Пусть имеется коллекция учебных программ

дисциплин D = (di, d2,..dn ) и задан словарь

терминов S = (s^, S2,..., Sm ) из базы компетенции, которая взаимодействует с пользовательским запросом. Рассмотрим документ из коллекции

учебных программ дисциплин dj £ D и представим его в виде вектора в пространстве Rn . Тогда этот вектор будет иметь вид

di = (f1 'tfi2'...' tfin ), где fj- число с которым слово из запроса s j встречается в документе

d . Документ в векторной модели рассматривается как неупорядоченное множество термов. Необходимо получить матрицу X = |х-- j, где

Xjj = tf (s-, di) - частота терминов, встречающихся в документе.

Рассмотрим последовательность действий для

организации поиска по s j в документе di : подбирается текст-документ из коллекции документов; удаляются из текста стоп-слова; с учетом морфологии слов вычисляется частота вхождения каждого термина; ранжируются термины в порядке убывания их частоты вхождения; формируется терм-документная матрица.

Таким образом, получается терм-документная матрица, в которой строки соответствуют документам из коллекции, столбцы соответствуют терминам. В результате, нулевые строки соответствуют силлабусам, которым не соответствует ни одна компетенция, удаляются.

Для построения векторной модели подсчиты-ваются веса идентичных слов с использованием метода TF-IDF (Term Frequency - Inverse Document Frequency) [6]. Опишем эту процедуру подробнее.

Пусть T = \ti j представляет множество слов, которые встречаются в коллекции документов D. Каждому документу d^ £ D сопоставляется вектор dfc =(cq,Xi,..., Xn) П -мерного пространства (n = |T|), где Xi - вес слова ti £ T

в документе d k , вычисленный посредством метода tf-idf.

Для статистического анализа частоты употребления слов в документе по отношению к коллекции документов (корпус), рассмотренный в [7], удобно использовать метод TF-IDF. С помощью данного метода можно получить вес каждого термина по соотношению к корпусу. Для этого термину добавляется вес за количество раз, которое он появляется в

данном документе, и убавляется за количество других документов, в которых этот термин употребляется.

TF (от англ. — частота слова) — численное значение вхождения заданного слова в текущем документе. Рассчитывается по формуле:

П

TF =

S

n

(1)

к

где

ni -

количество вхождений данного

слова, П^ — общее число слов в документе [6].

IDF (от англ. — обратная частота документа) — численное значение, показывающее, с какой частотой данное слово встречается во всех исходных документах. Расчётная формула:

IDF = log

V di J

(2)

где D — общее количество документов, а dj — документы, в которых встречается данное слово [6].

Конечное значение коэффициента TFIDF равно произведению выше представленных (1) и (2) множителей

TFIDF = TF ■ IDF (3)

Больший вес получают слова с высокой частотой в пределах данного документа и с низкой частотой в пределах всего набора документов. Каждое слово становится ключом в карте, а количество вхождений — значением.

В результате, векторная модель использует вес (частоту) терма, чтобы определить его важность в документе. Для вычисления значений меры сходства между объектами предлагается использовать кластерный анализ текстовых документов с учетом

Кластерный анализ текстовых документов

Кластерный метод - это многомерная статистическая процедура, которая выполняет сбор данных, содержащих информацию о выборке объектов, а затем упорядочивает объекты в сравнительно однородные группы [5]. Для проведения кластеризации текстовых документов необходимо выполнить следующие операции:

1) Выборка объектов (учебных программ дисциплин) для кластеризации;

2) Определение множества переменных, по которым оцениваются отобранные силлабусы;

3) Вычисление значений меры сходства между силлабусами;

4) Применение кластерного анализа для создания групп сходных объектов (кластеров)

На этапе кластерного анализа использовалась мера косинусного сходства векторов. Косинусное сходство - это мера сходства между двумя векторами предгильбертового пространства, которая используется для измерения косинуса угла между ними [5]. Если даны два вектора признаков, А и В, то косинусное сходство, cos(9), может быть представлено с использованием скалярного произведения и нормы [5]:

cos1

(ß)=

у A x B

Z-ii=i i i

aS(A7 x-jEii в )2

(4)

По структуре множества кластеров алгоритмы кластеризации могут порождать плоскую кластеризацию или иерархическую кластеризацию. Иерархическая кластеризация подразумевает наличие дерева вложенных кластеров. Расстояние от нового кластера Ж до любого другого кластера 5 вычисляется по расстояниям Я(и, V), Я(и, 5), Я(У, 5) , которые должны быть известны к этому моменту:

весовых коэффициентов отдельных слов в корпусе.

R(U ^V, S) = аи R(U, S)+av R(V, S ) + f3R(U, V)+\ R(U, S) - R(V, S J

(5)

где , СИ у ,Р,у - числовые параметры. Данная универсальная формула для вычисления межкластерных расстояний была предложена в работе Ланса и Уильямса в 1967 году.

R(W-S)-wkSS^4 *

Существует ряд способов вычисления расстояний Я(Ж, 5) между кластерами Ж и 5 , для каждого из них доказано соответствие формуле Ланса-Вильямса при определенных сочетаниях параметров. В свою очередь, среднее расстояние вычисляется формулой:

М _ _ V

и \ттгI , *V

W V W

, ß = r = 0 (6)

В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них.

Для реализации вышеуказанных методов использовалась библиотека scipy.cluster языка Python. Результаты экспериментальных работ Выборка объектов для кластеризации подразумевает формирование вектора ключевых слов из базы данных профессиональных компетенции выбираемых пользователем. Выборка осуществляется

на основе базы данных модели компетенций, представляющие все ключевые аспекты управления и формирования образовательных программ.

Взаимодействие базы данных с блоком визуализации организовано с помощью команды выборки, которая в свою очередь, выполняет функцию преобразования входного текста в матрицу, значениями которой, являются количества вхождения данного терма (слова) в текст.

Например, для формирования вектора Т = ¿2,...,*п } ключевых слов были выбраны

компетенции ['Жизненный цикл программного обеспечения', 'Программное обеспечение и его функциональные возможности', 'Методы выявления требований к программному обеспечению']. Предложенный алгоритм сравнивает слова из текста коллекции документов со словами из вектора ключевых слов и строит частотную матрицу. Затем находит среди них слова с максимальным числом вхождений в текст. Согласно критерию наличия удельного веса ключевых слов были отобраны наиболее подходящие к компетенциям дисциплины. Удельный вес служит показателем частотного явления, то есть количество элемента в суммарном объеме совокупности. Здесь необходимо отметить, что нулевые строки соответствуют сил-лабусам, не соответствующим ни одной компетенции, так как они не рассматриваются для дальнейшего анализа, следовательно, такие строки удаляются.

Также могут быть нулевые столбцы, которые определяют не охваченные компетенции, в таком случае необходимо добавить силлабусы формируемые данную область знаний. Получаем частотную матрицу из 10 строк, в которой строки соответствуют силлабусам из коллекции, столбцы соответствуют терминам, которые были отобраны в соответствие с предложенным алгоритмом (компетенции). Следовательно, тематический близких документов можно увидеть по частотному графику (рис. 1).

Из векторов была составлена матрица, в которой каждая строка представляла собой отдельный документ. В целях получения матрицы по информативным признакам, были проведены некоторые операции фильтрации, такие как удаление малоинформативных столбцов, т.е. термины, которые встречались только в одном силлабусе, не являются общепризнаковыми, они были удалены.

Рисунок 1 Частотный график

В результате получаем матрицу весов размером (10, 129), строки, которых соответствуют сил-

лабусам из выборки, столбцы соответствуют общепризнаковым терминам в коллекции. Данная матрица для решаемой задачи приведена на таблице 1.

Таблица 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Наименование документов алгоритм анализ безопасность ввод ветвление взаимодействие 4 5 «

^-инфраструктура 2019.txt 0 0,0668 0,0102 0,0205 0 0,0311 0,0083

АСДП.Ш 0,1529 0 0 0,0434 0,0745 0 0,0117

Искусств Интеллект аудита 0,0371 0 0 0,0205 0 0 0

Методы исследования операций^ 0,1151 0,0493 0 0,0363 0,0612 0 0

Моделирование АнализПОЛй 0,0098 0,1282 0,0121 0 0,0156 0 0,0098

Проектирование ИС рус.Ш 0 0,0951 0,0167 0,0669 0 0,0215 0,0135

Искусств Интеллект менеджмент^ 0,0379 0 0 0,0209 0 0 0

СППР.Ш 0,0343 0,1375 0 0,0190 0 0 0

Операционные системы^ 0 0,1743 0,0143 0,0572 0 0,0368 0,0581

СУБД Oracle.txt 0 0 0 0 0 0 0,0285

Теперь, когда задача выбора переменных (признаков) и объектов (учебных программ дисциплин) выполнены, можно переходить к вычислениям значений меры сходства между силлабусами. Как уже

отмечалось, используется мера косинусного сходства векторов. Полученная матрица (рис.2) весов была обработана с помощью функции cosine_simi-larity, которая на вход принимает матрицу весов

векторов, и возвращает матрицу косинусных расстояний.

На рис.2 приведена матрица косинусных расстояний, полученная в процессе тестирования из выборки 10 учебных программ дисциплин. В ходе проведения исследования данных, было выявлено,

что документы под индексами 2 и 6 являются наиболее схожими. Для более наглядного представления можно использовать графическое изображение результатов вычисления - дендрограмму (рис.3).

0 1 2 3 4 5 6 7 8 9

0 1.0000 0.3692 0.3714 0.3823 0.3297 0.4287 0.3768 0.3266 0.4577 0.0847

1 0.3692 1.0000 0.4502 0.5398 0.6298 0.1368 0.4543 0.3997 0.3682 0.2862

2 0.3714 0.4502 1.0000 0.4787 0.5205 0.2437 0.9970 0.6144 0.5709 0.0937

3 0.3823 0.5398 0.4787 1.0000 0.6503 0.1213 0.4822 0.6052 0.3536 0.0964

4 0.3297 0.6298 0.5205 0.6503 1.0000 0.1488 0.5235 0.5125 0.4511 0.1256

5 0.4287 0.1368 0.2437 0.1213 0.1488 1.0000 0.2508 0.1325 0.3399 0.1504

6 0.3768 0.4543 0.9970 0.4822 0.5235 0.2508 1.0000 0.5935 0.5757 0.0966

7 0.3266 0.3997 0.6144 0.6052 0.5125 0.1325 0.5935 1.0000 0.4032 0.0788

8 0.4577 0.3682 0.5709 0.3536 0.4511 0.3399 0.5757 0.4032 1.0000 0.0243

9 0.0847 0.2862 0.0937 0.0964 0.1256 0.1504 0.0966 0.0788 0.0243 1.0000

Рисунок 2. Матрица косинусных расстояний

Рисунок 3 Дендрограмма кластеризации учебных программ дисциплин

Из рис.3 видно, что в дендрограмме объекты могут располагаться вертикально или горизонтально. Рассмотрим вертикальную дендрограмму, числа 9, 1, 3, 8, 7 и т.д. соответствуют номерам объектов (документов). На первом шаге каждое наблюдение представляет один кластер (вертикальная линия), на втором шаге объединение таких наблюдений: 2 и 6; 3 и 4; и 5; 8 и 9;. На следующем шаге продолжается объединение в кластеры: наблюдения 1, 3 и 4, 8, 7 и 9 и т.д. Данный процесс продолжается до тех пор, пока все наблюдения не объединятся в один кластер.

Следующий этап подразумевает построение матрицы смежности с помощью попарного сравнения силлабусами. На основе матрицы смежности можно посторить ориентированный граф, позволяющий представить связь между силлабусами. Предполагается, что вершины соответствуют доку-

ментам анализируемого корпуса, а ребра соответствуют связям между документами. При этом, можно заметить, что одна вершина может иметь как один, так и несколько входов. Это означает, что все вершины, которые входят в тот или иной компонент связности, принадлежат одному и тому же кластеру.

Заключение

Анализ существующих методов обработки текстовых документов показал, что существует ряд подходов, которые применимы для решения задачи формирования образовательных программ. В данной работе был применен метод кластеризации на основе векторной модели документа. Для получения векторной моделей и последующей кластеризации документов было разработано программное приложение на языке Python на основе концепции MVC, который позволило выявить соответствующие рабочие учебные программы дисциплин для

формирования профессиональных компетенции образовательных программ высшего образования, а также производит поэтапную обработку входных данных для формирования матрицы косинусных расстояний между векторами документов. Использованный метод иерархической кластеризации документов позволил выявить одинаковые по содержанию учебные программы дисциплин, с учетом контекста сущностей в документах при автоматическом извлечении сущностей и отношений между ними в условиях образовательных программ предметной области образования без трудоемкой переработки и адаптации баз знаний.

В перспективе ставится задача дальнейшей обработки ориентированного графа для построения последовательности изучаемых дисциплин. Предполагается, что будет использоваться алгоритм топологической сортировки графа.

Работа выполнена в рамках проекта «Modernization of Higher Education in Central Asia through New Technologies» No.598092-EPP-1-2018-1BG-EPPKA2-CBHE-SP.

Список литературы

1. Bakanova A., Letov N.E., Kaibassova D., Kuzmin K.S., LoginovK.V., Shikov A.N. The use of Ontologies in the Development of a Mobile E-Learning Application in the Process of Staff Adaptation, International Journal of Recent Technology and Engineering (IJRTE) ISSN: 2277-3878, Volume-8 Issue-2S10, September 2019

2. Botov D., Klenin J. Educational Content Semantic Modelling for Mining of Training Courses according to the Requirements of the Labor Market // Proceedings of the 1st International Workshop on Technologies of Digital Signal Processing and Storing, Russia, Ufa, UGATU, 2015. - pp. 214-218.

3. Chung H., Kim J. An Ontological Approach for Ssemantic Modelling of Curriculum and Syllabus in Higher Education // International Journal of Information and Education Technology. Vol. 6, no. 5. 2016. - pp. 365-369.

4. Yoshitatsu Matsuda, Takayuki Sekiya, Ka-zunori Yamaguchi. Curriculum Analysis of Computer Science Departments by Simplified, Supervised LDA // Journal of Information Processing. Vol.26 June 2018. -pp. 497-508

5. Liu Xiaoyong, Croft W Bruce. Cluster-based retrieval using language models. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. ACM. 2004, pp. 186-193.

6. Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Са-пин А.С., Автоматическая обработка текстов на естественном языке и анализ данных: уч.пособие, М.: НИУ ВШЭ, 2017. - 269 с.

7. Кайбасова Д.Ж. «Предварительная обработка коллекции рабочих учебных программ дисциплин для формирования корпуса текстов» - Вестник КазНИТУ, № 6 (136) декабрь, 2019, стр. 541546, ISSN 1680-9211

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кайбасова Д. Ж.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кайбасова Д. Ж.

EXTRACTION OF STATISTICAL DATA FOR DETERMINING THE UNIQUENESS OF DOCUMENTS BASED ON ANALYSIS OF THE CONTENT OF EDUCATIONAL PROGRAMS OF DISCIPLINES

Текст научной работы на тему «Извлечение статистических данных для определения уникальности документов на основе анализ контента учебных программ дисциплин»