Научная статья на тему 'Построение рекомендательной системы по подбору высших учебных заведений для абитуриентов'

Построение рекомендательной системы по подбору высших учебных заведений для абитуриентов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1444
186
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОКРИТЕРИАЛЬНЫЙ ВЫБОР / СУЖЕНИЕ МНОЖЕСТВА ПАРЕТО / МЕТОД АНАЛИЗА ИЕРАРХИЙ / РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ / MULTI-CRITERIA CHOICE / THE PARETO SET REDUCTION / ANALYTIC HIERARCHY PROCESS / RECOMMENDER SYSTEMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Белоцкий Евгений Александрович, Суетин Артем Валерьевич

Принятие важных решений часть повседневной жизни, но с ростом числа вариантов и сложности выбора люди могут прибегать к помощи разных сервисов, чтобы упростить данный процесс. Рекомендательные системы пример таких сервисов. Они используются для решения различных задач, широко распространены в настоящее время, и области их применения все еще расширяются. Задача подбора высших учебных заведений накладывает ограничения на методы получения рекомендаций, потому системы такого рода являются редкими и не дают возможности осуществить достаточно глубокий анализ для получения пользователем необходимой информации и приемлемых вариантов. Создание системы, решающей данную задачу, требует подхода, отличного от наиболее распространeнных. В статье рассматривается создание рекомендательной системы, основанной на следующих методах: методе расстояний, аксиоматическом методе сужения множества Парето и методе анализа иерархий. Статья представляет основную информацию о методах и отражает результаты их реализации в системе. Библиогр. 13 назв. Ил. 2. Табл. 1.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

СONSTRUCTION OF A RECOMMENDER SYSTEM FOR CHOOSING HIGHER EDUCATION INSTITUTIONS FOR ENTRANTS

Making important decisions is part of everyday life, but with the rising of a number of options and complexity of choices people can use help of a variety of services to simplify that process. Recommender systems are an example of such services. These systems are used for solving different kinds of problems, they are widespread today, and fields of their application are still being broadened. The task of choosing higher education institutions restricts methods of obtaining recommendations, therefore systems of that kind are rare and do not provide ability of analysis deep enough to give users necessary information and acceptable options. Creation of system with higher complexity for this problem requires an approach, which differs from the most common. This article considers the creation of recommender system based on three methods: the “distance” method, multi-criterion analysis, and the analytic hierarchy process. The article offers the basic information on methods and represents the results of their implementation within the system. Refs 13. Figs 2. Table 1.

Текст научной работы на тему «Построение рекомендательной системы по подбору высших учебных заведений для абитуриентов»

2016 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА Сер. 10 Вып. 1

ИНФОРМАТИКА

УДК 004.9

Е. А. Белоцкий, А. В. Суетин

ПОСТРОЕНИЕ РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ ПО ПОДБОРУ ВЫСШИХ УЧЕБНЫХ ЗАВЕДЕНИЙ ДЛЯ АБИТУРИЕНТОВ

Санкт-Петербургский государственный университет, Россия, 199034, Санкт-Петербург, Университетская наб., 7—9

Принятие важных решений — часть повседневной жизни, но с ростом числа вариантов и сложности выбора люди могут прибегать к помощи разных сервисов, чтобы упростить данный процесс. Рекомендательные системы — пример таких сервисов. Они используются для решения различных задач, широко распространены в настоящее время, и области их применения все еще расширяются. Задача подбора высших учебных заведений накладывает ограничения на методы получения рекомендаций, потому системы такого рода являются редкими и не дают возможности осуществить достаточно глубокий анализ для получения пользователем необходимой информации и приемлемых вариантов. Создание системы, решающей данную задачу, требует подхода, отличного от наиболее распространенных. В статье рассматривается создание рекомендательной системы, основанной на следующих методах: методе расстояний, аксиоматическом методе сужения множества Парето и методе анализа иерархий. Статья представляет основную информацию о методах и отражает результаты их реализации в системе. Библиогр. 13 назв. Ил. 2. Табл. 1.

Ключевые слова: многокритериальный выбор, сужение множества Парето, метод анализа иерархий, рекомендательные системы.

E. A. Belotskiy, A. V. Suetin

СONSTRUCTION OF A RECOMMENDER SYSTEM FOR CHOOSING HIGHER EDUCATION INSTITUTIONS FOR ENTRANTS

St. Petersburg State University, 7—9, Universitetskaya nab., St. Petersburg, 199034, Russia

Making important decisions is part of everyday life, but with the rising of a number of options and complexity of choices people can use help of a variety of services to simplify that process. Recommender systems are an example of such services. These systems are used for solving different kinds of problems, they are widespread today, and fields of their application are still being broadened. The task of choosing higher education institutions restricts methods of obtaining recommendations, therefore systems of that kind are rare and do not provide

Белоцкий Евгений Александрович — аспирант; [email protected] Суетин Артем Валерьевич — аспирант; [email protected]

Belotskiy Evgeniy Aleksandrovich — post-graduate student; [email protected] Suetin Artem Valeryevich — post-graduate student; [email protected] © Санкт-Петербургский государственный университет, 2016

ability of analysis deep enough to give users necessary information and acceptable options. Creation of system with higher complexity for this problem requires an approach, which differs from the most common. This article considers the creation of recommender system based on three methods: the "distance" method, multi-criterion analysis, and the analytic hierarchy process. The article offers the basic information on methods and represents the results of their implementation within the system. Refs 13. Figs 2. Table 1.

Keywords: multi-criteria choice, the Pareto set reduction, analytic hierarchy process, recommender systems.

1. Введение. Проблема выбора оптимального решения актуальна во многих сферах жизни человека: начиная от отбора товаров в магазине и заканчивая определением наилучшей стратегии развития предприятий. Обычно сложность выбора продиктована следующими причинами:

• большой объем объектов, среди которых производится отбор;

• недостаточный или некорректный набор информации об объектах, необходимый для адекватного их сравнения;

• ограничение по времени, которое можно затратить на анализ;

• компетентность лица, производящего сравнение и выбор.

Для решения большей части проблем такого рода используются рекомендательные системы.

Рекомендательная система — это компьютерная программа, которая на основе информации о пользователе, желающем произвести выбор, и объектах выбора строит конкретные рекомендации. Тем самым достигается сужение искомого множества объектов, и перед пользователем появляются только «оптимальные» с точки зрения системы варианты. Объектами могут выступать книги, музыка, веб-сайты, товары и т. д. [1].

В качестве предметной области в настоящей работе рассматривалась задача подбора высших учебных заведений для абитуриентов по имеющейся информации об их результатах, достижениях и интересах. Существующие приложения и сервисы подобного рода в основном предлагают возможность фильтрации или сортировки с использованием одного или нескольких параметров и не предоставляют достаточной помощи в выборе, особенно если абитуриент имеет неглубокие знания о данной области. Такие системы скорее позволяют упростить выбор для абитуриента, определившегося с требуемыми от вуза параметрами и разобравшегося в специфике вопроса самостоятельно.

Существует несколько наиболее известных проектов в других областях, успешно использующих рекомендательные системы, — Имхонет, Last.fm, IMDB, Surfingbird. Они построены главным образом на алгоритме коллаборативной фильтрации: на основании оценок определенных товаров или объектов, принадлежащих одной группе пользователей, предсказываются предпочтения целевого пользователя. Большая часть рекомендательных систем, внедренных в различных сферах, базируется на кол-лаборативной фильтрации или использует ее в сочетании с другими методами, делая данный алгоритм наиболее применяемым и удачным методом для построения рекомендаций [2]. Но для решения поставленной ниже задачи этот метод не подходит в силу его особенностей.

Алгоритм коллаборативной фильтрации обладает гибкостью и показывает хорошие результаты во многих областях, однако он имеет ряд недостатков, таких как проблема холодного старта (необходимость накопления начальной базы оценок для получения рекомендаций) и разреженность матрицы рейтингов [1, 3]. Для его эффективной работы нужна информация об оценках пользователями определенных пред-

метов. В случае выбора вуза для последующего обучения подразумевается разовое применение системы пользователем, поэтому постоянно получать оценки в достаточном количестве невозможно.

В п. 2 и далее решалась задача создания рекомендательной системы, основанной на контенте (content-based), в силу качеств таких систем, соответствующих особенностям области получения рекомендаций в разрабатываемой системе [4]. Подобные системы не зависят от информации о предшествующем поведении пользователей, но нуждаются в данных об объектах для формирования рекомендаций, а корректность информации прямо влияет на качество результата. Была разработана система, в основе которой лежат сразу несколько методов выдачи рекомендаций: метод расстояний, аксиоматический метод сужения множества Парето и метод анализа иерархий [5, 6]. Также проводилось сравнение результатов в условиях авторского эксперимента.

Под задачей подбора вуза для абитуриента не стоит подразумевать выбор вуза как такового. Выбирая вуз, абитуриент отбирает его из вузов, имеющих конкретные направления обучения и специальности. Таким образом, выбор вуза по сути является задачей отбора из множества направлений обучения, принадлежащих различным вузам. Именно по этой причине речь будет идти скорее о направлениях обучения и методах рекомендаций, связанных с ними, нежели о самих вузах.

В описанной ниже системе предпринята попытка предоставить пользователю конкретные варианты, выбранные по множеству параметров, и информацию по ним. Система проводит анализ всех предоставленных данных, и пользователю дается представление о том, какие области, возможно, будут ему наиболее интересны и какие направления обучения лучше соотносятся с его достижениями и качествами.

2. Структура системы. Были реализованы три метода выдачи рекомендаций: расстояний, аксиоматический метод сужения множества Парето и метод анализа иерархий. Они, как и во многих системах такого рода, не используют данные об объектах напрямую. Идея векторов характеристик, применяющихся для расчетов в представленных методах, будет описана в п. 3.

Стоит уточнить, что основными объектами в системе являются абитуриенты и учебные направления, и для тех, и для других строятся векторы характеристик. Отметим, что даже в пределах одного вуза на разных факультетах могут встречаться одинаковые направления обучения, однако для рассматриваемой системы чрезвычайно важны различия в требованиях направлений и на разных факультетах, и между самими факультетами, так же как и между вузами. Поэтому любое учебное направление конкретного факультета каждого вуза представлено в системе отдельно; таким образом, между векторами характеристик направлений и направлениями обучения установлено взаимно-однозначное соответствие, как и между векторами характеристик абитуриентов и самими абитуриентами.

3. Вектор характеристик. В описываемой задаче мы имеем разрозненные наборы информации, характеризующей пользователя (баллы ЕГЭ, школьные оценки и пр.) и учебные направления (требуемые предметы по ЕГЭ, средний проходной балл). В таком виде сложно производить сравнение и выдавать рекомендации. Кроме того следует учитывать, что данные об успеваемости, результаты ЕГЭ и другую информацию такого рода невозможно напрямую связать с требованиями вузов и сведениями о направлениях обучения. Для решения вышеперечисленных проблем и предоставления удобного механизма «сравнения» абитуриентов с учебными направлениями было решено использовать векторы характеристик.

Вектор характеристик — это вектор заданной размерности, который будет характеризовать нашего абитуриента или учебное направление. Для его построения используются, с одной стороны, вышеописанные разрозненные наборы информации, а с другой — весовые коэффициенты, отвечающие за вклад каждого элемента из имеющихся наборов информации в конечный результат. Итоговые значения этих величин, полученные при учете всей доступной информации об абитуриенте суммированием с нормализацией, введенной для учета таких аспектов как возможность предоставления различного количества информации пользователями, разный уровень значимости одних результатов относительно других (например, приоритет результата во всероссийской олимпиаде над результатом в городской) и прочих, образуют необходимый для сравнения вектор. Каждый элемент вектора соответствует некоторой области знаний. Набор областей знаний в данной работе был составлен в соответствии с предметами ЕГЭ в Российской Федерации. Для построения вектора характеристик для абитуриента могут использоваться следующие сведения: оценки, результаты ЕГЭ, результаты участия в олимпиадах и конкурсах, посещение секций, хобби и т. п. (разработанная система позволяет расширять этот список). Для построения аналогичного вектора со стороны направления обучения применяются данные о проходном балле и требуемых для поступления экзаменах, а также порядок приоритета этих экзаменов, задаваемый при регистрации направления обучения в системе.

Пример схемы вычисления приведен на рис. 1. По этой схеме можно проследить, какое влияние на вектор характеристик абитуриента имеет результат ЕГЭ по математике. В данном примере видно, что он будет учтен в компонентах вектора, соответствующих областям знаний «Математика», «Информатика» и «Физика», но наиболее большой вклад будет в первой. В разработанной системе веса могут отличаться от приведенных в примере, потому используются более сложные схемы для некоторых наиболее весомых категорий данных абитуриента.

ЕГЭ

Прочее

Математика

Русский язык

Область знаний «Математика», вес 0.4

Область знаний «Информатика», вес 0.3

Информатика

Область знаний «Физика», вес 0.3

Прочее

Рис. 1. Упрощенная схема вычисления вектора характеристик

Стоит заметить, что определение весовых коэффициентов, наиболее точно передающих характер зависимости между сведениями об успехах, успеваемости и интересах человека и его склонностью к определенным областям знаний, лежит в области изучения статистики. Задача поиска зависимостей такого рода не относится к тематике, к которой принадлежит настоящая работа, и требует отдельного исследования. Коэффициенты были подобраны опытным путем в условиях проверки работы системы на начальном наборе данных.

Стоит также упомянуть, что работа [7] и схожие по тематике представляют решение задачи с подбором рекомендаций с учетом множества различных категорий информации с использованием характеристических векторов, однако в них также большую роль играет информация о поведении пользователя, например сопоставление нескольких рекомендуемых объектов уже выбранному пользователем, что не соответствует поставленной задаче. Но при дальнейшем развитии рассматриваемой системы возможно расширение методов построения рекомендаций за счет оценок и информации о поведении пользователя. В таком случае будут полезны современные решения и наработки из подобных работ.

4. Метод расстояний. Данный метод — самый простой из представленных для выдачи рекомендаций. Суть его работы: с помощью выбранной метрики (евклидовой, чебышевой, городских кварталов и пр.) вычисляется расстояние между пользователем и разными учебными направлениями. Координатами пользователей и учебных направлений служат связанные с ними векторы характеристик. При расчете рекомендаций для пользователя определяются расстояния от точки, координатами которой являются значения компонент его вектора характеристик, до точек, соответствующих различным направлениям обучения, из которых необходимо произвести выбор. Для поиска подходящих абитуриентов на конкретное направление обучения расстояния определяются по аналогии. Полученный результат сортируется в порядке возрастания и выводится как рекомендация (самые близкие — наиболее предпочтительные).

Пример результатов, выдаваемых методом расстояний

Вуз Факультет или направление Учебное направление или специализация Расстояние

МГУ Факультет вычислительной математики и кибернетики Прикладная математика и информатика Фундаментальная информатика и информационные технологии 311.534 314.914

СПбГУ М атемати ко- механический факультет Прикладная математика и информатика Фундаментальная информатика и информационные технологии 359.358 361.751

Как следует из таблицы, наиболее высокими значениями обладали связанные с информатикой данные (результаты ЕГЭ, оценки, участие в олимпиадах). Таблица дана для представления; в разработанной системе пользователям предоставляются результаты с большим количеством пунктов, а также могут быть приведены дополнительные сведения о направлении, например его официальный код. После изучения результатов работы системы с каждой из метрик основной была выбрана метрика городских кварталов, однако при необходимости использовать можно и алгоритмы евклидовой и чебышевой метрик.

5. Аксиоматический метод сужения множества Парето. Следующий метод многокритериального анализа основан на принципе Эджворта-Парето, согласно которому наилучшие решения следует выбирать среди парето-оптимальных. Теоретическая составляющая аксиоматического метода сужения множества Парето, границы его применимости, основные понятия, аксиомы и доказательства, а также особенности задач многокритериального выбора хорошо описаны в работах В. Д. Ногина [5, 8, 9].

Для начала сопоставим терминологию текущей задачи с применяемой в работе [5]:

• множество возможных решений в контексте данной работы является множеством учебных направлений;

• векторный критерий — векторная характеристика направления;

• отношение предпочтения — значение, вычисляемое на основе векторной характеристики абитуриента.

Далее рассмотрим шаги метода последовательного сужения множества Парето.

1. Выявление информации о предпочтительности критериев. В результате выявления должен быть получен коэффициент компромисса критериев в^. Его значение является показателем большей значимости г-го критерия в сравнении с j-м. Суть этого коэффициента — показать, насколько мы готовы пожертвовать одной группой информации ради другой в нашем векторном критерии (например, насколько для абитуриента один предмет важнее другого).

Как отмечено в работе [5, с. 128], «наиболее распространенный путь выявления этой информации — прямой опрос ЛПР» (ЛПР — лицо, принимающее решение). В данной задаче прямой опрос не применяется по следующим соображениям:

• облегчение взаимодействия пользователя с системой. Ему не требуются дополнительные манипуляции, чтобы получить результат;

• ЛПР в лице абитуриента не гарантирует верность предоставляемых данных. Он может не знать, чего на самом деле хочет, или ошибаться в своих пожеланиях.

Вместо прямого опроса в разработанной системе было решено использовать вычисленные векторы характеристик:

а) вектор характеристик пользователя. Все компоненты вектора разбивают

на две группы — более значимые (с максимальными значениями весов, в определенном диапазоне) и менее значимые (все остальные, с меньшими весами);

б) коэффициент компромисса в^

А

% = /т, ;,, ^ €(0,1), (1)

где V — вес г-го более значимого коэффициента, — вес ^го менее значимого

коэффициента.

2. Пересчет критериев. Менее важный ^й критерий в общем списке критериев /ь/2,... ,1т заменяется вычисленным по формуле

/ = вЦ /г + (1" вЦ )/. (2)

3. Построение нового множества Парето. Далее следует найти множество Парето относительно нового векторного критерия (см. (2)). Алгоритм построения множества Парето подробно описан в [5] и не нуждается в повторном изложении.

4. Завершение алгоритма.

В случае, если результат не удовлетворял ЛПР, в [5] все вышеперечисленные шаги повторялись до тех пор, пока результат не начинал устраивать ЛПР. При этом в качестве множества возможных решений использовалось решение, полученное на предыдущем шаге.

В работе [10] отражены одни из более поздних достижений в развитии данного подхода, а конкретно предлагается метод сужения множества Парето, который применяет произвольный набор непротиворечивых квантов информации — наборов

чисел, один из которых указывает верхние допустимые пределы потерь для ЛПР по группе мало значимых критериев, а второй — величины выигрышей для принципиально значимых критериев, меньшие или равные которым ЛПР желало бы получить, идя на компромисс.

В настоящей работе для упрощения взаимодействия с абитуриентом (ЛПР), а также в связи с использованием вектора характеристик применяется один проход данного алгоритма, без повторных итераций. По этой же причине не рассматривались последние его усовершенствования, описанные в [10].

Аксиоматический метод сужения множества Парето предполагает принятие четырех аксиом «разумного» выбора [5]. Построение и сравнение векторов характеристик в реализации метода и расчеты с их помощью позволили вписаться в рамки аксиом. Используемое ЛПР отношение предпочтения (1) удовлетворяет этим аксиомам.

Стоит упомянуть, что для достижения наилучших результатов в случае недостаточности информации для приемлемого сужения множества вариантов выбора следует осуществлять комбинацию данного метода с другими, что возможно в условиях разработанной системы. Например, метод расстояний и метод анализа иерархий могут получать в качестве начальных данных различные множества, и при необходимости множество, найденное при использовании аксиоматического подхода к сужению множества Парето, можно считать начальным.

6. Метод анализа иерархий. Данный метод — математический инструмент для решения широкого класса задач принятия решений, позволяющий распределить альтернативы, сравниваемые по многим критериям. В его основе лежит структурирование задачи в виде многоуровневой иерархии. Метод дает возможность сочетать критерии, как основанные на численных сравнениях, так и такие, по которым невозможно прямое численное сравнение.

Алгоритм метода, применительно к системам принятия решений, подробно описан Т. Саати [6, 11] и в других источниках. В качестве цели может быть принят выбор как наиболее предпочтительного направления обучения, так и подбор кандидатов на поступление. Возможными альтернативами, таким образом, являются наборы направлений обучения или абитуриентов. Система может использовать различные наборы альтернатив, например множество, полученное в результате работы метода многокритериального анализа.

В разработанной системе для ранжирования направлений обучения абитуриентами была реализована иерархия из трех уровней, а для ранжирования абитуриентов — из двух. На верхнем уровне расположена основная цель — выбор направления обучения или абитуриента, на втором — критерии, на третьем — подкритерии, свойственные некоторым критериям. В настоящей статье в системе для использования абитуриентами был реализован метод анализа иерархий структуры, представленной на рис. 2.

Поясним показанные на рис. 2 критерии.

Критерий сложности обучения подразумевает, что обучение на направлении происходит в соответствии с возможностями поступивших на него учащихся, таким образом, для успешного обучения необходим результат, равный или боольший, чем проходной балл. Критерий использует данные о результатах ЕГЭ абитуриента и проходной балл прошлых лет, а также учитывает пожелания пользователя относительно сложности обучения (может дать приоритет альтернативам, где обучение будет несколько

Рис. 2. Структура вычисления метода анализа иерархий для выбора направления обучения

проще, чем при абсолютном соответствии проходных баллов результатам абитуриента). Оптимальными считаются направления, в которых разница между значением проходного балла и желаемой сложностью обучения является минимальной.

Критерий совпадения интересов пересекается с методом расстояний, он использует вектор характеристик, рассчитанный с помощью измененного набора данных, чтобы предоставить возможность сравнения тех, которые больше характеризуют интересы пользователя, а не его результаты (например, баллы ЕГЭ не учитываются в этом критерии).

В третьем критерии принимаются во внимание рейтинг вуза и информация о популярности факультета, получаемые из открытых источников.

Критерий расположения вуза может учитывать расстояние от определенного города до города, в котором находится вуз, если так понадобится пользователю. Таким образом, пользователь может получать рекомендацию, в которой вузы, находящиеся ближе к его родному городу, будут иметь более высокие позиции.

Для предоставления рекомендации представителям факультетов, заинтересованным в приглашении абитуриентов, применяются первые два из перечисленных критериев почти без изменений, а вместо последнего — критерий места проживания абитуриента, учитывая который система может предоставлять приоритет неиногородним студентам, что может понадобиться, если в университете существует проблема недостатка мест в общежитиях.

По каждому критерию альтернативы проводят парное сравнение по заданному правилу. Исходя из результатов данного сравнения, высчитывается приоритет каждой альтернативы относительно критериев, а впоследствии и относительно главной цели. Определение собственных векторов матриц парных сравнений, требующееся в процессе расчетов, приближено методом численных оценок, подходящим для положительно определенных обратно-симметричных матриц [12]. Отсортированный по приоритету список альтернатив позволяет заинтересованному лицу выбрать наилучший вариант из нескольких наиболее предпочтительных по мнению системы.

В работе [13] рассматривается недостаток метода анализа иерархий, связанный с возможным нарушением свойства совместности матриц парных сравнений на основе экспертных оценок. В рамках данной работы применяется автоматический алгоритм заполнения матриц парных сравнений, не нарушающий свойства совместности при использовании корректных данных, что позволяет избежать описанных проблем, возникающих при обычном алгоритме расчетов для метода анализа иерархий.

Метод анализа иерархий с критериями, учитывающими данные, обычно используемые для фильтрации, позволил получить более гибкую систему ранжирования

альтернатив, не игнорирующую такие варианты как, например, направления обучения, не удовлетворяющие по одному формальному признаку, но превосходящие другие альтернативы по остальным. Варьирование приоритетов критериев относительно друг друга позволяет установить удовлетворяющую пользовательским требованиям в большей степени выборку, из которой можно найти наиболее приемлемый для пользователя вариант.

7. О подборе весов и заполнении данных. Подбор точных значений весовых коэффициентов, отображающих связь интересов людей и их успехов в различных областях науки, является задачей, достойной отдельного исследования в области, лежащей за пределами теории поиска оптимальных решений и информационных технологий. Для разработки и проверки работоспособности системы были использованы данные об оценках и баллах ЕГЭ абитуриентов и студентов, находящиеся в открытом доступе в Интернете.

Кроме того, к сожалению, сложно собрать актуальные данные об учебных направлениях и вузах: нет единого реестра учебных заведений с актуальной, полной и обновляемой информацией, имеют место ежегодные изменения в методике оценки ЕГЭ. Эти и многие другие факторы приводят к снижению эффективности системы.

В дальнейшем с целью решения вышеперечисленных проблем возможно развитие из рекомендательной системы, основанной на контенте (content-based), в гибридную (с помощью методов коллаборативной фильтрации для корректировки весов).

8. Сравнение результатов. В контексте решаемой задачи невозможно однозначно сравнить используемые подходы для построения рекомендации по следующим причинам:

1) аксиоматический метод сужения множества Парето не предназначен для выделения наилучшего решения или предоставления ранжированного списка, он лишь исключает неоптимальные варианты, уменьшая пространство выбора;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2) результаты методов расстояний и анализа иерархий возможно сравнить между собой, но получить точную экспертную оценку очень сложно — приходится учитывать множество факторов.

Для проверки корректности проводился сравнительный анализ результатов работы трех методов. Рассматривались два типа абитуриентов: с физико-математическим и с лингвистическим уклоном (различные данные заполнялись исходя из соображений соответствия возможным результатам абитуриентов). Также были проверены результаты с данными реальных людей, со стороны учебных направлений — более 60 учебных направлений разной направленности.

Метод аксиоматического сужения множества Парето на примере рекомендаций для абитуриента с преобладанием физико-математических достижений показал, что примерно 1 из 5 результатов содержал в рекомендованном подмножестве достаточное количество направлений, очевидно не сочетающихся с данными абитуриента. Это свидетельствует о недостаточности информации для необходимого сужения множества при некоторых данных пользователя, и в таких случаях необходимо либо увеличение количества сведений для построения рекомендации, либо же использование всех трех методов. В остальных случаях результаты работы метода в основном соответствовали ожидаемым.

Результаты, полученные методом расстояний и методом анализа иерархий, несколько отличаются, но оба метода на первых позициях выдают физико-математические направления для абитуриентов с соответствующими наборами данных. Для абитуриентов-лингвистов на первых позициях выдаются соответственно

лингвистические направления, а физико-математические оказываются в конце списка результатов. Более подробный анализ результатов выдачи не представил свидетельств наличия грубых ошибок в порядке предпочтительности и значительных отклонений от ожидаемого результата. По итогам индивидуальной оценки рекомендации удовлетворяют требованиям поставленной задачи, но для дальнейшего внедрения системы необходимо производить уточнение весовых коэффициентов, оказывающих сильное влияние на качество рекомендаций. Также может возникнуть необходимость пересмотра приоритетов и структуры критериев метода анализа иерархий.

В условиях особенностей и ограничений поставленной задачи нельзя провести точную оценку результатов работы системы. Сравнение представленной рекомендательной системы с существующими аналогами также невозможно по причине отсутствия подходящих рекомендательных систем. Большинство существующих решений из данной предметной области работают, используя в основном фильтрацию по количеству баллов ЕГЭ у абитуриента и проходных баллов вузов, или предоставляют возможность сортировки. Системы рекомендаций для других областей не имеют тех особенностей, которыми был обусловлен выбор методов в этой работе, что делает такое сравнение бессмысленным. Кроме того, замена предмета получения рекомендаций потребует глубокого изменения структуры приложения.

Для разработки системы брались данные об абитуриентах и студентах, находящиеся в открытом доступе, но их было решено не использовать для оценки точности работы системы, так как она была задумана как инструмент рекомендации, помогающей пользователю выбрать интересное для себя место обучения. Поступившие в ряде случаев могут быть недовольны своим выбором и не закончить обучение в вузе. Подгонка результатов системы под сведения о принятых на обучение или сравнение с ними имело бы смысл в системе, определяющей вероятность поступления пользователя на конкретные направления, но здесь такая задача не ставилaсь. Однако добавление оценок результатов полученной рекомендации после поступления могло бы серьезно помочь усовершенствовать систему в будущем.

Таким образом, результаты, выдаваемые всеми реализованными методами, можно назвать удовлетворительными, но очень сложно оценить их точность.

9. Техническая реализация. Описанная рекомендательная система была реализована в виде веб-сайта с возможностью регистрации абитуриентов и представителей вузов. Участники системы после регистрации могут вносить в систему необходимые сведения (характеристики и данные абитуриента, требования учебных направлений и т. п.), просматривать ориентацию по дисциплинам (вектор характеристик), а также получать рекомендации различными методами.

Веб-сайт построен на базе платформы Microsoft .NET 4.5.1, фреймворка веб-разработки ASP.NET MVC 5, базы данных MS SQL 2012 с ORM Entity Framework 6. Для реализации удобного и адаптируемого под мобильные платформы графического интерфейса использовался Twitter Bootstrap 3.

10. Заключение. Для решения задачи построения рекомендательной системы, облегчающей абитуриентам процесс поиска наиболее подходящих для них вузов, применялись и сравнивались три подхода к построению рекомендаций: метод расстояний, аксиоматический метод сужения множества Парето и метод анализа иерархий. Они были реализованы с учетом особенностей рассматриваемой задачи с использованием векторов характеристик.

В работе производилось краткое сравнение полученных результатов, выявлены недостатки и перспективы данных подходов. Создаваемая рекомендательная система

была реализована в виде веб-сайта, с возможностью регистрации участников, внесения данных об абитуриентах и учебных направлениях, а также получения пользователями рекомендаций.

Запуск приложения для эксплуатации абитуриентами и представителями вузов на данный момент не проводился. Тестовое приложение расположено в облачной платформе Microsoft Azure и доступно по следующему адресу: URL:https://optimaleducation.azurewebsites.net/.

Авторы благодарят за помощь в работе и подготовке статьи к публикации А. Б. Стученкова, старшего преподавателя кафедры технологии программирования Санкт-Петербургского государственного университета, а также рецензентов за полезные замечания.

Литература

1. Bobadilla J., Ortega F., Hernando A., Gutiérrez A. Recommender systems survey // Knowledge Based Systems. 2013. Vol. 46. P. 109-132.

2. Herlocker J. L., Konstan J. A., Terveen L. G., Riedl J. T. Evaluating Collaborative Filtering Recommender Systems // ACM Transactions on Information Systems. 2004. Vol. 22, N 1. P. 5-53.

3. Xiaoyuan Su, Khoshgoftaar T. M. A Survey of Collaborative Filtering Techniques // Advances in Artificial Intelligence. 2009. Vol. 2009. 19 p.

4. Melville P., Mooney R., Nagarajan R. Content-Boosted Collaborative Filtering for Improved Recommendations // Mater. of the conference. University of Texas. AAAI-02, Austin, TX, USA, 2002. P. 187-192.

5. Ногин В. Д. Принятие решений в многокритериальной среде: количественный подход. М.: Физматлит, 2005. 176 с.

6. Саати T. Л. Принятие решений. Метод анализа иерархий / пер. с англ. Р. Г. Вачнадзе. М.: Радио и связь, 1993. 278 с.

7. Дьяконов А. Г. Алгоритмы для рекомендательной системы: технология lenkor // Бизнес-информатика. 2012. № 1 (19). С. 32-39.

8. Ногин В. Д. Аксиоматический подход к сужению множества Парето: вычислительные аспекты // Intern. Journal "Information Theories and Applications". 2013. Vol. 20, N 4. P. 352-359.

9. Богданова А. В., Ногин В. Д. Сужение множества Парето на основе простейших наборов нечeткой информации об относительной важности критериев // Вестн. С.-Петерб. ун-та. Сер. 10. Прикладная математика. Информатика. Процессы управления. 2007. Вып. 2. С. 3-17.

10. Ногин В. Д. Алгоритм сужения множества Парето на основе произвольного конечного набора «квантов» информации // Искусственный интеллект и принятие решений. 2013. № 1. С. 63-69.

11. Saaty T. L. Decision making with the analytic hierarchy process // Intern. J. Services Sciences. 2008. Vol. 1, N 1. P. 83-98.

12. Терелянский П. В. Интерполяционный расчет правого собственного вектора положительной обратносимметричной динамической матрицы // Приложение к журн. «Современные проблемы науки и образования». URL: http://online.rae.ru/278 (дата обращения: 13.04.2015).

13. Ногин В. Д. Упрощенный вариант метода анализа иерархий на основе нелинейной свертки критериев // Журн. вычисл. математики и матем. физики. 2004. Т. 44, № 7. С. 1259-1268.

References

1. Bobadilla J., Ortega F., Hernando A., Gutierrez A. Recommender systems survey. Knowledge Based Systems, 2013, vol. 46, pp. 109-132.

2. Herlocker J. L., Konstan J. A., Terveen L. G., Riedl J. T. Evaluating Collaborative Filtering Recommender Systems. ACM Transactions on Information Systems, 2004, vol. 22, no. 1, pp. 5-53.

3. Xiaoyuan Su, Khoshgoftaar T. M. A Survey of Collaborative Filtering Techniques. Advances in Artificial Intelligence, 2009, vol. 2009, 19 p.

4. Melville P., Mooney R., Nagarajan R. Content-Boosted Collaborative Filtering for Improved Recommendations. Mater. of the conference, University of Texas, AAAI-02, Austin, TX, USA, 2002, pp. 187192.

5. Nogin V. D. Prinjatie reshenij v mnogokriterial'noj srede: kolichestvennyj podhod [Decision making in multicriteria environment: a quantitative approach]. Moscow, Fizmatlit Publ., 2005, 176 p. (In Russian)

6. Saaty T. L. The Analytic Hierarchy Process. New York, Mc Graw-Hill Press, 1980, 273 p. (Russ. ed.: Saaty T. L. Metod analiza ierarhii. Moscow, Radio i Svyaz Publ., 1993, 278 p.)

7. D'jakonov A. G. Algoritmy dlja rekomendatel'noj sistemy: tehnologija lenkor [Algorithms for a recommender system: lenkor technology]. Biznes-informatika [Business and computer science], 2012, no. 1 (19), pp. 32-39. (In Russian)

8. Nogin V. D. Aksiomaticheskij podhod k suzheniju mnozhestva Pareto: vychislitel'nye aspekty [Axiomatic approach to reduce the Pareto set: computational aspects]. Intern. Journal "Information Theories and Applications", 2013, vol. 20, no. 4, pp. 352-359. (In Russian)

9. Bogdanova A. V., Nogin V. D. Suzhenie mnozhestva Pareto na osnove prostejshih naborov nechjotkoj informacii ob otnositel'noj vazhnosti kriteriev [Reduction of the Pareto set based on simple sets of information about the relative importance of criteria]. Vestnik of Saint Petersburg State University. Series 10. Applied mathematics. Computer science. Control processes, 2007, issue 2, pp. 3-17. (In Russian)

10. Nogin V. D. Algoritm suzhenija mnozhestva Pareto na osnove proizvol'nogo konechnogo nabora "kvantov" informacii [Reducing of the Pareto Set Algorithm Based on an Arbitrary Finite Set of Information "Quanta"]. Iskusstvennyi intellekt i priniatie reshenii [Artificial Intellect and Decision Making], 2013, no. 1, pp. 63-69. (In Russian)

11. Saaty T. L. Decision making with the analytic hierarchy process. Intern. J. Services Sciences, 2008, vol. 1, no. 1, pp. 83-98.

12. Tereljanskij P. V. Interpoljacionnyj raschet pravogo sobstvennogo vektora polozhitel'noj obratno-simmetrichnoj dinamicheskoj matricy [Interpolation of the right eigenvector of positive antisymmetric dynamic matrix]. Prilozhenie k zhurn. "Sovremennye problemy nauki i obrazovaniia" [Supplement to the journal "Modern problems of science and education"]. Available at: http://online.rae.ru/278 [accessed: 13.04.2015]. (In Russian)

13. Nogin V. D. Uproshhennyj variant metoda analiza ierarhij na osnove nelinejnoj svertki kriteriev [A Simplified Variant of the Analytic Hierarchy Processes Based on a Nonlinear Scalarizing Function]. Z. vychisl. matematiki i matem. fiziki [Computational Mathematics and Mathematical Physics], 2004, vol. 44, no. 7, pp. 1259-1268. (In Russian)

Статья рекомендована к печати доц. А. Д. Овсянниковым. Статья поступила в редакцию 26 нoября 2015 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.