Научная статья на тему 'Подход к автоматизированному мониторингу и прогнозированию развития инновационных образовательных технологий'

Подход к автоматизированному мониторингу и прогнозированию развития инновационных образовательных технологий Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
59
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБНАРУЖЕНИЕ СОБЫТИЙ / СЦЕНАРНЫЙ АНАЛИЗ / ИНКРЕМЕНТАЛЬНАЯ КЛАСТЕРИЗАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Андреев А. М., Березкин Д. В., Козлов И. А.

В статье представлен подход к автоматизированному мониторингу и прогнозированию разви-тия инновационных образовательных технологий на основе анализа потока текстовых доку-ментов. Предложенный подход включает обнаружение в текстовом потоке событий, относя-щихся к теме образовательных технологий, формирование ситуаций, определение возможных сценариев их дальнейшего развития и подготовку предложений по действиям, которые необ-ходимо предпринять для успешного внедрения выявленных инновационных технологий в учебный процесс ВУЗа. Приведена многокритериальная модель события, предложен метод об-наружения событий на основе инкрементальной кластеризации. Представлен метод формиро-вания сценариев на основе принципа исторической аналогии. Проведена экспериментальная оценка разработанных моделей и методов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Андреев А. М., Березкин Д. В., Козлов И. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Подход к автоматизированному мониторингу и прогнозированию развития инновационных образовательных технологий»

Наука к Образование

МГТУ им. Н.Э. Баумана

Сетевое научное издание

ISSN 1994-0408 УДК 378; 004.89

Подход к автоматизированному мониторингу и прогнозированию развития инновационных образовательных технологий

Андреев А.М.1, БереЗКИН Д.В.1, * [email protected]

Козлов И.А.

1МГТУ им. Н.Э. Баумана, Москва, Россия

В рамках международного научного конгресса "Наука и инженерное образование. SEE-2016", II международная научно-методическая конференция «Управление качеством инженерного образования. Возможности вузов и потребности промышленности» (23-25 июня 2016 г., МГТУ им. Н.Э. Баумана, Москва, Россия).

В статье представлен подход к автоматизированному мониторингу и прогнозированию развития инновационных образовательных технологий на основе анализа потока текстовых документов. Предложенный подход включает обнаружение в текстовом потоке событий, относящихся к теме образовательных технологий, формирование ситуаций, определение возможных сценариев их дальнейшего развития и подготовку предложений по действиям, которые необходимо предпринять для успешного внедрения выявленных инновационных технологий в учебный процесс ВУЗа. Приведена многокритериальная модель события, предложен метод обнаружения событий на основе инкрементальной кластеризации. Представлен метод формирования сценариев на основе принципа исторической аналогии. Проведена экспериментальная оценка разработанных моделей и методов.

Ключевые слова: обнаружение событий, сценарный анализ, инкрементальная кластеризация

Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2016. № 07. С. 196-208.

Представлена в редакцию: 07.08.2016 Исправлена:

© МГТУ им. Н.Э. Баумана

Введение

В настоящее время в образовании появляются новые методы и технологии обучения, ориентированные на формирование компетенций, востребованных современным обществом. Чтобы соответствовать современным стандартам качества образования, вузам требуется внедрять эти методы в учебный процесс. При этом внедрение нововведений связано с риском, поскольку невозможно гарантировать успешность инновационных педагогических подходов.

В связи с этим существует необходимость обнаружения новых образовательных методов и технологий, отслеживания их развития с течением времени и прогнозирования их возможного дальнейшего развития в будущем с целью определения их перспективности и целесообразности внедрения в учебный процесс ВУЗа. С этой целью может выполняться периодический сбор и последующий анализ текстовых документов из открытых Интер-

нет-источников, а также из специализированных ресурсов. При этом выполнение экспертом анализа этой информации в исходном виде затруднительно ввиду огромного количества документов, генерируемых источниками.

В данной статье рассматривается решение задачи автоматизированного мониторинга и прогнозирования развития образовательных технологий на основе анализа потока текстовых документов. При этом понятие «образовательные технологии» мы трактуем широко, включая в эту категорию не только технологии обучения, но и новые перспективные направления в науке и технике, которые необходимо учитывать при планировании и проведении учебного процесса в ВУЗе.

1. Постановка задачи

В качестве основы для подхода к мониторингу развития новых научных направлений и инновационных образовательных технологий предлагается концепция "4С+П" (сообщения - события - ситуации - сценарии + предложения), которая предполагает выполнение следующих этапов анализа текстового потока:

1. Обнаружение в потоке событий, релевантных теме образовательных технологий.

Под событием будем понимать любое происшествие или явление, связанное с наукой

и образованием и отраженное в текстовых документах (научных статьях, новостных сообщениях СМИ, нормативных документах, связанных с образованием). Выделение событий позволяет существенно сократить затраты времени на мониторинг интересующей пользователя темы (поскольку ему не приходится просматривать множество документов, посвященных одному и тому же событию).

В [1-3] рассматриваются различные характеристики событий, такие как место действия, время, множество действующих лиц, условия, результат. Эти характеристики представляют собой аспекты событий, учитываемые человеком при ручном анализе потока документов. Следовательно, при выполнении автоматического обнаружения и интерпретации событий эти аспекты также должны приниматься во внимание.

При ручной работе с текстовым потоком перечисленные аспекты учитываются по-разному в зависимости от целей анализа. Так, при выявлении событий, связанных с проведением научных конференций, важную роль играет пространственный аспект (место проведения), а при отслеживании достижений некоторых научных школ - множество действующих лиц (ученые, представляющие эти школы). В связи с этим разрабатываемый метод автоматического обнаружения событий должен иметь возможность гибкой настройки в зависимости от предметной области и особенностей решаемой задачи.

Кроме того, для пользователя важно иметь возможность ознакомиться со всей имеющейся информацией о наступившем событии, поэтому помимо обнаружения события в текстовом потоке необходимо формировать набор документов, описывающих его.

2. Отслеживание развития ситуаций на основе обнаруженных событий.

Под ситуацией будем понимать цепочку взаимосвязанных событий, отражающую развитие некоторых научных направлений, образовательных технологий, методов обуче-

ния, потребностей организаций в специалистах с требуемым уровнем компетенции и т.п. При анализе текстового потока обнаруженные события необходимо объединять в такие цепочки. При этом нужно учитывать нелинейность развития анализируемых процессов: каждое событие может быть включено во множество цепочек. Так, событие "Круглый стол на тему гибридных моделей организации учебного процесса в вузе" включено как в ситуацию, отражающую ход конференции об электронном обучении, так и в ситуацию, отражающую развитие гибридных моделей организации учебного процесса в России.

3. Определение возможных сценариев дальнейшего развития ситуаций.

Формирование сценариев состоит в построении цепочек событий, являющихся потенциальными продолжениями текущей ситуации. Для обеспечения эффективного использования результатов прогнозирования в целях управления учебным процессом вуза из всех вариантов необходимо выделять сценарии, представляющие наибольший интерес для лиц, принимающих решения (ЛПР) в выработке стратегии развития вуза и формировании образовательных программ - оптимистический, пессимистический и наиболее вероятный.

4. Подготовка предложений.

На основе сформированных сценариев должны быть подготовлены рекомендации по действиям, которые необходимо предпринять для успешного внедрения выявленных инновационных технологий в учебный процесс вуза.

2. Существующие подходы к мониторингу и прогнозированию

развития ситуаций

В настоящий момент отсутствует комплексный подход к анализу текстового потока, позволяющий выполнять автоматический мониторинг и прогнозирование развития ситуаций. Существующие подходы [4] позволяют прогнозировать наступление отдельных событий, но не дают возможности получать сценарии дальнейшего развития ситуаций.

При этом существует множество работ, посвященных задаче обнаружения событий в потоке текстовых документов. Представленные в них методы можно разделить на два класса в зависимости от постановки задачи: методы обнаружения новых событий (New Event Detection, NED) и методы разделения анализируемых документов на группы, соответствующие различным событиям.

Методы первого класса обнаруживают появление в текстовом потоке важной новой информации. Момент возникновения нового события определяется

• появлением документа с большим весом, отражающим его новизну и значимость [5];

• изменением закона распределения документов по кластерам [6];

• появлением документа, не содержащего информации о событиях, уже описанных в ранее загруженных сообщениях [7-9].

Такие методы имеют общий недостаток с точки зрения требований, представленных в п. 1: они не способны агрегировать сообщения, описывающие новое происшествие.

Методы второго класса выполняют кластеризацию потока текстовых документов, определяя каждое из сообщений в группу, соответствующую некоторому событию.

Метод, предложенный в [10], предполагает разделение документов по темам с последующей группировкой сообщений в рамках каждой темы по темпоральному принципу.

В [11] предложено использовать иерархическую кластеризацию для выделения событий в статической коллекции документов. Этот метод позволяет осуществлять лишь ретроспективный анализ и не может быть применен для обработки потока сообщений.

В [12,13] предложены методы кластеризации текстового потока на основе генеративных моделей. Хотя предложенные модели отражают основные аспекты события, они не имеют возможности настройки в соответствии с различными предметными областями.

Одним из наиболее популярных подходов, относящихся ко второму классу, является разбиение текстового потока на события с помощью инкрементальной кластеризации [14]. Она позволяет относить документы к тем или иным событиям сразу после их загрузки. Этот подход наиболее близок к поставленным требованиям, однако существующие методы, основанные на инкрементальной кластеризации, используют для анализа документов лишь состав их слов, не учитывая другие важные аспекты событий.

3. Предлагаемый подход к решению задачи

В соответствии с концепцией "4С+П" и вышеописанными требованиями предложен следующий подход к автоматизированному мониторингу и прогнозированию развития инновационных технологий в образовании.

В потоке текстовых документов выявляются события ег, релевантные теме образовательных технологий. В основе обнаружения событий лежит разбиение текстового потока на кластеры таким образом, что каждый кластер содержит документы, которые описывают некоторое событие. Для выполнения распределения документов по кластерам, каждое загружаемое сообщение dj сопоставляется с ранее обнаруженными событиями, причем

сравнение выполняется на основании множества критериев, соответствующих различным аспектам события. На основе многокритериального сравнения рассчитывается значение близости между документом и событием и принимается решение о соответствии документа событию.

Из множества обнаруженных событий выделяются пары взаимосвязанных событий Ру = (е е), потенциально принадлежащих одной ситуации. Для их выделения выполняется попарное сравнение событий с точки зрения всех аспектов. На основе формирования таких пар выполняется построение ситуационного графа G = (Е, Р). В этом графе узлы

Е = (е) соответствуют событиям, а ребра Р = {ру] - выделенным парам. Любой путь в этом графе является потенциальной ситуацией 5 = (е],е2,---,еП) .

Для текущей ситуации 5с выполняется построение сценариев её возможного дальнейшего развития: 5 = {£ }, ^ = , гвс^ , Р^ ^, где

= (е\.,е^,...,еП) - гипотетическая последовательность событий, которые могут наступить в будущем;

rec^ = ^action 'actoГ ' period ) - предложения по действиям action^ , которые должны быть предприняты лицом actor\ в срок period^ для содействия или противодействия развитию текущей ситуации по сценарию ^ .

Р^ - вероятность развития ситуации по сценарию ^ .

Генерация сценариев основана на принципе исторической аналогии: текущая ситуация sc подвергается сравнению с эталонными ситуациями se е Se из подготовленной экспертами базы эталонов Se. На основе сопоставления событий, составляющих цепочки, оценивается вероятность того, что текущая ситуация аналогична эталонной. Если вероятность превышает пороговое значение, эталонная ситуация считается потенциальным сценарием дальнейшего развития текущей.

После построения сценариев выполняется определение их приоритетности путем сравнения сценариев на основе множества критериев. Наиболее приоритетный сценарий считается оптимистическим, наименее приоритетный - пессимистическим.

Предложения rec^ определяются эталонной ситуацией se, на основе которой был

сформирован сценарий ^, и зависят от того, какому событию этой эталонной ситуации соответствует sc . В связи с этим каждое событие sks эталонной ситуации s должно содержать собственную рекомендацию rec k =( action k, actor k, period

-------- к k ,ЧЛЛ k

\ sse Sse Sse

4. Модель события и документа

Для обеспечения возможности многокритериального сопоставления событий и сообщений, модель события должна содержать компоненты, отражающие его различные аспекты:

„ / ^ ™ „е с „р п „Ж в „9 л\ /14

£, = \£, , £, , £г , £г , ер , £ п , £, , £г ,£г) • (1)

Модель включает следующие компоненты:

• множество сообщений, описывающих событие: ер = [Ж],Ж2,...,}. На основе этих документов формируются остальные компоненты модели события;

• вектор слов документов, описывающих событие: ее = (м>),е2,...,) ;

• вектор слов заголовков документов, описывающих событие: еге = (1е),Ре2,..., М ) ;

• множество предложений документов, описывающих событие: е^ = [с],с2,...,с. Каждое предложение описывается вектором слов С = (е1к,е2кемк );

i

• множество абзацев документов, описывающих событие: ер = [р],р2,...,р^}. Каждый абзац описывается вектором слов р* = (е1^к,е2^к,...,е1^ ) ;

• множество числовых значений, извлеченных из текстов документов, описывающих событие: е* = {и1, п2,..., п^1 };

• множество имён персон и организаций, связанных с событием: е' = (е),е?,...,'Т1};

• множество географических объектов, связанных с событием: е^ = ¿2,...,gN };

• временной интервал, в течение которого происходило событие: е^ = (тъ'т,т'г"1) .

Также для более качественного выявления событий, относящихся к темам, подвергающимся мониторингу, модель содержит информацию о темах, которым релевантно событие: е = (¿п^,...,^ ). Тема задается экспертом в виде формализованного запроса, и значение каждого элемента вектора отражает релевантность события соответствующему запросу.

Для определения близости между событиями и сообщениями каждое сообщение также должно быть представлено аналогичной многокритериальной моделью:

^ = (dJ, dtw, ^с, dp, dn, ddt, d', dg, . (2)

5. Метод обнаружения событий

5.1. Определение расстояния между событием и документом

При сравнении сообщения dj и события е выполняется определение расстояния

между соответствующими компонентами их моделей:

• для сравнения компонентов, представленных векторами (слова документов, слова заголовков, темы) используется косинусная мера:

Р = 1 -I Г, 1>М ^^^^^. (3)

• для сравнения компонентов, представленных множествами, используется мера включения:

р^ =,-\е* п dn \l\dj\. (4)

Если элементы множеств являются взвешенными (именованные сущности, географические наименования, абзацы и предложения), вместо количества элементов учитывается их суммарный вес:

Р =1 -I */I е . (5)

еее? пй' ееё'

При этом вес предложений и абзацев рассчитывается как суммарный вес их слов.

• при определении расстояния между документом и событием с точки зрения времени берется средний момент между началом и концом события:

Р =\^; - (тъг+т:па )/2\. (6)

Таким образом, результатом сравнения документа Ж. и события ег является вектор, каждый элемент которого отражает расстояние между Ж и ег по некоторому признаку:

На основании р . необходимо определить значение расстояния между Ж . и еi. Для

этого применяется машина опорных векторов ^"УМ), в качестве примеров для обучения которой используются:

• пары вида "событие - документ, относящийся к этому событию" (позитивные

• пары вида "событие - документ, не относящийся к этому событию" (негативные

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

При обучении машины выполняется построение гиперплоскости, разделяющей эти примеры. Расстояние 0181 (е, dj) между документом dj и событием определяется как

нормализованное расстояние между вектором р . и гиперплоскостью.

Для распределения поступающих документов по кластерам, соответствующим событиям, используется метод инкрементальной кластеризации. Каждое новое сообщение либо относится к одному из ранее сформированных событий, либо используется для формирования нового события. Алгоритм инкрементальной кластеризации состоит из следующих шагов:

1. Новый документ Ж. сравнивается с каждым из ранее обнаруженных событий с определением значения расстояния 0181 (е, dj) .

2. Выбирается наиболее близкое к документу событие: ео = argmm[В1$1 (е,Ж)] •

е

3. Если расстояние между сообщением Ж. и событием е0 не превосходит пороговое

значение - сообщение относится к этому событию.

4. Если расстояние больше порогового значения - создается новое событие на основе этого документа.

При построении ситуационного графа в нём находятся события, аналогичные событиям, составляющим эталонные ситуации. Далее в графе выделяются цепочки (ситуации), содержащие такие события-аналоги. Каждая из выделенных цепочек £с сравнивается с эталонными ситуациями 8е е 8е. Сравнение ситуаций рассматривается как задача логистической регрессии. Для этого вводится переменная у, такая что

(7)

примеры);

примеры).

5.2. Кластеризация документов

6. Метод формирования сценариев

1, если цепочки не являются аналогами 0, если цепочки являются аналогами

(8)

Делается предположение, что вероятность наступления события у =, задана логистической функцией:

Р(у = ,\ 5 ,5 ) =-^ . (9)

^ = (^м,^гер,Щгер) - вектор, отражающий различие между цепочками. Различие определяется весом операций, необходимых для превращения одной цепочки в другую:

• - суммарный вес операций удаления события из эталонной ситуации;

• - суммарный вес операций добавления события в текущую ситуацию;

• ^ - суммарный вес операций замены события на его аналог;

• ^^ - суммарный вес операций изменения временного интервала между событиями.

@ = (^м,®ас!с1 ,@геР) - вектор параметров. Параметры подбираются методом максимального правдоподобия.

Вероятность того, что текущая ситуация является аналогом эталонной рассчитывается как Рап (5с, ) = Р(у = 0 \ с, ) =, - Р(у =, \ с, ) . При Рап (5с, 5е) > 0.5 делается заключение о том, что ситуации аналогичны. Также при сравнении ситуаций определяется начальная часть st(^, 5) ситуации 5, которая соответствует текущей ситуации 5 . Заключительная

часть /гп(5е, 5С) эталонной ситуации является возможным сценарием дальнейшего развития текущей ситуации. При этом значение Рап (5е, 5С) можно рассматривать как вероятность того, что текущая ситуация будет далее развиваться по соответствующему сценарию.

Заключительные части эталонных ситуаций, признанных аналогичными текущей, являются возможными сценариями её дальнейшего развития. Среди всех сценариев особый интерес представляют три: оптимистический, пессимистический и наиболее вероятный. Наиболее вероятным сценарием является заключительная часть эталонной цепочки 5рг, для которой вероятность аналогичности текущей ситуации максимальна: 5,рг = argmax Ра* (5е, 5с).

Для выделения оптимистического и пессимистического сценариев необходимо выполнить ранжирование сценариев по оптимальности. Для этого используется метод анализа иерархий, позволяющий вычислить приоритет каждого из сценариев на основе набора критериев, в качестве которых могут использоваться уровень знаний обучающихся, длительность сценария, педагогическая эффективность, экономическая эффективность (затраты на реализацию сценария в вузе) и т.д. Значения критериев для каждой эталонной ситуации определяются экспертами при формировании базы эталонов.

Приоритетность критериев относительно цели (определения наиболее оптимального сценария) вычисляется на основе попарных сравнений, выполняемых экспертами на этапе обучения. Приоритетность сценариев относительно каждого критерия вычисляется автоматически на основе характеристик сценариев. Таким образом, при анализе сценариев,

сформированных для текущей ситуации, их приоритетность относительно цели вычисляется автоматически. Сценарий, обладающий наибольшим приоритетом, признается оптимистическим, сценарий с наименьшим приоритетом - пессимистическим.

В качестве предложения по содействию оптимальному развитию текущей ситуации используется рекомендация, соответствующая последнему событию цепочки 81(8 ,8 ) .

7. Система автоматизированного мониторинга и прогнозирования развития образовательных технологий

На основе предложенного подхода разработана система автоматизированного мониторинга и прогнозирования развития ситуаций. Обучение подсистемы обнаружения событий производится экспертом на основе подготовленных эталонных событий, связанных с наукой и образованием. Обученная подсистема выполняет автоматический анализ потока текстовых документов и предоставляет пользователю списки обнаруженных событий и ситуаций. Пользователь имеет возможность выделить заинтересовавшую его ситуацию и добавить её в базу эталонов для обучения подсистемы формирования сценариев. На рис. 1 представлен пример ситуации, состоящей из четырёх событий, выделенной системой.

Ситуация: Конференция «Современные информационные технологии в образовании»

Круглый стоп нм тему «Мобильное образование: 1а и против"

Нэтиосойьгпы: 20.06.201i 13 07:22 ЬЪаеп сойьгпи: 24.06.20lf 11.15:00

Круглый ста! на тему «Мобильное о Ими документа 20.06.2016 13:07:22 РогЭМ]

Сделать урок живым к интересным оыогают мобильные устройства 21.06 2016 21:48:00 Газета "Вечерняя Москва"

Плюсы и минусы мобильного образе ванию оосудили в Москве 24.062016 11:15:00 Учительская Газета

Утверждены оперты конференция «Современные ннформлннонные тешолопш в сорлзос.ЛЕ[[[[[■

Ннадвийьпнж: 22.06.2016 1С 14:00

Коныг сойдпн: 06.2016 Ш_

д:ст:ергыгснферегазд[ чСс'Еремекныесифсрмтдснные тагасаогая е ' "'т-:с .сс-гп ~ 1'С :I■ 1 С- ~ " Г7 |^азиа "Новые Окрта"

IIл ме^лунлролном конференции в Хронике обсулпли тмиологии в образовании

Нмиосо&ьгпы: 23.06.2Clt 16.03:00 Коаш сойти: 30.06 2016 13 33:00

Имя документа Дата пу&шкаццк | Времн публикации | Иптанк

[На м елд\"квр одн ой конференции: в Троицке обеллили технологии в образовании 2S.06.2016 16:03:00 Газега "Новые Округа"

р1шем новые формы обучения 29.06.2016 22:28:00 Газета "Вечерняя. Москва"

[Тенденции применения ГГ в образ овании обсузили на конференции в Троицке 30 06.2016 13:53ЛО (Информационный Центр Правитеп >ства Москвы

На селекторном совещании в Москве подвели итога конференции «Современные информационные техн Начало события: 06.07.2016 16:13:00 Конец события: 06.07.2016 16:13:00 олопш в обрлзованш

[На селекторном совешаниив Москве подвели итоги конференции "'Современныеинформационные техкологннв образовании* >6.07.2016 К2ГЛ

Рис. 1. Пример выявления событий и ситуаций

Обучение подсистемы формирования сценариев выполняется на основе эталонных ситуаций, отражающих историю развития инновационных технологий и их внедрения в учебный процесс в прошлом (рис. 2). Эксперты снабжают каждое событие эталонной ситуации предложениями по действиям, которые необходимо предпринять при наступлении такого события для оптимального развития ситуации в дальнейшем.

Путем сопоставления текущих ситуаций с эталонными подсистема формирует вероятные сценарии их дальнейшего развития и вырабатывает рекомендации.

Название события Временной Акторы и их действия Рекомендации

промежуток

Появление первых публикаций о 2000-2002 Исследователи: публикация actor Преподаватели ВУЗа

новой технологии статей о новой технологии action period Ознакомление с новой технолотей, отслеживание новых публикаций 1 год

Появление международных 2005-2006 Исследователи и разработчики: actor Преподаватели ВУЗа

конференций, посвященных технологии проведение конференций action period Изучение материалов конференций, анализ целесообразности внедрения технологии в учебный процесс 1 год

Появление первых коммерческих 2008 Разработчики: коммерческая actor Руководство ВУЗа

разработок реализация инновационной action Подготовка к внедрению технолоти в учебный процесс

технологии period 1 год

Появление спроса компаний на 2011 Руководство компаний: поиск actor Руководство ВУЗа

специалистов, владеющих специалистов, владеющих action Внедрение технологии в учебную программу

технологией технологией period 1 год

Появление в учебных программах 2014-2015 Руководство ВУЗов: внедрение actor Руководство ВУЗа

ведущих ВУЗов курсов, новых курсов в учебную action Внедрение технологии в учебную программу

посвященных технологии программу period 6 месяцев

Рис. 2. Пример эталонной ситуации и предложений

8. Экспериментальная проверка методов

Для анализа качества предложенных моделей и методов был проведен эксперимент, целью которого являлось определение зависимости показателей качества (точности, полноты и F-меры) обнаружения событий от мощности обучающей выборки. Полученные зависимости приведены на рис. 3.

Рис. 3. Зависимость точности (тонкая сплошная линия), полноты (тонкая пунктирная линия) и Б-меры

(жирная линия) от мощности обучающей выборки

Также анализировалась зависимость вышеуказанных показателей от используемых критериев сравнения документов и событий. В частности, анализировалось качество при анализе близости составов слов документов, при анализе близости составов слов документов и их заголовков и при использовании всех критериев. Результаты эксперимента приведены в табл. 1.

Используемые критерии Точность Полнота F-мера

Слова документов 65,8% 65% 65,2%

Слова документов и заголовков 72,2% 63% 67,2%

9 критериев 85,2% 76% 79,8%

В результате проведения эксперимента оказалось, что для обучения системы достаточно 1300 пар документов и событий, генерируемых на основе 6 обучающих событий, с дальнейшим же увеличением обучающей выборки качество работы метода не улучшается. Проведенный эксперимент также доказывает целесообразность многокритериального сравнения документов и событий: при использовании всех критериев достигаются наиболее высокие показатели качества.

Заключение

В работе предложен подход к автоматизированному мониторингу и прогнозированию развития ситуаций, связанных с развитием тех или иных образовательных технологий. В его основе лежит последовательное выполнение обнаружения событий в текстовом потоке, формирования ситуаций и построения сценариев их дальнейшего развития.

Представленная модель события включает компоненты, отражающие его основные аспекты. Предложенный метод обнаружения событий имеет возможность гибкой настройки в соответствии с особенностями образовательной деятельности и потребностями пользователей благодаря использованию методов машинного обучения, в частности, метода опорных векторов.

Представленный метод формирования сценариев дальнейшего развития ситуаций позволяет оценить вероятность полученных сценариев благодаря использованию метода логистической регрессии. При помощи метода анализа иерархий обеспечивается выделение наиболее оптимистического и пессимистического сценариев. На основе сгенерированных сценариев формируются предложения по действиям, необходимым для обеспечения развития ситуации по наиболее благоприятному сценарию.

Предлагаемый подход позволяет отследить появление инновационных технологий в образовании, дать прогноз их вероятного развития и выработать рекомендации, позволяющие обеспечить их внедрение в учебный процесс вуза.

Список литературы

[1]. Raymond Y., Abdallah S. The Event Ontology. 2007. Режим доступа: http://motools.sourceforge.net/event/event.html (дата обращения 29.07.2016).

[2]. Добров Б.В., Павлов А.М. Исследование качества базовых методов кластеризации новостного потока в суточном временном окне // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XII-ой Всероссийской научной конференции RCDL'2010. (Казань: Казанский университет, 13-17 октября 2010 г.). 2010. С. 287-295.

[3]. Kumaran G., Allan J. Using names and topics for new event detection // Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Vancouver: Association for Computational Linguistics. 2005. P. 121-128.

[4]. Radinsky K., Horvitz E. Mining the web to predict future events // Proceedings of the sixth ACM international conference on Web search and data mining. New York, NY, USA: ACM. 2013. С. 255-264. D01:10.1145/2433396.2433431

[5]. Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Выявление новых событий из потока новостей // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007». (Бекасово, 30 мая - 3 июня 2007 г.) / Под ред. Л.Л. Иомдина, Н.И. Лауфер, А.С. Нариньяни, В.П. Селегея. М.: Изд-во РГГУ. 2007. 658 с. С. 349-352.

[6]. Aggarwal C.C., Subbian K. Event Detection in Social Streams // Proceedings of the 2012 SIAM International Conference on Data Mining. (Disney's Paradise Pier Hotel, Anaheim, California, USA, April 26-28, 2012). SDM. SIAM / Omnipress. 2012. Vol. 12. P. 624-635. DOI: http://dx.doi.org/10.1137/1.9781611972825.54

[7]. Кондратьев М.Е. Анализ методов кластеризации новостного потока // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Труды Восьмой Всероссийской научной конференции (RCDL'2006). (Суздаль, 17-19 октября 2006 г.). Ярославль: Ярославский государственный университет им. П.Г. Демидова. 2006. С. 108-114.

[8]. Brants T., Chen F., Farahat A. A system for new event detection // Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. New York, NY, USA: ACM. 2003. С. 330-337. D0I:10.1145/860435.860495

[9]. Yang Y., Zhang J., Carbonell J.G., Jin C. Topic-conditioned novelty detection // Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. (July 23-26, 2002, Edmonton, Alberta, Canada). ACM. 2002. P. 688-693. DOI: 10.1145/775047.775150

[10]. Zhao Q., Mitra P., Chen B. Temporal and information flow based event detection from social text streams // AAAI'07 Proceedings of the 22nd national conference on Artificial intelligence. Vancouver, British Columbia. AAAI-07, AAAI Press. 2007. Vol. 2. P. 1501-1506.

[11]. Yang Y., Pierceet T., Carbonell J. A study of retrospective and on-line event detection // SIGIR '98 Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. New York, NY, USA: ACM. 1998. P. 28-36. DOI: 10.1145/290941.290953

[12]. Li Z., Wang B., Li M., Ma W-Y. A probabilistic model for retrospective news event detection // SIGIR '05 Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. New York, NY, USA: ACM. 2005. P. 106-113. DOI: 10.1145/1076034.1076055

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[13]. Ahmed A., Ho Q., Eisenstein J., Xing E., Smola A.J., Teo C.H. Unified analysis of streaming news // WWW'11. Proceedings of the 20th international conference on World wide web. (March 28-April 1, 2011, Hyderabad, India). New York, NY, USA: ACM. 2011. P. 267-276. DOI: 10.1145/1963405.1963445

[14]. Aggarwal C.C., Philip S.Y. On clustering massive text and categorical data streams // Knowledge and information systems. 2010. Vol. 24. № 2. P. 171-196. DOI: 10.1007/s10115-009-0241-z

i Надоели баннеры? Вы всегда можете отключить рекламу.