Научни трудове на Съюза на учените в България-Пловдив. Серия В. Техника и технологии, т. XV, ISSN 1311 -9419 (Print), ISSN 2534-9384 (On- line), 2017. Scientific Works of the Union of Scientists in Bulgaria-Plovdiv, series C. Technics and Technologies, Vol. XV., ISSN 1311 -9419 (Print), ISSN 2534-9384 (On- line), 2017.
АКУМУЛАТИВНИ ФРЕЙМОВИ МОДЕЛИ В Е-ОБУЧЕНИЕТО Георги Тотков, Силвия Гафтанджиева, Росица Донева Пловдивски университет „Паисий Хиледарски"
ACUMULATIVE FRAME MODELS IN E-LEARNING George Totkov, Silvia Gaftandzhieva, Rositsa Doneva University of Plovdiv "Paisii Hilendarski"
Abstract: The use of frames as a mean of presenting knowledge in artificial intelligence has been suggested by M. Minsky in 1974. Frames are used in the theory and practice of e-learning (in Physics, Mathematics, English, etc.) as a mean for classifying and cataloguing of learning units in the text. The relevant methodology is based on the students' solution of the task „reading with comprehension of the learning text", coupled with frames creation. The paper introduce the term „accumulative frame model". The advantages of the proposed model are the possibility of its non-standard applications in e-learning such as automated generation of metadata and test items to learning materials, segmentation of text to learning units, data extraction of text, etc. The paper presents stages of a study for development a software system for designing, creating and using accumulative frame models in the e-learning.
Keywords: Presentation and extraction of knowledge, Frame models, Computation text analysis, E-learning, Intelligent learning tools
1. Увод
Извличането на данни от текст (Feldman, 2007) е научна област, която придобива все по-голямо значение. Съответните методи за извличане на данни от текст са свързани със „сърфиране" в документа в електронен формат с цел „откриване", извличане и агрегиране на данни. При осъществяването на редица процеси в обучението също се изисква решаване на проблема за извличане и агрегиране на елементарни или съставни данни (знания или резултати на процеси на обучение) от текстови документа в електронен или хартиен формат. Примери на типични задачи за обучение, изискващи решаване на подобен проблем
- процеси на самообучение в изучавана предметна област (ИПО);
- синтезиране на въпроси към учебни материали;
- резюмиране и конспектиране на учебен текст (вкл. „четене с разбиране");
- представяне на знания под формата на фреймови модели;
- генериране на метаданни към учебен материал и др.
В Пловдивския университет „Паисий Хилендарски" се провежда изследване за представяния на знания в различни ПО под формата на мрежи (графи), наричани фрейми, семантични мрежи, концептуални графи, когнитивни модели, скриптове, сценарии и др. и техните приложения за създаване на интелигентни софтуерни решения в различни области. Поради общността на фреймовите представяния, особен интерес представлява приложимостта им в разнородни области. В рамките на изследването се провежда проучване
по отношение на сферата на обучението и по-точно на е-обучението, с която са свързани основни дейности на университетските преподаватели.
За разлика от други изследвания в областта, предлаганият подход за извличане на същности и отношения между тях в ИПО, използва по-общи и конструктивни механизми. Той се основава на идея, свързана с формализиране не само на откриването и извличането на елементарни (първични) данни и съставни структури, но и на идентификация (с определена точност) на техните синтактични и семантични характеристики.
2. Същност на изследването
Основна цел на провежданото изследване е да се автоматизира извличането и агрегирането на данни за знания и процеси в е-обучението. Интелигентните технологични решения за нуждите на е-обучението се търсят чрез използване на методи на концептуалното моделиране и компютърната лингвистика. В рамките на изследването се предлагат, изследват и апробират средства и методика за извличане и агрегиране на данни, подходящи за подготовка и провеждане на е-обучение.
Целта на изследването се постига с последователно решаване на две основни задачи:
• изследване на модели, методи и средства за извличане и агрегиране на данни за знания и процеси от текстови документа за ИПО, вкл.:
- анализ на известни фреймови модели и методи, средства и практики за тяхното прилагане в областта на обучението;
- концептуално моделиране на задачи за е-обучение в ИПО на основата на абстрактен обект, наречен „акумулативен фреймов модел" (АФМ);
- предлагане на методика за извличане и агрегиране на данни за знания и процеси в е-обучението, базирана на понятието АФМ, и подходяща за компютърна реализация;
• реализация, апробиране и усъвършенстване на създадените модели и методи за извличане и агрегиране на данни от учебни материали при решаване на задачи за е-обучение в конкретни ИПО, вкл.:
- проектиране и разработване на съответните информационни и компютърни модели, и софтуерни инструменти;
- апробиране на създадените средства.
Двете задачи се решават последователно - на основата на предварителни експертни анализи на изследванията и тенденциите в областта, включващи сравнителни анализи на известни фреймови модели, методи и средства, на практики за прилагане на фреймови представяния в областта на обучението, както и на типични задачи за обучение, подходящи за автоматизация с прилагане на фреймови представяния.
Проблемът за концептуално моделиране на задачи за е-обучение в ИПО, свързани с извличане и агрегиране на данни, се основава на решения, свързани със създаване на модели и структури от данни, базирани на т. нар. „акумулативни фреймови модели". В сравнение с класическите фреймови модели, на слотовете на фреймите от предлагания иновативен АФМ могат да се съпоставят - освен процедури (които се изпълняват след запълване на различни слотове на фрейма) или демони (за изчисляване стойности на сло-тове), и т. нар. „акумулативни функции", позволяващи натрупване на допълнителни данни в процеса на е-обучение, които могат да се използват за автоматизиране на допълнителни задачи за обучение.
Решаването на проблема за извличане и агрегиране на данни от информационни ресурси (напр. текстови документи и дори от данни за процеси, свързани с тях) за конкретни ИПО изисква:
а) дефиниране на системи от АФМ за съответните ИПО на базата на предварителен експертен анализ на съдържанието на ресурси/текстови документи на изучавани дисциплини, експертен анализ на дейности за подготовка и провеждане на е-обучение и 18
селекция на избрани ИПО и задачи за е-обучение за концептуално моделиране;
б) създаване на алгоритми за унификация на АФМ на базата на текстови информационни ресурси (учебни материали) и идентифициране и попълване на съдържанието на негови слотове;
в) създаване на алгоритми за извличане и агрегиране на данни от текстови учебни материали в съответна ИПО под формата на системи от попълнени АФМ;
г) разработване на методика за извличане и агрегиране на данни за автоматизация на задачи за е-обучение на базата на набори от АФМ при обучение в ИПО.
Извличането и агрегирането на данни от текстови документи (при съществуваща система от АФМ) е задача, която се решава с методи на компютърната лингвистика (Totkov, 2003; Totkov, 2004) или с интерпретиране на тази задача като специфична задача за оценка на знания в съответната ИПО (Totkov, 2014.1-2). Идеята за решаване на този проблем може да се представи в няколко стъпки:
• Предварителна обработка: Документите се обработват с цел „нормализация" и съх раняване на основното „необработено" текстово съдържание;
• Разпознаване на имена на обекти: На тази стъпка в документа се идентифицират всички имена на обекти („същности"), напр. на понятия, процедури и отношения между тях, на конкретни лица, фирми и др. Различни варианти на идентификация са представени в (Zhou, 2002). Идентифицираните имена се ползват на следващите стъпки като идентификатори на откритите същности;
• Разпознаване и извличане на АФМ: Разпознаването се извършва на базата на граматика на АФМ в съответната ИПО, създадена предварително от експерт, или на базата на обучение по набор от примери в информационни източници;
• Извличане и агрегиране на елементарни и съставни данни в ИПО: Базира се на „акумулативните" възможности на АФМ и използване на средства на компютърната лингвистика.
На основата на създадените концептуални модели и на методиката за извличане и агрегиране на данни за ИПО под формата на системи от АФМ (на базата на активиране и унификация на фрейми), се реализират и съответни софтуерни инструменти, което предполага:
• използване на институционалната информационна инфраструктура като източник на информационни ресурси за знания и процеси в ИПО;
• проектиране и изграждане на специализирана БД за съхраняване на системите от АФМ в ИПО, системите от попълнени АФМ, както и другите необходими елементарни и съставни данни (вкл. акумулирани);
• създаване на визуален редактор, както и на подходящ интерфейс за маркиране на елементи от съдържанието на текстови документи, както и на средства за асоцииране на АФМ към тях (например, в процес на е-обучение);
• проектиране и разработване на софтуерни инструменти с приятелски потребителски интерфейс за интерактивно извличане и агрегиране на данни от информационни ресурси за знания и процеси под формата на системи от АФМ;
• изграждане на съответни информационен и компютърен модели на БД за съхраняване на фреймовите представяния.
Създадените методика, модели и инструменти се апробират и усъвършенстват за конструиране на системи от АФМ за описание на ИПО от студенти и при създаването на приложения за автоматизация на избрани задачи за е-обучение. Експериментите се осъществяват при подготовка и провеждане на е-обучение, в случая на ИПО, свързани с информатика, информационни технологии и др. Разработват се интелигентни инструменти за автоматизирано създаване на анотирани електронни учебни материали от типа „умна книга" (вкл. за автоматизирано оценяване на знанията на обучавани) и на адаптивни учебни
19
пътища за постигане на учебни цели в различни ПО.
3. Основни резултати
Основен резултат от провежданите изследвания е създаването на методика и софтуерни средства за извличане и агрегиране на данни за знания и процеси, свързани с автоматизация на дейности в е-обучението.
На основата на широко изследване на възможностите на фреймовите модели за описание на ИПО, с цел извличане и агрегиране на данни от текстови информационни ресурси се проектират и реализират:
• типови АФМ;
• системи от АФМ за описание на конкретни ИПО (предназначени за експерти и студенти);
• алгоритми и методика за извличане и агрегиране на данни за знания в процес на е-обучение (на базата на системи от АФМ);
• компютърни модели на посочените по-горе типови АФМ, системи от АФМ, алгоритми и методика;
• прототипи на софтуерни инструменти за извличане и агрегиране на данни в процес на е-обучение;
• експерименти за автоматизирано извличане и агрегиране на данни при е-обучение в конкретни ИПО и др.
Поради своята общност резултатите могат да се мултиплицират за различни ИПО.
4. Заключение
Резултатите от изследването позволяват в институционална информационна инфраструктура да се интегрират софтуерни средства за автоматизация на труда на университетските преподаватели при подготовка и провеждане на е-обучение. Разработените интелигентни инструменти предоставят възможности за автоматизиране на дейности по подготовка и провеждане на е-обучение в различни ИПО, вкл. постигане на по-високо качество на учебните дейности и ползвани материали, редуциране на разходи и срокове при изпълнение на съответните задачи, по-голяма обективност при оценяване и др.).
В перспектива възможностите за автоматизирано изграждане на системи от АФМ ще бъдат изследвани в конкретни ИПО като информатика, чуждоезиково обучение, физика и др.
Благодарности
Работата е подкрепена от проект МУ17-ФФ-023 „Акумулативни фреймови модели за извличане и агрегиране на данни за знания и процеси в обучението" към Фонд „Научни изследвания" на ПУ „Паисий Хилендарски".
Литература
Feldman, 2007 Feldman R., J Sanger. The text mining handbook: advanced approaches in analyzing unstructured data. Cambridge university press, 424 p., 2007.
Totkov, 2003 Totkov G., R. Doneva, Bipartite Finite State Transducers as Morphology Analyser, Synthesizer, Lemmatizer and Unknown-Word Guesser, Proc. of 2nd Intern. Seminar „Computer Treatment of Slavonic Languages" SL0VK0'2003.
Totkov, 2004 G. Totkov, R. Doneva, L. Milev, T. Kaltcheva, P. Nestorova, Towards Bulgarian Verb Net, in Proc. of Int. Conf. Automation and Informatics'2004, 1- 4.
Totkov, 2014.1 Totkov G., R. Doneva. S. Gaftandzhieva et al., Introduction in e-Learning, Rakursi, Plovdiv, 2014, ISBN 978-954-8852-41-8 (in Bulgarian).
Totkov, 2014.2 Totkov G., R. Doneva. S. Gaftandzhieva et al., Standartization and Integration of Het-erogeneus University Information Systems, Rakursi, Plovdiv, 2014, ISBN 978-954-8852-49-4 (in Bulgarian).
Zhou, 2002 Zhou G., J. Named entity recognition using a HMM-based chunk tagger. ACL, 2002.
За контакти:
Проф. д.м.н Георги Тотков, ПУ „П. Хилендарски", ул. Цар Асен 24, 4000 Пловдив, totkov@uni-plovdiv.bg.