УДК 004.82
ПОСТРОЕНИЕ СЕМАНТИчЕСКОй СЕТИ ПОНЯТИй ДИСТАНцИОННОГО
курса на основе модернизированного алгоритма портера.
Н.В. Лутошкина1, А.А. Высотин1, М.А. Высотин2
'ФГБОУ ВПО «Сибирский государственный технологический университет», Красноярск, Россия 660049 Красноярск, Марковского 57, е-mail: [email protected]
2 ФГАОУ ВПО «Сибирский федеральный университет» ИИФиРЭ, Красноярск, Россия
Данная статья описывает программный метод, позволяющий проанализировать текст глоссария дистанционного курса и построить на его основе семантическую сеть понятий с целью последующей структуризации данного курса. В данной программе для текстового анализа был применён модифицированный авторами алгоритм Портера. Разработанная программа даёт возможность исследовать структуру терминологической области курса, визуализировать таксономию терминов, что позволяет сделать курс более последовательным, легким для восприятия, тем самым повысить качество обучения.
Ключевые слова: семантическая сеть, стеммер Портера, глоссарий, дистанционные курсы, структурирование курса.
This article describes automatized analysis of distance course glossary's text, which was developed for the purpose of constructing terminology semantic network and further structurization of the course. The program uses Porter's Stemmer algorithm, modified by the authors, as a text analyzer. That gave an opportunity to generate and visualize semantic network of the scientific concepts. As a result, the analysis of structure and hierarchy of the concepts given in the interactive course can be carried out. Through that, a more straightforward, easily understood course can be obtained
Key words: Semantic network, Porters stemmer, glossary, distance education, course structuring.
ВВЕДЕНИЕ
Семантическая сеть - это информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний.
Семантические сети подразделяются:
• по количеству типов отношений на однородные сети (используется только один тип отношений) и неоднородные (количество типов отношений больше двух);
• по -арности на бинарные отношения (связывающими ровно два понятия) и связывающие более двух объектов - парные.
Рассмотрим построение однородной бинарной семантической сети понятий дистанционного курса, в которой термины связаны отношением: - «термин i определяет термин j». В этом случае семантическая сеть является ориентированным ациклическим графом.
Современные обучающие системы представляют собой интеллектуальные системы, основанные на парадигме обработки знаний. Понятия составляют содержание знаний, владение системой понятий необходимо в любой образовательной технологии. Научные понятия, включенные в программу дисциплины, образуют состав учебной системы знаний дисциплины. Для работы с понятийным аппаратом учебной дисциплины используется глоссарий, явля-
ющийся встроенным инструментом многих современных интерактивных обучающих систем.
Под глоссарием понимается контролируемый словарь(АШШВО Z39.19-2005. Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies), содержащий толкования специфичных терминов некоторой предметной области и поддерживающий таксономию. По сути, глоссарий - это иерархически структурированное множество терминов, описывающих предметную область, которое может быть использовано как исходная структура для базы знаний в дистанционном обучении. Отсюда следует важность контроля структуры глоссария и его составляющих.
Структура, правила разработки и форма представления одноязычных информационно-поисковых тезаурусов (глоссария как частного случая), ориентированных на лексику русского языка, изложены в (ГОСТ 7.25-2001. ).
Базовая модель одноязычного тезауруса введена в международном стандарте (ISO 2788:1986. Documentation - Guidelines for the establishment and development of monolingual thesauri).
С целью автоматизации анализа глоссария была разработана программа, позволяющая, выделять связи «определяемое понятие - определяющее понятие» между содержащимися в нем понятиями. В результате этого может быть построена семантическая сеть в виде ориентированного графа, вершины которого обозначают понятия, изучаемые в курсе, а рёбра указывают на наличие указанной выше связи между понятиями. Граф семантической сети является аци-
Хвойные бореальной зоны, XXX, № 5 - 6, 2012
клическим, поскольку структура глоссария должна удовлетворять следующим ограничениям:
1. термин не может быть связан с самим собой;
2. пару терминов не могут связывать более одного отношения за исключением сочетаний взаимно обратных отношений.
методы исследований
Алгоритм стемматизации Портера (The Porter Stemming Algorithm ) или стеммер Портера основывается на особенностях языка (в данном случае русского). Отсекаются окончания и суффиксы, для чего последовательно применяют ряд правил. Был выбран именно этот алгоритм стемматизации, поскольку он не требует базы основ слов, и может быть использован для анализа редких слов или терминов - неологизмов. Специально для целей данной программы этот алгоритм был модифицирован в сторону повышения чувствительности к производным словам. К примеру, классический вариант стеммера Портера для слов «полярный» (медведь) и «полярность» (молекулы) ставит в соответствие стем «по-лярн». Модифицированный вариант не отбрасывает суффикс «ость», что уменьшает возможность ложного обнаружения связей.
Термины, выделенные в ходе анализа, формируют множество концептов будущей семантической сети. Для определения связей между концептами производится анализ текста на предмет включения в определении одного из терминов других понятий этого глоссария. Любое понятие считается определяющим для данного термина, если оно встречается в тексте определения, не зависимо от словоформы (падежа, рода, числа, лица). Для этого осуществляется поиск не самих слов, а их основ (стемов), выделяемых с помощью модифицированного алгоритма Портера.
ОПИСАНИЕ РАБОТы ПРОГРАММы
В качестве входных данных для анализа используется текстовый файл, содержащий в себе глоссарий рассматриваемого учебного курса.
Во входном файле каждое определение должно быть записано в формате <определяемый термин> -<определение> и состоять из одного абзаца; термин может быть составным - в несколько слов, может содержать скобки (причём их содержимое не учитываются в дальнейшем анализе), регистр букв не имеет значение. Остальные строки, не подходящие под приведённый формат, игнорируются.
Алгоритм анализа:
- На первом этапе анализа текста формируется набор всех терминов, определённых в данном глоссарии. Далее, для каждого из них находятся основы (стемы). Для терминов, состоящих из нескольких слов - стемы каждого из слов.
- На 2-ом этапе формируются строки, содержащие стемы всех слов, из которых состоят определения, причём порядок слов (стемов) сохраняется, знаки препинания опускаются.
- В завершении, выделяются совпадения стемов концептов и фрагментов стемов определений, на основе чего строится матрица смежности ориентированного графа семантической сети.
В результате анализа текста глоссария получается ориентированный граф - прототип будущей семантической сети. В случае, если исходный глоссарий был составлен неверно, данный граф может содержать циклы. С целью создания более удобного представления, граф рисуется с помощью утилиты dot из пакета Graphviz, а также приводится текст глоссария со специально подсвеченными фрагментами, соответствующими обнаружению концептов в определениях.
Для удаления циклов из графа-прототипа удаляются некоторые рёбра. Программа сама способна предложить набор рёбер для удаления. При этом она последовательно, в несколько шагов, удаляет по одному ребру, причём на каждом шаге выбирается ребро, удаление которого приведёт к минимизации размеров циклов (по числу рёбер) на следующем шаге.
Пользователь может видеть рисунок графа, на котором специально выделены (жирными линиями) найденные программой циклы; Красными линиями изображены рёбра, предложенные для удаления самой программой. Переключив вкладку, пользователь может свериться с исходным текстом глоссария, а затем произвести его коррекцию. Справа расположено перечисление всех рёбер, входящих в циклы, часть из которых (возможно и все) пользователь может удалить, чтобы получить ацикличный граф.
На выходе пользователь получает матрицу смежности ациклического ориентированного графа, описывающего семантическую сеть и саму сеть в визуализированном виде.
результаты счета
Для контрольного примера был использован фрагмент глоссария из методических указаний (Залесов С.В. 2006г.):
«Лесной пожар - стихийное (неуправляемое) распространение огня в лесу на покрытых и непокрытых площадях (напр. торфяной пожар), землях лесного фонда.
Низовой пожар - лесной пожар, распространяющийся по напочвенному покрову и нижним ярусам лесной растительности (мхам, лишайникам, мертвому покрову, травам, кустарничкам, подросту, кустарникам и валежу).
Верховой пожар - горение, распространяющееся по пологу древостоя, возникшее от кромки одновременно действующего низового пожара.
Почвенный (торфяной) пожар - лесной пожар, распространяющийся в органической части почвы.
Подстилочный пожар - почвенный пожар, при котором горение распространяется в лесной подстилке.
Торфяной пожар - почвенный пожар, при котором горение распространяется по торфянистому горизонту почвы.»
В результате анализа текста глоссария получен ориентированный граф - прототип будущей семантической сети (рисунок1).
На рисунке 2 показано окно программы на этапе нахождения и удаления циклов. Найден цикл «Лесной пожар - Почвенный пожар - Торфяной пожар -Лесной пожар». Цикл возник в результате того, что в определении термина «Лесной пожар» содержится в качестве примера термин «торфяной пожар». Рёбро, предложенное для удаления самой программой, изображено красной линией.
На выходе пользователь получает семантическую сеть в виде ациклического ориентированного графа
(рисунок 3). На его основе можно проводить анализ учебного материала данного курса.
ВЫВОДЫ
Данную программу можно использовать:
• для контроля структуры глоссария на предмет нарушения структуры или ограничений требований ГОСТ 7.25-20011;
• для построения семантической сети учебной дисциплины;
• для разработки личных глоссариев обучающего и обучаемого;
Рисунок 1 - Окно программы на этапе построения прототипа графа семантической сети
Подстилочный пожар
Рисунок 2 - Содержимое окна программы (вкладка Граф) на этапе нахождения и удаления циклов
Рисунок 3 - Семантическая сеть понятий (фрагмент)
Хвойные бореальной зоны, XXX, № 5 - 6, 2Q12
• для отображения междисциплинарных связей, используя в качестве входного файла объединение нескольких глоссариев.
Результаты работы обладают недостатком, общим для визуализации семантических сетей, - рисунок становится громоздким при большом объеме глоссария.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. Залесов С.В. Лесная пирология (Текст): Методические указания по курсу «Лесная пирология» для студен-
тов заочной формы обучения, направление 25Q2QQ «Лесное хозяйство и ландшафтное строительство», 25Q1QQ «Лесное дело», специальности 25Q2Q1 «Лесное хозяйство», 25Q2Q3 «Садово-парковое и ландшафтное строительство» / C.B. Залесов, В.А. По-мазнюк, Екатеринбург: УГЛТА, 2QQ6. 3Q3 с.
ANSI/NISO Z39.19-2QQ5. Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies.
ISO 2788:1986. Documentation - Guidelines for the establishment and development of monolingual thesauri.
The Porter Stemming Algorithm /(Электронный ресурс): Режим доступа http://tartarus.org/~martin/PorterStemmer/
Поступила в редакцию Q1 ноября 2Q12 г. Принято к печати Q7 декабря 2Q12 г.