Поиск и выделение структурированной физической информации в виде физических эффектов из текстов первичных источников

Коробкин Дмитрий Михайлович; Фоменков Сергей Алексеевич

проверки на допустимость возможных взаимосвязей этих идентифицированных объектов.

Рис. 4. Схема процесса анализа электронного документа

Таким образом, анализ электронного документа сводится к следующим, последовательно выполняемым шагам, изображенным на рис.4.

Заключение

В статье рассмотрены задачи и определены проблемы автоматизации обработки и управления НД в рамках общей задачи управления контентом в компании. Определены основные ограничения СУИ при работе с НД и их причины. Рассмотрены модели представления данных: реляционная, объектно-ориентированная - выяснена возможность их применения к описанию НД. Рассмотрен подход к обработке и описанию данных, основанный на технологии Semantic Web, которую предложено использовать для оптимизации модели представления данных и метамодели, в рамках описанных задач автоматизации управления неструктурированными данными.

СПИСОК ЛИТЕРАТУРЫ

1. Информационные технологии и управление предприятием / В.В. Баронов [и др.]. - М: Компания АйТи, 2004. - 328 с.

2. Passin T. B. Explorers's Guide to the Semantic Web / T. B. Passin.: MAN NING, 2004.

- 205 c.

3. Daconta M.C. The semantic web. A guide to the future of XML, web services, and knowledge management / L.J. Obrst, K.T. Smit: WILEY, 2003.

- 312 a

Д.М. Коробкин, С.А. Фоменков

ПОИСК И ВЫДЕЛЕНИЕ СТРУКТУРИРОВАННОЙ ФИЗИЧЕСКОЙ ИНФОРМАЦИИ В ВИДЕ ФИЗИЧЕСКИХ ЭФФЕКТОВ ИЗ ТЕКСТОВ

ПЕРВИЧНЫХ ИСТОЧНИКОВ

В связи с ростом количества электронных источников все более увеличивается потребность в поиске и выделении интересующей пользователя информации. Опыт использования существующих систем, применяющих универсальные модели выделения информации, свидетельствует о необходимости ограничения обрабатываемой в системе информации до конкретной предметной

области (ПО), что позволит более релевантно искать и выделять нужную информацию. В данном исследовании предметная область ограничивается структурированной физической информацией в виде физических эффектов (ФЭ) [1], которые полезны при конструировании принципиально новых высокоэффективных технических систем, разработке новых технологий, научно-

техническом прогнозировании, при обучении методам технического творчества.

До настоящего момента вопрос поддержания в актуальном состоянии базы данных ФЭ реализовывался с помощью методики модификации [1] фонда ФЭ, созданной в рамках работ кафедры САПР и ПК ВолгГТУ, и имеющей значительный недостаток: все операции осуществлялись вручную, что приводило к большим временным и трудовым издержкам.

Таким образом, учитывая, что центральными и наиболее трудоемкими операциями методики являются поиск первичных источников и выделение из текста описаний физических эффектов, то актуальной является необходимость разработки автоматизированных средств поиска и выделения структурированной физической информации в виде физических эффектов из текстов первичных источников на естественном русском языке (ЕЯ).

В основе процедуры поиска структурированной физической информации в виде физических эффектов лежит разработанная авторами методика тематической фильтрации первичных источников. Данная методика основывается на объединении двух методов: метода семантического анализа документов (8ешЬР), базирующегося на семантическом словаре русского языка В.А.Тузова [2], и метода латентно-семантического анализа (Ь8Л) [3].

Метод 8ешЬР основан на представлении каждого слова исходного текста в виде семантической формулы, являющейся суперпозицией базовых функций над семантическими классами. Предложения исходного текста в результате семантического анализа представляются в виде семантико-синтаксических деревьев, вершиной которых является глагол или отглагольная форма.

Согласно разработанной методике тематической фильтрации, построение фильтра по тематике «Физика» осуществляется в 2 этапа.

Вначале с помощью метода 8ешЬР происходит семантический анализ документов фонда ФЭ. Для осуществления семантиче-

ского анализа физических текстов автором работы были уточнены и значительно расширены описанные в словаре русского языка В.А.Тузова семантические классы, относящиеся к понятиям физики. Семантический словарь русского языка модифицируется таким образом, что каждому семантическому классу приписывается коэффициент его принадлежности тематике «Физика», который определяется экспертно.

Далее из совокупности семантико-синтаксических деревьев всех документов Е] фонда извлекаются термы И и определяется частота их встречаемости в документах. Под термом понимается слово/фразеологизм в нормальной морфологической форме. Последовательно осуществляются локальное взвешивание [4], используя коэффициент принадлежности семантического класса, соответствующего И, тематике «Физика», затем глобальное взвешивание термов, их нормализация и вычисляются приведенные частоты х] встречаемости термов в документах фонда. В тематический фильтр отбираются термы, приведенные частоты которых больше некоторого экспертно выбранного порогового значения.

На втором этапе уточняется разработанный фильтр по тематике «Физика». Для этого посредством латентно-семантического анализа (Ь8Л) [3] уменьшается пространство термов (исключается «шум») и выявляются скрытые зависимости между термами. В качестве исходной информации Ь8Л использует матрицу термы-на-документы. Элементы этой матрицы содержат приведенные частоты х] встречаемости каждого терма И в каждом документе Е]. В Ь8Л используется сингулярное разложение матрицы термы-на-документы в произведение трех матриц Л=иОУТ, где и - матрица векторов термов, В - матрица сингулярных значений, УТ -матрица векторов документов.

Такое разложение обладает следующей особенностью: если в матрице В оставить к наибольших сингулярных значений, а в матрицах и / УТ - соответствующие этим значениям столбцы / строки, то произведение Лк получившихся матриц будет наилучшим

приближением исходной матрицы А матрицей ранга к.

Предлагаемая методика фильтрации основана на предположении, что оценка тематической близости документа и тематики «Физика» определяется близостью термов, входящих в их описания. Вычисляем оценку близости документа и тематики С (й, Т) (1) как среднее арифметическое попарных оценок близости термов а (соответствующих строк матрицы Ак) из описаний документа й и тематики Т.

С(й, Т)- еТ

ЕЕ Ш, ())

Т X й

(1),

где (( - 7-ый терм из документа й; (( - 7-ый терм из тематического фильтра; Т -

количество термов в тематическом фильтре; |й| - количество термов в документе й.

Успешно прошедшими тематическую фильтрацию считаются документы, оценка близости которых тематике С(й, Т) (1) больше некоторого экспертно выбранного порогового значения.

Чтобы автоматизировать процедуру выделения описаний ФЭ из текстов первичных документов, определим компоненты формального описания ПО «ФЭ»:

1) онтология, включающая в себя концепты (понятия) (рис. 1) и концептуальные отношения ПО «ФЭ»;

2) предметный словарь (тезаурус), содержащий термины, с помощью которых в тексте могут представляться концепты и концептуальные отношения онтологии.

Рис. 1. Таксономия концептов ПО «ФЭ»

Согласно модели ФЭ [1], разработанной на кафедре САПР и ПК ВолгГТУ, входные воздействия (А1, ..., Ап) на объект ФЭ (В) вызывают выходное воздействие (С) на окружающую среду или на объект ФЭ (В). Поэтому в тексте, содержащем описание ФЭ,

необходимо выделить концептуальные отношения, описывающие некоторое «воздействие» над «объектами», выполняющими определенные роли внутри данного «воздействия».

На основе анализа массива первичных

источников, соответствующего фонду ФЭ, были выделены в единый класс все концептуальные отношения ПО «ФЭ», характерные для описания ФЭ в тексте физического профиля, такие как: влияние, воздействие, зависимость и др. Был сформирован тезаурус, содержащий около 100 терминов, посредством которых на ЕЯ представлены данные отношения. Для каждого концептуального отношения определены следующие роли (валентности): «АГЕНТ» (то, что воздействует), «ОБЪЕКТ» (то, что подвергается воздействию), «МЕСТО» (где осуществляется воздействие), которые сопоставлены с элементами описания ФЭ: ВХОДом, ВЫХОДом и ОБЪЕКТом.

Для того чтобы выделять описания ФЭ, была разработана модель представления структурированной предметной информации

[4]:

МБ = <С, Я, Z, Е Яс, Яг, Я/> (2),

где С - множество концептуальных отношений, определенных в ПО, сг е С;

Я - множество ролей концептуальных отношений ПО {АГЕНТ, ОБЪЕКТ, МЕСТО}, Яге Я - список заполненных валентностей (ролей) для а;

Z - множество наборов значений (элементов структуры (А,В,С)) ролей концептуальных отношений,

"сг е С $г] е Я [г] Лв/ > г], где

гс{ВХОД (Л), ВЫХОД (В), ОБЪЕКТ (С)}, ёв/ - оператор, ставящий в соответствие роли г] концептуального отношения с набор элементов структуры (А,В,С) г;

Е - множество семантических формул, представляющих слова русского языка при помощи суперпозиции базовых функций над семантическими классами В.А.Тузова [2];

Яс - отношение на декартовом произведении множеств СхЯ, пара (с, г) е Яс однозначно определяет члена концептуального отношения с, выполняющего роль г внутри данного отношения;

Яг - отношение на ЯcхZ, пара ((с, г), 2) е Я2 определяет набор значений

роли г, которую выполняет член концептуального отношения с;

Я/ - отношение на СхЕ, пара (с, /) е Я/ определяет описывающую концептуальное отношение с семантическую формулу /.

Согласно модели МБ (2), выполнять одну и ту же роль в концептуальном отношении могут разные элементы описания ФЭ. Для устранения такого рода неопределенности было введено отношение семантической однозначности, базирующееся на предлагаемой модели концептуального отношения МЯ: МЯ = <В, В, Я, ЯЯ> (3), где В - множество ролей концептуального отношения; В - множество их значений (элементов описания ФЭ); Я - отношение на ВхВ; ЯЯ - отношение семантической однозначности, обладающее следующими свойствами:

"Кк = ] е В, ёп Ф ё] е В

\(ёп, Ъпл )е Я )л((ё]., ] )е Я )®(ъ„л, ] )й ЯЯ ]

где п, ] е 1. М, М - количество ролей для концептуального отношения ПО;

к е 1. .Ып , Ып - количество элементов описания ФЭ для роли ёп; I е 1. .Ы] , Ы] - количество элементов описания ФЭ для роли ё]

Отношение ЯЯ определяет, что семантически несовместимыми являются одинаковые значения, относящиеся к разным ролям концептуального отношения.

На основании предложенной модели МБ (2) разработана методика выделения структурированной физической информации в виде физических эффектов из текста первичных источников, состоящая из следующих последовательных процедур:

1) Семантический анализ, который представляет текст первичного источника в виде семантико-синтаксических деревьев.

2) Лингво-семантический анализ, начальная операция которого - поиск в тексте первичного источника терминов из тезауруса концептуальных отношений ПО «ФЭ», яв-

ляющихся вершинами семантико-синтаксических деревьев предложений текста. Из семантико-синтаксического дерева предложения выявляются значимые для данного концептуального отношения заполненные валентности (роли) и присоединяемые посредством данных валентностей термы предложения. При этом термы должны содержаться в тезаурусе концептов ПО «ФЭ». Термам согласно модели МБ (2) приписываются соответствующие наборы значений (элементы описаний ФЭ) {г1,.,2п }.

Следующая операция лингво-семантического анализа - построение семантической сети описания ФЭ в предложении с использованием отношения семантической однозначности ЛЛ и идентификацией концепта ПО, соответствующего терму из текста, на предмет принадлежности классам

концептов ПО: «ВХОД ФЭ», «ВЫХОД ФЭ» или «ОБЪЕКТ ФЭ» (рис. 1).

Под вершиной семантической сети понимается: О = (Т,2) (5),

где Т - терм, описывающий члена концептуального отношения ПО, выполняющего определенную роль; 2 - набор значений соответствующей роли из (2) {21,...,т}.

Поскольку основной задачей выделения описаний ФЭ из текста является не столько извлечение концептов ПО, сколько определение того, характеристиками какого именно элемента описания ФЭ (ВХОДа, ВЫХОДа или ОБЪЕКТа) они являются, то преобразуем семантическую сеть, состоящую из вершин О (5) и ребер с, представляющих собой концептуальные отношения ПО, в вид, представленный на рис. 2.

Рис. 2. Преобразованная семантическая сеть описания ФЭ в тексте

Преобразованную семантическую сеть описания ФЭ в тексте можно представить как:

Мп = <Оп, Вп, Сп, Л, Л" > (6), где ОпсО - множество вершин I рода -элементов описания ФЭ (значения 2 из О), йе Оп; ВпсВ - множество вершин II рода -концептов ПО, соответствующих термам Т из О, Ье Вп; Сп - множество выявленных в тексте концептуальных отношений из модели М$> [2], сеСп; Rst - структурные связи вершин I рода с понятием «ФЭ», Л' - отношение классификации «К-Л» на множестве В, Л" - отношение меронимии «ИЛ8-РЛЯТ» на множестве В; пе{1..Ы1), ше{1..Ы2}, зе{1..Ы3} - индексы концептов

ПО; Ni - количество концептов ПО, связанных с вершиной I рода di (die Dn) концептуальными отношениями c из модели MS [2].

Отношение R обладает следующим свойством:

"bik, bt 1 e B [bukR'bt 1 ® bkR'btk ]

где i - индекс вершины I рода (die Dn); k,l - индексы концептов ПО, связанных с di концептуальными отношениями с из модели Ms.

Т.е., для любой пары концептов ПО, связанных концептуальным отношением сеСп в преобразованной семантической сети описания ФЭ в тексте (6) с одним и тем же элементом описания ФЭ (ВХОДом, ВЫХОДом или ОБЪЕКТом) и находящихся в семанти-

ческом отношении Я', возможна свертка в один концепт, находящийся на более низком уровне таксономии концептов ПО (рис. 1).

3) Следующая процедура методики (рис. 2) - составление предварительной входной карты ФЭ, используя свертку концептов. Текст документа разбивается на последовательность тематически однородных фрагментов. В качестве основы разбиения используются авторские параграфы. Семантические сети описания ФЭ в предложениях параграфа текста сводятся в одну преобразованную семантическую сеть (6).

Описания ФЭ составляются по следующему правилу: если для сИ, ге{1,2} (7) количество концептов ПО после свертки М=\В1\>1, где В1 = {Ы,1,...,Ы,М}, В\сВп, СгсОп, то можно сделать вывод о различии в наименованиях входа (г=1) или выхода (=2). Две тройки (вход1 (Л1), объект1 (В1), выход 1 (С1)) и (Л2, В2, С2) считаются разными, если они отличаются наименованиями (количеством) входных воздействий Л1, Л2

и/или наименованиями выходных воздействий С1, С2.

Предварительная выходная карта ФЭ формируется из предложений текста, на базе которых были составлены семантические сети.

Разработанные методики тематической фильтрации и выделения структурированной физической информации в виде ФЭ из текстов электронных источников на ЕЯ программно реализованы в зарегистрированном программном комплексе поддержки процесса формирования информационного обеспечения фонда ФЭ (ПК ППФИО БДФЭ).

На основе предложенной модели с помощью ПК ППФИО БДФЭ было найдено более 50 описаний новых ФЭ и расширено описание свыше 40 ФЭ. Отметим, что большинство найденных ФЭ представляют особый интерес, поскольку описаны в статьях журналов физического профиля за последние 5 лет.

СПИСОК ЛИТЕРАТУРЫ

1. Фоменков С. А. и др. Моделирование и автоматизированное использование структурированных физических знаний. - Волгоград, 2004.

2. Тузов В.А. Компьютерная лингвистика: Опыт построения компьютерных словарей. -СПб.: изд. СПбГУ, 2000.

3. Foltz P.W. Using latent semantic indexing for information filtering // In ACM Conference on Of-

fice Information Systems (COIS), pages 40-47, 1990.

4. Коробкин Д.М. Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний.: дис. ... канд. тех. наук: 05.13.12: защищена 26.12.06: утв. 13.04.07.

К.С. Семчинов

ПРИМЕНЕНИЕ СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ ДЛЯ ОПТИМИЗАЦИИ ПРОЦЕССОВ УПРАВЛЕНИЯ ЗАРУБЕЖНЫМИ ФИЛИАЛАМИ ПРЕДПРИЯТИЙ НА ПРИМЕРЕ

РОССИЯ-ГЕРМАНИЯ

Мировая экономика переживает трансформацию типов и методов взаимодействия производств, смену форм накопления, изменение представлений о критериях эффектив-

ности развития экономики. Условием развития экономического роста во все большей степени становится интеллектуализация производства /1/. Данные тенденции только

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Коробкин Дмитрий Михайлович, Фоменков Сергей Алексеевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Коробкин Дмитрий Михайлович, Фоменков Сергей Алексеевич

Текст научной работы на тему «Поиск и выделение структурированной физической информации в виде физических эффектов из текстов первичных источников»