Научная статья на тему 'Классификация научных публикаций в области химии на основе метода таксономии рефератов статей'

Классификация научных публикаций в области химии на основе метода таксономии рефератов статей Текст научной статьи по специальности «Математика»

CC BY
190
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАКСОНОМИЯ / КЛАСТЕРНЫЙ АНАЛИЗ / АВТОМАТИЧЕСКИЙ АНАЛИЗ ДОКУМЕНТОВ / ИНФОРМАЦИОННЫЙ ПОИСК / TAXONOMY / CLUSTER ANALYSIS / AUTOMATIC DOCUMENT ANALYSIS / INFORMATION RETRIEVAL

Аннотация научной статьи по математике, автор научной работы — Фролова Любовь Викторовна, Пиоттух-пелецкий Вадим Николаевич, Филатова Людмила Сергеевна, Макаров Лев Иванович

Предложен метод таксономии научных публикаций по текстам их рефератов. Описан алгоритм таксономии, использующий остовный граф, соответствующий матрице расстояний документов. Приведен и проанализирован пример таксономии 1000 рефератов из Chemical Abstracts по химии гетероциклических соединений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATIC CLASSIFICATION OF SCIENTIFIC PUBLICATIONS IN CHEMISTRY USING THE TAXONOMY METHOD APPLIED TO ABSTRACTS OF ARTICLES

A new method of scientific articles taxonomy based on their abstracts proposed. The taxonomy algorithm using spanning graph corresponding to document distance matrix discussed. A taxonomy example for 1000 abstracts in the field of heterocyclic chemistry taken from Chemical Abstracts discussed and analyzed.

Текст научной работы на тему «Классификация научных публикаций в области химии на основе метода таксономии рефератов статей»

УДК 002.513.5+681.327.12

Л. В. Фролова 1, В. Н. Пиоттух-Пелецкий 1, Л. С. Филатова 1, Л. И. Макаров 2

1 Новосибирский институт органической химии им. Н. Н. Ворожцова СО РАН пр. Акад. Лаврентьева, 9, Новосибирск, 630090, Россия

2 Институт математики им. С. Л. Соболева СО РАН пр. Акад. Коптюга, 4, Новосибирск, 630090, Россия

E-mail: piottukh@nioch.nsc.ru

КЛАССИФИКАЦИЯ НАУЧНЫХ ПУБЛИКАЦИЙ В ОБЛАСТИ ХИМИИ НА ОСНОВЕ МЕТОДА ТАКСОНОМИИ РЕФЕРАТОВ СТАТЕЙ *

Предложен метод таксономии научных публикаций по текстам их рефератов. Описан алгоритм таксономии, использующий остовный граф, соответствующий матрице расстояний документов. Приведен и проанализирован пример таксономии 1000 рефератов из Chemical Abstracts по химии гетероциклических соединений.

Ключевые слова: таксономия, кластерный анализ, автоматический анализ документов, информационный поиск.

Обработка и автоматический анализ содержания текстовых документов - активно развивающаяся отрасль информатики, имеющая многолетнюю историю и находящая многочисленные приложения на практике. В качестве отдельных ветвей данной тематики выступают и контент-анализ, и методы классификации, базирующиеся на фиксированной иерархической системе понятий, и семантические сети, и активно развиваемый в последнее десятилетие метод онтологий [Bordogna et al., 2006; Dai et al., 2005; Jackson et al., 2002; Pedrycz, 2005]. Каждое из указанных направлений анализа ориентировано на свои специфические задачи и во многих случаях требует достаточно глубокого анализа текста документов.

Традиционный подход к классификации научных публикаций основывается на использовании заголовка и ключевых слов, характеризующих основные содержательные особенности статьи, а также рубрикатора реферативного журнала или библиотечного классификатора (УДК, ББК). При их использовании наблюдается определенная консервативность: новые отрасли знания, проявляющиеся в публикациях, находят отражение в изменении формализованных рубрикаторов с достаточно большим запозданием, доходящим иногда до 10 лет. В связи с этим возникла задача попытаться осуществить автоматическую таксономию (кластеризацию) статей химического профиля, посвященных гетероциклическим соединениям и вышедших в российских журналах в 2004 г., на основе ключевых слов и полных текстов англоязычных рефератов, опубликованных в реферативном журнале Chemical Abstracts. Результатом должны стать группы тематически родственных статей, объединяющихся в таксоны в соответствии с близостью словарного состава их рефератов. Получаемые группировки могут быть сопоставлены с традиционными классификациями тех же статей по рубрикатору реферативного журнала.

Решение данной задачи представляет интерес как для целей наукометрии, так и для традиционного информационного поиска. Поскольку каждый текстовый документ, в нашем случае реферат научной публикации, может быть охарактеризован как многомерный, многоплановый объект, однозначная его классификация в соответствии с фиксированным жестким тезаурусом часто не удовлетворяет пользователей, решающих задачу поиска документов, близких по тематике. Не намного улучшает ситуацию и использование ключевых слов и выражений, характеризующих отдельные документы, поскольку их выбор достаточно субъективен. При попытке найти семейство публикаций родственных по самым различным аспек-

* Работа выполнена при частичной финансовой поддержке Российского фонда фундаментальных исследований (проект № 08-06-00337-а).

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2009. Том 7, выпуск 1 © Л. В. Фролова, В. Н. Пиоттух-Пелецкий, Л. С. Филатова, Л. И. Макаров, 2009

там, по-видимому, требуется отходить от жестких классификационных схем и использовать весь текст реферата, а не только стандартные классификаторы.

Задачи группировки родственных текстовых документов могут решаться на основе нескольких принципиально различающихся подходов. Один из подходов основывается на использовании семантических сетей и учитывает детальные взаимоотношения слов в предложении, а также использует иерархический тезаурус. Второй, более простой (и, возможно, более грубый), рассматривает слова или устойчивые словосочетания как самостоятельные значимые термины и не принимает во внимание детали взаимодействия слов друг с другом в рамках одного предложения. Можно предположить, что для формального описания и классификации рефератов научных статей, характеризующихся устойчивой терминологией, будет достаточно второго подхода.

Для решения этой задачи на первом этапе была проведена традиционная для задач контент-анализа очистка словарного состава рефератов от общеупотребительных слов - предлогов, слов-связок, потенциально малоинформативных терминов и т. п. Для этого был сформирован полный список всех слов, встречающихся в рефератах и из него отобраны слова для удаления (ЬаШ181;). На рис. 1 приводится список тривиальных слов. Многократная встречаемость слова в пределах одного реферата не учитывается.

Рис. 1. Фрагмент списка тривиальных слов. После каждого слова указано количество рефератов,

в которых оно встречается

Тривиальные слова отбираются для словаря вручную. Кроме тривиальных слов, исключались из рассмотрения все слова, имеющие частоту встречаемости 1. Имеется возможность редактирования списка слов. Известно, что, кроме отдельных слов-терминов, семантическую значимость имеют словосочетания, поэтому для усиления эффективности работы алгоритма был автоматически построен словарь парных словосочетаний. В режиме скользящего сканирования текста отбирались все пары рядом стоящих слов, не содержащие слов из списка тривиальных. Для парных словосочетаний также строится список тривиальных и одиночных словосочетаний, аналогичный списку тривиальных слов. Пользователь может редактировать основной список словосочетаний, помечая те из них, которые требуется перевести в список тривиальных.

г------- РёнбимтакЬЬномии: |о6тдб-_7 Выполнить

■ База данных: Нйёф^еШ^.ЩЙ-док.),1" :

Па^ы.слов Информативные " | Олааа^ |

'V^B^f'^'i-^ibHa^ 597.

■ | В^МШ^гссть'У || Соединить. Разъединить . Щзлить

ш Слов it Метка Группы Частота № Слово bvicTKa Группы Частота

1 i&t^focyclic compound Ф Р MD3 antitiimor ! i

2 ' v^T"'- ..: _r\ ' 788 10® 1004 | 1

i crystal structure Ш Р 1005 fcttier &&enzo 3 P

nolecular stfHH§! Ш 93: 10® me.t&l-extn 1 |

i I 30 1007 dibenzoer&wn ethers* 3 1

$ structure molecular 20; Р 1008 e v^rantion a 2:

1 deriv pfgpil: 170 & 100? extraction тЩ^ 3 1

S ielef oeyplization prepn 1» 59 1010 metal prepn 205 2:

1 substiftitioh reacti«: 55 10.11 fiyridazine'. аШу1оху К 1

Ш: ring-op^ng-: Щб 51 1012 azinyloxy'liidroxy 1 2"

и ^eio^&Feaeticihs-' 200 щ 1013 3 3:

к reaction 0 43 1:014 catalytic oxidative 1 1

13 aminesrre actions Ш-. 43 1015 baberculostatics prepn 94§ 1

щ iiol.sthi.Ctt^fe ..: 47 1016 oxides £>rej!>ii- Щ §

13 reactiofrprepn 4?: 45 101.7 Condensation 1: Ш

16 condensation reaction 158 45 1018 aldehydes heteroeyclization-' 112 2:

17. :>r?-;iti heterQeydization Щ, 43 1019 ef^'reapto triazoles I Щ

1S sfyi-ipt tpn и Ш- № addn. r^ptioiis. 7 1

13 aldehydes readied 1 39- юй deriv stereoselective 3 2:

ш' ЙгЩЙЗагфп Ж 36; Ш2 tntram^l raig a 1

Рис. 2. Фрагмент списка словосочетаний с частотами их встречаемости в рефератах

Для учета синонимов и сокращенных написаний слов, как, например, preparation и prepn., создан список групп эквивалентных слов. При последующей обработке текста используется только первое слово из синонимической группы, заменяющее при построении вектора содержания остальные слова группы.

Затем для каждого реферата был построен так называемый «вектор содержания», характеризующий все присутствующие в нем слова за исключением заведомо малоинформативных. При этом каждому новому слову или словосочетанию присваивался регистрационный номер. Регистрационный номер соответствует отдельной компоненте вектора содержания, размерность которого равна количеству различающихся потенциально информативных слов и словосочетаний во всех анализируемых рефератах. Каждая компонента вектора принимает значение 1 или 0 в зависимости от наличия или отсутствия в реферате слова с регистрационным номером, равным номеру компоненты. Для выборки 1 000 рефератов Chemical Abstracts по химии гетероциклических соединений вектора содержания имели размерность 4 492 (2 815 одиночных слов и синонимических групп + 1 677 информативных словосочетаний и их синонимических групп). Следует отметить, что, в отличие от русского языка, характеризующегося достаточно большим разнообразием вариаций отдельного слова за счет падежей и склонений, в английском языке наблюдается значительно меньшее разнообразие, что несколько упрощает задачу. В русскоязычном варианте потребовалась бы еще дополнительная процедура нормализации словоформ за счет, например, приведения всех вариантов существительного к именительному падежу и единственному числу.

Получаемые вектора содержания рефератов использовались в качестве исходных данных для построения матрицы расстояний выбранного их подмножества объемом 1 000 рефератов. Расстояние оценивалось в метрике Хемминга, характеризующей долю несовпадающих компонент сравниваемых векторов. Построенная матрица расстояний задает полный взвешенный граф 0(У, X) выборки. Расстояние принимает значения от 0,0 до 1,0, во всех приводимых ниже примерах указано расстояние, умноженное на 1 000.

Построенная матрица расстояний используется в качестве исходных данных процедуры таксономии (кластеризации, распознавания образов). К настоящему времени описано достаточно большое число алгоритмов кластеризации, вышло большое число обзоров, например, [Мандель, 1988; Матула, 1980]. Обсуждаются также формальные вопросы выбора наиболее эффективного набора классификационных признаков и наилучшего варианта таксономии [Загоруйко, 1969]. Предварительное сопоставление описаний различных алгоритмов кластеризации с точки зрения эффективности, легкости содержательной интерпретации и типичных видов кластеризуемых объектов позволило остановиться на группе алгоритмов типа разрезания графа [Матула, 1980], на основе которых был разработан использованный и описанный ниже алгоритм.

Алгоритм таксономии выборки рефератов

Множество вершин V = {уг- | I = 1, 2, ..., р} взвешенного графа выборки соответствуют ее рефератам, а каждому ребру из множества X = {х =(уь у,) | V, у, е V} приписана длина (вес) ребра равная расстоянию между соответствующими рефератами. Задача таксономии состоит в разбиении множества вершин этого графа на подмножества (таксоны) «близко» расположенных друг к другу вершин (рефератов).

Алгоритм таксономии множества (выборки) объектов, представленного в виде полного взвешенного графа с заданной матрицей расстояний между его вершинами использует величины отделимости вершин ребер этого графа [Макагоу, 2003; БегеМуаеу й а1., 2004].

Отделимостью пары вершин ребра в графе G называют величину отношения его длины к длине наименьшего из смежных с ним ребер. При разбиении вершин взвешенного графа на таксоны близких вершин естественно считать, что вершины ребра с малой отделимостью должны принадлежать одному таксону, а вершины ребра с большой отделимостью - разным таксонам.

Кратчайшим остовом связного графа G называют его связный подграф без циклов (дерево), содержащий все вершины графа и имеющий минимальную сумму длин ребер.

Удаление любого ребра остова приводит к его разбиению на два остова, вершины которых образуют два новых таксона.

Алгоритм таксономии последовательно удаляет из кратчайшего остова ребра, упорядоченные по невозрастанию либо отделимостей их вершин, либо их длин.

В результате п шагов алгоритма из кратчайшего остова удаляется п ребер, т. е. число таксонов становится равным п + 1. Качество таксономии графа G с п + 1 таксонами определено как 2х Ьх / п, где ребро х принадлежит множеству удаленных ребер, а Нх - количественная характеристика этого ребра, которая зависит от его длины или отделимости его вершин.

Результатом работы алгоритма является таксономия, имеющая наибольшее качество.

Вычислительная сложность алгоритма пропорциональна квадрату объема выборки.

При разбиении множества объектов на таксоны в алгоритме предусмотрена возможность управления процессом таксономии с помощью задаваемых параметров. Это позволяет эффективно использовать его в различных областях применения.

Управляющие параметры алгоритма обеспечивают возможность:

1) использования двух функций качества таксономии;

2) ограничения диаметра каждого таксона, т. е. длину его наибольшего ребра, некоторым максимальным значением. Иначе в процессе разбиения вершин графа возможно образование таксона в виде цепочки близких вершин, в котором его диаметральные вершины будут соответствовать далеким объектам, попадание которых в один таксон нежелательно;

3) задания требуемого числа таксонов;

4) задания равномерности распределения объектов по таксонам.

Результатом работы алгоритма таксономии являются группы объектов, имеющих сравнительно небольшое расстояние между объектами внутри группы и достаточно большое расстояние до объектов, принадлежащих другим группам.

Обсуждение результатов

Результаты таксономии выборки размером 1 000 рефератов раздела «Химия гетероциклических соединений» из реферативного журнала Chemical Abstracts представлены на рис. 3. Таксономия проводилась без ограничений на количество и размер таксонов. В столбцах приведены частота встречаемости слова в рефератах всей выборки (M_BD), частота встречаемости слова в рефератах рассматриваемого таксона (M_T), процент рефератов таксона, содержащих данное слово (P_T) и отношение (%) количества рефератов в таксоне с данным словом к количеству рефератов с данным словом во всей выборке (RP). Значок А или v после имени столбца характеризует направление сортировки записей.

Рис. 3. Результаты таксономии для 1 000 рефератов: 1-й столбец- номера таксонов; 2-й - тексты рефератов, попавших в выбранный таксон; 3-й - частотные характеристики слов, найденных в рефератах данного таксона

Приведенные в табл. 1 данные характеризуют результаты таксономии по таксонам в целом. Видно, что максимальное расстояние между объектами внутри таксонов меньше или равно среднему расстоянию между объектами в остовном графе, а соответствующие средние расстояния заведомо меньше среднего расстояния в остовном графе, т. е. в таксоны сгруппированы более похожие друг на друга объекты, чем в среднем по выборке. Около 20 % слов из словарного состава таксона можно назвать характеристическими для данного таксона, поскольку они присутствуют либо во всех рефератах, попавших в данный таксон (Т100), либо в таксон попали все рефераты из выборки, содержащие данное слово (В100). Обычно эти списки не пересекаются.

Таблица 1

Характеристики первых 8 из 141 таксонов

№ таксона Кол-во объектов Количество слов Т * Т 100 B100 Мин. расстояние Среднее расстояние Макс. расстояние

1 6 50 10 8 186 398 532

2 5 105 11 11 455 530 644

3 5 154 12 26 68 526 675

4 5 100 9 9 326 543 675

5 5 74 7 7 231 538 698

6 4 108 22 4 321 433 495

7 4 106 18 15 273 418 522

8 4 45 8 3 228 438 628

Расстояния между объектами в остовном графе Расстояния между объектами во всей выборке 45 45 698 956 852 1 000

* Т100 и В100 - количество слов в словарном составе таксона, присутствующих во всех рефератах таксона или на 100 % выбранных в таксон из всех 1 000 рефератов соответственно.

Рефераты, попадающие в один таксон, характеризуются специфическими для данного таксона частотами встречаемости терминов, причем практически ни в одном случае эта специфичность не сводилась только к одному термину. Однако можно попытаться проанализировать наиболее часто встречающиеся и наиболее характерные (с точки зрения исследователя-химика) для данного таксона слова и словосочетания.

Рассмотрим своего рода обобщенный портрет рефератов, попавших в таксон № 5. Отсортируем сначала все слова и выражения по значениям процента рефератов таксона, содержащих данное слово или словосочетание (рис. 4, а, приводятся первые 34 слова / словосочетания).

Из первых 7 (из общего количества 74) слов / словосочетаний видно, что все 5 рефератов содержат информацию о «plant growth regulators» - регуляторах роста растений, так как имеют 100 % представленность соответствующих терминов. Если рассмотреть слова и словосочетания, на 100 % характерные именно для данного таксона и не присутствующие ни в одном другом таксоне (что можно легко получить, отсортировав ту же таблицу по отношению количества рефератов в таксоне с данным словом или словосочетанием к количеству рефератов с данным словом во всей выборке), мы получаем уточненное описание. Оно содержит, в частности, «growth stimulator, growth promoter, chloromethyl benzimidazole, pyrrolo imidazole», однако данные термины, хотя они и уникальны для всей анализируемой выборки, присутствуют не во всех рефератах таксона. Естественно, это отражает только небольшую (7 слов / словосочетаний на 100 % присутствующих только в данном таксоне), но наиболее характерную для документов данного таксона часть информации.

Таксономия разбивает множество объектов на таксоны, которые могут иметь разную «форму», например, шарообразную, вытянутую и т. п. Кроме того, внутри таксона объекты могут быть распределены неоднородно. Поэтому представляет интерес исследование таких особых подмножеств объектов (рефератов) таксонов, которые можно характеризовать как наиболее «типичные» и «нетипичные» объекты, компактные группы объектов в таксоне и т. п. [Макаров, 2005]. Вершины компактных групп характеризуются тем, что имеют «достаточно» много близких по тематике документов. Существование таких групп говорит о не-однородностях распределения объектов по таксону. В алгоритме имеется возможность выделить представителей некоторых особых множеств, например, представителей ядра, периферии, компактных групп и т. д.

№ M„BD | m_tJ P _T v | SP j

1 plant 21 5 100 23.

2 growth 20 5 100 25

3.: activity 115 5 100 4.3;

4 regulators IS 5 100 27.

5 plant growth 11 5 100 45.

6 growth regulators 16 5 100 31

7 regulators plant 12 5 100 41

8 preparation 215 4 80 18

9 cyclo c ondens ation 87 4 80 4 5

10 simulator 4 4 80 100

11 prepn plant 15 4 80 26.

12 cyclocondensation reaction SS 4 80 4.5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

13 amino 157 3 60 1.9

14 benzo 39 3 60 7.6

15 pyrrolo 21 3 60 14

16 imidazole 47 3 60 6 3

17 stimulating 6 3 60 50

18 growth stimulator 5 3 60 60

19 benzo pyrrolo 3 3 60 100

20 pyrrolo imidazole- 3 3 60 100

21 ethyl 32 2 40 6.2

22 eliciting 10 2 40 20

23 antistress 3 2 40 66.

24 chloromethyl 12 2 40 16

25 benzimidazole 35 2 40 5 7

26 plant amino 2 2 40 100

27 amino benzo 2 2 40 100

28 reaction chloromethyl 2 2 40 100

29 chloromethyl benzimidazole 2 2 40 100

30 demonstrated 12 2 40 16.

31 prepn amino 44 2 40 4.5

32 regulating 6 2 40 33.

33 derivatives 371 2 40 0 5

34 carboxylates 20 1 20 5

а

fig ||4_ED Iv J F RP-v |

1 stimulator 4 4 set: 100

2 plant amino 2 2 4® 100

3 amino benzo 2 2 40 100

4 benzo pyrrolo 3 3 60 100

5 pyrrolo imidazole 3 3 60 ;«

6 reaction chloromethyl 2 2 40 ■li№

7 chloromethyl benzimidazole 2 2 40 100

8 antistress 3 2 4Q: 66.

9 growth stimulator 5 3 60 60

10 stimulating 6 3 60 50

11 imidazole carboxylate 2 1 20; so;.

12 cyanoacetamide 2 1 20 50

13 eliciting plant 2 1 20 50

14 sugar 2 1 20 50

15 eidiibiting 2 1 20 50

16 chloroacetamides prepn 2 1 2Qi 50

17 plant growth 11 5 100 45.

IS regulators plant 12 5 100 41.

19 regulating 6 2 40; 33.

20 growth promoter 3 1 20 33

21 growth regulators 16 5 400 31

22 regulators 18 5 100 27

23 prepn plant 15 4 80 26.

24 growth 20 5 lie 2 Ш

25 cyanoacetate 4 1 20 25

26 amino cyano 4 1 20 25

27 growth stimulating 4 1 2i® 25

28 plant 21 5 «10 23.

29: eliciting 10- 2 40 20

30 growth regulating 5 1 20 20

31 clCH 5 1 20 20

32 promoter 5 1 20 205;

33 prepn growth 5 1 20 20

34 chloromethyl 12 2 4 ей 16.

б

Рис. 4. Наиболее характерные слова и словосочетания таксона 5: а - упорядоченные по доле (%) рефератов таксона, содержащих эти слова; б - по отношению (%) количества рефератов в таксоне с данным словом к количеству рефератов с данным словом во всей выборке 1 000 рефератов

Для 5-го таксона на рис. 5 наиболее типичным объектом - центром графа расстояний таксона - является объект 64. При сопоставлении текста соответствующего реферата и выявленных экспертом-химиком наиболее характеристичных слов и словосочетаний для данного таксона видно, что в реферате 64 присутствуют все выявленные слова, т. е. в данном случае экспертная характеристика совпадает с выявленным по формальным признакам наиболее типичным представителем таксона. Аналогичное сопоставление справедливо и для так называемого ядра таксона - объектов 18, 64, 65.

Di = EjCij - дистанция вершины V;;

Отах = тах Ц;

Медиана графа - вершины с дистанцией равной Бт;п; Ядро графа - вершины V; , для которых Б; < = (Бтах + Бт;п)/2; Окраины графа - вершины V , для которых > (Бтах + Бт;п)/2; Периферия графа - вершины с дистанцией равной Бтах. Особые объекты таксона 5

=== Относительно объектов того же таксона == = Центр: 64 Медиана: 64 Ядро: 18 64 65

Диаметральные объекты: 813 136 Выступы (от центра): 136 813 Периферия: 813 Окраина: 136 813

Объекты из компактных групп: 18 64 65 === Относительно объектов других таксонов == = Ближайший: 65 (к объекту 583) Ближайший до всех: 813

Dmin = mm D

Рис. 5. Граф расстояний между рефератами и особые вершины таксона 5, выявленные программой таксономии.

Номера вершин соответствуют номерам рефератов на рис. 3

Оценивая в целом результаты таксономии, следует иметь в виду, что выборка в 1 000 рефератов строилась в рамках одной рубрики реферативного журнала Chemical Abstracts - химия гетероциклических соединений. Более детальное разбиение элементов выборки на какие-то группы средствами тематического классификатора не предусмотрено. Задачей процедуры таксономии было формирование содержательно компактных групп рефератов. В качестве независимого от процедуры таксономии инструмента классификации рефератов можно использовать два поля: ключевые слова, задаваемые авторами статей, и индексные термины и выражения, формируемые индексаторами - сотрудниками реферативного журнала в соответствии с определенными правилами. Поэтому от индексных терминов и выражений можно ожидать большей унифицированности, чем от ключевых слов. Полная совокупность индексных терминов отдельного документа, как показал эксперимент на всей выборке, представляет собой уникальную характеристику реферируемой статьи, т. е. в выборке нет повторяющихся индексных описаний. Однако можно сопоставить части индексных описаний и наиболее характерные для выявленных таксонов слова и словосочетания. Так, для уже рассмотренного выше таксона № 5 во всех индексных описаниях рефератов присутствуют слова «plant growth regulator». Аналогичная картина наблюдается при визуальном сопоставлении индексных описаний и наиболее характерных слов, выделенных для других таксонов, -практически в каждом индексном описании присутствуют наиболее характерные слова и словосочетания таксонов. Имеются и различия индексных описаний и характерных слов таксонов: в индексных описаниях практически всегда присутствуют малоинформативные слова типа предлогов, связок, глаголов, а в ряде случаев и слова с единичной частотой встречаемости в выборке, например, названия химических соединений, встречающихся только в данной конкретной статье. С другой стороны, слова и словосочетания, выявленные из рефератов статей и характеризующие данный таксон, более многочисленны и более детально отражают содержание рефератов. Тем не менее, несмотря на возможное влияние человеческого факто-

ра при формировании рефератов, индексных описаний, списка малоинформативных слов, выявленные таксоны действительно отражают семантическую близость документов, подтверждаемую независимым анализом соответствующих индексных описаний.

Анализ сформированных таксонов показывает, что использование описанного выше алгоритма позволяет группировать родственные рефераты в отдельные таксоны, характеризующиеся высокой семантической близостью рефератов внутри таксонов. Полученное разбиение всех статей выборки на таксоны отражает химическую специфику статей внутри каждого таксона и представляет несомненный интерес для химиков, работающих с информационными системами. Использованный алгоритм таксономии весьма эффективен (время разбиения на таксоны выборки из 1 000 объектов составляет менее 10 секунд на Pentium IV 2600MHz) и предоставляет пользователю полезную информацию об особых объектах выявленных таксонов. Практическая ценность получаемых результатов - решение задач автоматической классификации текстовых документов и структурирование результатов информационного поиска при нечетко заданных критериях отбора документов. Следует отметить, что при определении расстояния между текстами рефератов использовались равные веса всех использованных слов и словосочетаний, что исключало какой-либо тематический перекос результатов таксономии. В случае решения задач информационного поиска с последующей таксономией (кластеризацией) результатов возможно задание определенных весовых коэффициентов отдельным словам и словосочетаниям с целью акцентирования интересов пользователя.

Список литературы

Загоруйко Н. Г. Одновременный поиск эффективной системы признаков и наилучшего варианта таксономии // Вычислительные системы. Новосибирск, 1969. Вып. 36. С. 47-51.

Макаров Л. И. Особые вершины взвешенного графа выборки // Автометрия. 2005. № 5. С.92-98.

Мандель И. Д. Кластерный анализ М.: Финансы и статистика, 1988. 176 с.

Матула Д. В. Методы теории графов в алгоритмах кластер-анализа // Классификация и кластер. М.: Мир, 1980. С. 83-111.

Bordogna G., Pagani M., Pasi G. A Dynamic Hierarchical Fuzzy Clustering Algorithm for Information Filtering / Eds. E. Herrera-Viedma, G. Pasi, F. Crestani // Soft Computing in Web Information Retrieval. Berlin: Springer, 2006. P. 3-24.

Dai T., Li C., Sun J. Determining the Number of Probability-Based Clustering: A Hybrid Approach / Eds. Chi-Hung Chi Kwok-Yan Lam // Content Computing. Berlin: Springer, 2005. P. 416-421.

Derendyaev B. G., Bogdanova T. F., Piottukh-Peletsky V. N., Makarov L. I. Fast Taxonomy of Chemical Structures Selected From IR Spectral Database // Analytica Chimica. 2004. Vol. 509. P.209-216.

Jackson P., Moulinier I. Natural Language Processing for Online Applications Text Retrieval, Extraction and Categorization. John Benjamins Publ. Co. Amsterdam, 2002.

Makarov L. I. Taxonomy algorithm for molecular graphs // MATCH - Commun. Math. Comput. Chem. 2003. № 49. P. 171-178.

Pedrycz W. Knowledge-Based Clustering From Data to Information Granules. Wiley, New Jersey, 2005.

Материал поступил в редколлегию 03.12.2008

L. V. Frolova, V. N. Piottukh-Peletsky, L. S. Filatova, L. I Makarov

AUTOMATIC CLASSIFICATION OF SCIENTIFIC PUBLICATIONS IN CHEMISTRY USING THE TAXONOMY METHOD APPLIED TO ABSTRACTS OF ARTICLES

A new method of scientific articles taxonomy based on their abstracts proposed. The taxonomy algorithm using spanning graph corresponding to document distance matrix discussed. A taxonomy example for 1000 abstracts in the field of heterocyclic chemistry taken from Chemical Abstracts discussed and analyzed.

Keywords: taxonomy, cluster analysis, automatic document analysis, information retrieval.

i Надоели баннеры? Вы всегда можете отключить рекламу.