Научная статья на тему 'О навигации по тезаурусам и рубрикаторам в гетерогенных распределенных информационных системах. Методы и алгоритмы'

О навигации по тезаурусам и рубрикаторам в гетерогенных распределенных информационных системах. Методы и алгоритмы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
267
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЕТЕРОГЕННЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ / ПОИСК ИНФОРМАЦИИ / ТЕЗАУРУСЫ / РУБРИКАТОРЫ / НАВИГАЦИЯ / SRU / SRW / Z39.50 / ZTHES / EXPLAIN / HETEROGENEOUS INFORMATION SYSTEMS / INFORMATION SEARCH / THESAURUSES / RUBRICATORS / NAVIGATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жижимов Олег Львович, Сантеева Сая Адилбайкызы

Обсуждаются вопросы, связанные с построением пользовательских интерфейсов для навигации по статьям тезаурусов и рубрикаторов в гетерогенных информационных системах. Приводятся некоторые алгоритмы формирования этих интерфейсов с учетом привязки внешних информационных ресурсов к выбранным статьям тезаурусов и рубрикаторов. Основной акцент сделан на динамическую привязку внешних ресурсов на основе текстового поиска по наборам характеристических терминов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жижимов Олег Львович, Сантеева Сая Адилбайкызы

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT NAVIGATION ACCORDING TO THESAURUSES AND RUBRICATORS IN THE HETEROGENEOUS DISTRIBUTED INFORMATION SYSTEMS. METHODS AND ALGORITHMS

The questions connected with creation of the user interfaces for navigation under articles of thesauruses and rubricators in heterogeneous information systems are discussed. Some algorithms of formation of these interfaces taking into account a linking of external information resources to the chosen articles of thesauruses and rubricators are given. The main emphasis is placed on a dynamic linking of external resources on the basis of text search in sets of characteristic terms.

Текст научной работы на тему «О навигации по тезаурусам и рубрикаторам в гетерогенных распределенных информационных системах. Методы и алгоритмы»

УДК 004.65:004.822

О. Л. Жижимов \ С. А. Сантеева 2

1 Институт вычислительных технологий СО РАН пр. Академика Лаврентьева, 6, Новосибирск, 630090, Россия

2 Новосибирский государственный университет ул. Пирогова, 1, Новосибирск, 630090, Россия

zhizhim@mail.ru, saya_santeeva@mail.ru

О НАВИГАЦИИ ПО ТЕЗАУРУСАМ И РУБРИКАТОРАМ

В ГЕТЕРОГЕННЫХ РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ.

МЕТОДЫ И АЛГОРИТМЫ

Обсуждаются вопросы, связанные с построением пользовательских интерфейсов для навигации по статьям тезаурусов и рубрикаторов в гетерогенных информационных системах. Приводятся некоторые алгоритмы формирования этих интерфейсов с учетом привязки внешних информационных ресурсов к выбранным статьям тезаурусов и рубрикаторов. Основной акцент сделан на динамическую привязку внешних ресурсов на основе текстового поиска по наборам характеристических терминов.

Ключевые слова: гетерогенные информационные системы, поиск информации, тезаурусы, рубрикаторы, навигация, SRU, SRW, Z39.50, Zthes, Explain.

Для гетерогенных распределенных информационных систем, включающих в себя множество различных баз данных с различной структурой и содержанием, весьма актуальным является вопрос поиска информации в базах данных с использованием онтологий, тезаурусов и классификационных схем, представленных в виде отдельных баз данных (БДОТК - базы данных онтологий, тезаурусов и классификаторов).

Существует множество различных способов построения БДОТК, организации доступа к их содержимому и реализации явных и неявных связей между БДОТК и другими гетерогенными информационными ресурсами. Многие из этих способов основаны на строгих онтологических моделях 1 и для практической реализации предъявляют очень жесткие требования к организации информационных систем и баз данных вплоть до полной перегрузки информации в промежуточные хранилища, функциональные свойства которых позволяют обеспечить выявление всех семантических связей между информационными объектами на основе заданных онтологических моделей. Такой подход имеет право на существование, однако остается открытым вопрос о том, как включить поиск семантически связанной информации в существующих распределенных гетерогенных информационных ресурсах, причем в случае, когда они не могут быть перегружены в специализированные хранилища.

1 Web Ontology Language (OWL). URL: http://www.w3.org/2004/0WL/; Онтология (информатика). Материал из Википедии - свободной энциклопедии. URL: http://ru.wikipedia.org/wiki/Онтология_(информатика)

Жижимов О. Л., Сантеева С. А. О навигации по тезаурусам и рубрикаторам в гетерогенных распределенных информационных системах. Методы и алгоритмы // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2016. Т. 14, № 3. С. 15-24.

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2016. Том 14, № 3 © О. Л. Жижимов, С. А. Сантеева, 2016

Настоящая работа посвящена описанию способов поиска семантически связанной информации в распределенных гетерогенных информационных системах (базах данных) без использования специализированных технологий семантического поиска, основанных на моделях Semantic WEB [1] 2. Описание способов будет иллюстрироваться их реализацией в существующих программных продуктах, в частности, на примере программной платформы ZooSPACE [2], предназначенной для интеграции разнородных распределенных информационных систем, успешно функционирующей в ИВТ СО РАН на базе распределенных узлов в городах Новосибирск, Томск, Красноярск и Иркутск и объединяющей сегодня более 70 различных баз данных с общим количеством записей более 60 миллионов.

Несмотря на привлекательность перспектив использования технологий Semantic Web для поиска информации [3], реальность сталкивается с фактом, что подавляющее большинство информационных ресурсов, организованных в виде различных баз данных (реляционных, иерархических, сетевых и пр.), поддерживают прежде всего ту или иную булеву модель атрибутивного поиска информации [4], т. е. поиска, основанного на использовании метаданных и предопределенных индексов (точек доступа).

Нашу задачу можно сформулировать и так: требуется найти все записи в некотором множестве гетерогенных баз данных, которые бы соответствовали определенной онтологической сущности (статье тезауруса, рубрике, коду рубрикатора и пр.). Для определенности ниже эту онтологическую сущность мы будем ниже называть статьей тезауруса, понимая, что на ее месте может быть и другое. В качестве решения можно рассматривать алгоритм получения результата, реализованный в виде функционирующего серверного программного модуля для некоторой информационной системы. Эта задача практически полностью эквивалентна задачи навигации по статьям тезауруса, когда для текущей статьи тезауруса отображается информация о связанных с этой статьей записях из выбранного множества в общем случае гетерогенных баз данных. При этом «привязка» связанных записей баз данных к статье тезауруса должна быть динамической, т. е. создаваться в процессе формирования представления собственно статьи тезауруса.

Итак, клиент, используя WEB-браузер, может просматривать тезаурус, перемещаясь по связанным статьям. Каждая выбранная статья тезауруса должна быть представлена клиенту в виде некоторой универсальной структуры, которая может быть однозначно интерпретирована, т. е. эта структура должна соответствовать какой-нибудь стандартной схеме данных, используемой для описания статей тезауруса. Ниже везде мы будем использовать схему данных Zthes 3 в формате XML 4. Также мы будем подразумевать, что все необходимые обращения к серверам баз данных будут соответствовать спецификациям SRU 5 с языком запросов RPN 6 в синтаксисе PQF [5]. Этот язык запросов отличается от стандартного для SRU языка запросов CQL, но, на наш взгляд, он более удобен для формирования запросов и, что немаловажно, более нагляден.

На рис. 1 схематично представлен алгоритм работы клиента и сервера при просмотре статьи тезауруса.

Выбор клиентом статьи тезауруса порождает обращение к WEB-серверу, который в свою очередь формирует запрос к серверу баз данных, хранящему информацию о текущем тезаурусе (БД тезауруса). Этот запрос соответствует запросу на поиск записи (статьи) по ее однозначному идентификатору, в результате его выполнения должна быть получена запись БД, соответствующая требуемой статье тезауруса и содержащей полную информацию о ней.

2 Semantic Web. URL: http://www.w3.org/2001/sw/; Metadata Architecture. URL: http://www.w3.org/DesignIssues/ Metadata/; W3C standards. URL: http://w3.org/sw/

3 The Zthes specifications for thesaurus representation, access and navigation. URL: http://zthes.z3950.org

4 Extensible Markup Language (XML). URL: http://www.w3.org/XML

5 SRU - Search/Retrieve via URL// The Library of Congress. - USA. URL: http://www.loc.gov/standards/sru

6 RPN. URL: https://www.loc.gov/z3950/agency/markup/09.html

Рис. 1. Формирование структуры записи статьи тезауруса с динамическими связями

с внешними базами данных

В качестве примера можно привезти фрагмент записи статьи БД рубрикатора ГРНТИ в схеме Zthes:

<?xml versюn="L0" encodmg="ШT-8"?> <Zthes xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns: zs="http://www.loc.gov/zing/srw/">

<dc:title>Рубрикатор ГРНТИ ЦНХБ России</dc:title> <dc:rights>цНxБ России</dc:rights>

<dc:identifier>http://db4 .sbras.ru:210/gmti_agr</dc :identifier> </thes> <term> <termID>34.25</termID> <termQuaПfier>34.25</termQuaHfíer> <termName>Вирусология</termName> <termType>NT</termType> <termLanguage>rus</termLanguage>

<relation> <termГО>34</termГО> <relationType>BT</relationType> <termQualifíer>34</termQualifier> <termName>БИОЛОГИЯ</termName> <termLanguage>rus</termLanguage> </relation> <relation> <termID>34.25.01</termID>

<relationType>NT</relationType> <termQualifier>34.25.01</termQualifier> <termName>Общие вопросы</termName> <termLanguage>rus</termLanguage> </relation>

<relation> <SourceDB>ruudc</SourceDB> <relationType>RT</relationType> <termQualifier>578</termQualifier>

</relation>

<relation> <termID>31.27.20</termID> <relationType>RT</relationType> <termQualifier>31.27.20</termQualifier> <termName>Биохимия вирусов</termName> <termLanguage>rus</termLanguage>

</relation> </term>

</Zthes>

Если клиентом был сформулирован список баз данных, записи которых следует соотнести с текущей статьей тезауруса, должен быть включен механизм формирования запросов к каждой базе данных из выбранного списка, выполнения этих запросов на соответствующих серверах БД, получения ответов и формирования специальных элементов (postings) в записи статьи тезауруса, содержащих информацию об именах баз данных и количестве найденных записей 7. Заметим, что выполнение запросов к внешним базам данных может происходить параллельно с асинхронным завершением. В качестве примера можно привезти фрагмент записи в схеме ZThes, содежащей элементы postings:

<term>

<relation> <termID>31.27.20</termID> <relationType>RT</relationType> <termQualifier>31.27.20</termQualifier> <termName>Биохимия вирусов</termName> <termLanguage>rus</termLanguage> </relation>

<postings> <SourceDB>AB</SourceDB>

<fieldName>RT</fieldName>

<hitCount> 1022</hitCount> </postings>

</term>

</Zthes>

Несомненно, самым критичным блоком этого алгоритма является блок формирования запросов к серверам внешних БД (на рис. 1 этот блок обведен пунктиром). Именно от работы этого блока зависит качество динамической привязки записей внешних БД к текущей статье тезауруса. Работа этого блока представлена на рис. 2.

Рис. 2. Формирование и исполнение запроса к внешней базе данных

Прежде, чем сформировать запрос к серверу внешней БД, необходимо выяснить возможности этой БД в смысле поиска информации, т. е. в терминах SRU (или Z39.50) определить поддерживаемые поисковые атрибуты и варианты их комбинаций. Если отбросить тривиальные и маловероятные конфигурации с фиксированными точками доступа, существует только один регулярный способ - предварительно выполнить запрос explain (SRU, SRW, Z39.50) и проанализировать полученную структуру на предмет выявления поддержки требуемых поисковых атрибутов.

В качестве примера можно рассмотреть фрагмент записи explain для некоторой базы данных, полученной с сервера ZooPARK-ZS 8:

<index id=". . ." search="true"> <map>

<attr type="1">14</attr> <attr type="2">3</attr> <attr type="3">*</attr>

<attr <attr <attr </map> </index> <index id= <map> <attr <attr <attr <attr <attr <attr </map> </index>

type="4">1,2,108</attr>

type="5">1,100</attr>

type="6">*</attr>

". . ." search="true">

type="1">21</attr>

type="2">3</attr>

type="3">*</attr>

type="4">1,2,108</attr>

type="5">1,100</attr>

type="6">*</attr>

Из приведенного фрагмента можно сделать вывод, что эта база данных поддерживает поисковые атрибуты USE (type 1) 14 (УДК) и 21 (ключевые слова), операция сравнения -«равно» (type 2 = 3), поисковые термы интерпретируются как строки или слова (type 4 = 1,2,108), поиск возможен как по точному совпадению (type 5 = 100), так и по усечению справа (type 5 = 1). Поэтому к этой БД мы можем обращаться с поиском по ключевым словам и кодам рубрикатора УДК, т.е. если текущая статья нашего тезауруса (рубрикатора) является описанием рубрики УДК, то запрос к внешней БД должен выглядеть следующим образом (RPN в синтаксисе PQF):

@attr 1=14 @attr 5=1 {term},

где вместо «term» должен фигурировать код текущей рубрики. Следует заметить, что здесь запрос сформулирован с усечением справа, т.е. будут найдены все записи, коды УДК которых начинаются с символов «term». Для иерархических рубрикаторов это означает, что к текущей рубрике будут привязаны записи БД, содержащие коды УДК не только текущей, но и всех дочерних рубрик.

В случае тезауруса каждая статья идентифицируется ее заголовком, поэтому поиск во внешних БД следует осуществлять по ключевым словам, причем по полному их совпадению:

@attr 1=21 {term}, где вместо «term» должен фигурировать заголовок текущей статьи тезауруса.

Строго говоря, такие запросы к внешним БД возможны только тогда, когда

1. Для рубрикаторов:

a. для всех внешних БД возможен поиск по кодам текущего рубрикатора

2. Для тезаурусов:

a. для всех внешних БД возможен поиск по ключевым словам

b. ключевые слова для всех внешних БД сгенерированы из заголовков статей текущего

тезауруса.

Последнее условие (2b) практически никогда не выполняется, поскольку разработчики той или иной внешней БД могут использовать тезаурусы, отличающиеся от нашего текущего, или не использовать вообще никакие, выбирая ключевые слова для записей БД в соответствии со своими правилами.

Возникает вопрос: как можно соотносить записи внешних БД с текущей статьей тезауруса при нарушении приведенных выше условий?

Для рубрикаторов при нарушении условия Ы возможны два варианта:

1) поиск по связанным кодам других рубрикаторов

2) поиск по текстовым характеристикам статьи рубрикатора

Поиск по связанным кодам других рубрикаторов

Поиск по связанным кодам других рубрикаторов может быть полезен, когда внешняя база проиндексирована по этим кодам. Действительно, если внешняя БД не проиндексирована по кодам текущего рубрикатора, например, ГРНТИ, но проиндексирована по кодам УДК, наличие связи между статьей рубрикатора ГРНТИ и статьями УДК позволяет выполнить динамическую привязку записей из внешней БД не по кодам ГРНТИ, а по кодам УДК.

<Zthes>

<term>

<termID>20.23.19</termID>

<termQualifier>20.23.19</termQualifier>

<termName>

Процессы информационного поиска </termName>

<termType>NT</termType>

<termLanguage>rus</termLanguage>

<relation>

<termID>20.23</termID> <relationType>BT</relationType> <termQualifier>20.23</termQualifier> <termName>Информационный поиск</termName> <termLanguage>rus</termLanguage> </relation> <relation>

<SourceDB>ruudc</SourceDB> <relationType>RT</relationType> <termQualifier>025.4.03</termQualifier> </relation>

</term>

Технически динамическая привязка записей из внешней БД осуществляется так же, как описано выше.

Поиск по текстовым характеристикам статьи рубрикатора

Если внешняя БД не проиндексирована по кодам текущего и связанных рубрикаторов, динамическая привязка ее записей к статьям текущего рубрикатора становится задачей нетривиальной.

Действительно, для того чтобы записи из внешних БД могли быть динамически привязаны к текущей рубрике, необходимо иметь поисковый образ документов, соответствующих этой рубрике. При этом почти очевидно, что для такого поискового образа практически бесполезна текстовая информация, которая обычно присутствует в описании статьи рубрикатора (название, описание, названия связанных рубрик и т. п.). Тем не менее можно придумать схему динамической привязки, основываясь, например, на векторной модели поиска и дополнительной информации, которой должна быть дополнена каждая статья рубрикатора.

В векторной модели поиска в качестве поискового образа выступает некоторый уникальный для каждой статьи рубрикатора вектор, определенный в многомерном пространстве в декартовой системе координат, каждая ось которой соответствуют своему уникальному

термину из фиксированного списка терминов, характеризующих данную рубрику Q2, ..., Qn) [15]. Если рассматривать каждую запись внешней БД как аналогичный вектор в пространстве встречающейся в ней терминов (Х1, Х2, ..., Хт), то можно говорить о скалярном произведении векторов Q и X. Чем больше это скалярное произведение, тем выше релевантность записи X запросу Q. Критерием отбора записей может быть выполнение условия

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 х<1

п

Таким образом, для реализации динамической связи записей из внешних БД со статьей текущего рубрикатора, необходимо следующее.

1. Наличие для каждой статьи рубрикатора уникального характеристического вектора. Этот вектор может быть построен только в результате обработки большого количества документов, уже имеющих в результате экспертной оценки коды рубрик текущего рубрикатора. При этом для каждой рубрики количество обработанных документов должно быть достаточно большим. Вопрос о достаточной размерности вектора, т. е. о количестве необходимых характеристических терминов зависит от структуры рубрикатора и может быть решен в результате тестов.

2. Определение параметра х, характеризующего минимально допустимое значение скалярного произведения векторов при поиске может быть произведено в результате тестов.

3. Наличие возможности серверами БД обрабатывать поисковые запросы, соответствующие векторной модели поиска. Это требование как правило выполняется для поисковых систем, ориентированных на неструктурированную и слабоструктурированную информацию. Серверы БД ориентированы на булеву модель [6] поиска, что затрудняет использование обсуждаемой технологии привязки записей. Тем не менее в простейшем варианте без использования частот встречаемости терминов в документе и в наборе документов, поисковый запрос, соответствующий векторной модели, может быть представлен в булевом виде.

В качестве примера рассмотрим характеристический вектор длиной п=4 с терминами а, Ь, с, а: Q = (а, Ь, с, ё)/4.

Таблица 1

Булевый запрос (& - AND, | - ОЯ) X к

1 а&Ь&с&а 1 0

2 (а&Ь&с) | (а&Ь&а) | (а&с&а) | (Ь&с&а) 0,75 1

3 (а&Ь) | (а&с) | (а&а) | (Ь&с) | (Ь&а) | (а&с) 0,5 2

4 а | Ь | с | а 0,25 3

При этом количество групп, объединенных операторами ОИ, равно количеству сочетаний из п элементов по к: п!/к!/(п-к)!, а параметр х=(п-к)/п.

Из приведенного примера видно, что

1) при заданной длине п вектора запроса Q параметр критерия отбора а принимает дискретные значения в интервале (0 < х < 1) с шагом 1/п.

п — к

х =-

п

2) каждый булевый запрос для фиксированного х (или к) перекрывает все запросы с большими х (меньшими к).

3) при фиксированном параметре х для поиска необходимо исполнить только один запрос, который содержит

п\

к\ (п-к)\

групп по (n-k) термов. При этом количество участвующих в запросе термов равно

п \

к \(п-к- 1)\

4) группы объединяются оператором OR (ИЛИ), термы внутри группы объединяются оператором AND (И).

Наконец, можно сделать некоторое предположение для иерархических рубрикаторов. Если нас интересует запрос для рубрики N.M.L, для которой определен характеристический вектор Qnml и соответствующий частный запрос Ц^мь, то действующим запросом для рубрики N.M.L, будет запрос вида

Qlmn = QNM & 4NML = 4N & 4NM & 4NML где частные запросы qN и qNM соответствуют характеристическим векторам qN и qNM для рубрик N и N.M соответственно.

Таким образом, поиск по текстовым характеристикам статьи рубрикатора возможен и может быть реализован в соответствии с упрощенной векторной моделью поиска конвертированием векторных запросов в булеву форму.

Проверка сделанных выше предположений должна осуществляться на специальной базе данных, которая содержит достаточно большое количество записей для каждой статьи выбранного рубрикатора, отобранных в результате экспертной оценки. Для этого необходимо создание специального стенда. Структура этого стенда, содержание и результаты тестирования будут изложены во второй части статьи.

Список литературы

1. Berners-Lee T., Hendler J., Lassila O. The Semantic Web. URL: http://sciam.com/article. cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21

2. Жижимов О. Л., Федотов А. М., Шокин Ю. И. Технологическая платформа массовой интеграции гетерогенных данных // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2013. Т. 11, № 1. С. 24-41.

3. Guha R., McCool R., Miller E. Semantic search // Proc. of the 12th International Conference on World Wide Web. N. Y.: ACM Press, 2003. Р. 700-709.

4. Шарапов Р. В., Шарапова Е. В., Саратовцева О. А. Модели информационного поиска. URL: http://vuz.exponenta.ru/PDF/FOTO/kaz/Articles/sharapov1.pdf

5. Taylor M. PQF. URL: http://search.cpan.org/dist/Net-Z3950-PQF/lib/Net/Z3950/PQF.pm

6. Мбайкоджи Э., Драль А. А., Соченков И. В. Метод автоматической классификации коротких текстовых сообщений. URL: http://elib.ict.nsc.rU/jspui/bitstream/ICT/1396/1/93_102.pdf

Материал поступил в редколлегию 24.06.2016

O. L. Zhizhimov S. A. Santeeva 2

1 Institute of Computational Technologies SB RAS 6 Academician Lavrentiev Str., Novosibirsk, 630090, Russian Federation

2 Novosibirsk State University 1 Pirogov Str., Novosibirsk, 630090, Russian Federation

zhizhim@mail.ru, saya_santeeva@mail.ru

ABOUT NAVIGATION ACCORDING TO THESAURUSES AND RUBRICATORS IN THE HETEROGENEOUS DISTRIBUTED INFORMATION SYSTEMS.

METHODS AND ALGORITHMS

The questions connected with creation of the user interfaces for navigation under articles of the-sauruses and rubricators in heterogeneous information systems are discussed. Some algorithms of

24

O. À. Xëêëmob, C. A. CaHTeeBa

formation of these interfaces taking into account a linking of external information resources to the chosen articles of thesauruses and rubricators are given. The main emphasis is placed on a dynamic linking of external resources on the basis of text search in sets of characteristic terms.

Keywords: heterogeneous information systems, information search, thesauruses, rubricators, navigation, SRU, SRW, Z39.50, Zthes, Explain.

References

1. Tim Berners-Lee, James Hendler and Ora Lassila. The Semantic Web. [Electronic resource]. Access mode: http://sciam.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21

2. Zhizhimov O. L., Fedotov A. M., Shokyn Yu. I. Technological platform of mass integration of heterogeneous data // Vestnik of Novosibirsk State University. Series: Information technologies. 2013. vol. 11, № 1. p. 24-41.

3. R. Guha, R. McCool, E. Miller. Semantic search // Proceedings of the 12th international conference on World Wide Web. N.Y. ACM Press. 2003. P. 700-709.

4. Sharapov R. V., Sharapova E. V., Saratovtseva O. A. Models of information search. [Electronic resource]. Access mode: http://vuz.exponenta.ru/PDF/FOTO/kaz/Articles/sharapov1.pdf

5. Mike Taylor. PQF. [Electronic resource]. Access mode: http://search.cpan.org/dist/Net-Z3950-PQF/lib/Net/Z3950/PQF.pm

6. E. Mbaykodzhi, A. A. Dral, I. V. Sochenkov. Method of automatic classification of short text messages. [Electronic resource]. Access mode: http://elib.ict.nsc.ru/jspui/ bitstream/ ICT/ 1396/1/93_102.pdf

i Надоели баннеры? Вы всегда можете отключить рекламу.