Научная статья на тему 'Информетрия и закономерности строения документальных информационных потоков'

Информетрия и закономерности строения документальных информационных потоков Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
562
259
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы —

35 лет назад был создан Институт повышения квалификации информационных работников (ИПКИР). Инициатором его создания и первым директором была доктор технических наук, профессор Валентина Ивановна Горькова. Основное научное направление, которое развивала В.И. Горькова -информетрия. Этому направлению сейчас в научной литературе и учебных планах подготовки специалистов по прикладной информатике уделяется недостаточно внимания. Поэтому редакция обратилась с просьбой к доктору экономических наук, профессору В.Н. Волковой, работавшей в ИПКИРе в период его становления, кратко охарактеризовать информетрию.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Информетрия и закономерности строения документальных информационных потоков»

№>5(11)2007

Информетрия и закономерности строения документальных информационных потоков

Памяти В. И. Горьковой

35 лет назад был создан Институт повышения квалификации информационных работников (ИПКИР). Инициатором его создания и первым директором была доктор технических наук, профессор Валентина Ивановна Горькова.

Основное научное направление, которое развивала В.И. Горькова — информетрия. Этому направлению сейчас в научной литературе и учебных планах подготовки специалистов по прикладной информатике уделяется недостаточно внимания. Поэтому редакция обратилась с просьбой к доктору экономических наук, профессору В. Н. Волковой, работавшей в ИПКИРе в период его становления, кратко охарактеризовать информетрию.

Горькова Валентина Ивановна (22 мая 1920 — 6 апреля 1997) — доктор технических наук, профессор. Окончила Московский энергетический институт. В 1970 году защитила докторскую диссертацию на тему «Системно-структурный анализ документальных информационных потоков». В 1972 году стала инициатором создания и директором первого в стране учебного заведения по подготовке информационных работников для отделов научно-технической информации — Института повышения квалификации информационных работников при Государственном комитете Совета Министров СССР по науке и технике.

В ИПКИР была организована подготовка специалистов по шести специальностям.

• Организация, экономика и планирование научно-информационной деятельности.

• Аналитико-синтетическая обработка источников информации и подготовка информационных изданий.

• Справочно-информационное обеспечение.

• Репрография, микрофильмирование и технические средства обеспечения информационных процессов.

• Механизация и автоматизация информационных процессов.

• Научно-техническая пропаганда.

По замыслу В. И. Горьковой специальности были взаимосвязаны. Это обеспечивалось тем, что на каждой специальности читались краткие курсы по всем другим специальностям.

Валентина Ивановна проявляла интерес ко всему новому. Она приглашала для чтения лекций необщепризнанных новаторов.

В ИПКИРе читали лекции Юрий Иванович Шемакин (развивающий теорию тезаурусов и информационно-семантических систем [13, 14]), Юлий Анатольевич Шрейдер (его первое пособие по семиотике было подготовлено на основе лекций «Семиотические основы информатики», читавшихся в ИПКИРе, и в последующем издано в издательстве «Знание» [15]). Геннадий Григорьевич Воробьев (предложивший новый информаци-

109

lí95(11)2007

онный подход к анализу документов научно-технической информации [1] и занимавшийся развитием тестов MMPI), и даже такая одиозная в то время личность, как Юрий Алексеевич Гастев — сын репрессированного в 30-е годы директора Центрального института труда (ЦИТ), прославившийся вскоре тем, что включил в изданную книгу несуществующий литературный источник (что само по себе было тогда наказуемо), да еще и наименование источника «Chain & Stocks. The Death-breathing. M.: 1953» напоминало читателям о предсмертном дыхании Чейна и Сток-са, которое было у умирающего И. В. Сталина (таким образом Гастев пытался оригинально напомнить читателям о судьбе своего отца). Разумеется, это было обнаружено, и Гастева уволили с основного места работы, требовали лишить степени кандидата наук. Но в ИПКИРе благодаря смелости Валенти-^ ны Ивановны он продолжал читать лекции! § В числе рекомендуемых учебных пособий § в ИПКИРе важное место занимала одна из й первых монографий по системному анали-! зу целей М.М. Лопухина [10].

§ Валентина Ивановна мягко и женствен-

5

^ но, но вместе с тем твердо и настойчиво от-

■1. стаивала свои позиции и убеждения перед

* руководством Государственного комитета

I Совета Министров СССР по науке и технике

I ив общении с коллегами и подчиненными.

■g Она никогда не заканчивала разговор со

Ц своими подчиненными традиционным «У Вас

ч все?». А говорила «Я Вас целую...». Это

I означало, что пора уходить.

0 Несмотря на загруженность организацией онной работой, В.И. Горькова продолжала Ь активно развивать методы анализа информационных потоков и запросов потребите! лей информации в системах научно-техни-

1 ческой информации.

<? Для того чтобы охарактеризовать ее

^ вклад в исследование указанных вопросов,

6 кратко рассмотрим суть проблемы.

I

о Информетрия и ее задачи

=s Общеизвестно, что из года в год растет объем создаваемой обществом научной, тех-

110

нической, производственной, социальной и иных видов информации. Увеличивается число монографий, учебников, патентов, научно-технических отчетов, проектов, деловых и нормативно-правовых документов, периодических и продолжающихся изданий, обзорных, реферативных, экспресс-информаций и других первичных и вторичных информационных источников, растет число и объемы автоматизированных баз данных и баз знаний. Одновременно усложняется структура информационных потребностей, комплектование справочно-инфор-мационных фондов библиотек и отделов научно-технической информации, организация поиска информации, необходимой для принятия решений.

Разумеется, созданы и создаются все более совершенные и разнообразные по функциям автоматизированные информационные системы, в том числе информационно-поисковые системы Internet. Однако актуальной остается проблема отбора и организации оперативного поиска информации, названной Г.Р. Громовым [8] «активными информационными ресурсами». Значительную долю информационных ресурсов составляют текстовые документы. Активные информационные ресурсы как совокупности текстовых документов принято называть документальными информационными потоками (ДИП). Они являются важным объектом исследований в прикладной информатике. Знание характеристик, свойств, закономерностей документальных информационных потоков позволяет принимать важные решения по управлению информационными ресурсами с целью интенсификации и рационализации их использования.

Национальные информационные ресурсы по науке и технике в нашей стране сосредоточены в библиотеках, всероссийских и отраслевых системах научно-технической информации, общегосударственных центрах — во Всероссийском институте научной и технической информации (ВИНИТИ), фонды которого содержат отечественные и

Ив5(11) 2007

зарубежные периодические издания, сборники трудов, реферативные журналы; во Всероссийском научно-техническом информационном центре (ВНТИЦентре), регистрирующем, формирующем и сохраняющем фонды документов госрегистрации НИОКР, отчеты по НИР и ОКР, диссертации, фонды алгоритмов и программ; в НПО «Роспатент», накапливающем фонды отечественной и зарубежной патентной литературы, товарные знаки; в НТЦ «Информрегистр» Комитета при Президенте РФ по политике информатизации, занимающемся регистрацией и предоставлением сведений об имеющихся в стране информационных ресурсах, в том числе библиографических и справочных баз данных и других информационных хранилищах.

Рациональное распределение составляющих ДИП подразумевает организацию комплектования и хранения информации по тематике, типам первоисточников фактографической информации, информационных документов и иным видам информационных продуктов и должно обеспечивать минимальные затраты средств и времени потребителей на поиск необходимой информации, минимальные материальные и интеллектуальные затраты на подготовку тематических подборок, обзоров и других видов обслуживания пользователей в режимах избирательного распределения информации и дифференцированного обслуживания руководителей.

Для краткой характеристики количественных методов исследования научно-технической информации, изучения закономерностей организации документальных информационных потоков в начале 80-х годов XX века было введено понятие «информетрия» [17].

Данный термин возник по аналогии с терминами «наукометрия» и «библиометрия» для названия научного направления, занимающегося применением математических и статистических методов и моделей для количественного анализа структуры и свойств научной информации и закономерностей процессов научной коммуникации.

В более широком смысле «информетрия — вся совокупность методов измерений, с помощью которых можно получить количественные данные о системе научной коммуникации. Она служит основой для создания теории научной коммуникации и для оптимизации научно-информационной деятельности» [17].

Наиболее полно это понятие было раскрыто В.И. Горьковой [7]: «Объектом ин-форметрии являются научная информация и научные коммуникации. Предметом — их объективные количественные закономерности, используемые для совершенствования информационной деятельности».

При этом под научной информацией и научными коммуникациям (согласно [7]) понимается не только научно-техническая литература, патенты, научные отчеты и другие источники первичной и вторичной информации, которые являются входным документальным информационным потоком, но и результаты информационной деятельности: информационные массивы, естественные и формализованные языки как средство индексирования и поиска, классификации, информационные запросы потребителей информации и другие предметы информационной деятельности.

В информетрии исследуются количественные и качественные параметры организации частотных словарей, использования слов в текстах документов и распределения информации в документальных информационных потоках. Основные направления информетрии — исследование количественных параметров и закономерностей:

• документальных информационных потоков, включая первичные источники информации и информационные продукты;

• лингвистических средств информационной деятельности;

• средств общественной коммуникации;

• тематических связей между составляющими ДИП.

111

И95(11)2007

о §

! t

Л

is

I

0 Ч

1

0 &

U

¡5

U

Si 8

1

I t

Первые результаты исследований лингвистических закономерностей естественного языка были получены Дж. Эсту (J. B. Estoup) в 1916 году, А. Лоткой (A. J. Lotka) в 1926 году и Дж. Ципфом (G. K. Zipf) в 1932 году, а первые исследования структуры ДИП — распределение статей по журналам — принадлежат С. Брэдфорду (S. C. Bradford) — 1934 год.

Впервые характеристику качественных свойств частотных словарей определил в 1916 году Дж. Эсту, который обнаружил, что частота использования слов в тексте обратно пропорциональна его номеру в частотном словаре.

Наиболее исследованы следующие закономерности.

Закон Ципфа

Джордж Ципф, или в некоторых современных переводах в Internet Г. Зипф, в начале 30-х годов XX века на основе статистических исследований получил следующую закономерность [26, 27].

Пусть есть текст длиной N слов и словарь объемом m слов с указанием частоты появления слова в тексте. Слова в словаре расположены в порядке их убывания по частоте и проранжированы от 1 до m. Ранг равный 1 присваивается слову, частота появления которого наибольшая, ранг равный m — наименее употребимому слову.

Тогда pfi = frJN, где r, — ранг слова, 1 < i < m, pfj — относительная частота появления слова в тексте; fr — абсолютная

' Ч

частота появления слова с рангом r, в тексте определенной длины; N — число слов в тексте.

Если умножить вероятность или относительную частоту обнаружения слова в тексте pri на ранг слова r,, то получим:

РгГ = fr , NN = k,

где k — константа; 1 < r, < m.

Если преобразовать формулу, то получим p, = k/rj, т.е. функцию типа y = k/x, график которой — равносторонняя гипербола.

Таким образом, на основе анализа полученных зависимостей Ципф предложил эмпирическую формулу, устанавливающую связь между частотой появления слов в тексте и его рангом в словаре:

Рг, = кг~\

где к — эмпирически определяемая константа, изменяющаяся для разных текстов.

При этом 1 < гI < т; р^ — частота наиболее употребимого слова; рт — частота наименее употребимого слова; рГ: = ф(г,) — «гиперболическая лестница», поскольку ранговое распределение имеет ступенчатый характер (ряд слов появляется с одинаковой частотой), но при аппроксимации можно считать распределение Ципфа гиперболой (рис. 1).

30 40 50 60 70 Ранг

Рис. 1. Распределение Ципфа

Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, имеются исследования, показывающие, что, например, для английских текстов константа Ципфа равна приблизительно 0,1; а для русского языка — примерно 0,06-0,07.

Поэтому Ципф приводил также запись этой закономерности в следующей форме:

pr. = 0,1 r 1, 1 < r < m.

112

Опираясь на экспериментальные данные, собранные в результате статистического исследования многих текстов на различных языках, Ципф обнаружил также, что распределение слов естественного языка подчиняется единому простому закону, который он назвал «принципом наименьшего усилия»: выражая мысли с помощью языка, мы подвергаемся действию двух противоположных сил — унификации и диверсификации, проявляющихся, с одной стороны, в необходимости быть понятыми, а с другой — желанием выразить мысль покороче.

Ципф установил также, что частота и количество слов, входящих в текст с этой частотой, связаны между собой. Если построить график зависимости количества слов от частоты их появления, то получившаяся кривая будет также гиперболой и будет сохранять свои параметры для всех без исключения созданных человеком текстов. Эту закономерность считают вторым законом Ципфа.

Исследования показывают, что наиболее значимые слова лежат в средней части гиперболы. Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском — артиклями и т. п. Редко встречающиеся слова тоже в большинстве случаев не имеют решающего смыслового значения.

От того, как будет выставлен диапазон значимых слов, зависят свойства информационно-поисковой системы.

Если сделать слишком широкий диапазон — нужные термины потонут в море вспомогательных слов; если установить узкий — можно потерять смысловые термины. В каждой поисковой системе эта проблема решается по-своему, с учетом общего объема текста, специальных словарей и т.п.

Таким образом, закономерности Ципфа отражают некоторое общее свойство, присущее разным языкам. Оно заключается в том, что в каждом тексте на любом естественном языке имеется некоторое количест-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ik5(11) 2007

во наиболее употребимых слов. Причем число этих слов значительно меньше общего числа слов, используемых в тексте.

Законы Ципфа универсальны. В принципе, они применимы не только к текстам.

В аналогичную форму выливается, например, зависимость количества городов от числа проживающих в них жителей. Характеристики популярности узлов в сети Internet — тоже отвечают законам Ципфа.

Закономерность Ципфа проявляется и при исследовании документальных информационных потоков. В этом случае закон Ципфа представляют через абсолютную частоту появления слов:

fi = C-1,

где fi — абсолютная частота появления слова в текстах документального потока; ri — ранг слова в ранговом распределении;

C — частота появления слова /-го ранга, которую для данного ДИП можно считать эмпирической константой.

Закон Мандельброта

Б. Мандельброт (Benoit Mandlebrot) в 1954 году [11] предложил теоретическое обоснование эмпирически открытого закона Ципфа.

Представляя слова в виде последовательности букв, разделенных пустыми промежутками и присваивая знакам определенную «стоимость» (затраты усилий, времени), Мандельброт показывает, что словам можно приписать априорные вероятности, так чтобы их общая «стоимость» в среднем была минимальной и при этом количество информации оставалось инвариантным. На основе этих представлений математическим путем Мандельброт показал, что результирующее соотношение между частотой слова и его рангом соответствует эмпирическому закону Ципфа с небольшой поправкой:

Pc = kr~\

где рп — относительная частота появления слова в тексте;

113

li95(11)2007

г, — ранг слова; k — эмпирическая постоянная; у — величина, близкая к единице, но изменяющаяся в зависимости от свойств текста.

Коэффициент у характеризует определенные свойства языка — степень его фор-мализованности. При этом с уменьшением у степень формализованности языка уменьшается.

Закон Брэдфорда

Открыт английским химиком и библиографом С. Брэдфордом в 1948 году [18-22] на основе обнаружения общих принципов распределения публикаций по изданиям в разных областях (на примере изданий по геофизике и химии).

Основной смысл закономерности состо-^ ит в следующем: если научные журналы § расположить в порядке убывания числа ста-§ тей по конкретной проблематике, то журна-§ лы можно разбить на три зоны таким обра-| зом, чтобы количество статей в каждой зо-§ не по заданной теме было одинаковым.

При этом в первую зону, названной ■!■ Брэдфордом зоной ядра, входят профиль* ные журналы, непосредственно посвящен-| ные рассматриваемой тематике. Количест-| во журналов в зоне ядра невелико.

0 Ч

1 и

о &

и

¡5

и

Si 8 5:

I i I

Вторую зону образуют журналы, частично посвященные заданной области, причем их число существенно возрастает по сравнению с числом журналов в ядре.

Третья зона — самая большая по количеству изданий — объединяет журналы, тематика которых весьма далека от рассматриваемой предметной области.

При равном числе публикаций в каждой зоне число источников (в данном примере — наименований журналов) резко возрастает при переходе от одной зоны к другой. Брэдфорд установил, что число наименований журналов в третьей зоне примерно во столько раз больше, чем во второй зоне, во сколько раз число наименований журналов во второй зоне больше, чем в ядре:

P » P » а и ^ « а2, т.е. Ps: P2: P «1: а2: а3,

P2 P Pa 321 >

где P, P2, P3 — число наименований журналов в 1-й, 2-й и 3-й зонах соответственно; а = const.

Закон Викери

Б. Викери (B.C. Vickery) [25] уточнил модель С. Брэдфорда. Он выяснил, чтожурна-лы, проранжированные в порядке уменьшения числа статей в них по конкретному вопросу, можно разбить не на три зоны, а на любое число зон (рис. 2).

2-я зона

114

Ряд наименований журналов по рангам

Рис. 2. Закономерность Викери

И95(11)2007

Основной смысл закономерности Вике-ри: если периодические издания расположить в порядке уменьшения в них количества статей по конкретному запросу, то в полученном списке можно выделить ряд зон, каждая из которых содержит одинаковое количество статей. При этом число журналов в первой зоне и нарастающее их число в последующих зонах соотносятся следующим образом:

тх : Т2х : тзх : Т4х : ■ ■ ■к 1: а2: а3: а4 :..,

где х — количество статей в каждой зоне; Тх — количество журналов, содержащих х статей;

Т2х,Т3х,Т4х,... — количество журналов, содержащих 2х, 3х, 4х и т. д. статей соответственно.

Часто этот закон называют законом Брэдфорда в толковании Викери.

Закономерность концентрации-рассеяния В.И. Горьковой

В работах [9, 16, 19, 20] было показано, что закономерности строения ДИП могут быть выражены как посредством количественных параметров ранговых распределений (закономерность Ципфа), так и посредством параметров упорядоченных потоков элементов ДИП (закономерность Брэдфор-да-Викери), т.е. что эти закономерности отображают одно феноменологическое явление.

Смысловой анализ эмпирических данных строения подсистем ДИП, проведенный в работах В. И. Горьковой и ее учеников [2-7], позволил зафиксировать наличие специфических функциональных свойств различных частотных зон ранговых распределений и упорядоченных потоков. Научные журналы, наиболее продуктивные по числу научных статей для соответствующего тематического раздела, сосредоточены в зоне рангового распределения, где частоты появления наименований элементов наибольшие, т. е. в ядре рангового распределения.

Структурное подмножество ядра рангового распределения состоит из профильных научных журналов, которые составляют приблизительно 10% всех наименований журналов, содержащих публикации по данному тематическому разделу. При этом в научных журналах, входящих в ядро рангового распределения, содержится 50-60% всех публикаций по данной тематике [3, 9, 12, 19, 20].

Тематическое содержание профильных журналов ядра рангового распределения определяет тематические признаки данного упорядоченного потока.

Для ядерного подмножества терминов рангового распределения характерно вхождение в него заглавных понятий, тематическое содержание которых определяет классификатор данного тематического раздела. В зону ядра рангового распределения авторов публикаций входят имена исследователей, которым принадлежат основополагающие положения тематического раздела [7].

На основе исследования этих специфических особенностей ядра В.И. Горьковой был сделан вывод о том, что явление образования ядра рангового распределения системы ДИП можно трактовать как свойство системы ДИП концентрировать в ядре рангового распределения логическую информацию, определяющую основные понятия предметной области, объектов и методов исследования соответствующей отрасли науки (техники), научной дисциплины.

Явление образования ядра Горькова рассматривает как организацию высокого уровня, когда между элементами подмножества ядра существуют взаимосвязи, играющие более важную роль, чем связи между элементами других подмножеств. Элементы ядра выступают в роли «организаторов» подсистемы ДИП в конкретной отрасли науки или научной дисциплине, т. е. выполняют функции организующих отношений системы ДИП. Наименования элементов зоны ядра ДИП определяют условия включения

115

И95(11)2007

элементов всех других частотных зон ранговых распределений в данную упорядоченную совокупность.

Одновременно с явлением образования ядра рангового распределения элементов ДИП по тематическому разделу наблюдается рассеяние элементов.

Так, если ядро содержит около 10% всех наименований элементов ДИП, что составляет 50-60% упорядоченного потока подсистем ДИП, то в зоне рассеяния, содержащей 90% наименований элементов, сосредоточено всего 40-50% упорядоченного потока документов.

Зона рассеяния рангового распределения определяет структуру связи подсистем ДИП различных отраслей науки (техники) или научных дисциплин, взаимно обогащающих друг друга семантической информацией.

^ Следует отметить, что рассмотренные § функциональные свойства двух зон ранго-§ вого распределения и упорядоченного по-§ тока огрубленно трактуют функциональные | свойства рангового распределения. В зоне § рассеяния можно выделить третье структурное подмножество элементов с малой частотой появления, обладающее специ-

* фическими свойствами. В дальнейшем, ви-| димо, возможна и более детальная структу-| ризации зоны рассеяния.

* Рассмотренное феноменологическое яв-Ц ление концентрации и рассеяния элемен-ч тов ДИП было названо закономерностью | концентрации-рассеяния.

0 Действие закономерности концентра-« ции-рассеяния основано на том, что упоря-Ь доченное множество элементов ДИП име-

§ ет два структурно-функциональных свой-¡у

§ ства.

| Во-первых, концентрировать подмноже-

<? ства ядерных элементов, функция которых

* состоит в том, чтобы:

1

• сосредотачивать логическую инфор-■Ц мацию, определяющую основные предме-5а ты, объекты и методы исследований в отрасли науки;

116

• выполнять роль организующих отношений.

Во-вторых, рассеивать подмножество элементов, функция которых состоит в том, чтобы:

• определять структурные связи подсистем ДИП различных отраслей науки и научных дисциплин, обогащающих друг друга семантической информацией;

• обеспечивать определенную целостность всей подсистемы ДИП.

Закономерность концентрации-рассеяния позволяет использовать параметры аппроксимирующих функций, описывающих ранговые распределения и упорядоченные потоки в качестве параметров, определяющих функциональные свойства упорядоченных совокупностей элементов ДИП.

По мнению В.И. Горьковой, одним из важных параметров взаимосвязанности для формирования ядра является мера «со-встречаемости» понятий [3, 7]. С исследованиями статистических оценок параметров закономерностей ДИП можно познакомиться в [7].

Следует еще раз обратить внимание на тот факт, что численные меры упорядоченности строения ДИП, определяемые статистическими методами, только тогда могут использоваться в практике научно-информационной деятельности, когда они сочетаются с методами исследования функциональных свойств упорядоченных совокупностей ДИП.

Перспективы развития информетрии

На основе идей законов Ципфа-Ман-дельброта и Брэдфорда-Викери, закономерности концентрации-рассеяния, сформулированной В.И. Горьковой, развиваются методики автоматизации индексирования и анализа текстов, введения весовых коэффициентов терминов [28].

Вводятся меры веса ключевых слов. Так, в работах Спарка Джонса эксперименталь-

Не5(11) 2007

но показано, что если N — общее число документов и n — число документов, в которых встречается данный индексный термин (ключевое слово), то вычисление его веса по формуле W = log(N/n) +1 приводит к более эффективным результатам поиска, чем без использования оценки значимости индексного термина, т. е. определенное значение имеет не только частота применения слова в конкретном документе, но и число документов, в которых это слово встречается.

Для проведения оценки вводятся логарифмические меры. Например, чтобы избавиться от лишних слов и в тоже время поднять рейтинг значимых слов, вводят инверсную частоту термина:

ix = log( Nln),

где N — количество документов в базе данных;

ni — количество документов с термином i .

А затем каждому термину присваивают весовой коэффициент, отражающий его значимость:

j = jx/ix,

где j — вес термина i в документе; jx — частота термина i в документе; ix — инверсная частота термина.

Также в новом смысле используется термин «ядро». В 1995 году на симпозиуме в Дублине предложена интересная и полезная для совершенствования информационного поиска идея «Дублинского ядра» (Dublin Core), основанная на формировании метаданных, зафиксированных в спецификации определенного стандарта, и представлении k-го документа множеством пар:

Dk ={Nk ,Vk},

где Nik — имя i-го элемента метаданных «Дублинского ядра» в описании содержания k-го документа;

Vk — значение этого элемента метадан-

' ik ных.

Аналогично описывается поисковый образ запроса.

Перспективным представляется использование для формирования «Дублинского ядра» закономерности концентрации-рассеяния.

В настоящее время возрастает интерес и к способам оценки текстов [28]. Например, к работам Г. Луна [16], в которых предложения текста оцениваются в соответствии с параметром:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Vnr

N2

Nc

где V — значимость предложения;

Ызс — число значимых слов в предложении;

N — полное число слов в предложении.

Используя этот критерий, из любого документа можно отобрать некоторое число предложений. Понятно, что они не будут составлять связного текста. Нужно учитывать также, что значимые слова должны браться из тематического тезауруса или отбираться экспертом. По этой причине методика может лишь помочь человеку, а не заменить его (во всяком случае, на современном этапе развития вычислительной техники).

Закономерности организации ДИП, введения количественных мер терминов, предложений и других компонентов текста полезно использовать на всех этапах создания информационно-поисковых систем: при комплектовании информационных фондов, создании информационно-поисковых языков и логико-семантического аппарата информационно-поисковой системы, при организации справочно-информационного обслуживания в библиотеках и отделах научно-технической информации, при создании и совершенствовании классификационных систем, выявлении тенденций роста и старения ДИП, при аналитико-синтетической обработке текстовой информации.

117

N95(11)2007

В настоящее время на основе предложенной В.И. Горьковой концепции закономерности концентрации-рассеяния разрабатываются методы выявления информационного ядра предметной области при построении информационной системы для реорганизации бизнес-процессов, при создании виртуальных предприятий.

Список литературы

1. Воробьев Г.Г. Документ: Информационный анализ. М.: Наука, 1973.

2. Горькова В.И. Статистические оценки статистических совокупностей документальных информационных потоков // НТИ. Сер. 2. 1971. № 12.

3. Горькова В.И, Меллион С.П. Математический метод оценки структуры классификации систем информационных потоков // НТИ. Сер. 2. 1970. № 2.

4. Горькова В.И., Нумычева К.И. Частотное | распределение множества ключевых слов // § НТИ. Сер. 2. 1970. № 6.

Й 5. Горькова В.И., Петренко Б.В. Совершен-| ствование системы информационного обеспе-§ чения на основе статистического анализа информационных потребностей специалистов. ■Ц Минск: БелНИИНТИ, 1973. * 6. Горькова В.И., Гусева Т.И. Анализ доку-Ц ментальных информационных потоков и изуче-|| ние запросов потребителей информации: лек* ции. М.: ИПКИР, 1974.

|| 7. Горькова В.И. Информетрия: количест-ч венные методы в научно-технической информа-| ции // Итоги науки и техники. Сер. Информатика. § Т. 10. М.: ВИНИТИ, 1988.

«а 8. Громов Г.Р. Национальные информацион-Ь ные ресурсы: проблемы промышленной эксплуатации. М.: Наука, 1984. | 9. Козачков Л.С. Система потоков научной § информации. Киев: Наукова думка, 1973. <? 10. Лопухин М.М. ПАТТЕРН — метод плани-« рования и прогнозирования научных работ. М.: & Советское радио, 1971.

11. Мандельброт Б. Теория информации и § психологическая теория частот слов. В Математические методы в социальных науках. М.: Прогресс, 1973.

118

12. Мицевич А.Т., Соловьев Н.К. Анализ некоторых закономерностей в потоках научно-технической информации по машиностроению // НТИ. Сер. 2. 1970. № 6.

13. Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. М.: Воениздат, 1974.

14. Шемакин Ю.И, Романов А.А. Компьютерная семантика. М.: Научно-образовательный центр «Школа Китайгородской», 1996.

15. Шрейдер Ю.А. Логика знаковых систем. М.: Знание, 1974.

16. Шрейдер Ю.А. О возможности теоретического вывода статистических закономерностей текста: к обоснованию закона Ципфа // Проблемы передачи информации, 1967. Т. 3. Вып. 1.

17. Bonitz M. Scientometrie, Bibliometrie, Infor-metrie // Zentralblatt für Bibliothekswessen. 1982. V. 96. № 1.

18. Bradford S.C. Documentation. London: Crosby Lockwood, 1948.

19. Brookes B.C. Bradford's law and the bibliography of science // Nature. 1969. V. 224. № 5223.

20. Brookes B.C. The derivation and application of the Bradford — Zipf distribution // Journal of Documentation. 1968. V. 24. № 4.

21. Brookes B.C. The complete Bradford — Zipf «Bibliography» // Journal of Documentation. 1969. V. 25. № 1.

22. Brookes B.C. Theory of Bradford law // Journal of Documentation. 1977. V. 33. № 3.

23. Luhn H.P. Automatic creation of literature abstracts // IBM Journal of Research and Development. 1958. V. 2. № 2.

24. Salton G. Automatic Text Analysis Science, 1970.

25. Vickery B.C. Bradford's law of scattering // Journal of Documentation. 1948. V. 4.

26. Zipf G.K. Human behavior and principle of least effort. Cambridge (Mass.): Addison —Wesley, 1949. V. XI.

27. Zipf G.K. Selected studies of the principle of relative frequency in language. Cambridge (Mass.): Harvard University Press, 1932.

28. http://www.medialingvo.ru

Материал подготовила Виолетта Волкова

i Надоели баннеры? Вы всегда можете отключить рекламу.