Научная статья на тему 'Категория сложности запросов в аналитических технологиях'

Категория сложности запросов в аналитических технологиях Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
882
150
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИТИЧЕСКАЯ ТЕХНОЛОГИЯ / ЗАПРОСЫ / КАТЕГОРИЯ СЛОЖНОСТИ ЗАПРОСА / ПРОЕКТИРОВАНИЕ / РЕСУРСЫ / СТАДИИ ПРОЕКТИРОВАНИЯ / БЛОК-СХЕМА / ТРУДОЗАТРАТЫ

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Гордукалова Галина Феофановна

Обсуждается вопрос о состоянии Интернет-аналитики. Рассмотрены процесс и средства проектирования аналитической технологии в интеллектуальном и машинном исполнении для выполнения сложных запросов. Выделены категории сложности запросов: локальные, ассоциативные, комплексные. Определены характеристики каждой категории запросов по признакам числа используемых источников и методов, временных трудозатрат. Описаны основные средства, ресурсы и этапы проектирования аналитических технологий. Приведены примеры реализованных блок-схем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Категория сложности запросов в аналитических технологиях»

Г. Ф. Гордукалова

Категория сложности запросов в аналитических технологиях

Обсуждается вопрос о состоянии Интернет-аналитики. Рассмотрены процесс и средства проектирования аналитической технологии в интеллектуальном и машинном исполнении для выполнения сложных запросов. Выделены категории сложности запросов: локальные, ассоциативные, комплексные. Определены характеристики каждой категории запросов по признакам числа используемых источников и методов, временных трудозатрат. Описаны основные средства, ресурсы и этапы проектирования аналитических технологий. Приведены примеры реализованных блок-схем.

Ключевые слова: аналитическая технология, запросы, категория сложности запроса, проектирование, ресурсы, стадии проектирования, блок-схема, трудозатраты.

Задача данной статьи - сравнить аналитические технологии в интеллектуальном и машинном исполнении, подтвердить необходимость их совместного развития.

Интернет-аналитика. Интернет-аналитика - пока загадочный и многозначный термин. В качестве частичных синонимов в литературе используются понятия «сетеметрия», «вебометрия», сетевая «библиометрия». Это не считая устаревшего уже понятия «киберметрия», а также новейших частных понятий «Интернет-статистика», «алтметрика».

В его содержание сейчас входят минимум семь особых направлений деятельности:

Количественная оценка размера сети - результаты счета числа и общего объема веб-ресурсов в динамике. Осуществляется исключительно роботами по специальным программам - «роботометрия», которую сейчас называют все чаще вебометрией или сетеметрией. Однако это узко специализированное направление с собственными техниками счета, которые близки по принципу работы, но все же различны для каждой поисковой системы. При этом ведется не абсолютный арифметический учет, а расчет данных с использованием закона Ципфа-Бредфорда и иными способами. Единица измерения - прогнозное число сайтов с определенным расширением.

«Провайдерометрия» - технические измерения потоков службами провайдеров для сугубо практических нужд, в том числе для расчетов с клиентами. Производятся с помощью программ-счетчиков по техническим индикаторам физического объема потоков машиночитаемой информации.

Аналитика спроса - счет ведется поисковыми системами, фиксирует спрос по ключевым словам, регионам, отдельным ресурсам. Поисковые системы размещают часть этих данных в открытом доступе, а также осуществляют специальную выборку по запросу для ограниченного числа формальных признаков. Кроме того, любой веб-ресурс может иметь встроенный счетчик - про-

граммные средства, позволяющие мгновенно фиксировать частоту обращений к конкретным ресурсам или поисковым машинам.

Результатом являются Интернет-рейтинги - Топ-10, Топ-100 и др. Они представлены в сети по разным признакам - обращения пользователей к ресурсам, запросов через поисковые системы, пользовательских оценок ресурса, частоты копирования материалов, частоты перехода по ссылкам и др.

Библиометрия в сети. Простая библиометрия в сети - опыты специалистов, желающих измерить и показать соотношения интернет-ресурсов по признакам, аналогичным классической библиометрии - географическим, хронологическим, языковым. Сложная библиометрия - специально спланированное измерение и сравнение сетей связей между ресурсами по входным и выходным ссылкам по аналогии с анализом потока цитированной литературы.

Содержательная вебометрия - сравнительный анализ конкретных вебресурсов определенной тематики с использованием качественных и количественных характеристик, в том числе присущих только электронным ресурсам.

Размещение аналитических материалов - держатели сайтов и порталов в сети, специализирующиеся на классической или компьютерной аналитике. В эту же группу можно отнести аналитические разделы на сайтах, а также размещенные в сети обзорно-аналитические материалы, подготовленные аналитиками инициативно, либо в виде продукции информационных центров.

«Видеометрия» (инфометрия) - результаты аналитических исследований, представленные в виде «картинок» - графиков, диаграмм, сетей связи, художественных образов.

Из этого скупого перечня можно сделать далеко идущие выводы:

- круг участников интернет-аналитики стремительно расширяется,

- количество «аналитических» продуктов будет множится с экспоненциальной скоростью,

- в сети легко «что-нибудь» измерить, но сложно этими цифрами оперировать из-за нечетких границ «измеряемого»,

- для серьезных аналитических исследований необходим творческий союз между исследователем и «хозяином» сети - сетевым программистом.

Таким образом, интернет-аналитика делает первые шаги, она перспективна, но для планомерных исследований нужно освоить проектирование аналитических технологий.

Проиллюстрируем технологическую схему Интернет-аналитики на примере запроса - простого, полезного и широко распространенного в бибиогра-фической деятельности библиотек: подобрать наиболее значимые источники информации по локальной теме, например, методы анализа текста.

Блок-схема будет включать классические этапы, но качество выполнения запроса станет в прямую зависимость от этапа согласования с исполнителем (рис. 1).

Рис. 1. Блок-схема «Отбор веб-ресурсов»

Если реализовать эту схему для указанного запроса, то мы получим перечень тех ресурсов, которые с высокой частотой используют каждый термин запроса - метод, анализ, текст. Интернет-ресурсы с совместным употреблением этих ключевых слов - единичны, либо не раскрывают связи между ними на верхнем уровне регистрации сайтов.

Следовательно, без глубинной индексации сайтов мы пока получим набор слабо взаимосязанных ресурсов из лингвистики, научной методологии, текстологии, филологии и др. По этой причине для аналитика информационных ресурсов становится важнейшей задачей конкретизация поискового предписания, а также этапы проверки и интерпретации результатов.

Существуют и иные ограничения в интернет-статистике. Даже при четкой локализации массива (например, анализ использования электронных публикаций из базы данных), следует иметь ввиду, что без специальной программы считается суммарное число обращений ко всем документам конкретного ресурса. Безразлично, открывали разные документы из него, или один уникальный документ. Агрегатор базы данных, как правило, размещает готовую статистику спроса для представителей конкретного учреждения по логину и паролю на служебном сайте. Иногда она бывает открыта и для пользователей подписчика, но вновь нужно уточнять условия счета.

Чтобы решать подобные задачи профессионально, необходимо осваивать процедуры проектирования аналитических исследований в разных режимах -

интеллектуальном и автоматизированном, постепенно совмещая их в единую технологическую цепочку.

Классическая аналитика. Получая от читателя информационный запрос любой категории сложности, библиограф предварительно определяет оптимальные пути его выполнения. Для простых запросов достаточно мысленно избрать наилучший источник информации, найти вариант быстрого доступа к нему, оперативно осуществить поиск нужной информации по запросу. При выполнении запросов повышенной сложности, предполагающих использование нескольких источников информации и сравнительный анализ данных, библиограф, аналитик информационных ресурсов стремится к максимальной технологичности рабочих процессов1.

Такие запросы уже требуют спроектированной под запрос технологической схемы поиска и анализа информации, построения блок-схемы. Для освоения темы важно уметь разграничивать понятия «социальные технологии», «интеллектуальные технологии», «аналитические технологии», «моделирование и проектирование процессов». Аналитические технологии - эта та часть интеллектуальных информационных технологий, которая ориентирована на выполнение сложных запросов (научных, профессиональных, образовательных), требующих многоаспектного поиска, анализа и синтеза информации об объекте, его информационного моделирования для получения выводного знания об объекте и практических рекомендаций по запросу.

В отличие от технических, интеллектуальные методики носят весьма обобщенный характер, а также имеют целый ряд ограничений при использовании. Причина - множество влияющих факторов, низкий уровень формализации интеллектуальных процессов. По этой причине методики анализа информации формируются длительный период времени, как правило, на основе обобщения личного опыта участников. Переход от методики к технологии, требующей алгоритмизации, тем более затруднен. Впервые задача получения выводного знания на основе уже известного была поставлена Аристотелем в его книгах «Первая ...» и «Вторая аналитика». Не смотря на успехи компьютерной лингвистики и робототехники, основная часть аналитических процессов до сих пор есть не что иное как «размышление», которое лишь частично может быть алгоритмизировано. В этой связи значительная часть когнитивных процессов не только не поддается автоматизации, но даже не обозначается строгими понятиями. Зачем же искать ответ на неразрешимые задачи? От развития и разнообразия технологий зависит качество - уникальность и воспроизводимость полученного аналитиком выводного знания.

1 Требование обоснованной технологической схемы в соответствии с целью запроса или решаемой аналитической задачи (беззапросный режим). Осложняется слабой ресурсной обеспеченностью библиотек (платный доступ к значимым информационным ресурсам, отсутствие в штате аналитика информационных ресурсов, ориентация библиотек на выполнение простых запросов).

Принципы анализа. В процессе профессиональной адаптации информационный аналитик постепенно наращивает круг анализируемых объектов, переходя от простых задач к анализу сложных динамических объектов. Сложность объекта определяется не столько его масштабностью, сколько влияющими на его развитие факторами. Сложный объект - это структурированный, развивающийся в соответствии с внутренними закономерностями, с элементами самоорганизации, открытый для многофакторного влияния внешней среды. При анализе информации о таких объектах основной проблемой является системный сбор данных, видение границ объекта, круга воздействующих факторов.

В аналитической практике нередко встречается и феномен ложности простого запроса. Это подтверждает богатейший в мире библиографический опыт, каждый практикующий аналитик в своем личном опыте имеет десятки примеров, когда поиск простейших сведений об объекте превращается в многочасовое их разыскание, со сравнением найденных противоречивых данных, установлением и оценкой источника фактов. Следовательно, во всех ситуациях аналитик должен уметь прогнозировать категорию сложности запроса и учитывать общие принципы анализа информации. В данном случае выделим важнейшие из них:

1. Сочетание индуктивного и дедуктивного начал при анализе объектов. Для аналитика выбор принципиального подхода диктуется запросом. Казалось бы, что индуктивное мышление - анализ эмпирических данных из текстов - преобладает в аналитической работе, а дедукция значима только на этапе формулировки выводного знания. В практике же работает мыслительный маятник - от частного к общему и обратно. Дедуктивный переход аналитик использует всякий раз, когда типизирует факты, когда особенное для объекта сравнивает с типичным, когда отсеивает случайное в жизни объекта. Построение дедуктивной теоретической модели - такую задачу высокого уровня ставят только для аналитика-футуролога. Однако, «случайное» открытие может случиться в жизни каждого аналитика, владельца накопленного знания вне жесткой отраслевой привязки.

2. Независимость профессиональной позиции аналитика. Такая позиция обеспечивается знанием информационных ресурсов, поиском альтернативных источников информации, строгостью технологических схем анализа объекта. Аналитик утратит профессиональный подход, если будет ангажирован заказчиком аналитической справки в решении конкретной задачи. В этой связи особого осознания требует фактор ответственности аналитика за качество обзорной информации.

3. «Самоопровержение» аналитиком выводного знания. Профессиональный успех аналитика - найти определенную эмпирическую закономерность среди собранных сведений об объекте. При этом аналитик не должен переступить границу между аналитическим и научным исследованием, т.е. исследовать сам объект и заниматься поиском доказательств достоверности

выявленной тенденции в развитии объекта. Его главной задачей остается поиск альтернативных решений, доведение до пользователя перечня иных точек зрения. Аналитик самостоятельно находит и указывает в аналитической справке возможные противоречия и риски. Например, аналитик фиксирует возможную угрозу для позитивного сценария: «Предложенные меры позволят предприятию выйти из кризисной ситуации, если его руководителями сознательно не избран путь мошеннического банкротства». Такой подход является своеобразным критерием профессионализма в аналитике.

Требования к проектируемой технологии. Анализ информации об объекте может осуществляться в беззапросной форме, когда аналитик предвидит потребность в обобщении сведений по конкретному вопросу и передает потенциальным пользователям готовый аналитический продукт. В данном случае мы обсуждаем вопросы проектирования аналитической технологии для режима «запрос-ответ», в рамках которого аналитик работает в строго ограниченных условиях: объект и аспекты его анализа, время выполнения и даже форма передачи результатов диктуются запросом или договорными отношениями с пользователем. Следовательно, проектируемая технология должна отвечать вполне определенным требованиям:

- быть экономичной по временным и ресурсным затратам;

- соответствовать цели и характеру запроса;

- быть достаточно наглядной и воспроизводимой, чтобы ее выполнение могли обеспечить разные участники;

- позволит получать нетривиальную синтезированную информации об объекте.

Категория сложности запросов пользователей. Тип запросов в специальной литературе определяется характером запрашиваемой информации об объекте: адресные, иные фактографические, библиографические запросы, включая запросы на уточнение сведений о документе.

Вопросом оценки сложности запросов немного занимались информационные специалисты и библиографы в 1970-1980-е гг. (В. И. Грачев,

Н. М. Розова, Л. М. Герасимова), но выявленные типы запросов были ориентированы на проблему поиска информации, разыскания неявных сведений о документе. Так, В. И. Грачев, аспирант, а ныне известный доктор наук, впервые в стране в 1975 г. разграничил 3 категории сложности запросов: первая категория требует семантического сравнения информации по запросу, вторая -просмотра библиографического описания, аннотации или реферата, третья -простейшая - ограничивается основными элементами описания (автор и заглавие) при информационном поиске1.

1 Грачев В. И. К вопросу об исследовании категории сложности информационных запросов потребителей информации // Проблемы библиографии, библиотековедения, детской литературы. Л.: ЛГИК им. Н. К. Крупской, 1975. С. 85-98.

В удивительно интересной, книге, обощающей опыт уникальных библиографов РАН и страны Н. М. Розовой и Л. М. Герасимовой к сложным запросам отнесены те, в которых не просматриваются традиционные пути разыскания документов/данных. Авторы отметили, что особенно трудоемки запросы, выполняемые в отсутствии читателей: нельзя уточнить, дешифровать запрос, совместно с читателем найти дополнительные поисковые признаки. Значительную часть этих запросов представляют «отказы» - невыполненные запросы другими библиотеками и информационными центрами1.

Из приведенных в книге примеров можно увидеть широкий круг действительно сложных библиографических задач-запросов: расшифровка нестандартных сокращений в тексте; идентификация старых книг по отдельным листам без титула - актуальная задача для старых фондов библиотек, при разборке дарственных фондов и архивов; атрибуция бестекстовых фрагментов изданий (листов карт, планов, альбомов, чертежей, иконографических материалов), которая осуществляется на основе тщательного отбора данных для паспорта признаков с последующим обращением к топонимическим, ономастическим персоналиям, предметным изображениям и т. д.

Судя по примерам, к числу наиболее сложных относятся запросы ученых-гуманитариев, которые часто просят помощи в разыскании публикаций на основе неполных или искаженных ссылок на них. Особенно интересен предложенный комплекс приемов поиска по аналогии, введение в поисковый запрос ассоциированных фактографических данных. Библиограф может оказаться «в плену ложных ассоциаций», но ряд сложнейших запросов при точно выбранном направлении реализуются как «блиц-поиск» с одношаговым выходом к релевантному библиографическому источнику. Выполнение таких запросов глубокой ретроспекции, требует поиска в массивах малотиражных, ведомственных, архивных материалах, не имеющих машиночитаемых росписей, на долгие годы останется одной из сложнейших интеллектуальных задач библиотек.

Особенность подхода к проблеме типизации сложных запросов аналитического характера состоит в том, что задача поиска также решается нетиповыми средствами (требует выявления репрезентативного круга источников с определенными ценностными свойствами), но основной акцент должен быть сделан на сравнительном, многоаспектном анализе и синтезе найденных данных об объекте. При этом за простой формулировкой запроса может быть скрыто масштабное исследование вопроса с участием опытных библиографов, аналитиков информационных ресурсов. Например, «Достижения отечественной математики в 2011 г.», «Фотодиоды: тенденции развития», «Современные молодежные объединения» и т. д.

1 Розова Н. М., Герасимова Л. М. Традиционный библиографический поиск в библиотеке Российской Академии наук: метод. пособие. СПб.: Б-ка РАН, 1997. 113 с.

При этом категория сложности запроса в нашем случае должна оцениваться ДО проведения анализа, чтобы была спроектирована убедительная технологическая схема анализа. В этой связи предлагается трехтактная оценка категории сложности запроса, включающая три последовательно примененных критерия:

- Наличие этапа содержательной интерпретации запроса с анализом его предметного поля.

- Количество источников информации и предполагаемых для использования методов анализа информации.

- Необходимость этапа итогового синтезирования полученных данных об объекте.

Для учебных целей вполне достаточным оказалось подразделение запросов на три категории сложности - локальные, ассоциативные, комплексные (табл. 1). Большая их дифференциация возможна в аналитической практике.

Таблица 1

Категория сложности запроса

Категория сложности запроса Примеры запросов

1. Локализованные запросы Перечень действующих стандартов на библиографическое описание электронных документов. Производители бытовых вентиляторов в Санкт-Петербурге. Размер налогового сбора на жилую недвижимость в Болгарии.

2. Ассоциативные запросы Обзор рынка биржевой информации в стране. Новые тенденции в развитии выставочной деятельности для эксклюзивных товаров. Причины снижения спроса на офисную недвижимость в Санкт-Петербурге в ... г.

3. Комплексные запросы Оценка состояния и тенденций развития отечественной науки. Новые пищевые добавки: сфера и риски их применения. Зарубежный опыт продвижения инноваций в промышленности.

Первая категория сложности - локальный запрос - не требует содержательной интерпретации, ограничен процедурами поиска искомых, четко выраженных в запросе сведений в 1-3 источниках информации. Например, «Сколько административных районов сейчас в Санкт-

Петербурге?». Время выполнения локализованных запросов - от нескольких минут до трех часов.

Запросы средней степени сложности требуют от аналитика ассоциативного мышления на этапах интерпретации запроса, анализа и синтеза данных; многоаспектного, расширенного поиска данных об объекте по широкому кругу профильных и смежно профильных регулярных источников информации (от 3 до 20). В технологию включается хотя бы один

основной и несколько дополнительных методов анализа текстов - от поа-спектного, смыслового, казуального анализа текстов, элементов интент-анализа до формализованных - частотного, факторного, кластерного анализа ключевых слов. Результаты анализа фиксируются в развернутой форме обзорной справки конкретной разновидности, выбранной пользователем или аналитиком. Выводное знание формулируется в точном соответствии с целью запроса, даются рекомендации по его практическому использованию. Не исключен информационный прогноз по отдельным формализованным индикаторам развития объекта. Выполняются за 1-7 рабочих дней, либо ежедневно - по часу с еженедельной или ежемесячной мониторинговой справкой.

Сложные и сверхсложные запросы названы здесь условно «комплексными». Их выполнение требует от аналитика тщательного анализа предметного поля объекта с составлением проблемно-ориентированного рубрикатора, творческого многоэтапного поиска данных в широком круге источников (болем 20), развитого набора индикаторов оценки объекта, составления разноаспектных сравнительных таблиц, анализа оценочных высказываний, составления прогноза или выбора прогнозного сценария. Их выполнение занимает более 7 дней, чаще всего для этого создается рабочая (проектная) группа аналитиков. Так, в декабре 2011 г. завершен третий этап исследования по гранту РФФИ1. В течение двух месяцев был проведен анализ по теме «Оценка состояния и тенденций развития петербургской науки». В сборе материала приняли участие студенты 21414 группы библиотечно-информационного факультета2. С их помощью собраны фактографический и полнотекстовый массива документов/данных по теме за 2011 г. Потребовался комплекс методов для обработки собранных данных - частотный анализ полных текстов по теме; корреляционный, факторный и кластерный анализ частотных словарей; смысловой поаспектный анализ оценочных высказываний о петербургской науке. Впервые в нашей практике был использован метод главных компонент, который позволил в предметном поле выделить устойчивые тенденции в развитии анализируемого объекта.

В выводное знание включается синтезированная, нетривиальная, а также избыточная, потенциально полезная информация об объекте. Иногда разрабатываются несколько сценариев развития объекта с учетом влияющих факторов. В приложении к справке приводятся сравнительные

1 Грант РФФИ 09-06-00078 «Социологический взгляд на современную отечественную науку (На примере Санкт-Петербурга)», Институт истории естествознания и техники РАН. Науч. рук.: проф. С. А. Кугель.

2 В сборе и обработке материала активно участвовали студенты 21414 гр.: Андреева Алена, Петров Кирилл, Пилипенко Рита, Ситникова Ксения, Коптелова Жанна, Ягупова Ольга.

таблицы, список цитируемой литературы, иногда избранные тексты или дайджесты оценочных высказываний.

Средства проектирования. В основе технического проектирования лежат эскиз, чертеж, конструкторская документация, подготовленные с учетом действующих стандартов, технических условий. В техническом проектировании широко используются прикладные программы компьютерного проектирования.

При проектировании аналитических технологий основные средства -интеллектуальные, ориентированные на способность проектировщика к методическому алгоритмизированному восприятию профессиональной работы. В их числе формально-логические приемы проектирования -умение сопоставить и соподчинить единичные приемы и процедуры анализа информации. Они используются при интерпретации запроса, уточнении границ объекта, цели и задач аналитического проекта. С их помощью осуществляется оценка типичного и особенного в запросе, а также логическое соподчинение отдельных процессов .

Содержательное и графическое проектирование технологий включает разнообразные формы фиксации интеллектуальных технологий: методика и вербальные алгоритмы (маршрутизаторы), стратегии, сценарии, прогнозы. Для визуализации блок-схем широко применяются графические формы: дерево целей, ресурсов и проблем; технологическая схема; организационные диаграммы. В результате даются рекомендации исполнителю по выполнению конкретного типа запросов. При их длительном использовании блок-схемы составляется должностная инструкция для аналитика - формы фиксации апробированной технологии.

Ресурсы технологического проекта. Обязателен учет имеющихся ресурсов при проектировании аналитической технологии. Особенностью аналитических технологий является четкое планирование информационных, интеллектуальных и коммуникативных ресурсов. Именно они составляют основу планирования аналитической технологии. Включен в проектирование технологический и организационный потенциал организации, кадровый и мотивационный ресурсы, обеспечивающие качество обзорно-аналитической продукции. Правовой ресурс отражается в проекте как основа соблюдения авторского и смежных прав в обзорноаналитической продукции. Учет демографического и экономического ресурса региона важен для получения повторных запросов для проектируемой технологии.

Технико-экономическое обоснование проекта. Любой проект требует обоснования. Для этого используются временные нормативы в аналитической деятельности, методики для оценки трудозатрат, прямых и косвенных издержек. Проектировщик должен быть ориентирован на снижение издержек в планируемой технологии и подготовку экономически обоснованных типовых схем.

Основные этапы проектирования аналитической технологии.

Специалисты выделяют следующие этапы проектирования социальных технологий: концептуальный, моделирование, конструирование, адаптация. В аналитической практике более апробированы следующие этапы:

Предпроектная стадия: уточнение объекта и цели проекта по запросам потребителей информации. Поиск технологий-аналогов, выявление стереотипного и особенного в технологии. Оценка ее востребованности в организации. Выбор участников и соисполнителей, определение сроков предоставления проекта.

Стадия разработки технологической схемы: описание этапов, соподчинение интеллектуальных и вспомогательных процессов. Информационное моделирование объекта. Апробация отдельных технологических решений. Локализация предметного поля объекта и масштаба использования технологии. Технико-экономическое обоснование технологии. Разработка основной технологической блок-схемы.

Стадия подготовки рабочей документации: локальные и сводные ведомости материальных ресурсов, методические рекомендации или пояснительные записки, должностная инструкция.

В процессе подготовки технологической схемы формируется ключевая профессиональная компетенция: способность самостоятельно приобретать новые знания и умения в области проектирования технологий.

Факторы успеха и риски при проектировании аналитических технологий. Главные факторы успеха - накопленные информационные ресурсы по профилю учреждения, финансовая поддержка проекта, квалифицированные кадры с мотивацией на нововведения, стабильный приток однотипных запросов. Уникальность и разнообразие запросов на аналитическую информацию предполагают сочетание типовых и специализированных технологий.

Факторы риска - выбор неадекватных технологий, отсутствие опыта технологических преобразований, пассивная позиция руководителей учреждения. Особая зона риска - слабая информационная база для анализа объекта. Неструктурированная, латентная и оперативная информация об объекте должна быть включена в технологическую схему сбора и анализа сведений об объекте. Это требует от аналитика креативного отношения к планируемой совокупности информационных ресурсов уже на этапе интерпретации запроса.

Рассмотрим риски проектирования на конкретном примере локального запроса - «Информационная реконструкция сценической судьбы оперы Н. А. Римского-Корсакова «Ночь перед Рождеством»1.

1 Анализ проведен в январе 2011 г. студенткой 22625 гр. Н. К. Шестопаловой для проверки проектируемой технологии «ретроспективный поаспектный анализ текстов»

Предпроектная стадия. Конкретизирована цель запроса - оценка отношения к опере в ее различных постановках. Выявлена точка рождения анализируемого объекта (первая постановка оперы в 1895 г.), определен хронологический период сбора материала - 115 лет (до 2010 г.). Выбран жанр анализируемых материалов об опере - критические материалы - опубликованные рецензии и отзывы. Осуществлен поиск фоновых событий - оперные постановки по мотивам произведений Н. В. Гоголя (оперы Н. Лысенко - 1874 г., П. И. Чайковского -

1874-1875 гг., Н. А. Римского-Корсакова - 1895 г.).

Определено, что за столь длительный период времени в качестве основного метода оптимален поаспектный анализ текстов, позволяющий отбирать информацию в заранее заданных аспектах. Так как в запрос заложен оценочный аспект (отношение к опере музыкальной критики), то сделан вывод о дополнительных методах анализа оценочных высказываний. Для выделения оценочных высказываний включены элементы смысловой фрагментации текстов, интент-анализа, частотного анализа оценок, а также казуального анализа для выявления отдельных причинноследственных связей.

Оценка востребованности проектируемой аналитической технологии «ретроспективный поаспектный анализ» показал, что преподаватели вуза и студенты самостоятельно восстанавливают историю ведущих исполнителей музыкального произведения при каждом выборе произведения для учебного репертуара, конкурсных и публичных выступлений. Месячный срок выполнения запроса был условно обозначен, так как аналитик параллельно выполнял иную учебную и профессиональную работу.

Стадия разработки технического проекта. Первичная блок-схема поаспектного анализа текстов носит весьма обобщенный характер трех типовых этапов: Пилотажное исследование: выбор аспектов анализа ► Составление сравнительных таблиц ► Обработка данных и вывод результатов анализа.

Затем осуществлены следующие процессы:

- дополнение схемы вспомогательными процессами,

- детализация блок-схемы,

- обогащение технологии оценочными методами.

В число вспомогательных процессов были внесены: ретроспективный библиографический поиск сведений о публикациях по теме, разыскание и

на базе Научной библиотеки Санкт-Петербургской консерватории: Шестопалова Н. К. Поаспектный информационный анализ текста (по материалам музыковедческих публикаций): диплом. работа / науч. рук. Г. Ф. Гордукалова; рец. Т. В. Захарчук. СПб.: СПбГУКИ, 2011. С. 32-97.

копирование полных текстов в фондах библиотеки, отбор и оценка релевантности текстов для анализа.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На разных этапах поаспектного анализа текста используются различные приемы и действия аналитика: разметка (фрагментация) текста, извлечение и формализация информации, анализ тематического поля ключевых слов, хронологический анализ развития темы, классификация объектов в пределах предметного поля, частотный анализ ключевых слов, ранжирование данных об объекте, визуализация информации (построение графиков, диаграмм, структурных схем, таблиц).

Уровень детализации блок-схемы зависит от личного опыта аналитика. После многократного использования технологии опытному аналитику достаточно перечислить основные рабочие процессы в алгоритме их реализации. Аналитик-стажер должен получить методическую роспись блок-схемы на естественном языке с фиксацией итоговых форм представления информации.

В итоге аналитический модуль станет многоэтапным, но более продуктивным (рис. 2).

Рис. 2. Блок схема «Модуль 2. Аналитический»

Если детализировать блок-схему для одного метода, то она также достаточно сложна (рис. 3):

Рис. 3. Фрагмент блок-схемы «Поаспектный анализ»

Естественно, что в блок-схему не включены многие вспомогательные процессы (подготовка и нумерация перечня текстов для анализа, формализация и фиксация данных в таблице, и др.). Не отражены также в схеме слабо формализованные интеллектуальные (мыслительные) процессы. Например, размышление об уровне анализа текстов при выборе его аспектов, поиск решения при преобразовании таблиц, непростой отбор фрагментов со смешанными аспектами рассмотрения постановки и др.

На предпроектном этапе была отмечена необходимость использования дополнительных методов для анализа оценочных высказываний - элементы смысловой фрагментации текстов, интент-анализа, частотного анализа оценок, а также казуального анализа для выявления отдельных причинноследственных связей. Они реализуются последовательно, после основного метода. В результате проектирования даже для локального запроса мы имеем весьма развернутую технологическую блок-схему.

Условными обозначениями в ней выделяются этапы, основные и вспомогательные рабочие процессы, которые указываются в логическом алгоритме их применения. Условные обозначения проектировщик аналитической технологии избирает самостоятельно, с учетом традиций технического проектирования.

Кроме того в итоговую блок-схему вносятся временные нормативы выполнения работы, фиксируются формы промежуточных и итоговых результатов - дайджест оценочных высказываний, сравнительная таблица, корреляционная матрица, частотный словарь, обзорная справка и т. д. Например, для интент-анализа сначала был составлен дайджест оценочных высказываний в авторской формулировке, который затем был преобразован в наглядную хронологическую таблицу результатов интент-анализа - кратких оценочных суждений музыкальных критиков, а также высказанного ими мнения публики (табл. 2).

В обзорную же справку войдут лишь основные выводы. Например:

Наибольшее количество отрицательных суждений относится к XIX веку, положительные распределены равномерно по времени. Современные критики вообще уклоняются от общей оценки оперы.

Музыкальные критики высказывают полярно противоположные суждения не только о художественных достоинствах оперы, но и о том, как она была встречена публикой: «никакого успеха» - «крупный успех»; «слабость музыкального содержания» - «множество превосходных, вдохновенных страниц»; «опера не удалась ее автору» - «одна из удачнейших опер Римского-Корсакова»; «не имеет отношения к сказке Гоголя» - «безусловно, принадлежит к числу наиболее адекватных Гоголю музыкально-драматических произведений». Некоторые из этих суждений (первые две пары) были высказаны примерно в одно время - в 90-е гг. XIX в. и т. д.

При планировании аналитической работы важно оценить примерно будущие трудозатраты аналитика, а затем сравнить их с реально затраченным временем. Приведем результаты предпринятого Н. К. Шестопаловой хронометрирования реальных затрат времени: на ретроанализ информации о столетней жизни оперы потребовалось примерно 40 часов рабочего времени. В том числе - на пилотажное исследование - 6 часов, на подготовку сводной таблицы поаспектного анализа - 8 часов, на преобразование таблиц - 5 часов. На проведение интент-анализа по уже готовой таблице был затрачен 1 час, а для подготовительного количественного анализа кратких текстов (отзывов и рецензий о постановках оперы) 8 часов. Этап синтезирования результатов (интерпретация данных, формулировка выводов и рекомендаций) в связи с первым таким опытом занял 11 часов рабочего времени.

Подготовительные работы (поиск полных текстов публикаций, их заказ в фонде библиотеки, копирование и др.) из-за сложности выявления рецензий второй половины XIX в. продолжались в течение 30 часов (без учета технологических перерывов и непродуктивно потраченного времени). Таким образом, реализация аналитической технологии по локальному запросу целом, предполагает около 70 часов напряженной и интересной работы. Накопление опыта позволит существенно сократить трудозатраты для этапов выбора методов, аспектов анализа, фрагментирования текстов, а также частично упростит процессы синтезирования данных.

Результаты интент-анализа критических публикаций о постановках оперы Н. А. Римского-Корсакова «Ночь перед Рождеством»

Положительные Отрицательные

прелестная опера (1895) опера не удалась ее автору (1895)

крупный успех (1895) в опере мало жизни (1895)

внешний успех (1895) публика скучала (1896)

прелестная быль-колядка (1898) скучная опера (1896)

громадный успех комических эпизодов (1898) никакого успеха (1896)

множество превосходных, вдохновенных страниц (1898) не имела выдающегося успеха; (1896)

одна из удачнейших опер Р-К (1938) слабость музыкального содержания (1896)

опера, по-настоящему близкая и нужная народу (1938) не имеет отношения к сказке Гоголя (1896)

значительность музыкального содержания (1938) напыщенность и претенциозность оперы (1896)

отмечена печатью выдающегося мастерства (1940) получилось что-то тяжелое, угловатое и всегда мертвящее. (1896)

соединение большой музыки и большой литературы (1990) по силе и цельности впечатления уступает другим операм Р-К (1898)

«Ночь».... безусловно, принадлежит к числу наиболее адекватных Гоголю музыкальнодраматических произведений. (1991) «Ночь», конечно же, произведение неровное(1991)

«Ночь», несомненно, обладает немалой самостоятельной ценностью (1991) опера уступает другим творениям Р-К (1991)

На основе итоговой блок-схемы осуществляется расчет необходимых трудозатрат: к суммированному объему времени для одного исполнителя добавляется «страховая» доля трудозатрат на непредвиденные обстоятельства - отсутствие полного текста и его дополнительный поиск, необходимость его сканирования, появление в массиве объемных текстов, консультации у специалистов и др. Случай существующего в документальном потоке, но ненайденного текста обязательно отмечается в подстрочной сноске обзорной справки.

Страховочная часть может составлять от 10 до 30% от планируемого рабочего времени в зависимости от категории сложности запроса. Сумма рабочего и страховочного (резервного) времени позволяет оценить время выполне-

ния запроса (в часах, днях), необходимость в соисполнителях или помощниках для выполнения вспомогательных процессов.

Если запрос выполняется на договорных условиях, то определяется его ценовая характеристика, в которую закладывается себестоимость выполнения аналитической и вспомогательной работы, дополнительные расходы (оплата доступа к источникам информации, стоимость расходных материалов и др.), НДС и планируемая прибыль исполнителя (дополнительно 5-20%). Цена аналитического продукта согласовывается с заказчиком на этапе подписания договора. Она может существенно варьироваться в зависимости от уникальности аналитического продукта, возрастая на порядок.

Стадия подготовки рабочей документации о проектируемой технологии может ограничиться пояснениями условных обозначений к итоговой блок-схеме и методическими рекомендациями ее исполнителю по рискам отдельных этапов работы. Должностная инструкция аналитика - наиболее свернутая форма управления аналитическим проектом. Составляется она лишь после достаточной апробации и доработки блок-схемы. Важно помнить о том, что проектируемая технология - интеллектуальный потенциал организации, ее коммерческая тайна, а также профессиональный приоритет аналитика.

Сочетание интеллектуальной и машинной технологий. Решение проблемы семантического поиска в сети следует ожидать в массовом использовании не раньше, чем через 3-5 лет. Оптимизм Тима Бернерса-Ли, его соратников и последователей позволяет говорить о столь быстром решении. Подобная ситуация, правда, уже наблюдалась по отношению к машинному переводу. При благоприятном же стечении обстоятельств задача проектирования аналитических технологий сократится на несколько этапов поиска и отбора интернет-ресурсов, но всегда будут востребованы этапы согласования поискового предписания, четких условий поиска и отбора и этап интеллектуальной интерпретации результатов выполнения сложных запросов. Это предполагает органичное сочетание интеллектуальной и машинной аналитических технологий в будущем, а в настоящем - приобретение опыта в грамотном проектировании аналитических технологий.

i Надоели баннеры? Вы всегда можете отключить рекламу.