Научная статья на тему 'Эффективное использование статистических ресурсов в управлении как задача распознавания образов'

Эффективное использование статистических ресурсов в управлении как задача распознавания образов Текст научной статьи по специальности «Экономика и бизнес»

CC BY
1692
165
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИКА / ЭКОНОМИЧЕСКИЙ АНАЛИЗ / МОДЕЛИРОВАНИЕ / STATISTICS / ECONOMIC ANALYSIS / MODELING

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Ведерникова Татьяна Ивановна, Дибирдеев Виктор Измайлович

Дано описание методов построения рабочего словаря признаков в системе статистического учета. Предложен метод моделирования статистик для снижения трудоемкости решения задачи эффективного использования статистических информационных ресурсов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Ведерникова Татьяна Ивановна, Дибирдеев Виктор Измайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Efficient use of statistic resources in management as an image identifications task

Procedure for building a usable dictionary of features in statistics collection is described. A technique for modeling statistics is suggested which allows to decrease labor intensiveness in solving the task of effective utilization of statistical information resources.

Текст научной работы на тему «Эффективное использование статистических ресурсов в управлении как задача распознавания образов»

- предполагается, что в расчет берется - период пользования банковским кре-

приемлемая процентная ставка за пользова- дитом соотносится с продолжительностью ние кредитом; товарооборота.

Т.И. ВЕДЕРНИКОВА

кандидат технических наук, доцент

В.И. ДИБИРДЕЕВ

руководитель Территориального органа Федеральной службы государственной статистики по Читинской области,

кандидат экономических наук

ЭФФЕКТИВНОЕ ИСПОЛЬЗОВАНИЕ СТАТИСТИЧЕСКИХ РЕСУРСОВ

В УПРАВЛЕНИИ КАК ЗАДАЧА

Данные, получаемые государственными органами статистики, объемны и разнообразны по своей структуре. Одна из проблем повышения эффективности использования информационных ресурсов в управлении развитием территориальных экономических систем заключается в выборе наиболее подходящей математической модели обработки и описания данных. Имеющаяся статистическая информация представляет собой многомерные временные ряды, однако для решения практических задач в общем потоке данных может быть полезной лишь некоторая ее часть. Поэтому актуальными являются вопросы отсева второсортной информации и выделения характерной, относящейся к задачам исследования. Выбор информативных систем признаков для описания объекта — это самостоятельная задача распознавания. Тогда проблему эффективного использования информационных ресурсов в управлении можно рассматривать как задачу распознавания образов. При этом информативность описания заключается в построении такого набора признаков, чтобы множество объектов управления могло быть наиболее просто разделено на классы. Решение этой задачи представляет собой отображение пространства признаков в пространство меньшей размерности (рабочий словарь), что позволяет облегчить и ускорить обработку данных.

Авторами статьи дано описание методов построения рабочего словаря признаков (РСП) и предложено для снижения трудоемкости решения задачи эффективного использования статистических информаци-

РАСПОЗНАВАНИЯ ОБРАЗОВ

онных ресурсов в управлении применять МОС-метод1.

Рассмотрим способы построения рабочего словаря признаков. Если имеется достаточно полный словарь информативных признаков, то собственно распознавание и идентификация объекта уже не вызывают особых затруднений. В большинстве практических задач распознавания определение полного набора различных признаков, описывающих объект, оказывается делом исключительно трудным или практически невозможным. С другой стороны, большой объем измеряемых параметров может «за-шумлять» картину идентификации объектов и увеличивать время, затрачиваемое на проведение самой процедуры распознавания.

Для выполнения дальнейших рассуждений дадим ряд определений.

Вектор X = (х1, х2, ..., хп), полученный в результате непосредственных измерений (статистические данные), есть вектор параметров объекта.

Вектор признаков есть новый вектор У = (У1, У2, ..., Ут), представляющий собой либо усеченный набор параметров, либо вектор, получаемый путем некоторого преобразования параметров у, = ф,(Х).

Априорный словарь признаков (АСП) — это совокупность всевозможных параметров и признаков, относящихся к объекту.

Рабочий словарь признаков — это совокупность наиболее информативных параметров и (или) признаков (часть АСП), сформированная на этапе обучения с целью решения задачи идентификации. Построить рабочий словарь признаков — значит найти

© Т.И. Ведерникова, В.И. Дибирдеев, 2007

такую систему признаков, которая достаточно полно описывает объект с точки зрения заданного критерия информативности.

Эффективность признака определяется величиной его полезного вклада при распознавании. Оценкой полезного вклада могут служить дивергенция, энтропия, прямая оценка вероятности ошибки. В том случае когда распределения вероятностей признаков известны, пользуются критериями дивергенции и энтропии. Если распределения вероятностей признаков для каждого класса объектов неизвестны, то используют критерии, основанные на прямой оценке вероятности ошибки идентификации, где в зависимости от выбранного способа преобразования пространства параметров X в пространство признаков Y отыскивается экстремальное значение заданного критерия эффективности признаков.

Существующие эвристические алгоритмы и методы построения РСП для описания образов делятся на две большие группы: методы минимизации систем описания образов (объектов управления), когда РСП есть подпространство Y (размерности т) полного признакового пространства X экономического объекта (размерности л), m < п; структурные методы описания образов, когда признаковое пространство Y получается путем некоторого преобразования априорного пространства X.

Методы минимизации систем описания образов. Эта группа методов включает: алгоритмы направленного перебора различных подсистем параметров с целью выбора наилучшей с точки зрения заданного критерия; алгоритмы выбора информативных признаков на основе расстояния между параметрами различных классов; алгоритм случайного поиска с адаптацией (игровой алгоритм).

Под минимизацией описания обычно понимается уменьшение числа измеряемых параметров. При этом либо заранее (из каких-либо физических соображений) определяется количество признаков т (т < л), либо т выбирают в зависимости от требуемой точности решения задачи, что определяется значимостью конкретного информационного ресурса экономической системы для принятия управленческих решений. Если значения л и т достаточно малы, то выбор системы

признаков Y из пространства параметров X можно осуществить путем полного перебора всех возможных комбинаций, равных числу сочетаний из л по т. Для больших значений л и т применяются алгоритмы, не использующие полный перебор, например алгоритм Мерилла и Грина (алгоритм последовательного исключения), суть которого — в поочередном исключении одного параметра, в отсутствие которого критерий принимает оптимальное значение. Другой алгоритм (алгоритм последовательного включения параметров), не использующий полный перебор, состоит в том, что система признаков формируется по принципу включения в нее наилучшего по заданному критерию информативности параметра.

Алгоритмы выбора информативных признаков основываются на расстояниях между параметрами как внутри классов (однородных экономических объектов), так и между классами. При этом в качестве информативных признаков выбираются те параметры, расстояния между которыми внутри класса минимальны, а между классами максимальны.

В основу алгоритма случайного поиска с адаптацией положено предположение о том, что признаки, входящие в наиболее информативную систему, чаще встречаются в тех системах, которые близки к ней по некоторому критерию информативности, и наоборот.

Структурные методы описания образов.

Особенность структурных методов описания образов состоит в том, что РСП включает не непосредственные измерения (параметры), а признаки, отражающие типологию объектов, принадлежащих одному классу. Структурные методы составляют: факторный анализ, в частности метод главных компонентов; нелинейное преобразование пространства параметров (многомерное масштабирование); аппроксимация параметров; МОС-метод — метод моделирования статистик, различающих случайные величины.

Основная идея факторного анализа состоит в том, чтобы, наблюдая большое число измеряемых параметров, выявить меньшее число таких признаков (факторов), которые в основном определяют поведение параметров и характеризуют исследуемый объект.

Известия ИГЭА. 2007. № 4 (54)

Методы линейного преобразования направлены на нахождение главных осей многомерного распределения и исключение тех из них, вдоль которых дисперсия исходных данных незначительна. Эффективность этих методов ограничена тем, что линейные преобразования не всегда позволяют выявить характерные свойства объекта и дать адекватное его описание. Поэтому иногда целесообразно находить нелинейные преобразования параметров. Процесс нелинейного преобразования пространства параметров X в пространство признаков Y (меньшей размерности) называют еще многомерным масштабированием. Целью нелинейных отображений является изменение структуры расстояний между объектами с соблюдением ограничений, накладываемых структурой исходного распределения, и предоставление возможности наглядного анализа многомерных информационных ресурсов. Алгоритмы нелинейного преобразования параметров можно разделить на две группы: первые осуществляют преобразование у, = ф,(Х) с одновременным понижением размерности признакового пространства (итеративный и неитеративный алгоритмы), вторые производят двумерное отображение.

К методу стохастической аппроксимации прибегают в том случае, когда наблюдаемые в выбранных точках Xj значения функции параметров f¡ = f(X) являются реализациями случайных величин 2. В качестве критерия эффективности берутся математические ожидания М,[2], i = 1, М. Задача выделения признаков сводится к отысканию наилучшей аппроксимирующей функции // = // (X), минимизирующей критерий.

Метод моделирования статистик, различающих случайные величины (МОС-метод), базируется на переходе от многомерных наборов признаков, описывающих экономические системы:

Хк = (х^, хк2, ..., Хкп), (1)

к одномерным / = 1,т; к = 1,М, акку-

мулирующим отличительные особенности наблюдений (1). Основополагающим для метода является предположение о том, что разные объекты имеют разные наборы признаков, т.е. являются реализациями разных случайных величин. Следовательно, для

каждой совокупности однородных объектов существуют свои характерные преобразования вида

=<Р,(хМ^ x_k!:.•., ^> (2)

/ = 1,т; к = 1,М, отражающие внутреннюю структуру объекта идентификации. РСП одинаковых объектов составляют характеристика или небольшой набор характеристик, определенных экспертным путем или выявленных в результате обучения.

В основу различения признаков типа (1) положены отношения 20 = а / Ь и модули разности 2р = |а - Ь|, где в качестве а и Ь берутся составляющие вектора (1). Функциональные преобразования (2), базирующиеся на модулях разностей компонентов (1), названы характеристиками типа «расстояний». Преобразования, основанные на отношениях, названы характеристиками типа «отношений». Алгоритмы задания характеристик типа «расстояний» и «отношений» строятся как суммы, минимумы, максимумы модулей разностей и отношений различных порядков компонентов вектора (1).

Построение РСП на основе МОС-метода базируется на четырех принципах: одномерность признаков в РСП; избыточность признаков, описывающих объект; минимальная вариабельность признака; «непересекаемость» распределений признаков, аккумулирующих отличительные особенности разных объектов.

Реализация этих принципов осуществляется следующим образом. Каждый признак формируется как функция типа (2). Так осуществляется уход от многомерности исходного множества информационных ресурсов, что позволяет упростить процесс решения проблемы их эффективного использования, так как анализ многомерных наблюдений выполнить много сложнее, чем одномерных. Многообразие признаков определяется интуицией и опытом исследователя, а избыточность признаков легко достигается, поскольку количество функций вида (2) ничем не ограничено. В основу принципа «непересекаемости» положена идея о том, что всегда можно подобрать такие преобразования <. (•); / = 1,т, при которых получаемые признаки будут иметь минимальную

Известия ИГЭА. 2007. № 4 (54)

вариацию, а для разных объектов — еще и значительные количественные различия.

Проведенный обзор методов выделения набора информативных признаков (построения РСП) с целью эффективного использования статистических ресурсов в управлении позволяет сделать следующие выводы.

Методы минимизации систем описания образов хороши тем, что сокращают время сбора и обработки информации, но эти методы обладают существенным недостатком, заключающимся в том, что они не отражают внутреннюю структуру экономического объекта и тем самым снижают эффективность использования информационных ресурсов для выработки управленческих решений. Кроме того, алгоритмы перебора требуют, как правило, много времени. Алгоритмы «расстояний» обычно узконаправленны, т.е. хорошо решают конкретную задачу идентификации, а для другого приложения могут быть совершенно неэффективными. РСП, построенный посредством игрового алгоритма, не всегда соответствует реальной действительности.

Существующие структурные методы построения признакового пространства также не всегда дают желаемый результат. Классические методы факторного анализа предназначены для решения статических за-

дач, хотя иногда их используют для анализа «срезов» временных точек. Что касается итеративного алгоритма, то в случае больших последовательностей неклассифицированных данных он может оказаться «вычислительным монстром». В неитеративном алгоритме есть существенное ограничение — это предположение о том, что опорные точки существуют и расстояния между признаками и опорными точками заданы. Большим недостатком алгоритмов аппроксимации является допущение о наличии аппроксимирующей функции, которой, вообще говоря, может и не быть.

Сказанное позволяет предложить МОС-метод как инструмент для повышения эффективности использования статистических информационных ресурсов в управлении. Этот метод учитывает внутреннюю структуру объекта управления, обладает минимумом допущений и прост в вычислительном отношении.

Примечание

1 Ведерникова Т.И. Математическое и программное обеспечение построения рабочего словаря признаков для идентификации стохастических объектов: дис. ... канд. техн. наук. Иркутск, 1996; Повышение эффективности использования статистических информационных ресурсов в управлении: отчет о НИР. Иркутск, 2006.

Г.В. СИЛИЧЕВА

декан факультета экономики и управления Иркутского государственного университета путей сообщения,

кандидат экономических наук, доцент

ВОПРОСЫ ОБЕСПЕЧЕНИЯ КАЧЕСТВА ГРУЗОВЫХ ПЕРЕВОЗОК НА ЖЕЛЕЗНОДОРОЖНОМ ТРАНСПОРТЕ

В последние годы перед железнодорожным хозяйством России ставится цель, чтобы все его отрасли вышли на уровень транспортного обслуживания по качеству и ценам, который бы выдерживал конкуренцию со стороны других видов транспорта и позволял привлечь на железные дороги больше грузов. Повышение качества транспортного обслуживания является обязательным условием привлечения большего числа клиентов с целью реализации дополнительных объемов перевозок и, следовательно, увеличения доходов.

В документах по реформированию отрасли сформулировано, что одной из задач ОАО «Российские железные дороги» является повышение качества и расширение номенклатуры услуг, комплексное стимулирование увеличения спроса на железнодорожные перевозки, привлечение дополнительных объемов перевозок и новых клиентов, разработка и реализация новых видов транспортных услуг и технологий обслуживания.

Все это осуществимо лишь при четко организованной системе управления качеством

© Г.В. Силичева, 2007

i Надоели баннеры? Вы всегда можете отключить рекламу.