Научная статья на тему 'Неполные данные результатов измерительного эксперимента'

Неполные данные результатов измерительного эксперимента Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3705
131
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Неполные данные результатов измерительного эксперимента»

Ординарцева Н.П.

Пензенский государственный университет

НЕПОЛНЫЕ ДАННЫЕ РЕЗУЛЬТАТОВ ИЗМЕРИТЕЛЬНОГО ЭКСПЕРИМЕНТА

Актуальность постановки вопроса и его состояние. С проблемой пропусков в данных сталкиваемся в многочисленных практических задачах восстановления зависимостей, классификации, анализа временных рядов, распознавания образов. И спектр этих задач широк. Примерами таких задач могут служить статистические измерения, передача в условиях помехозашумлённости данных телеизмерений, обработка результатов измерений с отбрасыванием результатов, содержащих грубые погрешности.

В условиях выборочных исследований, выборочного измерительного контроля, в основе которых лежит асимптотическая теория больших выборок, когда определённые базовые характеристики большой (генеральной) выборки регистрируются, а затем из этой выборки случайно извлекается подвыборка, для которой измеряются дополнительные переменные и получаемые данные образуют монотонную структуру, то методы регрессии, используемые для анализа таких данных, следует рассматривать как методы обработки данных с пропусками [1].

Эксперименты, в которых отсутствуют данные из-за окончания последнего ранее регламентированного срока -вследствие выхода из строя технического устройства (перегорание схемы, метрологический отказ), представляют собой эксперименты с цензурированными данными. Пропущенными данными в статистике эксперимента могут быть отсутствующие данные в наиболее сложно реализуемых точках пространства влияющих факторов и т. д.

Градуировка измерительных приборов, поверка средств измерений представляют собой измерительные экспериментыпри неслучайных пропусках.Здесь имеют место пропуски данных вне оцифрованных точек шкалы. Аналогично при аналого-цифровом преобразовании измерительного сигнала имеют место неслучайные пропуски данных, обуславливающие возникновениепогрешности дискретизации и квантования.

Несмотря на несомненную актуальность, в нашей стране вопросам анализа неполных данных уделяется очень мало внимания.

Механизмы порождения пропусков данных. Выборочному исследованию всегда присущи пропуски, так какзначения части переменныхв эксперименте (переменных плана эксперимента) присутствуют у всех объектов множества, а исследуемые переменные «пропущены» у объектов, не включённых в выборку. В таком случае механизм порождения пропусков - процесс извлечения из выборки.

Метод «двойного выбора» (doublesampling)- это пример, когда структура пропусков подконтрольна-исследователю: извлекается большая выборка, базовые характеристики регистрируются; затем из этой выборки случайно извлекается подвыборка, для которой измеряются дополнительные переменные. Аттестация типа средств измерений - один из примеров метода «двойного выбора».

Цензурирование - пример ситуации порождения пропусков, когда механизм порождения неуправляем, но известен в эксперименте.Данными являются время наступление события, приводящего к остановке эксперимента до его регламентированного окончания - заключение о метрологической непригодности поверяемого средства измерений, перегорание схемы, отключение питания, прекращение испытания на износоустойчивость ранее выполнения программы испытаний и т. д.

Если известна точка (время) цензурирования, то мы имеем частичную информацию о том, что время наступления ненаблюдаемого события больше времени цензурирования. Такую информацию следует учитывать при анализе данных, чтобы избежать смещений.

Говоря о механизме порождения пропусков, следует различать следующие случаи:

Структура пропусков подконтрольна исследователю.

Механизм порождения пропусков неуправляем, но известен исследователю.

В последнем случае в статистическую модель можно вводить распределение индикаторов присутствия, равных 1 для присутствующего значения признака и 0 - для пропуска[2], рис. 1.

Поскольку в эксперименте значения факторов задаются исследователем, то пропуски, если они есть, содержатся в выходной переменной У намного чаще, чем в значениях факторов Х. Случай с пропусками в данных, когда мы для каждого значения Х^Х имеем измеренную У1...Уд, причём Х присутствует больше У, приведён на рисунке а). Такая монотонная структура с пропусками может объясняться отсутствием некоторых данных вследствие неуправляемых событий в процессе сбора этих данных, отказов системы от ответа, недопустимых значений, удаленных из выборки (обычные промахи), ошибками при регистрации данных. Отсутствие данных по У может быть связано с планом эксперимента, таким как в калибровочном эксперименте, где Х - дешевое измерение, полученное для большой выборки, а У - дорогостоящее измерение, полученное для подборки. В случае медицинских диагностических измерений Х - множество возможных состояний человека, У - получаемые диагностики (например, измерение на вдохе, выдохе, при задержке дыхания и т. д. при контроле функции дыхательной системы). На рис б) показан случай пропусков данных в монотонной многомерной структуре. На рис. в) показана одна из возможных структур данных, при которой Уз наблюдается больше, чем У1; У1 и У2 совместно не наблюдаются .

Объекты

1

m

n

Х Y

Y1 Y2 Y3

Y3 | Y2 | Y1

1.1 о о X.X

1.1 о • о X.X

X.X X.X о о

X.X X.X 0.0

1- значение,-0 - пропуск,-Х - возможен пропуск а) б) в)

Рисунок - Структуры данных с пропусками

Предмет исследования.Основной предмет исследования в задачах с неполными данными - выборка многомерных наблюдений с пропусками. Удобно представлять s - мерное наблюдение с пропусками в

виде пары (X, M ) , где X - исходный S - мерный вектор значений переменных, а M - S -мерный век-

тор пропусков, координаты которогоимеют значения «пропуск» либо «нет пропуска», отвечая присутствию или отсутствию соответствующей переменной. Случайный вектор (X, M ) имеет распределение pX,M . Проблема заключается в построении по данным с пропусками статистических выводов относительно

распределения pX вектора X .

Последнее означает, что статистический эксперимент {X х M ;UX

является проекцией статистического эксперимента Е ={X х M ;UX х UM

сионная задача восстановления данных (являющаяся обратной задачей) лью:

p с отсутствием пропусков nX ,M\ D

, p } .В таком случае регрес-может быть представлена моде-

Е = {х х M ;UX х UM, pXM} ^ Е * ={X х M ;UX, pX} ^ Y = f (X) . (1)

Для получения более достоверной информации об исследуемом объекте механизмом пропусков в общем случае нельзя пренебречь.

Однако в сложившейся практике решения регрессионных задач первым фрагментом модели (1) пренебрегают ,

...Е* ^ Y = f (X) (2)

тем самым не всегда корректно упрощая решаемую задачу, восстанавливая искомую зависимость по одной лишь проекции.

Поскольку в эксперименте значения факторов задаются исследователем, то пропуски, если они есть, содержатся в выходной переменной Y намного чаще, чем в значениях факторов X .Наличие пропусков в данных приводит к тому, что планируемая исходная сбалансированность плана измерительного эксперимента отсутствует. В результате соответствующий анализ данных эксперимента по наиболее получившему распространениена практике методу наименьших квадратов намного усложняется, и в этой ситуации интуитивно привлекателен подход с заполнением пропусков, позволяющий восстановить баланс и затем использовать стандартные методы анализа. В последнем случае используют те или иные приёмы .

Самыми распространёнными приёмами анализа данных с пропусками являются исключения некомплектных наблюдений (т.е. содержащих пропуски хотя бы одной из переменных) и традиционные методы заполнения пропусков - средневыборочными по присутствующим значениям или с помощью главных компонент .

Однако немаловажными являются методы анализа данных, когда требуются минимальные априорные сведения о распределении пропусков, т.е. когда распределение пропусков можно игнорировать. Обычная обработка поступающей измерительной информации без предварительного анализа данных на наличие пропусков, определения механизма этих пропусков, является вырожденной задачей обработки информации и ведёт к смещенным оценкам.

Многие методы обработки данных механизм порождения пропусков явно не включают - подразумевается, что этот механизм игнорируется. В таком случае обработку данных эксперимента следует проводить не с использование метода наименьших квадратов, а методом максимального правдоподобия условной функции f (y / 0) плотности вероятности исследуемой переменнойY условии данной структуры пропусков {0}.

Применение ЕМ-алгоритма для параметрических моделей с неполными данными.ЕМ-алгоритм

(expectation-maximizationalgorithm) [2] представляет собой общий подход к поиску оценок максимального правдоподобия по неполным данным. Круг задач, которые можно решать с помощью ЕМ-алгоритма, очень широк. Он охватывает задачи, постановка которых обычно не связана с проблемой отсутствующих или неполных данных (например, оценивание компонент дисперсии при оценке значимости факторов и в отсеивающем эксперименте; итеративно взвешиваемые оценки наименьших квадратов в регрессионном поиске модели процесса). Но даже в решении сложной задачи ЕМ-алгоритм позволяет установить связь между эффективными теоретически обоснованными методами и более прагматическими подходами с заполнением пропусков оптимальными с учётом выбранного критерия значениями.

В ЕМ-алгоритме формализована идея обработки неполных данных:

1) заполнение пропусков оценками пропущенных значений;

2) оценивание параметров;

3) повторное оценивание пропущенных значений, при этом оценки параметров считаются точными;

4) повторное оценивание параметров и так далее до сходимости процесса.

Особенно нагляден и эффективен ЕМ-алгоритм для многомерного нормального случая, поскольку тесно связан с итеративным вариантом метода заполнения пропусков значениями, полученными по регрессии. Каждая итерация ЕМ-алгоритма состоит из шага Е (вычисление математического ожидания) и шага М (максимизация).

Метод обработки экспериментальных данных на основе ЕМ-алгоритма позволяет легко интерпретировать получаемые результаты анализа, так как опирается на традиционные характеристики и суммарные значения. Учёт специфики измерительной информации в каждом конкретном случае для наиболее корректного способа заполнения пропусков является задачей интеллектуализации измерений.

Метод обладает полезными свойствами и в случае применения в задаче гибридного моделирования при восстановлении функциональных зависимостей на основе теоретических предпосылок модели и данных планируемых физических экспериментов [3].

Заключение. Рассмотренные вопросы анализа данных с пропусками по результатам планируемого эксперимента обозначили актуальность и значимость исследований в данном научном направлении, а также необходимость повышения культуры обработки пропусков в прикладном статистическом программном обеспечении. Кроме того, исследование рассматриваемого в статье научного вопроса с целью повышения качества измерительной процедуры позволяет рассматриватьнекоторые регрессионные эксперименты как обратную задачу восстановления зависимости

Е ={х х M ;UX х UM , pXM} ^ Е * ={X х M ;UX, pX} ^ Y = f (X)

ЛИТЕРАТУРА

1. Ординарцева Н.П. Организация измерений как планирование экспериментов с пропущенными, неполными или цензурированными данными // Метрологическое обеспечение измерительных систем / Сб. докл. VI науч.-техн. Всероссийской конф. - Пенза, 2010. - С. 56 - 62

2. Литтл Р. Дж. тистика, 1991.- 334

3. Ординарцева Н электроники. Серия

А., Рубин Д.Б. Статистический анализ данных с пропусками - М.: Финансы и стас.

.П. Метод гибридного моделирования в регрессионном анализе. М.: Вопросы радио-СОИУ. Выпуск 1, 2012. - С. 136 -143

i Надоели баннеры? Вы всегда можете отключить рекламу.