УДК 330.46
ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ВЕРОЯТНОСТИ ПРИ НАЛИЧИИ НЕРАЗЛИЧИМОСТИ
Л.А. Гусев
Рассмотрена задача о построении интервальных оценок для неизвестной вероятности при наличии неразличимых исходов опытов. Предложен ряд способов ее решения.
Ключевые слова: доверительный интервал, неразличимое множество, вероятностная интерпретация неразличимости.
ВВЕДЕНИЕ
На практике, при статистической обработке материала, могут возникнуть затруднения, связанные с регистрацией неразличимых исходов опытов. Понятие множества неразличимых исходов (кратко-неразличимого множества, НМ) проиллюстрируем на простом примере.
Пусть имеется кубик (игральная кость), на гранях которого нанесены буквы известного алфавита А = (а, Ь, й); на каждой грани нанесена одна буква, и любая буква нанесена хотя бы на одной грани. Если кубик правильный и однородный, каждая из букв а, Ь, й имеет ненулевую вероятность р , рь, ра появления при опыте — бросании кубика, полностью определяемую расположением букв на гранях.
Если непосредственное рассмотрение кубика недоступно, точное знание величин ра, рь, ра невозможно, и приходится прибегать к тем или иным их статистическим оценкам. Интервальные оценки для вероятностей р , рь, ра могут быть получены просто путем обращения к статистическим справочникам (см, например, справочник [1, с. 286]), где по назначенной доверительной вероятности (надежности) у, числу опытов п и числам та, тъ, тё — числам появления букв а, Ь, й в серии из п опытов (п-эксперименте) в клетках соответствующих таблиц выписаны значения для границ искомых доверительных интервалов1 (ДИ).
1 Доверительные интервалы, определяемые этими таблицами, называются ДИ Клоппера — Пирсона; они связаны с биномиальными распределениями. Таблицы составлены для экспериментов по схеме Бернулли, но, как показано в работе [2], они пригодны и для рассматриваемых здесь схем экспериментов.
Пусть теперь экспериментирование осложнено возможностью появления неразличимых исходов опытов. В рассматриваемом примере это означает, что, кроме появления «обычных» исходов (в результате бросания появилось а; появилось Ь; появилось й), возможны исходы такого типа: появилось либо а, либо й, а что именно — узнать невозможно (например, потому, что кубик закатился в плохо освещенное место, а начертания букв а и й схожи). Множество {а, й} названо множеством неразличимых исходов.
Пусть в п-эксперименте возможно появление
любых НМ, и даже все п результатов опытов могут оказаться неразличимыми множествами. Задача пусть остается прежней — дать интервальные оценки для неизвестных вероятностей р , ръ, ра.
Насколько известно автору, такая постановка
3
задачи в литературе не встречалась . Возможно, это объясняется тем, что подобная задача считается выходящей за рамки математической статистики. В самом деле, пусть имеет место крайний, но формально допустимый случай: в результате п-эк-сперимента п раз появилось НМ {а, Ь, й}. Тогда фактически эксперимент никакой информации не дает, и говорить о статистической обработке материала нет смысла.
На практике автор впервые встретился с явлением неразличимости при построении статистических оценок для создававшейся ИПУ РАН компьютерной программы для диагностики болезни Паркинсона. Версий программы было предложено несколько, и в любой из версий при рабочих ис-
В частности, возможно появление НМ {а, Ь, с1}. При таком
исходе опыта оказывается известным лишь сам факт бросания кубика.
3 В давней работе [3] неразличимость была формально описана.
пытаниях регистрировалось появление ошибок; потому для сравнения версий (с целью выбора наилучшей) требовалось построение их статистических оценок [4]. Кроме «обычных» ошибок — неверного определения формы заболевания (имеются формы А, Я, Т), регистрировались ответы вида «у больного имеет место заболевание либо формы А, либо Я, а какой именно — установить невозможно», т. е. появлялись типичные неразличимые исходы опытов.
Как видно из примеров, неразличимость может быть связана с самыми разнообразными, реально встречающимися на практике причинами: сбоями в работе систем индикации, зашумленностью эксперимента, несовершенством человеческой памяти и др.
В статье сделана попытка дать некоторые практические рекомендации для нахождения интервальной оценки неизвестной вероятности для скалярной случайной величины при наличии нераз-личимостей.
1. ОПРЕДЕЛЕНИЯ. ПРИБЛИЖЕННЫЕ СПОСОБЫ
Заданное множество исходов опыта обозначим X = {х-, ..., х4}; исходы взаимно несовместны. Доверительная вероятность (надежность) у е (0, 1) также считается заданной и постоянной (если не сказано иное). Эксперимент представляет собой п-кратное повторение опыта независимым образом («-эксперимент). Каждый исход х; е X имеет постоянную вероятность появления в опыте р.. При проведении эксперимента регистрируются все появляющиеся в отдельных опытах исходы.
Расширим «-эксперимент допущением возможности регистрировать в качестве исходов любые
подмножества У = {х;
Хг. }, У. с X, |у| 1 2,
. 4 ч
7 е 1, V, и < s; такой эксперимент назовем экспериментом общего вида. Регистрация подмножества У. означает, что на самом деле появился в точности один из исходов х; е У, но какой именно —
а .
узнать невозможно. Назовем У. множеством неразличимых исходов (сокращенно — неразличимым множеством, НМ). Запись результата п-экспери-мента общего вида имеет вид: как отдельный исход х, появился т, раз, х2 появился т2 раз
х„
появился т4 раз, НМ У- появилось ту раз, ..., НМ
X, появилось ту раз,
п- + п2 = п.
I
; = 1
т. = п
. = 1
ту = п2
у 2
Так же, как для классического эксперимента, для п-эксперимента общего вида ставится задача: по результатам эксперимента найти интервальную
оценку неизвестной вероятности р. появления исхода х; в отдельном опыте, / е 1, 5. Решение будем считать точным, если построенный ДИ Д; покрывает значение р. с вероятностью у; иначе решение считается приближенным.
Далее описаны два способа приближенного решения задачи, не требующие привлечения дополнительной информации (известна лишь запись п-эксперимента). При первом способе все зарегистрированные НМ учитываются, при втором неразличимости отбрасываются. Возможность не учитывать НМ интуитивно оправдана тем, что при большом п и малом п2 отбрасывание НМ должно мало влиять на конечный результат.
Рассмотрим первый способ.
Выделим некоторый исход х; и соответствующую вероятность р., индекс / опустим. В результате регистрации НМ общее число ц появлений исхода х оказывается неопределенным, зависящим от возможного (но неизвестного) варианта протекания эксперимента. Легко находятся минимальное и максимальное значения числа ц: ц . = т,
= М = т + I(ту |х е У.), см. работу [2]. Оче-
видно, возможными значениями ц являются и все числа ряда т, т + 1, ..., М.
Для каждого возможного значения ц по заданной надежности у и числу п для параметра р — неизвестной вероятности — определим (по таблицам в справочниках или формулам, приводимым там же) ДИ Д» = [а», Ь»] длины Г = Х(Д») = Ь» - а» и
возьмем их объединение Д = и Д». Доказано
т <»< М
[2], что Д» п Д» + 1 ф 0, поэтому Д есть отрезок Д = [ат, ЬМ]. Этот отрезок Д в работе [2] назван расширенным доверительным интервалом4 (РДИ).
Примем РДИ Д за решение задачи, т. е. за
искомый ДИ. Так как Уц(Д» с Д), то Д покрывает неизвестное значение вероятности р с надежностью у* > у.
Разумеется, реально значение у* может быть значительно больше у, и оценить (явно или статистически) степень этого превышения невозможно. Можно лишь попытаться дать его косвенные эвристические оценки.
Допустим, что в п-эксперименте фактически реализовалось некоторое значение ц = ц', которому соответствует ДИ Д'. Примем, что чем меньшую
Название неудачное, поскольку А не есть доверительный интервал в строгом значении этого термина.
4'
V
долю от А,( Д) составляет А,(Д'), тем «хуже» (неопределенность больше), чем большую долю — тем «лучше» (неопределенность меньше). Но значение ц' не известно. Взяв вместо А,(Д') известное
значение max 1(ДЦ) (или min 1(ДЦ), или среднее
ß ß
значение 1ср(Дц)) построим оценку
П
, = maxi (А ЦД)
,, min ЦАц) ,,, ^ср(Ац ,1Л
или П = -^-или П = ср - I . (1)
ЦА) ЦА) )
Все оценки (1) вида п обладают свойствами [5]:
• П е [0, 1];
• если ни одно НМ Y. не содержит x, то при любом n Ац = А и п = 1;
• если n1 < C = const и V Yj (x е Yj), то, при
j e 1, v
n ^ да, А) ^ 1, ^ 0) и п ^ 0;
• если ^ (mY |x е Yj) < C = const, то, при n ^ да,
j j
П ^ 1.
Таким образом, значение п « 1 наилучшее (можно принять, что у* незначительно превосходит у), а п « 0 — наихудшее (принимаем, что расхождение между у* и у может быть большим).
Пример 1. Пусть X = {xj, x2, x3}, s = 3, у = 0,80, n = 10, Yj = {xj, x2}, mj = m = 2, m2 = 4, m3 = 1, m^ 2} = 3, (здесь для удобства вместо mYi записано m^ 2j).
Обозначим xj = x (соответственно mj = m). Для х имеем p e 2, 5 , и могут быть определены ДИ Дц для этих
значений p (табл. 1) и РДИ Д (строка Д будет рассмотрена далее).
В соответствии с формулой (1) получим: шахА,(Дц) =
= А,(Д5) = 0,466; А,( Д) = 0,678; п' = 0,687 (п'' = 0,583, Xcp = 0,438 и п''' = 0,646). ♦
Оценку вида п можно «перевести на язык» на-дежностей, поставив в соответствие значениям п
Таблица 1
Доверительные интервалы
ц Д^ Г
2 Д2 = [0,055; 0,450] 0,395
3 Д3 = [0,117; 0,552] 0,435
4 Д4 = [0,189; 0,646] 0,457
5 Д5 = [0,267; 0,733] 0,466
Д [0,055; 0,733] 0,678
Д [0,079; 0,596] 0,517
Таблица 2
Отыскание компоненты у' для оценки (g, у')
0,87 0,88 0,89 0,90 0,91
Х(Д5) 0,522 0,532 0,543 0,556 0,567
некоторые измененные значения у. Известно, что при фиксированных п и т 1(Д) есть строго возрастающая функция у, потому уравнение
max 1(АЧу)) = А)
(2)
имеет единственное решение у, которое и поставим в соответствие оценке п' (аналогично для оце-
и н»\
нок пи п ).
Пример 2. X = {х1, х2, х3}, у = 0,80, п = 10, У1 = {х1, х2}, х1 = х, т1 = т = 4, т2 = 3, т3 = 2, т^ 2| = 1. Здесь
ц е {4, 5}, Д = [0,189; 0,733], А,(Д) = 0,544, шахА,(Дц) = = А,(Д5) = 0,466, п' = 0,857.
Расширим Д5, увеличивая у, до Х(Д5(у)) = А,( Д) = 0,544 (табл. 2).
Из табл. 2 видно6, что равенство (2) выполняется при у' = 0,89. Таким образом, оценка п' соотносится с увеличением надежности от 0,80 до 0,89, т. е. с парой (у, у') = (0,80; 0,89). ♦
Добавим еще одно появление НМ Уг
Пример 3. X = {xj, x2, x3}, у = 0,80, n = 10, Yj = {xj, .
2
xj = x, mj = m = 4, m2 = 3, m3 = 1, m^ 2j
= 2. Здесь
ц е 4, 6, Д = [0,189; 0,811], ЦД ) = 0,622, шахА,(Дц) = = 0,466, п' = 0,749. Вычисления, аналогичные табл. 2, приводят к результату у' = 0,95, т. е. к паре (0,80; 0,95).
Замечание 1. Оценки вида п не являются статистическими. Это искусственно построенные величины, оправданные лишь с позиции некоего «здравого смысла». Понятно, что, вводя такие оценки, следовало поискать прецедент — узнать, встречались ли когда-либо в статистике столь чужеродные ей вещи. Оказалось, что встречались, хотя и редко.
Так, в монографии [6, гл. 6, п. 2.4] при заданной надежности у строится прямоугольная доверительная область О для векторного параметра ©. Описанный метод построения позволяет лишь утверждать, что Р(©е О) = у* > у и, как пишет автор, «фактически во многих случаях» у* может быть «значительно больше» у. Установить, насколько у* больше у в конкретном случае, метод не позволяет. Это в точности соответствует описанному способу.
Другой пример — из той же монографии [6, гл. 9, п. 4.1 ]. Здесь случайная величина У зависит от век-
Следует иметь в виду, что ^(А) е [0, 1], у е (0, 1).
6 Для вычислений в табл. 2—4 использовались формулы, приведенные в работе [2], а также в статье [1, с. 69].
Рис. 1. Доверительные интервалы
торного параметра ©. Проверяется гипотеза о независимости регрессии от некоторых координат вектора ©. С этой целью вычисляются среднеквадратичные отклонения 5 и от оценок регрессии при учете или не учете рассматриваемых координат ©. Очевидно, 1 5, оценка и = 5/5" е [0, 1]. Значение и « 1 «хорошее» (гипотеза принимается), и « 0 — «плохое» (гипотеза отвергается ).
Третий пример может быть взят из [7, гл. 1, п. 6], где рассматриваются минимаксные процедуры оценки рисков. ♦
Рассмотрим второй способ — отбрасывание НМ. Отбрасывая НМ, следует соблюдать правило: при построении ДИ для ха отбрасываются все появления НМ, в которые ха входит, и только они. Целесообразность этого правила очевидна: если некоторый исход хр не входит ни в одно НМ, то любое отбрасывание НМ приведет к уменьшению числа п и, следовательно, внесет искусственную ошибку в определение ДИ для хр.
Определенный для ха после отбрасывания НМ доверительный интервал будет табличным. Назовем его сокращенным доверительным интервалом
(СДИ) и обозначим Да . При соблюдении правила отбрасывания справедливо доказанное в работе [2]
важное соотношение: Да с Д.
Пример 1. (продолжение). В табл. 1 А обозначает СДИ, полученный для х при отбрасывании трех появлений НМ У1, т. е. при у = 0,80, п = 7, т = т1 = 2. Если принять этот СДИ за решение задачи, то возможна
ошибка: утверждение р е А (при заданном у) может оказаться ложным. Так, если в эксперименте реализовалось
р = 2, утверждение р е А может не выполняться на от-
2 )
резке [а , а ] (рис. 1).
Для р = 2 имеем: А2 = [а2, Ь2], Х(а2, а) = А,(а , а) = = ) - а = = 0,079 - 0,055 = 0,024. Для р = 3 = 0, для р = 4 = Ь4 - Ь = 0,646 - 0,596 = 0,050, аналогично
= 0,733 - 0,596 = 0,137. Сумма длин Е,;, где возможна
ошибка, отнесенная к сумме длин всех ДИ А', дает оценку
4 ■/ 4 • 8' = X £'/ I МА'). (3)
г = 1 'г = 1
В рассматриваемом примере 8' = 0,120. Замечание 2. Возможна более грубая оценка
8„ = 1 ( Д ) - 1 ( Д - (4)
цД)
В примере 1 8" = 0,237. ♦
Величину 8' (или 8'') примем за оценку возможности ошибки при отбрасывании НМ. Как и оценки п, оценка 8 не является статистической. Очевидно, 8 е [0, 1]; в отличие от оценок п здесь 8 « 0— наиболее благоприятно (отбрасывание НМ возможно), 8 « 1 — наименее благоприятно (ошибка при отбрасывании НМ может быть недопустимо велика).
Оценку (4), так же как оценку (1), легко трансформировать на язык надежностей.
Пример 2 (продолжение). Получаемый при отбрасывании НМ У1 = {х1, х2} СДИ А определяется как ДИ с у = 0,80, П = 9, т = 4, А = [0,210; 0,699], Ц А) = 0,489.
Сохраняя п = 10, р е {4, 5}, будем уменьшать А,( А), уменьшая у (табл. 3).
Из табл. 3 видно, что соотношение А,( А (у)) = А,( А) выполняется при у' = 0,73. Таким образом ошибка 8'', возможная при отбрасывании НМ У1, сопоставляется с уменьшением надежности от 0,80 до 0,73, т. е. характеризуется парой (у, у') = (0,80; 0,73).
Пример 3 (продолжение). Здесь вычисления приводят к табл. 4.
Таким образом, у' = 0,63, и соответствующая пара есть (у, у') = (0,80; 0,63).
Замечание 3. Описанные оценки можно усовершенствовать, потребовав не совпадения длин,
а наилучшего совмещения самих ДИ Д (у) и Д
(соответственно Д (у) и Д» при надлежащем значении ц для оценки п). Для этого введем ошиб-
Таблица 3
Отыскание компоненты у' для оценки (у, у') (к примеру 2, продолжение)
Если известно, что случайная величина У(©) распределена нормально, оценка и оказывается статистической.
У А (у) М А) 9? -104
0,75 [0,207; 0,712] 0,505 1,78
0,74 [0,210; 0,707] 0,497 0,64
0,73 [0,214; 0,704] 0,490 0,41
0,72 [0,218;0,702] 0,484 0,73
0,71 [0,220; 0,700] 0,480 1,01
Таблица 4
Отыскание компоненты у' для оценки (у, у') (к примеру 3, продолжение)
У А (у) М А) е2 -104
0,66 [0,232; 0,768] 0,536 1,28
0,65 [0,234; 0,766] 0,532 0,72
0,64 [0,236; 0,764] 0,528 0,32
0,63 [0,239;0,761] 0,522 0,02
0,62 [0,241; 0,759] 0,518 0,02
0,61 [0,243; 0,757] 0,514 0,18
0,60 [0,246; 0,754] 0,508 0,72
ку б! = (а
а) + (Ь — Ь) (соответственно
е2 = (а - ац)2 + (Ь - Ьц)2) и найдем у1,
миними-
зирующее ее. Соответствующие подсчеты, сделанные для табл. 3 и 4, дают те же значения у' = 0,73 и у' = 0,63 (см. последние столбцы этих таблиц). ♦
Отметим в заключение, что оценки вида (1) и (3) обнаруживают некоторое сходство с величинами, называемыми в теории нечетких множеств степенями принадлежности. Тем самым намечается связь явления неразличимости исходов опытов с теорией нечетких множеств. Исследование этой связи представляет собой, по-видимому, интересную теоретическую задачу.
2. СПОСОБ ВЕРОЯТНОСТНОЙ ИНТЕРПРЕТАЦИИ НЕРАЗЛИЧИМОСТИ
Опишем точный способ, который приводит к
построению ДИ Ар классического типа. Этот способ требует наличия дополнительной (внешней) информации и возможности ее использования. Поясним его на примере.
Пример 4. Пусть X = {х1, Х2, Х3}, у = 0,80, п = 10,
{Х1, Х2}, У2 {Х1, Х3}, {Х1, Х2, Х3}, т 1 2, Ш2 1,
Таблица 5
Варианты появления исхода х = х1
Номер варианта 1 2 3 4 5
Первая регистрация У1 Х Х Х Х Х2
Вторая регистрация У1 Х Х Х Х2 Х
Регистрация У2 Х Х Х3 Х Х
Регистрация У3 Х2 Х3 Х Х Х
Таблица 6
Кратности значений т
р 2 3 4 5 6
Др) 2 7 9 5 1
г(р) 0,08 0,29 0,38 0,21 0,04
т3 = 3, т(1 2) = 2, т(1 3) = 1, т^ 2 3) = 1, п1 = 6, п2 = 4. Будем рассматривать исход Х1, который обозначим Х.
Для Х т = 2, М = 6, р е 2, 6 .
Выберем некоторое допустимое значение р, например, р = 5. Это означает, кроме двухкратного появлениях х как отдельного исхода, его трехкратное появление при регистрации четырех появлений НМ. Путем полного перебора найдем все возможные варианты трехкратного появления Х (табл. 5).
Таким образом, для р = 5 имеется пять возможных вариантов появления этого значения р. Аналогичным образом устанавливается, что для р = 4 имеется девять возможных вариантов, для р = 3 семь и т. д.
Для некоторого р назовем кратностью этого значения р для исхода х и обозначим Л(р) число возможных вариантов появления р. Тогда можно составить таблицу кратностей (табл. 6).
В строке г (р) табл. 6 выписаны нормированные кратности (^ г(р) = 1). ♦
Если каким-либо способом числам р приписать
о
вероятности р(р), то тем самым будет задано распределение вероятностей на р как на случайных числах. Такую процедуру назовем вероятностной интерпретацией неразличимости (ВИН). Задача тогда становится статистически определенной, и может быть получена точная оценка — классический доверительный интервал Ар для неизвестной вероятности р, см. работу [5]. Там же доказано
включение Ар с А, где А есть РДИ.
Представляется естественным предположение, что чем больше кратность Р(р*) некоторого значения р*, тем возможнее, что именно это р* имело место в эксперименте. Это предположение можно формализовать, определив р(р) = ф(г(р)), где функция ф(а) обладает свойством: а > а ^ ф(а') > ф(а). Для частного вида ф(а) = а имеем р (р) = г (р); такой частной случай назовем пропорциональной ВИН.
В примере 4 для пропорциональной ВИН получено9 Ар = [0,14; 0,66]. Для сравнения для этого же х А = [0,06; 0,81].
Можно пойти иным путем, приписав в каждом НМ входящим в него исходам некоторые условные вероятности, чем будет задано распределение вероятностей на входящих в НМ исходах как случайных событиях. Тогда задача станет также статистически определенной и сможет быть доведена до построения ДИ Ар. Назовем этот способ ВИН-1, а описанный ранее — ВИН-2, и сопоставим эти способы.
Разумеется, £ = 1.
т < [1 < М
9 Из-за существенных вычислительных трудностей результаты приведены с точностью до двух десятичных знаков.
Отметим сперва тот существенный факт, что
при вычислении ДИ Др по ВИН-1 будет в качестве промежуточного пройден этап построения распределения вероятностей на числах ц, т. е. этап, отправной для ВИН-2, см. работу [5].
Назовем НМ У. однородным, если всем исходам х е У приписаны одинаковые вероятности
р(х ) = 1/|у|, у = 1, V . Второй существенный факт состоит в том, что если в ВИН-1 все НМ У. являются однородными, то, как доказано в работе [5], на этапе ВИН-2 будет получено распределение р(ц) = г (ц), т. е. получена пропорциональная ВИН.
В ВИН-1 приписывание условных вероятностей исходам в НМ будем трактовать как попытку дать числовую характеристику некоторого отношения предпочтения между исходами. С этой точки зрения однородность всех НМ У. выражает полное отсутствие каких-либо предпочтений.
Приписывание условных вероятностей исходам в НМ дает возможность тонкого учета предпочтений, так как приписанная исходу х е У вероят-
а J
ность р(ха) может зависеть от контекста — от остальных исходов, входящих в НМ у, а также от того, в который раз у появляется в эксперименте, и от иных внешних соображений. Однако эта детализация может быть связана с определенными трудностями: в эксперименте может появиться любое НМ, и надо уметь приписать входящим в него исходам нужные условные вероятности. Иными словами, нужно обладать соответствующим алгоритмом.
В процессе построения ДИ Др при прохождении этапа ВИН-2 вся упомянутая детализация неизбежно «свертывается» до построения распределения для единственной скалярной величины ц. Поэтому представляется перспективным, рассматривая задачи определенного класса и накопив соответствующий опыт, «научиться» выражать предпочтения прямо на языке распределений на ц. По-видимому, рационально взять за базовое распределение р(ц) = г (ц), соответствующее отсутствию предпочтений, а затем корректировать его в
Рис. 2. Распределения на параметре ц
нужном направлении, что продемонстрируем на примере.
Пример 5. Пусть X = {х1, х2, х3}, У1 = {х1, х2}, У2 =
х3}, т1 = т2 = т3 = 0,
т(1, 2) т(1, 2, 3) 1,
= {х1,
п = п2 = 2 р е {0, 1, 2}.
В табл. 7 собраны результаты. Строка 1 изображает ВИН-1, где оба НМ У1 и У2 однородны. В конце строки выписано соответствующее распределение на р, т. е. пропорциональная ВИН-2 (см. также рис. 2, ломаная 1).
Пусть в НМ У1 и У2 появление х1 возможнее появлений х2 и х3. Это отношение предпочтения выразим увеличением р(х1) как в У1, так и в У2 (строка 2). В конце строки также выписано распределение р(р) (см. рис. 2, ломаная 2). Как видно, вероятность р(р = 0) уменьшилась, а р(р = 2) увеличилась. ♦
В заключение отметим два соотношения между ВИН-1 и ВИН-2.
• Одному и тому же распределению на ц по ВИН-2 может соответствовать множество (конечное или бесконечное) распределений по ВИН-1. Так, в строке 3 НМ У, и У2 не однородны, но распределение на ц такое же, как в строке 1. Аналогично для строк 2 и 4.
• Для произвольно заданного распределения на ц может не существовать соответствующих ему распределений вероятностей исходов10 в НМ (строка 5 и ломаная 3 на рис. 2). В этом отношении метод ВИН-2 представляется более общим, чем ВИН-1.
Таблица 7 3. ВОПРОСЫ АСИМПТОТИКИ
Сопоставление ВИН-1 и ВИН-2
Классическая статистика, как известно, определяет связь трех параметров: надежности у, точности11 1(Д) и числа опытов п. Если у задано, асимптотика определяет предельное значение 1 при п ^ да. Роль асимптотических оценок состоит в следующем.
10 В примере эти вероятности оказываются комплексными.
11 Чем меньше ЦД), тем выше точность.
Строка Вероятность У1 У2
Хг х2 Х1 Х2 Хз 0 1 2
1 р 1/2 1/2 1/3 1/3 1/3 2/6 3/6 1/6
2 р 0,8 0,2 0,5 0,25 0,25 0,1 0,5 0,4
3 р 2/6 4/6 3/6 1/6 2/6 2/6 3/6 1/6
4 р 0,5 0,5 0,8 0,1 0,1 0,1 0,5 0,4
5 р 0,1 0,3 0,6
• Устанавливается, имеет ли смысл удлинение эксперимента с целью достижения приемлемого значения А. Обычно удается определить конкретное значение n = n* для достижения этой цели.
• При больших n оказывается возможным резко упростить вычисления, перейдя от точных формул к приближенным.
При наличии неразличимостей появляется четвертый параметр: оценка вида (1). Конечно, если при n ^ да величина А ^ 0, асимптотическое поведение оценки п несущественно. В ином случае, при А ^ а ^ 0, такая оценка может быть важна.
Более сложная ситуация складывается для оценок вида (3) и (4).
При наличии неразличимостей для построения асимптотических оценок требуется информация о закономерности появления НМ в эксперименте. Эта закономерность может быть как детерминистской (например, n2 < C = const при любом n, или limn2/n = 0 при n ^ да и n2 ^ да, и т. д.), так и статистической (зависимость вероятности появления НМ от номера опыта).
В результате задача об асимптотических оценках существенно усложняется. В работе [5] рассмотрены некоторые простейшие случаи нахождения асимптотических оценок при наличии нераз-личимостей, а также один вид асимптотических оценок для ВИН. Исследование асимптотических оценок при наличии неразличимостей представляет собой интересную, практически значимую теоретическую задачу.
ЗАКЛЮЧЕНИЕ
чимые исходы учитываются, что, однако, влечет за собой огрубление результата. В соответствии со вторым способом они отбрасываются, но возникает возможность появления ошибки.
Для выбора способа и решения о его пригодности для данной задачи необходимо иметь некоторые числовые параметры, по значениям которых принимается соответствующее решение. Отысканию таких параметров в статье уделено соответствующее внимание.
В ряде случаев, при наличии дополнительной информации, задача может быть решена точно. В работе описан точный способ, требующий информации, пригодной для числового выражения отношений предпочтения между различными исходами. Предложены два варианта способа: в первом варианте детально учитываются предпочтения, второй вариант носит «интегральный» характер и является более общим.
В статье акцентированы следующие вопросы.
• О связи неразличимости и нечеткости. Теория нечетких множеств давно сложилась, она хорошо разработана. Установление такой связи может оказаться плодотворным для исследования неразличимости. Работа в этом направлении представляется весьма интересной и перспективной.
• Об асимптотических оценках при наличии неразличимости. В работе [5] рассмотрены некоторые простейшие случаи нахождения таких оценок. Для практики вопрос об асимптотических оценках исключительно важен. Таким образом, намечается еще одна интересная и перспективная работа.
Работа в основном носит прикладной характер. В ней рассмотрена задача о построении интервальных оценок для неизвестной вероятности при наличии в результатах опытов множеств неразличимых исходов.
Явление неразличимости исходов может возникать по самым разнообразным причинам и может наблюдаться на практике. Практической задачей, связанной с компьютерной диагностикой болезни Паркинсона, которая кратко описана во Введении, и была инициирована данная работа.
Детально разработанной теории, систематически изучающей явление неразличимости, насколько известно автору, не существует. Поэтому в тех задачах, где встречается неразличимость, приходится «изобретательски» искать некие обходные пути, применимые, как правило, лишь к рассматриваемой конкретной задаче.
Предпринятая в статье попытка дать некоторые общие практические рекомендации для построения искомых доверительных интервалов позволила предложить два приближенных способа решения задачи. Согласно первому из них все неразли-
ЛИТЕРАТУРА
1. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983.
2. Гусев Л.А. О некоторых свойствах доверительных интервалов для неизвестных вероятностей // Автоматика и телемеханика. - 2007. - № 12. - С. 70-84.
3. Золотухин В.Ф. Фундаментальные числовые характеристики возможности, возможностные распределения и меры // Автоматика и телемеханика. — 2002. — № 3. — С. 152—159.
4. Гусев Л.А, Хуторская О.Е. Об одной оценке эффективности машинной диагностики двигательных нарушений // Автоматика и телемеханика. — 2003. — № 12. — С. 112—121.
5. Гусев Л.А. Об интерпретации неразличимости в задаче интервальной оценки неизвестной вероятности // Автоматика и телемеханика. — 2010. — № 8. — С. 38—48.
6. Пугачев В. С. Теория вероятностей и математическая статистика. — М.: Наука, 1979.
7. Леман Э. Проверка статистических гипотез. — М.: Наука, 1979.
Статья представлена к публикации членом редколлегии
Е.Я. Рубиновичем.
Леонид Алексеевич Гусев — канд. техн. наук, ст. науч. сотрудник,
Институт проблем управления им. В.А. Трапезникова РАН,
г. Москва, ® (495) 334-88-69, И [email protected].