Рисунок 3 - Залежтстъ меж euxiduozo параметра eid вгдхиленъ exidíux napaMempie
Рисунок 4 - Oблaсmi po6omo3damíocmi Qр i гарантованого donycKy Qr cnpowteHo'i мoдeлi
ВИСНОВКИ
Таким чином, використання зовшшньо! штерполяцп дозволяе утворювати спрощеш штервальш модел^ у яких значення меж вщповщае природним. Застосування таких моделей при призначенш допусюв шдвищуе точшсть розрахунюв. За результатами внутршньо! та зовшшньо!
штерполяцп можуть утворюватись твши, як дозволяють проводити оцшку зверху та знизу д1апазону змши вихщного параметра при вщповщнш змш1 вхщних параметр1в. Для оцшки значень вихщного параметра в межових точках вхщних параметр1в модель записують у вигляд1 штервальних структур з плаваючими межами.
ПЕРЕЛ1К ПОСИЛАНЬ
1. Цветков А.Ф. Методы расчета допусков в радиоэлектронной аппаратуре. -Рязань: РРТИ, 1970.-131с.
2. Михайлов А.В., Савин К.С. Точность радиоэлектронных устройств.-М.: Машиностроение, 1976.-214с.
3. Львович Я.Е., Фролов В.Н. Теоретические основы конструирования, технологии и надежности РЭА. - М.: Радио и связь, 1986.-192с.
4. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. - М.: Лаборатория базовых знаний, 2000. - 624 с.
5. Hadjihassan S., Walter E., Pronzato L. Quality improvement via optimization of tolerance intervals during the design stage// Application of interval computations. - Netherland: Kluwer Academic Publishers, 1996, - P.91-131.
6. Вучков И., Бояджиева Л., Солаков Е. Прикладной линейный регрессионный анализ: Пер. с болг. - М.: Финансы и статистика, 1987. - 239 с.
7. Лычак М.М. О решении задачи структурной параметрической идентификации (дискретной аппроксимации) в условиях неопределенности // Автоматика. - 1990. - №6. -С.72-77.
8. Вощинин А.П., Дывак Н.П. Планирование оптимального эксперимента в задачах анализа интервальных данных// Заводская лаборатория. - 1993. - №1. - С.56-59.
9. Дивак М., Франко Ю. Оцшювання област параметра ¡нтервальноТ модел1 на основ! блоку насиченого експерименту при аналЫ ¡нтервальних даних// Матер!али 5-тоТ МНТК "Досв!д розробки i застосування САПР в мкроелектронщГ'. - Льв!в: ДУ "Львтська пол!техн!ка, 1999. - С.188-189.
10. Вощинин А.П., Сотиров Г.Р. Оптимизация в условиях неопределенности. - М.-София: МЭИ-Техника, 1989.- 224с.
11. Шило Г.М. ¡нтервали i ¡нтервальн структури// Радю-електрошка. ¡нформатика. Управлшня. - 2001. - №2. -С.121-125.
ОЦЕНИВАНИЕ ОПЫТНЫХ ДАННЫХ ПРИ СТАТИСТИЧЕСКОЙ ОБРАБОТКЕ В УПРАВЛЕНИИ КАЧЕСТВОМ
Б.Е.Янковский, А.Е.Янковская
B u^e^HX ynpaemnua nauecmeoM eunycnaeMoü npodynu^uu oóocHoeueaemcH u,emcoo6pa3Hocmb npeo6pa3oeauuH cnyuaÜHo pacnpe'deneHHux eeauuuH no npou3eo^bHoMy 3auoHy pacnpedemHua, e HopMaxbHbiü u npedaazaemca amopumM mauozo npeo6pa3oeaHun. npueodamca oánacmu npumweHua nonyneHHux pe3ymmamoe Ha npaumuue, e HayuHux uccmdoeaHuax u npu co3daHuu uHmeAAexmya^bHux cucmeM pa3Au%Hoso Ha3HaueHun.
Random transformation of variables expediency according to arbitrary low of distribution into normal is substantiated for quality management of an output produced. The algorithm of such transformation is proposed. Fields of application of the obtained results in science and practice and also in creation intelligent systems for different purposes are given.
Eo^bmHHCTBO npoó^eM, Kacaro^Hxca ynpaB^eHHH Ka^ecTBOM b caMwx pa3Hwx oó^acT^x, pemaeTCH "ceMbro
инструментами качества" [1, 2]: 1) диаграммы Исикавы; 2) карта (диаграмма) Парето; 3) расслоение (группировка данных по определенным признакам); 4) гистограмма разброса; 5) контрольные карты и 6) графики, а в [1] еще и 7) контрольные листы. В монографии [1] контрольные карты и графики объединены.
"Диаграммой Исикавы" американским ученым Дж. М. Джураном названа изображаемая графически причинно-следственная схема факторов и их составляющих, влияющих на интересуемый показатель качества. Начало ее возникло на одной из бумажных фабрик Японии, а за десять лет до такого названия эта диаграмма применялась на металлургическом комбинате "Кавасаки" [1].
"Картой Парето" по предложению Дж. М. Джурана стал столбчатый график, на котором изображаются
причины изучаемого несоответствия в порядке снижения их значимости, завершающиеся суммированием высот столбцов этих причин кумулятивной кривой. В 1987 году итальянский экономист В. Парето показал, что блага в капиталистическом обществе распределяются неравномерно: наибольшая доля доходов или благ принадлежит небольшому числу людей. Такая же картина в вопросах качества была выявлена Дж. М. Джураном [3]. Характерной особенностью двух названных из "семи принципов", как и некоторых графиков, является то, что ими могут учитываться как случайные, так и неслучайные величины.
Группировка данных по признакам при анализе случайных величин (СВ) заключается в разделении выборок на число частей, равное числу изучаемых признаков. Как правило, это число невелико. Чем этих частей меньше, тем лучше, так как растет объем отдельно обрабатываемого материала. При этом каждая подвыборка более информативна. Следует подчеркнуть, что уменьшение объема выборки путем замены ее подвыборкой чревата потерей репрезентативности, а значит потерей ожидаемого результата. А это необходимо учитывать.
Гистограмма представляет собой столбчатый график данных, группируемых в зависимости от принадлежности к тому или иному интервалу исследования. Если в диаграмме Парето высота столбика определяется числом несоответствий по интересующей причине (например, по толщине стекла, частоте пульса и др.), то в гистограмме -числом несоответствий, ограниченных значениями конкретного интервала (например, 2-3 мм толщины стекла, 60-65 частоты пульса и др.). На гистограмме представлена оценка плотности распределения. Отображаемые исходные данные на гистограмме носят случайный характер и зависят от сочетания большого числа взаимно независимых воздействий (например, состав стекла, различные технологии его изготовления и т.д.; окружающая среда, состояние пациента и т.д.). Если влияние каждого из них незначительно, то гистограмма согласуется с нормальным законом распределения, что встречается далеко не всегда.
Контрольные карты - еще один из "инструментов". Они представляют собой разновидность графиков, на которых для представления полей точек, характеризующих состояние исследуемых процессов, и соединяющих их ломаных, проведены линии исследуемого параметра (среднего арифметического, медианы и т. д.), а также допусков из 3-х кратных значений средних квадратичес-ких отклонений этого параметра. Они построены для обработки в основном нормально распределенных величин [4, 5], что встречается довольно редко.
Из беглого анализа представленных выше пяти из "семи принципов" видно, что далеко не всегда анализируемые показатели качества могут быть описаны законом Муавра-Лапласа-Гаусса - нормальным законом распределения. Тоже подчеркнуто в литературе [6-10]. А введенный (см. таблицу 5.1 [9]) У. А. Щухартом плюс -минус 3-х сигмовый "коридор" в контрольные карты предполагает попадание исследуемых данных в 99,73%-ный доверительный интервал, характерный для нормального закона. Чтобы отображения данных действительно оказывались в площади 99,73%,
предлагается подход, основанный на переходе к средним квадратическим отклонениям нормального закона распределения, эквивалентного эмпирическому.
ПОСТАНОВКА ЗАДАЧИ, АЛГОРИТМ
Ставится задача осуществить оценивание опытных данный путем перехода от выборки случайных величин, распределенных по любому неизвестному закону, к нормальному, используя среднеквадратические отклонения (СКО).
Вычисление СКО неизвестного распределения, представленного на гистограмме, производится по следующему алгоритму:
1. Вычисление энтропии неизвестного распределения [11] при различных размерах интервалов по формуле (1).
И* =
Дг,, NAx< -г1 ln -
1 N Дг,
(1)
1
и при одинаковых интервалах по формуле (2) П ДГ, ЫДХ:
И* =
I
i = 1
1 ln
N Дг,
: + lnДх ,
(2)
где Дг,
. количество результатов в i-м столбце
гистограммы,
- „ .
N - объем выборки
Дх,
N = I Дг,
i = 1 .
. размер ,-го интервала гистограммы, n - количество столбцов гистограммы.
2. И„,
И*, где Ип
энтропия нормального
закона распределения.
3. Вычисление СКО по формуле (3)
и
о norm II
о = e- = 0, 24197eHnorm .
4'2ne
(3)
Формулу (3) в целях упрощения расчета можно представить следующим образом
С = 0, 398942*е(Н- °5).
Поскольку значения е, П и Н* из-за ограниченного
числа цифр после запятых неточны, значение с будет тоже неточным. Если при использовании контрольных карт определять СКО предложенным методом, то получим более точные значения, чем вычисленные классичес-
■ • 2 Аг{
ким методом, то есть по формуле с = V(х - т)2—-— ,
^г -1 г
где т - статистическое среднее (математическое ожидание опытных данных), х, - абсцисса середины г-го интервала
Дг,,
плотность вероятности г-го столбца
гистограммы,
N-ДХ,
гистограммы. Причина заключается в том, что контроль-
n
ные карты, как и ряд научных и исследовательских работ, базируются на предположении, что исходные данные подчиняются только закону Гаусса. Мы же предполагаем наличие самых разных фактически существующих распределений.
Корректность предполагаемого метода не вызывает сомнений, поскольку в монографии [12] показано, что нормальный закон распределения вероятностей обладает наименьшей дисперсией. Проиллюстрируем отмеченное с помощью графика (рис.1), на котором представлена зависимость Д от /— (рисунок 2-6 из монографии [12]), где
с Л/Ц4
с - СКО, Д - половина широты распределения - размаха варьирования, Ц4 - четвертый центральный момент, то
- величина, обратная корню квадратному из относительного четвертого центрального момента.
коэффициента К относительно четвертого центрального момента
Рассмотрим пример.
Определим СКО с эмпирического распределения, приведенного в таблице 1, при количестве измерений N=125 и сХ = 1,74 (пример 36 в [5]).
Выиислим энтропию опыта Н* .
Дг, NДx, 5 125
Н* = £ —* 1п -—-* + 1пДх = т5:1п
N Дг,
125 5
1
, 6 , 125 , 5 , 125 , 10 , 125 19 , 125 ,
+-1п--1--1п--1--1п--1--1п--+
125 6 125 5 125 10 125 19
, 33 , 125 30 , 125 , 13 , 125 , 7 , 125 , + -251п 33" + -251пЖ + 1251пТ3" + -251п — +
+2*12_1п125 +1п1 = 1,9316
Тогда оценка СКО с равна
сс = 0, 24197е1,9316 = 1, 66 973.
Следовательно, 1,66973 ближе к фактической характеристике опытных данных, чем сХ = 1,74.
Предложенный авторами алгоритм несколько громоздче классического и может возникнуть желание исследователя находить СКО в случаях нормального распределения классическим путем, для чего в начале выяснять к какому из законов распределения относится выборка. Чтобы не тратить время и силы исследователя на поиск закона распределения и СКО, ниже показано, что алгоритм может быть использован и в случаях нормальности СКО, представленных в выборках.
Рисунок 1 - Кривая зависимости энтропийного Таблица 1 - Эмпирические данные
Величины на середине интервала -5 -4 -3 -2 -1 0 1 2 3 4 5
Частота 0 5 6 10 19 33 30 13 7 1 1
Решим следующую задачу. Выиислим среднее квадратическое отклонение закона N(0,1), то есть нормального закона с математическим ожиданием т=0 и СКО с= 1. Такое нормальное распределение называют по разному: нормированным, нормированными и центрированным либо стандартным. Вместо выборки возьмем значения функции этого распределения Г° (х)
закона N(0,1), представленной таблицей 2 [13]. Ограничимся областью [-4 с ,+4 с ].
Таблица 2 - Значения функции -^(х)
X 0,00 1,00 2,00 3,00 4,00
-0 (х ) 0,50000 0,84134 0,97725 0,99865 0,99997
Так как в ходе вычислений используются плотности дискретного распределения, найдем соответствующие плотности распределений р* (ге {1,2,...,8}). Значения х будем считать посредине табличных интервалов, а высотами столбцов создаваемой гистограммы - разности ближайших значений функции распределения -0(х), представленных в таблице 3:
Таблица 3 - Плотности распределении
хг 0,5 1,5 2,5 3,5
Рг 0,34134 0,13591 0,0214 0,00132
Так как т=0, то значения рг отрицательной части гистограммы равны значениям р* положительной части. Для расчета воспользуемся общеизвестными формулами
(например, из [14]):
п
энтропия Н(х) = - ^ рг1прг, (4)
г = 1
п
дисперсия В(х) = ^ (хг - т)р1, (5)
г = 1
СКО о(х) = (х). (6)
Тогда Б(х) = 2*(0, 52*0, 34134 +1, 52*0, 13591 + и + 2, 52*0, 0214 + 3, 52*0, 00132) = 1,082105 о(х) = л/1, 082105 = 1, 0402427,
Н* = -2*(0, 3413411п0,34134 + 0, 135911п0,13591 + + 0, 02141п0,0214 + 0, 001321п0,00132) = 1, 458327,
'о = 0, 24197е1458327 = 1, 0401713.
Домик над о как и о(х) и Н(х) и звездочка при Н показывают их отношение к опытным данным.
Несовпадение рассчитанных о( х) и о с исходными о(о = 1 ) вызвано упрощением получения значений х. Нарочито взамен математических ожиданий образованных участков плотности распределения р{ принимались их медианы. Кроме того, несоответствие обусловлено ограничениями числа знаков после запятых и наличием подлога-рифмических величин, меньших единиц, причем с ограниченными десятичными дробями. Однако получено о-о(х). Поэтому таким несовпадением можно пренебречь.
Различие в ответах решения поставленной задачи столь несущественно, что им тоже следует пренебречь.
По объему вычислений, подход определения СКО через дисперсии преимущественней, хотя и незначительно. Компенсация возможных ошибок при определении
о = /(Н*) с лихвой окупит вышеописанное несовпадение при обработке самых разных опытных данных.
Обращение к стандартному нормальному закону распределения и полученный результат позволяют заключить, что предложенный алгоритм может быть распространен как на данные, подчиняющиеся закону М(т, о) , так и на любые эмпирические распределения. Это справедливо как для контрольных карт, так и в дисперсионном, корреляционном, регрессионном анализах, а также при оптимизации планирования эксперимента, при оценивании и обработке эколого-медицинских данных и в ряде других приложений. Данный алгоритм может быть использован для адаптивного перекодирования переменных, предлагаемого для реализации интеллектуальных систем тестового распознавания [15, 16], предназначенных для широкого круга проблемных областей.
РЕЗУЛЬТАТЫ
Предложен один из способов преобразования
неизвестно распределенных данных в нормально распределенные посредством определения СКО как функции энтропии опытных данных в предположении, что она характеризует нормальный закон распределения вероятностей.
Показано, что закон Гаусса обладает минимумом СКО, то есть при сведении эмпирических данных к закону N(m, о) в случаях контрольных карт расстояние между линиями допусков уменьшается. Следовательно, уменьшается брак в производстве, повышается точность принимаемых решений. Рассмотренный пример иллюстрирует, что и при СВ, подчиняющихся закону Гаусса, предложенный алгоритм не приводит к ошибочным результатам.
Показано, что везде, где требуются нормально распределенные данные, а фактически распределенные по произвольному закону, целесообразно обращаться к предложенному алгоритму.
ВЫВОДЫ
1. Чтобы избежать возможных ошибок при изучении статистического материала в задачах управления качеством и адаптивного перекодирования переменных для реализации в интеллектуальных системах целесообразно определять СКО нормально распределенных величин путем вычисления энтропии экспериментальных данных независимо от вида их распределений.
2. Предложенный алгоритм может быть применен при обработке данных в различных областях науки и практики для проводимых исследований, предполагающих использование только нормально распределенных величин.
Работа частично поддержана грантами РФФИ, NN 0101-00772, 01-01-01050.
ПЕРЕЧЕНЬ ССЫЛОК
1. Исикава К. Японские методы управления качеством. - М.: Экономика, 1988.
2. "Семь инструментов качества" в японской экономике. -М.: Изд. стандартов, 1990.
3. Статистические методы повышения качества/под ред. X. Кумэ. - М.: Финансы и статистика, 1990.
4. Длин А.М. Математическая статистика в технике. - М.: Советская наука, 1958.
5. Статистические методы контроля качества продукции [пер. с англ.]/Л. Ноулер, Дж. Хауэлл, Б. Голд и др. - М.: Издательство стандартов, 1989.
6. Смирнов Н.В. и Дунин-Барковский И.В. Курс теории вероятностей и математической статистики для технических приложений. - М.: Наука, 1969.
7. Взаимозаменяемость в машиностроении и приборостроении/ под ред. А.И. Якушева. - М.: Изд-во Стандартов, 1970.
8. Орлов А.И. О современных проблемах внедрения прикладной статистики и других статистических методов// Заводская лаборатория. - 1992. - Т.58. - N1 - С. 67-74.
9. Саката Сиро. Практическое руководство по управлению качеством. - М.: Машиностроение, 1980.
10. Деминг В. Э. Выход из кризиса. - Тверь.: Альба, 1994.
11. Янковский Б.Е. Информационный способ определения вида закона распределения.// Надежность и контроль качества. - 1971. - №2. - С. 71-79.
12. Новицкий П.В. Основы информационной теории измерительных устройств. - Л.: Энергия, 1968.
13. Митропольский А.К. Техника статистических вычислений. -М.: Наука, 1971.
14. Вентцель Е.С. Теория вероятностей. - М.: Физматгиз, 1969.
15. Янковская А.Е. Тестовые распознающие медицинские экспертные системы с элементами когнитивной графики /
/ Компьютерная хроника. - 1994.- N8/9. - С.61-83. 16. Янковская А.Е., Гедике А.И., Аметов Р.В. Интеллектуальная динамическая система // Труды международной научно-практической конференции К0Б-2001 "Знание-Диалог-
Решение", Т2- Санкт-Петербург, 2001. - Изд-во "Лань" -С.645-652.