ИНФОРМАЦИОННЫЕ И ПРОГРАММНЫЕ СИСТЕМЫ КАК ОБЪЕКТЫ АКТИВНОГО ЭКСПЕРИМЕНТИРОВАНИЯ
Г.Н. Хубаев
Специалистам, работающим в области информационных технологий (ИТ), хорошо знакома ситуация, когда информационная система (ИС), получившая одобрение пользователей и показавшая вполне приемлемые результаты во время опытной эксплуатации, неожиданно перестает удовлетворять заказчика быстродействием. Причина чаще всего оказывается совсем простой: у заказчика изменились условия функционирования ИС, например увеличился объем входных информационных массивов (число записей в базах данных, справочниках и т.д.), а в процессе проектирования или выбора ИС ее характеристики оценивались лишь на контрольном примере или же на реальных данных, но в период становления фирмы - заказчика ИС.
Наш опыт свидетельствует о том, что время реакции системы (время выполнения запроса, время решения конкретной задачи) по мере пополнения баз данных (БД) очень часто становится критическим фактором, определяющим качество функционирования ИС, ее потребительскую ценность. Причем затраты на модернизацию уже действующей ИС (изменение структуры БД, состава комплекса технических средств, СУБД, языка программирования и т.д.) зачастую многократно превышают ее первоначальную стоимость.
Таким образом, очевидно, что убытки от ошибок при проектировании и выборе ИС могут быть весьма существенными. В то же время в программной (технической) документации абсолютного большинства рыночных ИС отсутствуют сведения, позволяющие оценить выходные характеристики системы и их динамику при изменении объемов входной информации.
Более того, в литературе по проектированию и анализу ИС и баз данных практически не описаны способы корректного получения таких данных, определения их прогнозной ценности, доверительных границ для рассчитанных статистических характеристик. Но ведь без такой информации нельзя оценить качество ИС, ее экономическую эффективность. При этом оказывается, что совершенно не разработан и такой раздел в области проектирования и анализа ИС, как постановка и организация экспериментальных исследований, включая планирование и реализацию активных экспериментов. Хотя достаточно очевидно, что здесь (в области ИТ) есть своя специфика, множество особенностей, влияющих на экономическую эффективность проектирования и применения ИС.
Ниже предпринята, по-видимому, одна из первых попыток рассмотреть проблемы планирования экспериментов в процессе проектирования и анализа ИС, выявить и систематизировать важнейшие
особенности ИС как объекта активного экспериментирования. Одновременно мы выскажем свои соображения относительно содержания нескольких понятий (терминов), допуская при этом, что наши варианты ответов, возможно, не всегда удачны и, безусловно, носят отпечаток субъективных пристрастий автора и его научного окружения. И тем не менее, автор надеется, что представленные здесь положения и рекомендации будут полезны разработчикам, продавцам и пользователям информационно-поисковых систем (ИПС).
Особенности активного экспериментирования с ИС. Вопросы планирования и постановки активных экспериментов при проектировании и анализе ИС рассмотрим на примере построения моделей для оценки и прогнозирования времени выполнения запросов к ИС (времени автоматизированного решения конкретной задачи). Выбор времени решения задачи в качестве выходной характеристики ИС не является ограничительным. Не нарушает общности последующих рассуждений и выводов использование в качестве функции отклика, например, трудоемкости или стоимости решения задачи и т.д.
Какие же факторы оказывают наиболее существенное влияние на время решения задачи, на время отклика ИС на запрос?
Применительно к конкретной задаче пользователя это время зависит от ряда случайных и детерминированных факторов [1,2]: от объемных характеристик входных данных, от структуры БД (от того, сколько файлов в БД необходимо соединить для реализации запроса и как это сделать), от характеристик используемых технических средств и программных средств общего назначения, в том числе от режима работы (автономный, в условиях сети и т.д.), от характеристик интерфейса (от числа уровней меню, состава и расположения пунктов меню по уровням иерархии и др.), от характеристик оператора-пользователя (скорость реакции, уровень общей и профессиональной подготовки, степень знакомства и продолжительность работы с данной ИС и др.). При этом полное время решения задачи (выполнения запроса) складывается из времени работы оператора-пользователя (работа с клавиатурой, мышью или микрофоном для запуска нужной программы, движения по пунктам меню и др.) и машинного времени. В зависимости от функционального назначения ИС, характера решаемых ею задач удельный вес слагаемых колеблется в достаточно широких пределах. Так, в ИС бухгалтерского учета весьма значительна доля первого слагаемого, в ИПС, ИС запросного типа и др. - второго. Именно с учетом этого обстоятельства следует вести поиск резервов уменьшения общего времени решения задачи.
Анализируя свойства факторов, влияющих на выходные характеристики ИС, выделим наиболее существенные:
• большинство из перечисленных факторов управляемые и количественные, следовательно, изучаемый объект допускает активное экспериментирование с ним;
• общее число факторов невелико, то есть размерность пространства факторов весьма ограничена;
• некоторые из факторов в конкретных условиях эксплуатации ИС принимают случайные значения, например: случайными величинами обычно являются текущий объем файлов БД, число запросов на решение определенной задачи в единицу времени (день, месяц, год);
• области определения практически всех факторов по своей сути дискретны (объем винчестера, оперативной памяти и т.д.);
• факторы являются совместимыми и, что очень важно, допускают независимое варьирование значениями, то есть возможно формирование ортогональной матрицы плана эксперимента;
• независимые переменные-факторы, функция отклика могут быть измерены с высокой точностью, и ошибку измерения легко оценить. Точность фиксирования уровней факторов также может быть весьма высокой и контролируемой. Все факторы оказывают непосредственное (прямое) влияние на объект исследования.
Рассмотрим теперь, каковы особенности планирования и проведения активных экспериментов при разработке и анализе ИС. Есть ли здесь отличия от методик организации опытных работ в других областях науки и техники? Попытаемся выделить и фрагментарно обсудить эти особенности.
Во-первых, это относительно низкая трудоемкость и стоимость проведения активных экспериментов с ИС. При этом результаты лабораторных и производственных опытов зачастую статистически не различаются. В естественных науках, в технике и технологии даже повторение опыта в другой лаборатории не всегда дает статистически адекватные результаты, не говоря уже о различиях в результатах лабораторных и промышленных экспериментов.
Во-вторых, в информатике почти всегда легко определить, взаимодействия каких факторов могут быть существенными. Например, если при реализации запроса соединяются два файла БД с числом записей соответственно Xj и Хг, то при выборе плана эксперимента и построении уравнения регрессии целесообразно, по-видимому, помимо линейных эффектов, оценить эффект взаимодействия Xj*Xг. Причем, если в результате эксперимента оказалось, что время выполнения запроса, в котором взаимодействуют несколько файлов БД, недопустимо велико, то вполне возможно, что проблема будет оперативно решена всего лишь путем создания одного общего файла БД для получения ответов на запросы данного вида. Созданный файл автоматически поддерживается в актуальном состоянии - отслеживаются измене-
ния, вносимые в соединяемые файлы БД. Как показали наши исследования, в этом случае время реакции системы на запрос может уменьшиться в десятки (!) раз.
В-третьих, факторы, которые были управляемыми в экспериментах с ИС, часто становятся неуправляемыми в реальных условиях функционирования этой системы. Так, если в эксперименте объемами файлов БД можно управлять, устанавливая определяемые планом эксперимента значения, то в условиях реальной эксплуатации ИС - это неуправляемые факторы (в отличие, например, от параметров техпроцесса изготовления изделий из пластмасс, где параметры и в эксперименте, и в условиях производства обычно являются управляемыми). Причем активный эксперимент с ИС дает возможность строить прогнозные модели для оценки важнейших выходных характеристик системы в заведомо более широком диапазоне изменения определяющих факторов (входных переменных) по сравнению с режимом нормальной эксплуатации и, как следствие, позволяет спроектировать (или выбрать) систему с лучшими потребительскими свойствами.
В-четвертых, обработку результатов активного экспериментирования, а зачастую и проведение самих экспериментов по оценке выходных характеристик ИС можно полностью автоматизировать.
В-пятых, это очень малый коэффициент вариации дублирующих опытов, которые применительно к рассматриваемому нами объекту представляют собой повторное решение задачи с теми же исходными данными и прежними условиями запроса (прежними значениями параметров запроса), то есть полное воспроизведение эксперимента. Напомним, что воспроизводимость результатов является одним из главных требований к объекту активного экспериментирования, и среднее квадратическое отклонение результатов дублирующих опытов характеризует ошибку эксперимента по воспроизводимости. Кроме того, дублирующие опыты в экспериментах с ИС характеризуются простотой и обычно ничтожной трудоемкостью осуществления.
В-шестых, содержание понятия "серия измерений в одном опыте" в нашем случае также имеет свою специфику. Говоря о серии измерений в одном опыте, мы будем иметь в виду повторное решение задачи при прежних значениях (уровнях) независимых переменных (например при одинаковых объемах входных массивов данных) и прежнем операторе, но с новыми значениями параметров запроса. Например, при неизменном числе записей в файлах БД в очередном запросе серии фамилия "Иванов" заменяется на "Сидоров", а условие "Зарплата >1" - на "Зарпла-та >0,9" и т.д. Причем значения параметров запроса выбираются случайным образом из заданного (допустимого) диапазона их варьирования.
Обратим внимание на то, что в данном случае среднее квадратическое отклонение результатов серии измерений в одном опыте характеризует рассеяние, обусловленное спецификой (условиями) решае-
мой задачи, и величина дисперсии результатов серии измерений будет статистически постоянной (устойчивой) при неизменных входных данных, алгоритме и диапазоне допустимых значений параметров запроса (входных переменных).
И последнее: известно, что для получения оптимальных по ряду критериев результатов активного экспериментирования часто требуется по ходу эксперимента изменять в достаточно широких пределах интервалы варьирования управляемых факторов, переносить центр плана. При экспериментах с ИС, в отличие от опытов во многих других предметных областях, такое варьирование значениями входных переменных в широком диапазоне осуществить достаточно просто, и оно обычно не связано с опасностью нарушения целостности объекта исследования. Например, если в эксперименте управляемыми факторами Х^ек) являются объемы взаимодействующих информационных массивов (файлов БД), то, задавая различные значения интервалов варьирования ДХ^ можно оперативно генерировать нужное количество записей в соответствующих файлах БД. Возможные ограничения здесь могут быть обусловлены в основном экономическими соображениями.
О критериях выбора плана эксперимента.
В [1,2] отмечалось, что модели для прогнозирования времени автоматизированного решения задачи целесообразно строить по результатам активного экспериментирования. Аналогичный подход следует использовать и при выборе структуры ИС, оптимальной по заданным критериям. Однако прежде чем приступать к выбору конкретного плана эксперимента, необходимо определиться с перечнем требований к свойствам моделей, построенных на основе полученных экспериментальных данных. В последующем, ориентируясь на эти требования, можно достаточно легко выбрать подмножество планов, при использовании которых удастся сформировать модели со свойствами, в той или иной степени соответствующими установленным требованиям.
Как известно, план, оптимальный по одним критериям, может иметь очень плохие характеристики по другим. Выбор критериев осуществляется экспериментатором и зависит от целей проводимого исследования [3,4].
Какими же свойствами должны обладать формируемые модели? Эти свойства зависят от цели построения моделей, от того, для решения каких задач строятся регрессионные уравнения. В рассматриваемом нами конкретном случае формируемые модели предназначены для получения оценок времени выполнения функциональной операции (времени решения конкретной задачи, времени реализации конкретного запроса). Причем в реальных условиях функционирования ИС часть зависимых переменных - это случайные величины (или функции), описываемые законами распределения и соответствующими статистическими характеристиками.
После того, как по результатам активного эксперимента определены параметры уравнения регрессии Ур^Х^, ^ек), предназначенного, как мы услови-
лись, для прогнозирования времени выполнения конкретного 1-го запроса к ИС (в зависимости, например, от объемов используемых файлов БД), необходимо оценить статистические характеристики и закон распределения выходного параметра У1 при значениях Xj ()е к), типичных для условий эксплуатации ИС. При этом, однако, следует учитывать одно важное обстоятельство: в процессе реализации активных экспериментов значения переменных Xj устанавливались в соответствии с выбранным планом эксперимента (были детерминированными), а в реальных условиях функционирования ИС текущий объем файлов БД, как правило, является случайной величиной. Поэтому имитационное моделирование - это, по-видимому, наименее трудоемкий, а в ряде случаев единственный способ получения необходимых статистических данных об У1 (при условии, что известны законы распределения и статистические характеристики входных переменных Xj и построена по результатам эксперимента зависимость Ур1^)) [2].
В дальнейшем будем предполагать (исходя из "принципа простоты"), что модель выбирается из класса алгебраических полиномов.
Теперь, когда определены цель построения регрессионных моделей и решаемые с их помощью задачи, можно сформулировать основные требования к свойствам моделей и, соответственно, к планам эксперимента.
ПЕРВОЕ требование - независимость Ь-коэффи-циентов модели. Выполнение этого требования позволяет корректно осуществить имитационное моделирование, последовательно выбирая случайные значения факторов в соответствии в выявленными или заданными законами распределения. Тем более, что и в реальных условиях функционирования ИС факторы могут изменяться независимо друг от друга.
Отсюда вытекает и первое требование к плану эксперимента - ортогональность. Помимо прочих известных выгод, получаемых при использовании ортогональных планов, в нашем случае очень важно то, что еще на стадии проектирования ИС появляется возможность оценить степень влияния каждого фактора Xj на величину функции отклика У1 (оценить его "личный" вклад). Кроме того, использование ортогональных планов позволяет исключать статистически незначимые Ь-коэффициенты без пересчета значений остальных и одновременно существенно снизить затраты на обработку результатов эксперимента.
ВТОРОЕ. Для повышения достоверности прогноза У1 при условии, что Xj Уе к) могут на практике изменяться в достаточно широких пределах, желательно, чтобы дисперсия функции отклика У1 была стабильной на равных расстояниях от центра плана. Поэтому второе требование к плану - ротатабель-ность.
ТРЕТЬЕ. Если при решении конкретной задачи выполняются операции с несколькими массивами данных (файлами БД), то влияние эффекта взаимодействия может оказаться существенным. Напомним, что число массивов, получаемых в результате
различных операций с двумя взаимодействующими массивами (объединение, разность и др.), равно пяти, при трех взаимодействующих массивах - шестнадцати и т.д. [6].
Следовательно, планы, в которых учитываются только линейные эффекты без эффекта взаимодействия, в отдельных случаях использовать нежелательно.
ЧЕТВЕРТОЕ. При условии, что допускается смешение квадратичного эффекта ^ с эффектом Ь0, можно ограничиться планами для построения неполных квадратичных моделей.
ПЯТОЕ. Требование насыщенности плана в нашем случае не является жестким, так как затраты на проведение экспериментов с объектами в рассматриваемой предметной области в среднем значительно меньше затрат на активные эксперименты в других областях науки и техники.
Что касается других критериев при выборе планов активных экспериментов (критерии D-оптималь-ности, A-оптимальности, E-оптимальности и др.), то руководствоваться ими следует в том случае, когда это можно сделать без ухудшения качества результатов, получаемых с учетом ранее выбранных критериев.
Анализ перечисленных свойств формируемых регрессионных моделей и вытекающих из этих свойств критериев выбора плана эксперимента показывает, что подмножество оптимальных по выделенным критериям планов будет весьма ограниченным. В первую очередь - это полный факторный эксперимент ПФЭ 2к, где К - число независимых переменных-факторов Xj Уек), по результатам которого можно строить неполные квадратичные модели. Планы ортогональны, ротатабельны, D-,A-,E-,Q-оп-тимальны и при этом вполне удовлетворительны по другим критериям, они понятны и просты в реализации. Правда, с увеличением к быстро растет коэффициент избыточности плана, но для рассматриваемой предметной области это зачастую не является слишком обременительным.
Если сделать допущение, что эффекты взаимодействия могут быть смешаны с линейными эффектами или между собой, то удобны дробные реплики двухуровневых ортогональных планов ПФЭ 24-1 (1/2 реплика), 26-3 (1/8 реплика), 27-4 (1/16 реплика).
Для построения линейных моделей при числе факторов к = 7, 11, 15, 19,... и при проведении отсеивающих экспериментов можно выбрать насыщенные ортогональные планы Плакетта-Бермана. При (к+1), не кратном четырем, план дополняется фиктивными переменными [4,5]. Так, для плана Пла-кетта-Бермана 27 матрица планирования имеет вид:
Квадратичные модели можно строить с использованием ортогональных центральных композиционных планов на сфере [4], а, исключив требование ортогональности (и одновременно получив множество обусловленных этим решением минусов), при k>6 можно воспользоваться насыщенными квадратичными планами Рехтшафнера. Планы имеют неплохие статистические характеристики и по ряду критериев относятся к группе лучших [7].
В тех случаях, когда желательно элиминировать или, наоборот, исследовать влияние на выходные параметры ИС психофизиологических и профессиональных характеристик оператора, других неодно-родностей, используются решетчатые планы, BIB-схемы, квадраты Юдена, так называемые сложные совмещенные планы и др. [3,8,9-12].
Пример реального эксперимента с ИС. Рассмотрим один из реализованных вариантов автоматизации процесса активного экспериментирования с ИС (разработка выполнена совместно с Н.Каменец и О.Сидиной).
Цель проведения активных экспериментов -оценка статистических характеристик и построение регрессионных моделей для прогнозирования времени выполнения запросов к ИС в зависимости от объемных параметров БД (числа записей в БД), структуры БД, вида работы (автономная или в сети), комплекса технических средств (КТС), от используемой СУБД. Уравнения строятся для конкретного запроса, варианта структуры БД, вида работы, состава КТС и для СУБД в отдельности.
В качестве объекта экспериментирования используется ИС, состоящая из шести БД, описанных в документации по СУБД FoxPro (см.: FoxPro 2.0. Система управления реляционными базами данных /Изд. 2-е, стереотип. - Тверь: НИИ ЦПС, 1990) и имеющих следующую структуру:
- БД "Покупатели" (Поля: CNO, COMPANY, CONTACT, ADDRESS, CITY, STATE, ZIP, PHONE, ONO, YTD PURCH, LAT, LONG);
- БД "Продажи" (Поля: INO, CNO, IDATE, ITOTAL, SALESMAN);
- БД "Детали" (Поля: INO, LINE, QTY, PNO, SALEPRICE, LTOTAL);
- БД "Офисы" (Поля: ONO, YTDSALES, ZMIN, ZMAX, CITY, ADDRESS, STATE, ZIP, PHONE);
- БД "Продавцы" (Поля: SALESMAN, ONO, NAME, YTDSALES, ADDRESS, CITY, STATE, ZIP, PHONE, NOTES);
- БД "Партии" (Поля: PNO, DESCRIPT, ONHAND, ONORDER, LISTPRICE, COST, YTDUNITS, YTDSALES).
Примеры запросов также представлены в эксплуатационной документации по СУБД (24 запроса). При выполнении отдельных запросов требуется соединить несколько файлов БД (от 2-х до 4-х).
Проведение эксперимента ПФЭ 2k (k - число соединяемых БД), включая обработку результатной информации, практически полностью автоматизировано.
Пользователь, работая с системой в режиме диалога, выбирает тип запроса, число параллельных
Номер опыта План эксперимента для k=7
Х1 Х2 Х3 Х4 Х5 Х6 Х7
1 +1 -1 -1 +1 -1 +1 +1
2 +1 +1 -1 -1 +1 -1 +1
3 +1 +1 +1 -1 -1 +1 -1
4 -1 +1 +1 +1 -1 -1 +1
5 +1 -1 +1 +1 +1 -1 -1
6 -1 +1 -1 +1 +1 +1 -1
7 -1 -1 +1 -1 +1 +1 +1
8 1 1 1 1 1 1 1
Время выполнения запросов к БД
Код Время выполн Время выполн. Уравнение регрессии
запроса запросов запросов к для вспомогательной
и число к БД вспомогат. БД БД
БД (в мсек) (в мсек)
Число записей в исследуемой БД (Х1 - в тыс. записей,
500 1000 1500 500 1000 1500 Y - в мсек)
1 2 3 4 5 6 7 8
Q3 3 40 77 112 9 12 15 y=0.005733+0.006*X1
Q4 2 36 71 96 23 44 53 y=0.010200+0.030*X1
Q5 4 15 22 30 07 09 10 y=0.005400+0.003*X1
Q8 4 23 22 29 06 09 10 y=0.004600+0.003*X1
Q14 3 27 46 63 15 24 30 y=0.007467+0.016*X1
Q17 2 112 227 350 108 201 331 y=0.010467+0.22*X1
Q21b 2 31 62 87 19 31 40 y=0.009733+0.002*X1
опытов, число записей в БД и СУБД. С результатами обработки экспериментальных данных можно ознакомиться, выбрав один из пунктов меню:
- статистические характеристики,
- регрессионный анализ,
- графики.
При выборе пункта меню статистические характеристики пользователю выдаются значения следующих характеристик времени реализации конкретного запроса: математическое ожидание, дисперсия, среднее квадратическое отклонение и коэффициент вариации. Кроме того, для отдельных запросов можно рассчитать дисперсию времени выполнения запроса при различных вариациях условий поиска.
В пункте регрессионный анализ выдаются уравнения регрессии для прогнозирования времени выполнения запросов, реализованных в данном эксперименте. В зависимости от числа используемых в эксперименте БД структура уравнений будет различной: при запросах к трем или четырем БД выводятся соответственно двухфакторные, трехфак-торные или четырехфакторные уравнения регрессии. По всем моделям проводятся: анализ адекватности, проверка значимости коэффициентов модели и однородности дисперсии, подсчет ошибки прогнозируемого параметра. Помимо значений перечисленных показателей, пользователь может получить уравнение регрессии для запросов, реализованных к вспомогательной (общей) БД (эта база создается с целью уменьшить время выполнения запросов, требующих соединения нескольких БД, и содержит только те поля, значения которых используются в данном запросе). Объединение исходных таблиц (файлов БД), поддержание вспомогательной БД в актуальном состоянии и расчет коэффициентов
Таблица 1 уравнения производится автоматически в процессе выполнения эксперимента. В окне вывода уравнения регрессии для вспомогательной БД одновременно выводится информация о процентном увеличении объема созданной БД по сравнению с объемом соединяемых БД. Структура вспомогательных БД для соответствующих запросов имеет вид:
запрос Q3 (CITY, ITOTAL), Q4 (PNO, DESCRIPT, QTY), Q5 (COMPANY, QTY, DESCRIPT, CNO), Q8 (DESCRIPT, STATE), Q14 (NAME, COMPANY, INO, IDATE, ITOTAL), Q17 (NAME, ITOTAL), Q21b (INO, PNO, DESCRIPT).
Пункт меню графики позволяет проанализировать зависимость между объемом БД и временем реализации запроса. Для запросов, в которых соединяется несколько БД, на графике будут представлены зависимости двух типов: для отдельных БД и для вспомогательной БД.
Приведем результаты реального эксперимента с ИС описанной структуры. Условия опыта: полный факторный эксперимент ПФЭ 2k (максимальное значение k равнялось 4: при реализации запросов Q5 и Q8 соединялись 4 файла БД), выбранные СУБД: FoxPro2.6 и Clipper5.01; автономный режим работы; ПЭВМ Pentium-166 MMX /32MB EDO /2.0GB WD 22000 CAVIAR. Число параллельных опытов - 6, а для двух запросов - 20. По каждому запросу для разных СУБД построены уравнения регрессии (неполные квадратичные модели) для прогнозирования времени выполнения запроса в зависимости от объемов соединяемых БД и однофакторные линейные уравнения для случая создания вспомогательной БД, проведена оценка статистической значимости полученных уравнений, рассчитаны ошибки воспроизводимости, дисперсии адекватности, выполнено иссле-
Таблица 2
Пользователь 1 Пользователь 2
ПП1 ПП2 ПП1 ПП2
Q3 Q17 Q3* Q17* Q3 Q17 Q3* Q17*
Среднее время выполнения запросов, мсек 112 350 15 331 112 350 15 331
Среднее квадратич. отклонение времени выполнения одного запроса, мсек 11 35 1,5 33 11 35 1,5 33
Дисперсия времени выполнения одного запроса 121 1225 2,25 1089 121 1225 2,25 1089
Среднее число запросов данного вида в единицу времени (год) 102 104 102 104 104 102 104 102
Среднее квадратическое отклонение числа запросов в единицу 30 3*103 30 3*103 3*103 30 3*103 30
Дисперсия числа запросов 9*102 9*106 9*102 9*106 9*106 9*102 9*106 9*102
Среднее время выполнения заданного числа запросов, сек 11,2 3500 1,5 3310 1120 35 150 33
Среднее квадратическое отклонение времени выполнения заданного числа запросов, сек 3,4 1050 0,45 103 340 10,5 45 10
Среднее время выполнения заданного набора из двух запросов 3511 3311 1155 183
дование дисперсий на однородность, сравнение дисперсий при шести и двадцати параллельных опытах. Например, оказалось, что для заданных условий функционирования ИС использование вспомогательной (общей) базы данных (вместо соединения нескольких БД) уменьшает время реализации запросов к ИС в среднем в 3 раза (для запроса Q3 - в 6,3 раза, а для Q17 - в 1,9 раза). Причем объем вспомогательной БД увеличивался незначительно. Таким образом, решение вопроса о целесообразности формирования вспомогательной БД для выполнения запросов конкретного типа будет зависеть от того, сколько таких запросов будет выполняться в реальных условиях эксплуатации ИС (см. табл. 1).
Предположим теперь, что рассматриваются всего два программных продукта, отличающихся структурой БД: в первом для ответа на запрос соединяются несколько файлов БД, а во втором происходит обращение только к вспомогательной БД, которая содержит поля, включенные в запрос. Кроме того, имеются только два пользователя, каждому из которых нужно выполнить только два запроса к БД, например запросы Q3 и Q17; БД содержит в среднем 1,5 тыс. записей. Коэффициент вариации времени выполнения одной функциональной операции (одного запроса) примем равным 0.1, а числа запросов -0.3 (для многих реальных ситуаций принятые значения - это оценки снизу).
В таблице 2 приведен расчет времени выполнения набора из двух операций Q3 и Q17 двумя разными ПП у двух пользователей.
Как показывают результаты расчетов, даже для одного и того же ПП среднее время выполнения набора всего из двух функциональных операций у разных пользователей может отличаться от 3-х до 18 (!) раз; причем, если для второго пользователя создание вспомогательной БД вполне оправдано, так как ее применение дает выигрыш в затратах времени на выполнение запросов более чем в 6раз (1155/185), то для первого пользователя целесообразность формирования такой БД весьма проблематична из-за незначительного сокращения времени реализации обоих запросов (правда, в отдельных случаях даже такое уменьшение затрат времени может оказаться очень важным). Обратим также внимание и на значительную величину коэффициента вариации времени выполнения запросов, что тоже весьма существенно повлияет на вероятность решения задачи за установленное время.
В заключение отметим, что применительно к проблемам проектирования и анализа информационных систем в работе:
- выявлены и систематизированы важнейшие особенности информационных систем как объекта активного экспериментирования;
- описаны свойства факторов, влияющих на выходные характеристики информационных систем. Показано, что большинство факторов являются управляемыми, количественными, независимыми; они оказывают непосредственное (прямое) воздействие на исследуемый объект;
- определены основные требования к свойствам моделей, формируемым по результатам активных экспериментов;
- выделены критерии выбора плана эксперимента при исследовании информационных систем;
- даны рекомендации по применению конкретных планов для постановки экстремальных по выбранным критериям экспериментов.
Список литературы
1. Хубаев Г.Н. Экономическая оценка качества программных средств: стохастические модели, характеристики и законы распределения случайных величин// Компьютерные технологии в малом и среднем бизнесе. - Ч.2: Проблемы проектирования информационных систем в экономике: Матер. Межгосударств. науч.-практ. конф. (Ростов-н-Д, 19-21 октября 1994г.). - Ростов-н-Д., 1995.
2. Хубаев Г.Н. Методика экономической оценки потребительского качества программных средств// Программные продукты и системы. - 1995.- №1.
3. Маркова Е.В., Лисенков А.Н. Планирование эксперимента в условиях неоднородностей.- М., 1973.
4. Налимов В.В., Чернова Н.А. Статистические методы планирования экстремальных экспериментов.- М., 1965.
5. Вознесенский В.А. Статистические методы планирования эксперимента в технико-экономических исследованиях/ 2-е изд., перераб. и доп. - М., 1981.
6. Волховер В.Г., Иванов Л.А. Производственные методы разработки программ. - М., 1983.
7. Налимов В.В., Голикова Т.И. Логические основания планирования эксперимента. - М., 1976.
8. Финни Д. Введение в теорию планирования экспериментов.- М., 1970.
9. Хубаев Г.Н. Методы планирования экспериментов при анализе некоторых социально-экономических показателей эффективности техники// Матер. итог. науч. конф. РИНХ. - Вып. 2.-Ростов-н-Д., 1974.
10. Хубаев Г.Н. Математические методы и вычислительная техника в задачах упорядочения объектов и при отборе значимых факторов. - Ростов-н-Д., 1975.
11. Хубаев Г.Н. Неполноблочное планирование экспериментов при сравнительной оценке качества сложной программной продукции// III Международ. науч.-техн. конф.: Программное обеспечение ЭВМ - Тез. докл. (Тверь, ноябрь 1990г.). - Тверь, 1990.
12. Хубаев Г.Н. Методика сравнительной экспертной оценки качества сложных программных средств// Анализ и проектирование систем управления производством. - Н.Новгород, 1992.
ИНСТРУМЕНТАЛЬНАЯ СИСТЕМА ПОДДЕРЖКИ ВЫЧИСЛИТЕЛЬНОГО ЭКСПЕРИМЕНТА
А.Г. Олейник, А.В. Смагин, А.Я. Фридман, О.В. Фридман