Научная статья на тему 'ПРОГНОЗИРОВАНИЕ ЗНАЧЕНИЙ ПДК И ДРУГИХ НОРМАТИВОВ МЕТОДОМ РЕГРЕССИОННОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ'

ПРОГНОЗИРОВАНИЕ ЗНАЧЕНИЙ ПДК И ДРУГИХ НОРМАТИВОВ МЕТОДОМ РЕГРЕССИОННОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ Текст научной статьи по специальности «Математика»

CC BY
19
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Гигиена и санитария
Scopus
ВАК
CAS
RSCI
PubMed
Область наук
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ПРОГНОЗИРОВАНИЕ ЗНАЧЕНИЙ ПДК И ДРУГИХ НОРМАТИВОВ МЕТОДОМ РЕГРЕССИОННОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ»

их экспериментальное изучение. Кроме того, понимание причин того или иного типа действия изучаемой комбинации делает более обоснованной оценку результатов экспериментов, проведенных на предыдущих этапах исследований.

Согласно методическим рекомендациям, на этом этапе особого внимания заслуживает изу-» чение влияния одних компонентов смеси на метаболизм других (исследование микросомальных монооксигеназ, реакций конъюгации, механизмов антирадикальной защиты и др.), сопоставление токсико-кинетических процессов при изолированном и комбинированном воздействии компонентов с использованием линейных камерных (частевых) моделей, углубленное исследование изменений в органах-мишенях, например, изучение тканевой проницаемости, лигандных характеристик плазменных и тканевых белков, функции выделительных органов и др. Характер этих исследований определяется в зависимости от типа токсических веществ, входящих в комбинацию, и имеющейся информации о механизмах их токсического действия.

Несомненно, что дальнейшее накопление опыта и конкретных материалов изучения действия на организм комбинаций токсических веществ будет способствовать как повышению надежности гигиенических регламентов для наиболее распространенных загрязнителей производственной среды, так и развитию теории и методологии комбинированного действия вредных факторов.

Литература

1. ГОСТ 12.1.005—76. Система стандартов безопасности труда. Воздух рабочей зоны. Общие санитарно-гигнени-ческие требования.

2. Кустов В. В., Тиунов Л. А., Васильев Г. А. Комбинированное действие промышленных ядов. — М., 1975.

3. Лазарев Н. В. Общие основы промышленной токсикологии. — М. — Л., 1938.

4. Методические рекомендации по планированию эксперимента и оценке эффекта комбинированного действия химических веществ при многократном воздействии. — Киев, 1977.

5. Finney D. J. Probit Analysis. — Cambridge, 1971.

6. Health Effects of Combined Exposures in the Work Environment.— Geneva, 1981.

Поступила 10.03.8&

УДК 613.632 + 615.9.0I5.3.07]:6B1.31

i

Б. А. Курляндский, В. К. Шитиков, В. И. Тихонов

ПРОГНОЗИРОВАНИЕ ЗНАЧЕНИЙ ПДК И ДРУГИХ НОРМАТИВОВ МЕТОДОМ РЕГРЕССИОННОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ

НИИ органических полупродуктов и красителей, Москва

Теоретической базой для развития расчетных методов определения безопасных уровней воздействия ядов является объективно существующая взаимосвязь между токсическим действием вещества, его физическими свойствами и химической структурой [9, 13]. Опубликовано значительное число работ, в которых для применения в гигиенических исследованиях предлагаются десятки уравнений регрессии, использующих из-® вестные показатели токсикометрии [4, 11, 15, 16] или основанных на концепциях Ханша [2, 7, 10] и Фри-Уилсона [1, 5]. Не отрицая практической ценности полученных моделей для оперативного планирования токсикологического эксперимента, следует отметить, что традиционная ^ методология регрессионного анализа ориентиро-| валась на решение частных задач прогнозирова-I ния при следующих характерных ограничениях: 1. Модели регрессии строились на некоторой ограниченной выборке веществ, и их использование было эффективно только для соединений из той же генеральной совокупности, т. е. в рамках определенного структурно-химического класса аналогов. Попытка интерпретировать эти уравнения как универсальные, как показала практика * [14], приводила к неудовлетворительным результатам.

2. Постулировалась, как правило, линейная зависимость отклика от двух — трех варьируемых переменных, причем отбор исходных признаков и оценка их информативности основывались большей частью на интуиции исследователя без использования современных математических методов. Такие простые уравнения оказались удобны в практике, однако были весьма далеки от моделей оптимальной сложности, отражающих действительные причинно-следственные связи взаимодействия вещества с организмом.

3. Отсутствовали попытки использовать для построения регрессионных уравнений весь комплекс потенциальных переменных одновременно, т. е. физико-химические и токсикологические показатели совместно с инкрементами химической структуры.

Г. И. Румянцев и С. М. Новиков [12] справедливо полагают, что назрела необходимость создания автоматизированных информационно-поисковых систем (ИПС) для экспериментальных гигиенических исследований. Это позволит не только систематизировать тот огромный исследовательский материал, который накоплен гигиенической наукой, но и оперативно обрабатывать его, выводить новые расчетные уравнения, а также выдавать по запросам практических учреж-

дений сведения как об экспериментально найденных параметрах токсичности, так и о нормативах, полученных расчетным путем. Одной из попыток создания систем такого рода явилась разработка ИПС «Токсикология» [8], предназначенная для прогнозирования токсичности и опасности веществ в анилинокрасочной промышленности.

В условиях системы, когда исследователь полностью освобожден от крайне трудоемкой работы по заполнению исходной таблицы переменных, а производительность ИПС позволяет рассчитывать сотни регрессионных моделей в течение часа, существенно меняется сама методология прогнозирования. Ввиду того что каждый раз исходная выборка формируется динамически, само по себе расчетное уравнение регрессии теряет всякий самостоятельный смысл, поскольку носит сугубо разовый характер и используется для оценки гигиенических показателей одного тестируемого вещества либо ограниченного числа его химических производных. Рассмотрим принципы работы ИПС «Токсикология» на произвольном конкретном примере, носящем в рамках настоящей публикации чисто иллюстративный характер.

Постановка задачи. Пусть необходимо построить и оценить экстраполяционные свойства регрессионной модели прогнозирования значений ГЩКр.з для производных бензольного ряда, содержащих различные комбинации заместителей типа амино-, нитро-, окси-, сульфогрупп и т. д. В качестве варьируемых переменных предлагается использовать значения LD50 при введении в желудок, молекулярную массу (М), дипольный момент молекулы (ц), показатель преломления (п), а также параметры, описывающие фрагменты химической структуры.

Формирование обучающей выборки. Для решения поставленной задачи достаточно ввести в ИПС «Токсикология» запрос, определяющий совокупность предъявленных требований, следующего вида: & ZAPROS OTKL-2, INPDK-1, INFYS-1, 2, 9, PW-1, EFS-1, LMZ-0,1, 1, & END & PARM KREG-1, & END, после чего все последующие процедуры выполняются автоматически без участия человека.

Из справочного фонда ИПС, включающего более 3 тыс. химических веществ, отбирается 95 соединений, имеющих только одно бензольное ядро и измеренные значения заданных переменных. Исходное признаковое пространство автоматически формируется из 99 переменных, включающих в данном случае, кроме LD50, М, ц. к п, дополнительно следующие параметры химической структуры:

— количество атомов каждого химического элемента в брутто-формуле соединения (10 параметров) ;

— 62 параметра, описывающих химические заместители и другие фрагменты молекул, кото-

рые принимают значения 1 (фрагмент имеется в данной молекуле) или 0;

— 24 параметра, являющихся нелинейными преобразованиями значений ЬО50, М, ц и п (парные произведения, логарифмы, экспоненты, показательные функции и т. д.), что позволит в дальнейшем учесть нелинейный функциональный характер взаимодействия отклика и факторов.

Статистическое моделирование. Построение регрессионного уравнения осуществляется по программе, реализующей шаговый метод включений с исключениями Эфроимсона [3], который позволяет в условиях большого числа варьируемых признаков построить модель, содержащую только выбор информативных переменных. При этом проводится последовательный отбор факторов, имеющих на каждом шаге максимальное значение коэффициента частной корреляции, но при условии, что статистическая значимость включения превышает некоторый заданный порог по /•'-критерию. После каждого очередного расширения модели анализируют коррелированность включенных в уравнение факторов и, если выполняется условие /7<</7о, лишние факторы, вносящие наименьший вклад, из модели исключаются. Вычисления прекращаются, если не осталось ни одного фактора, для которого найденное значение последовательного ^-критерия превышало бы заданный порог Р0.

Регрессионная модель, полученная для рассматриваемого примера, включает 31 переменную (т. е. 32% общего числа) и имеет следующий вид:

1п (ПДКр.з.) = 0,0207-/И-|А — 358/ЬО60 — 4,16-я2 —

— 2,27-ге-ц — 14330/М + 2119-М_0'5 — 113,5 + 2аг*ь

£

где — параметры, определяющие атомный состав и химическую структуру молекул. Коэффициенты уравнения регрессии а,- при фрагментарных переменных численно равны той величине, на которую в среднем изменяется значение 1п ПДК при включении в состав молекулы данного заместителя или фрагмента. В данную модель включены следующие элементы химической структуры: частично гидрированный шестичлен-ный цикл (коэффициент регрессии 1,85; частный ^-критерий 7,44), хиноидная структура (—1,35; 4,95), И—ЫНг (—3,2; 54,7), И—СООН (—2,47; 29,3), И—СЕ3 (1,515; 9,89), И—ОН (—1,06; 12,38), И—С1 (0,634; 4,87), И-СНз (0,835; 9,17),

У5

К-С^ (2,24; 5,31), И—СО—Н (—4,16; 15,02),

\ЫН2

И—СН„С1 (—1,96; 12,86), I}—N0., (—1,62; 13,16),

НзС-СНИ-С^0 (—1,6; 3,26), Я—СС13 (-2,87;

\1МН2

10,3),

Фактические и расчетные значения ПДКр. 3 для производных бензольного ряда

№ п/п Соединение пдк фактическая Р- 3 расчетная

1 Гексафторбензол 5 5,22

2 Дибутиловый эфир о-фтале- 0.5 0,54

вой кислоты

3 4-Хлоранилин 0,3 0,325

4 Бензальдегид 5 5,67

5 Пентахлорфенол 0,1 0,088

6 2,4-Динитрофенол 0,05 0,0395

'93 ' 4-Аминоанизол 10 0,035

94 4-Бензохинол 0,05 1,62

95 Метиловый эфир п-толуило- 100 0,18

вой кислоты

R'-CH.2C1 (-2,27; 6,35), R-CHC1, (-2,3; 6,89),

Н3С-С^° (2,69; 14), H.2N-C^° (-1,93; 7,4),

\OR NOR

R'—ОН (-1,68; 4,77), R-O-CHO (1,98; 4,36),

R—OCH3 (1,04; 3,46), R-SO3H (-0,81; 1,53), количество атомов водорода (0,107; 10), количество атомов кислорода (—0,265; 8,25), количество атомов азота (1,025; 10,39). Модель имеет вполне удовлетворительные статистические характеристики: коэффициент множественной корреляции 0,9603, дисперсионное отношение Фишера 22,8 при критическом значении, разном 1,62.

Проверка работоспособности модели. Особый интерес представляет оценка экстраполяцион-ных свойств модели, т. е. расчет значений ПДК для соединений, которые не участвовали в построении уравнения регрессии. Для этого используется скользящий контроль, который заключается в том, что в исходной выборке поочередно выделяется одно экзаменуемое соединение, по которому ведется прогнозирование, тогда как остальные объекты выборки интерпретируются как обучающая последовательность, по которой рассчитываются коэффициенты регрессии. Методом скользящего контроля строится в рассматриваемом случае 95 различных моделей (каждая по 94 объектам), и в результате получают несмещенную оценку вероятности правильного прогнозирования на всей генеральной совокупности. Ошибка предсказания на основе полученных моделей не превышает ошибки воспроизводимости одного из параметров модели — показателя LD50 [6]: расчетные и фактические значения ПДК отличаются менее чем в 5 раз в 76% случаев (менее чем в 2 раза в 47%), причем превышение расчетных величин над фактическими более чем на порядок было зафиксировано только в 7,4 % случаев. Фрагмент ряда соединений, ранжированного по величине ошибки предсказания, представлен в таблице.

Продолжительность решения задачи составляет: формирование выборки 4 мин, построение модели менее 1 мин, скользящий контроль 35 мин. Если задать ИПС режим оценки нормативов, то в системе автоматически по указанию исследователя формируется экзаменационная последовательность веществ, по которым вычисляются расчетные значения ПДК. Скользящий контроль в этом случае не проводится.

В ходе активного диалога гигиениста-исследователя с ИПС «Токсикология» осуществляется подбор оптимального уравнения регрессии. Если, например, в описанном примере исключить из состава переменных LD50, то получается модель, обладающая при скользящем контроле несколько лучшими экстраполяционными свойствами: ошибка прогноза менее чем в 5 раз будет иметь место в 79 % случаях.

Специальная сервисная процедура ИПС позволяет активизировать в качестве отклика или варьируемых переменных модели любые данные, имеющиеся в системе, в любой их комбинации (гигиенические нормативы, показатели токсичности, физико-химические свойства, фрагменты структуры молекул) либо заблокйровать любой класс переменных. Например, расчет LD53 с использованием М, ц, температуры плавления и параметров структурно-химической топологии на той же выборке дает при скользящем контроле удовлетворительные оценки вероятности правильного решения: доля примеров, для которых расчетные значения превышали более чем на порядок фактические, составила 2,3%, а вероятность правильного распознавания класса опасности вещестц, установленного по величине LD50,— 88,2%.

Автоматизированная ИПС, оснащенная математическими процедурами статистического моделирования, представляет собой мощный инструмент, дающий возможность гигиенистам в режиме диалога вести оперативную оценку нормативов и токсикологических показателей, проверять на различных выборках известные литературные гипотезы о связи структуры веществ с их биологической активностью, анализировать сравнительную информативную ценность различных групп факторов при изучении механизмов взаимодействия веществ с живым организмом.

Литература

1. Волошина Е. С., Тимофеевская Л. Л., Зельцер М. Р.// Гиг. труда. — 1982. — № 3. — С. 35—39.

2. Голубев А. А., Люблина Е. И., Толоконцев TI. В., Филов В. А. Количественная токсикология. — Л., 1973.

3. Дрейпер //., Смит Г. Прикладной регрессионный анализ: Пер. с англ. — М„ 1973.

4. Заева Г. И. // Токсикология новых промышленных химических веществ. — М., 1969. — Вып. 11. — С. 64— 70.

5. Заева Г. //.//Токсикология новых промышленных химических веществ. — М., 1964. — Вып. 6. — С. 165— 180.

3 Гигиена и санитария № 8

- 65 —

6. Заугольников С. Д., Лойт А. О., Иваницкий А. Я.// Общие вопросы промышленной токсикологии. — М., 1967. — С. 46—51.

7. Красовицкая М. А., Бездворный В. Н„ Айнбин-дер И. Е. // Изучение биологического действия новых продуктов органического синтеза и природных соединений. — Пермь, 1980. — С. 99—120.

8. Курляндский Б. А., Шитиков В. К., Тихонов В. Н. // Гиг. и сан. — 1986 — Л1« 1. — С. 53—55.

9. Лазарев И. В. Неэлектролиты. Опыт биолого-физико-хнмической их систематики. — Л., 1944.

10. Новиков С. М. II Гиг. и сан. — 1980. — № 10. — С. 16-19.

11. Новиков С. М. //Там же. — 1982. — № 3. — С. 80— 83.

12. Румянцев Г. И., Новиков С. М. //Там же. — 1976. — № 11. — С. 3-7.

13. Филов В. А., Люблина Е. /-/.//Биофизика. — 1965. — Т. 10. — № 4. — С. 602—608.

14. Цендровская В. А. //Гиг. и сан. — 1983. — № 6.— С. 17—20.

15. Шиган С. А. //Там же. — 1976. — № 11. — С. 15— * 20.

16. Штабский Б. М. Ц Гиг. и сан. — 1974. — № 1. — С. 23-28.

Поступила 26.03.86

УДК 614.7:313.31-07:681.31

Н. Г. Митрофанова, К. А. Рапопорт

«ЭЛЕКТРОНИКА Б3-34» ДЛЯ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ ГИГИЕНИЧЕСКИХ ИССЛЕДОВАНИЙ

НИИ общей и коммунальной гигиены им. А. Н. Сысина АМН СССР, Москва

В биологических исследованиях одной из важнейших проблем является статистическая обработка данных.

В результате анализа накапливается большое количество цифровых данных, требующих математической обработки на ЭВМ.

Ввиду ограниченного использования современных ЭВМ в условиях санэпидстанций обработка получаемых данных осуществляется с помощью микрокалькулятора «Электроника Б3-34».

В статье приведены способы использования микрокалькулятора для статистической обработки по методу Стьюдента при больших выборках [1, 3—8] и по методу К. Пирсона [2].

Пример обработки результатов по Пирсону представлен, исходя из данных изменения количества лизоцима при использовании синтетических моющих средств (CMC) в бытовых и производственных условиях.

Статистическая обработка вариационного ряда проводится при большой выборке (п>30). Чис-

Программа 1

ловые характеристики числяют по формулам:

вариационного ряда вы-

ге СО Я

У X it О i

о. 7. < л У. Ч е£ 7. ч

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

< УУ <£ Vf ^ ^

00 П2 42 09 1 01 18 ИП4 64

01 Fx* 22 10 ИП5 65 19 Fx2 22

02 НПЗ 63 11 10 20 ИП5 65

СЗ | "Г 10 12 П5 45 21 -f- 13

04 пз 43 13 С-П 50 22 ипз 63

05 ИП4 64 14 ИП4 64 23 — 11

06 ИП2 62 15 ИП5 65 24 — 0L

07 -ь 10 16 — 13 25 П2 42

08 П4 44 17 С/П 50 26 И По 65

27 1 01 32 F/" 21 37 СП 50

28 — 11 33 С/П 50 38 БП 51

29 ИП2 62 34 ИП5 65 39 00 00

30 14 35 FV~ 21

31 -7- 13 36 -Т- 13

М

1 Г 1 и „2 ■ 0 -——1 ¥м'—т-) - "-у?.

где Мг — варианта; М — средняя арифметическая; п — объем выборки; о — среднеквадратиче-ское отклонение; т — ошибка средней.

Определение этих величин с помощью микрокалькулятора производится после предварительного набора программы 1, которая определяет последовательность нажатия операционных клавиш.

После включения микрокалькулятора переходим в режим «Программирования», нажимаем клавиши В/О, Р, ПРГ, затем набираем программу 1.

После набора программы производим очистку программного счетчика нажатием клавиш Р, АВТ. Вводим первую варианту и нажимаем клавиши В/О, С/П. После окончания счета, о чем свидетельствует прекращение мигания индикатора и появление цифры 1 на табло индикатора, набираем вторую варианту путем нажатия клавиш В/О и С/П. На индикаторе появляется цифра 2. Эти процедуры продолжаем до набора всех членов числового ряда. После ввода последнего числа нажимаем клавишу С/П и на табло высве-

Программа 2

ео ч ГС Ч

У У у ■ц

с. Я ч о. п ч а 3 ч

< ■У < < -

00 ИП2 62 06 ИПЗ 65 12 ИП6 66

01 ИПЗ 63 07 Fx2 22 13 13

02 — II 08 _]_ То 14 С/П 50

03 П8 48 09 FY' 21 15 БП 51

04 ПИ! 64 10 П6 46 16 00 00

С5 Fx2 22 11 11П8 68

- 6G -

i Надоели баннеры? Вы всегда можете отключить рекламу.