■ А.В.Балуева//А.У.Ва1иеуа nastyabaluevaa@gmail.com
магистрант, ФГБОУ ВПО «Кузбасский государственный технический университет имени Т.Ф.Горбачева» (КузГТУ), Россия, 650026, г.Кемерово, ул.Весенняя, 28
master's student FGBOU VO "Kuzbass State Technical University named after T.F.Gorbachev (KuzSTU), 28, Vesenniaia St., Kemerovo, 650026, Russia
■ П.А. Пылов // P.A. Pylov gedrosten@mail.ru
магистр ФГБОУ ВПО «Кузбасский государственный технический университет имени Т.Ф.Горбачева» (КузГТУ), Россия, 650026, г.Кемерово, ул.Весенняя, 28 magister of FGBOU VO "Kuzbass State Technical University named after T.F.Gorbachev (KuzSTU), 28, Vesenniaia St., Kemerovo, 650026, Russia
Р.В. Майтак// R.V. Maitak Super-energy@mail.ru
бакалавр, Заполярный Государственный Университет имени Н. М. Федоровского, ул. 50 Лет Октября, 7, Норильск, Красноярский край, 663310 bachelor's degree Polar State University named after N.M. Fedorovsky 50 Let Oktyabrya St., 7, Norilsk, Krasnoyarsk Region, 663310
А.В. Протодьяконов // A.V. Protodiakonov protod@inbox.ru
канд. техн. наук, доцент ФГБОУ ВПО «Кузбасский государственный технический университет имени Т.Ф.Горбачева» (КузГТУ), Россия, 650026, г.Кемерово, ул.Весенняя, 28
candidate of technical sciences, associate professor FGBOU VO "Kuzbass State Technical University named after T.F.Gorbachev (KuzSTU), 28, Vesenniaia St., Kemerovo, 650026, Russia
Щ А.В. Дягилева // A.V. Dyagileva dyagileval952@mail.ru
канд. техн. наук, доцент, ФГБОУ ВПО «Кузбасский государственный технический университет имени Т.Ф.Горбачева» (КузГТУ), Россия, 650026, г.Кемерово, ул.Весенняя, 28
candidate of technical sciences, associate professor of FGBOU VO "Kuzbass State Technical University named after T.F.Gorbachev (KuzSTU), 28, Vesenniaia St., Kemerovo, 650026, Russia
УДК 331.453
РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ И УСЛОВИЙ ЕЕ ПРИМЕНИМОСТИ ДЛЯ ПОДДЕРЖАНИЯ БЕЗОПАСНОСТИ ФИЗИЧЕСКОГО ТРУДА РАБОЧИХ ПРИ РЕШЕНИИ ЗАДАЧИ ПРОГНОЗИРОВАНИЯ КАРДИОЛОГИЧЕСКИХ АББЕРАЦИЙ DEVELOPMENT OF A MATHEMATICAL MODEL AND CONDITIONS OF ITS APPLICABILITY TO MAINTAIN WORKERS' PHYSICAL LABOR SAFETY WHEN SOLVING THE PROBLEM OF CARDIAC ABERRATION PREDICTING
Шахты - это сложные подземные промышленные комплексы, предназначенные для добычи полезных ископаемых. Современные технологические решения позволяют добывать полезные ископаемые различным оборудованием. Однако никогда нельзя исключать главный ресурс добычи ископаемых - человеческий труд. Сотрудник подземного промышленного комплекса ежедневно подвергается опасностям не только со стороны условий окружающей среды, в которой он выполняет свои профессиональные обязанности: потенциально вредные факторы труда могут негативно сказаться на здоровье человека и привести его к тяжелым клиническим осложнениям по здоровью. Сердечнососудистая система человека наиболее подвержена внешним негативным воздействиям тяжелого
66
труда, поэтому превентивное определение её заболеваний, требующих срочного вмешательства кардиологов, является одной из главных прерогатив безопасности труда, так как оно напрямую связано с охраной жизни и здоровья шахтеров. Разработка параметров, которые могли бы быть проанализированы моделью (математической и программной) для прогнозирования диагноза склонности к сердечно-сосудистым заболеваниям позволила бы многократно повысить безопасность труда шахтеров. Весь процесс аналитики будет передан модели прикладного искусственного интеллекта, а медицинский сотрудник будет проверять негативный прогноз алгоритма, что позволит вывести уровень охраны труда на совершенно новый уровень, а также снизить нагрузку на служителей панацеи. Авторы данной статьи исследуют вопрос разработки математической модели искусственного интеллекта, которая позволила бы исключить ложноотрицательные случаи срабатывания алгоритма (чтобы не допустить «пропуска» действительно страдающего заболеванием человека), но при этом нивелировала ложноположительную ошибку алгоритма: если модель искусственного интеллекта будет признавать большинство сотрудников страдающими заболеваниями, которые в действительности здоровы, то такой исход никоим образом не облегчит работу медицинских сотрудников. В совокупности модель искусственного интеллекта станет настоящей экспертной системой помощи кардиологическому специалисту, предоставляя ему второе медицинское мнение для правильной постановки диагноза. При необходимости система может быть использована как экспертная система кардиологических отделений для снижения нагрузки на врачей-кардиологов. Отдельно стоит отметить, что выявление заболеваний на ранней стадии позволяет вылечить пациента более щадящими средствами, а в некоторых случаях и вовсе ограничиться комплексом физическо-оздоровительных процедур.
Mines are complicated underground industrial complexes designed to extract minerals. Modern technological solutions make it possible to extract minerals with various equipment. However, one should never exclude the main resource of mining - human labor. An employee of an underground industrial complex is exposed to daily dangers not only from the environmental conditions in which he performs his professional duties: potentially, harmful labor factors can negatively affect human health and lead him to severe clinical health complications. The human cardiovascular system is most susceptible to the external negative effects of hard work, therefore, the preventive determination of its diseases requiring urgent intervention by cardiologists is one of the main prerogatives of occupational safety, since it is directly related to the miners' life and health protection. The development of parameters that could be analyzed by a model (mathematical and software) to predict the diagnosis of a tendency to cardiovascular diseases would greatly improve the miners' safety. The whole process of analytics will be transferred to the model of applied artificial intelligence, and the medical officer will check the negative prognosis of the algorithm, which will bring the level of labor protection to a completely new one, as well as reduce the burden on the servants of the panacea. The authors of this article are investigating the issue of developing a mathematical model of artificial intelligence that would allow to exclude false negative cases of the algorithm triggering (in order to prevent the "skipping" of a person really suffering from a disease), but at the same time offset the false positive error of the algorithm: when the artificial intelligence model recognizes the majority of employees that are actually healthy suffering from diseases, then such an outcome will by no means facilitate the work of medical staff. Altogether, the artificial intelligence model will become a real expert system of assistance to a cardiological specialist, providing him with a second medical opinion for the correct diagnosis. If necessary, the system can be used as an expert system of cardiology departments to reduce the burden on cardiologists. Separately, it should be noted that the detection of diseases at an early stage allows you to cure the patient with more gentle means, and in some cases, even limit yourself to a complex of physical and wellness procedures.
Ключевые слова: ШАХТА; УГОЛЬНАЯ ОТРАСЛЬ; ОХРАНА ТРУДА; СЕРДЕЧНО-СОСУДИСТЫЕ ЗАБОЛЕВАНИЯ; ТРАВМАТИЗМ; ПРОФЕССИОНАЛЬНЫЙ РИСК; ПРИЧИННО-СЛЕДСТВЕННЫЕ СВЯЗИ; ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ; ГЛУБОКОЕ ОБУЧЕНИЕ; ПРИКЛАДНОЕ ГЛУБОКОЕ ОБУЧЕНИЕ.
Key words: MINE; COAL INDUSTRY; OCCUPATIONAL SAFETY; CARDIOVASCULAR DISEASES; INJURIES; OCCUPATIONAL RISK; CAUSAL RELATIONSHIPS; ARTIFICIAL INTELLIGENCE; DEEP LEARNING; APPLIED DEEP LEARNING.
Сердечно-сосудистые заболевания являются одной из главных причин смертности среди населения Российской Федерации [1]. Поэтому мероприятия по профилактике, ранней диагностике, выявлению факторов риска, особенно у пациентов среднего и молодого возраста, имеют первостепенную значимость и учитываются при организации работы кардиологических отделений клинических больниц.
В кардиологических отделениях наличие сердечных заболеваний у пациентов детерминируется на основе однотипного набора характеристик каждого пациента: пол, возраст, уровень сахара в крови и другие [1]. На основе собранного набора данных кардиолог выносит решение о том, склонен ли пациент к сердечным заболеваниям или нет. В зависимости от результата пациенту может быть назначен курс лечения [1]. Аналитика медицинских данных - это трудоёмкий процесс. На практике, в медицинских учреждениях он еще более усложняется тем, что большие массивы данных, притекающие от каждого пациента, приходится обрабатывать конкретному специалисту. Высокая нагрузка на служителей панацеи повышает вероятность возникновения ошибки, относящейся к человеческому фактору.
Помочь решить возникшую проблему может интеллектуальная система, которая бы выполняла роль второго медицинского мнения и служила экспертной системой для кардиологов. С точки зрения интеллектуальных систем предсказать склонность к сердечному заболеванию пациента означает решить задачу бинарной классификации, где нулевым классом будет отрицательный ответ (нет склонности к заболеванию сердца), а первым классом - положительный ответ системы (прогноз наличия сердечных заболеваний пациента).
В подразделе науки машинного обучения, который посвящен изучению задач классификации, принято разделение между различными типами классификационных методов.
Такая классификация позволяет сепарировать различные алгоритмы искусственного интеллекта по принципу их принадлежности к математической основе, на которой они построены. Именно математическая основа (и, как следствие, система её ограничений для условий задачи) в конечном счете останавливает выбор исследователя данных на конкретном алгоритме.
В задачах классификации экстрагируют несколько обособленных классов методов [2]:
- Линейные модели.
- Нелинейные модели, основанные на принципе разделимости.
- Логические классификаторы.
- Статистические классификаторы.
- Метрические классификаторы.
- Композиции.
Алгоритм классификации наивного Байе-са принадлежит к группе статистических методов классификации.
Принадлежность алгоритма наивного Бай-еса к этой группе очень легко доказать. Возьмём в качестве примера рассмотрения один класс (все его объекты). Очевидно, что объекты одного класса будут составлять выборку, так как они являются конечным набором прецедентов, которые были выбраны определенным образом из генеральной совокупности. Поскольку объекты одного класса в задаче классификации содержат общую метку целевого столбца, то параметр yi (каждый отдельное значение вектора ответа для каждой строки набора данных) может быть исключен из рассмотрения. Рассматривая объекты одного класса, у нас не существует каких-либо математических ограничений на то, чтобы восстановить плотность. Согласно базовым принципам функции распределения и её первой производной (статистические законы), решая задачу восстановления плотности распределения для каждого класса в отдельности, мы сможем решать и задачу классификации в вероятностных терминах.
Из краткого доказательства следует, что у классификатора Байеса существует частный случай, позволяющий довольно просто решать прикладные задачи, в которых целевой столбец имеет равные априорные вероятности классов. Априорная вероятность классов - это частотная оценка вероятности классов. То есть, например, априорная вероятность классов будет равна, когда в задаче классификации с общим типом ответов «да» / «нет» будет находиться одинаковое количество ответов «да» и «нет». В таком случае каждый объект X будет отнесен к тому классу, для которого плотность вероятности в точке X будет максимальна. В строгом математическом виде это уравнение можно выразить в виде формулы (1).
Алгоритм Байеса(^0 = arg шахр(д:|у)
где: p(x\y) - это совместная плотность распределения непрерывных объектов X и дискретных значений Y.
Такой частный случай, который между тем является и самым простым типом классификации Байеса, носит особое именование опти-
мального Байесовского классификатора [2, 3].
Однако стоит заметить, что такой классификатор не подходит для несбалансированных априорных вероятностей (целевых классов), которые очень часто встречаются на практике (например, когда в кардиологическое отделение будет поступать больше мужчин, чем женщин, возникнет дисбаланс по признаку пола). Кроме того, данная математическая реализация классификатора основывается на оценке качества классификации по текущей выборке, а это прямой путь к переобучению модели машинного обучения [4, 5]. Наконец, задача оценивания плотности распределения путем минимизации ошибки численным интегрированием гораздо более сложная, чем стандартная задача классификации:
1. При решении задачи классификации строится функция, принимающая конечное число значений. При восстановлении плотности процесс состоит уже в работе с непрерывноз-начной функцией. Получается, что приходится решать задачу аппроксимации в более богатом классе функций.
2. При решении задачи классификации главная задача состоит в построении границы разделения классов - определении разделяющей плоскости групп. При восстановлении плотности распределения классов большое внимание уделяется на точность восстановления повсюду: не только в тех местах, где находятся границы одного класса с другим, но и на периферии. Для классификации не нужно, чтобы восстановление плотности внутри определенного класса было таким же хорошим, как на его границе с другими классами, поэтому несколько этапов подхода делается «впустую».
Основной проблемой в машинном обучении является нахождение границы между классами (то есть, в конкретном случае: верно отнести склонного к сердечным заболеваниям пациента в первый класс) и правильное построение разделяющей плоскости. По этой причине в прикладной алгоритм наивного Байеса были включены некоторые видоизменения, которые, кроме его математической структуры, внесли свою лепту в его современное название - наивный [2]. По какой причине классификатор стали называть наивным? Потому что в его основе лежит предположение: признаки являются независимыми случайными величинами с одномерными плотностями распределения, но зато в каждом классе.
В таком случае математическая ситуация
сводится почти к аналитическому решению (за исключением вероятностной части). Благодаря этому прикладное решение становится очень простым и позволяет перенести оптимальный Байесовский классификатор с предположением независимости в программный вид, свободно реализуемый на многих языках программирования. Благодаря предположению открывается и простая возможность оценивания алгоритма: оценки получаются одномерными, а восстанавливать одномерные плотности (для каждого признака в отдельности) - это гораздо более простая задача, нежели восстанавливать многомерные плотности. К тому же практически пропадает сложнейшая зависимость от количества признаков в наборе данных (столбцов): теперь их может быть сколь угодно много, разница во временных затратах будет почти незаметной, чего нельзя сказать о геометрически прогрессирующей сложности алгоритма от количества столбцов набора данных в первом случае [3].
Получить математический вид наивного Байесовского классификатора представляется весьма несложной задачей после факторизации плотности - записи произведения одномерных плотностей по каждому признаку в совокупности. После этого, для получения итоговой формулы достаточно прологарифмировать вероятностные выражения по параметру агдтах (2).
Алгоритм Наивного Байеса
[X) = шах | Ы А; » Р(у) + ^Г Ы^ (х> | у)
(2)
где: 1п Л *Р(у) - это константа: 1п X. - это натуральный логарифм штрафа потери на объектах класса у. ЬР(у) - это натуральный логарифм априорного распределения. Эти величины задаются самим исследователем: значение штрафа задается при реализации решения, а оценку частоты вероятности класса легко получить по самой выборке.
1п р". (х]\у) - это сумма натуральных логарифмов одномерных плоскостей по каждому признаку в каждом классе.
Оценивая два различных типа алгоритма классификации Байеса, необходимо отметить, что первый тип наиболее часто используется в средствах математической статистики и при решении аналитических задач математики. Это объясняется тем, что априорные распределения классов и их функции правдоподобия чаще всего известны, поэтому можно определить матема-
тическое ожидание потерь, чтобы в дальнейшем его проинтегрировать.
На практике всегда используется алгоритм наивного Байесовского классификатора. Это обусловлено тем, что совместная плотность набора признаков X (например, совокупности медицинских параметров: возраст, уровень сахара, частота сердечных сокращений и так далее) и У (значение, определяющее склонность к сердечным заболеваниям: да или нет) всегда неизвестна, по этой причине невозможно аналитически определить и функцию правдоподобия классов [2]. Соответственно, отсутствует возможность математической реализации численного решения, тем более решения в программном виде [4], в котором многие величины должны быть представлены дискретно.
Благодаря математическим концепциям
приближения и законам статистики [2], открылась возможность перенести «наивное» утверждение в формализованный вид математического уравнения, создав тем самым новую, особо значимую для прикладной реализации, модель машинного обучения. На её основе можно реализовать программную модель наивного Байеса, которая позволит решить задачу прогнозирования сердечных заболеваний, так как в математическом аппарате модели отсутствуют обязательные зависимости между балансом признаков (например, станет необязательным уравнивать количество пациентов по половому признаку) и их количеством (пациентов может быть сколь угодно много, от их количества пропорционально не увеличивается алгоритмическая сложность самой модели).
СПИСОК ЛИТЕРАТУРЫ
1. Федеральное государственное бюджетное учреждение «Консультативно-диагностический центр с поликлиникой» [Электронный ресурс]. - Режим доступа: Электронный ресурс https://spbpmc.ru/departments/directions/ kardiologiyal/
2. Кэмерон Дэвидсон - Вероятностное программирование на Python. Байесовский вывод и алгоритмы. - СПб.: Питер. 2019. - 258 с.
3. David Kopec. Classic Computer Science Problems in Python. - Manning Shelter Island. 2019. - 201 c.
4. Robert Johansson. Numerical Python. - Apress. 2018. - 358 c.
5. Дж. Клейнберг, Е. Тардос. Алгоритмы: Разработка и применение - СПб.: Питер. 2016 - 800 с.
REFERENCES
1. Federal State Budgetary Institution "Consultative and Diagnostic Center with polyclinic" [Electronic resource]. - Access mode: Electronic resource https://spbpmc.ru/departments/directions/kardiologiya1/
2. Cameron Davidson - Probabilistic programming in Python. Bayesian inference and algorithms. - St. Petersburg: Peter. 2019. - 258 p.
3. Kapets presses. Classic Computer Science Problems in Python. - Manning Shelter Island. 2019. - 201 c.
4. Robert Johansson. Numerical Python. - Apress. 2018. - 358 p.
5. J. Kleinberg, E. Tardos. Algorithms: Development and application - St. Petersburg: Peter. 2016 - 800 p .