Научная статья на тему 'ПРИМЕНЕНИЕ МЕТОДА МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ МЕДИЦИНСКОЙ ДИАГНОСТИКИ'

ПРИМЕНЕНИЕ МЕТОДА МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ МЕДИЦИНСКОЙ ДИАГНОСТИКИ Текст научной статьи по специальности «Компьютерные и информационные науки»

390
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
диагностика / база знаний / алгоритм / дизъюнкты / аксиомы / diagnostics / knowledge base / algorithm / clauses / axioms

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Л.А. Лютикова, Е.В. Шматова

В работе решается задача создания программного комплекса для компьютерной диагностики гастрита. В качестве входных данных используются показатели обследования пациентов и их диагнозы. Для успешного решения поставленной задачи разрабатывается логический подход анализа данных, который позволяет найти закономерности, необходимые для качественной диагностики. Эти закономерности выявляются, основываясь на данных, предоставленных специалистами, и включают в себя результаты обследований пациентов и существующий в медицинской практике опыт по постановке диагноза. Для выразительного представления данных используются системы многозначной логики предикатов. Предлагается алгоритм, реализующий и упрощающий рассматриваемые подходы. В результате разработанный программный комплекс по данным диагностики пациентов выбирает наиболее подходящие им типы заболевания с заранее заданной точностью. Если с заданной точностью по результатам обследования поставить диагноз не представляется возможным, то либо изменяется точность решения, либо предлагается пройти дополнительное обследование.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF THE MACHINE LEARNING METHOD TO SOLVE THE PROBLEM OF MEDICAL DIAGNOSTICS

The paper solves the problem of creating a software package for computer diagnostics of gastritis. Patient examination indicators and their diagnoses are used as input data. To successfully solve the task, a logical approach to data analysis is being developed, which allows us to find the patterns necessary for qualitative diagnostics. These patterns are identified based on the data provided by specialists and include the results of patient examinations and existing medical practice experience in diagnosis. Systems of multivalued predicate logic are used for expressive representation of data. An algorithm is proposed that implements and simplifies the approaches under consideration. As a result, the developed software package selects the most suitable types of the disease with a predeter-mined accuracy according to the data of the diagnosis of patients. If it is not possible to make a diagnosis with a desired accuracy based on the results of the examination, then either the accuracy of the solution should be changed, or the patient is proposed to undergo an additional examination.

Текст научной работы на тему «ПРИМЕНЕНИЕ МЕТОДА МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ МЕДИЦИНСКОЙ ДИАГНОСТИКИ»

Известия Кабардино-Балкарского научного центра РАН № 6 (104) 2021

- ТЕХНИЧЕСКИЕ НАУКИ

УДК 004.8 Научная статья

В01: 10.35330/1991-6639-2021-6-104-58-65

ПРИМЕНЕНИЕ МЕТОДА МАШИННОГО ОБУЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ МЕДИЦИНСКОЙ ДИАГНОСТИКИ

Л.А. ЛЮТИКОВА, Е.В. ШМАТОВА

Институт прикладной математики и автоматизации -филиал Кабардино-Балкарского научного центра Российской академии наук 360000, Россия, Нальчик, ул. Шортанова, 89 А

Аннотация. В работе решается задача создания программного комплекса для компьютерной диагностики гастрита. В качестве входных данных используются показатели обследования пациентов и их диагнозы. Для успешного решения поставленной задачи разрабатывается логический подход анализа данных, который позволяет найти закономерности, необходимые для качественной диагностики. Эти закономерности выявляются, основываясь на данных, предоставленных специалистами, и включают в себя результаты обследований пациентов и существующий в медицинской практике опыт по постановке диагноза. Для выразительного представления данных используются системы многозначной логики предикатов. Предлагается алгоритм, реализующий и упрощающий рассматриваемые подходы. В результате разработанный программный комплекс по данным диагностики пациентов выбирает наиболее подходящие им типы заболевания с заранее заданной точностью. Если с заданной точностью по результатам обследования поставить диагноз не представляется возможным, то либо изменяется точность решения, либо предлагается пройти дополнительное обследование.

Ключевые слова: диагностика, база знаний, алгоритм, дизъюнкты, аксиомы

Статья поступила в редакцию 02.11.2021 Принята к публикации 29.11.2021

Для цитирования. Лютикова Л.А., Шматова Е.В. Применение метода машинного обучения для решения задачи медицинской диагностики // Известия Кабардино-Балкарского научного центра РАН. 2021. № 6 (104). С. 58-65. Б01: 10.35330/1991-6639-2021-6-104-58-65

Введение

Медицинская диагностика является достаточно известной задачей. Существуют различные методы ее решения, которые зависят от типа системы и ее назначения.

Это могут быть системы, основанные на статистических и других математических моделях, - их основой служат математические алгоритмы, которые осуществляют поиск частичного соответствия между симптомами наблюдаемого пациента и симптомами ранее наблюдавшихся пациентов, диагнозы которых известны [1-3].

Могут быть системы, основанные на знаниях экспертов. В них алгоритмы оперируют знаниями о заболеваниях, представленных в форме, приближенной к представлениям врачей и описанных экспертами-врачами.

Это могут быть системы на основе машинного обучения, которые нуждаются в достаточно большом количестве данных. Именно в этом случае алгоритм способен обучиться для самостоятельной работы.

Цель данной работы - разработка метода анализа данных и создание на его основе адекватного программного комплекса для диагностики гастрита.

Предлагаемый метод основан на логическом анализе данных и построении сложной дискретной функции, переменными которой являются соответствующим образом представленные симптомы и диагнозы. Это дает возможность даже при небольшом объеме

© Лютикова Л.А., Шматова Е.В., 2021

данных находить закономерности, строить классы по выявляемой общности признаков и отбирать наиболее важные свойства для принятия решения.

Постановка задачи

У 132 пациентов проводилась диагностика гастрита по данным гастроэнтерологических обследований. Данные были предоставлены республиканской клинической больницей МЗ КБР. Всего 28 симптомов, каждый из которых имеет от 2 до 4 вариантов ответов. Все симптомы приведены на рисунке 1. Количество диагностируемых типов гастрита - 17, таких, например, как хронический гастрит, хеликобактерный, аутоиммунный, рефлюкс-гастрит, радиационный, гранулематозный (болезнь Крона), эозинофильный, болезнь Ме-нетрие и т. д. По этим данным нужно построить алгоритм для адекватной диагностики остальных пациентов.

Образец анкеты с пунктами, необходимыми для постановки диагноза, выглядит следующим образом:

Бокаловидные клетки в покровном эпителии нет

есть одиночные есть умеренное кол-во С есть множественные

Дистрофия и некроз покровного с нет есть

резко выражена

Железистый слой

Количество желез

С' обычное

Рис. 1.

Можно говорить, что задана функция от 28 переменных, которая определена в 132 точках, область определения каждой переменой имеет разброс от 2 до 4. Нужно по этим данным восстановить значение функции в других запрашиваемых точках.

Постановка данной задачи сводится к постановке задачи по прецедентам, где симптомы -это вектор значений X = (х1, х2,..., хп }

х. е {0,1,...,— 1}. В нашей системе входными данными будут являться п=28, а выходными да=17:

/х1( д)

Х1( У2)

Х2( У1) Х2( У2)

Х„ (

Хп (У2)

Х1(Ут ) Х2(Ут ) ... Хп(У т )

т / у

У1 У2

V Ут у

(1)

Необходимо найти общие правила, порождающие заданную закономерность (1), исключить неинформативные переменные, разбить совокупность диагнозов на классы.

Может быть, в такой небольшой области знаний, как определение разновидности гастрита, хороший специалист, основываясь на своем опыте, даст более объективное и полное представление о возможностях постановки диагноза, чем те, которые будут получены в результате работы предлагаемого метода. Но важен общий подход, основанный на логическом анализе данных, который позволяет формально находить наиболее важные правила, совокупность которых способна полностью восстановить исходную информацию [4, 5].

Методы решения

Каждая строка (1) является зависимостью и может быть представлена следующим правилом: Xj ( y., y..

Эти правила, описывающие зависимость конкретного диагноза от проведенных исследований, представим в следующей дизъюнктивной форме: V7j=1Xj (yi)Vyi . А зависимость всех диагнозов от всех симптомов опишем следующей функцией: f(x,y) =

&f=1Vf=1^)Vyi.

Один и тот же диагноз может характеризоваться разной симптоматикой, данная функция поможет исключить несущественные симптомы, разобьет данные на классы. Вообще объединение каждого отдельного правила в общую функцию операцией конъюнкции предлагает широкой диапазон трактовки данных. В итоге мы получаем булеву функцию от m+n переменных (симптомы и диагнозы), которая на каждом наборе будет равна единице, кроме тех наборов, где присутствуют все симптомы, но отрицается диагноз, соответствующий этим симптомам. Можно говорить, что данная функция допускает любые правила, кроме отрицания тех, которые существуют.

Пример. Пусть заданы следующие соотношения:

Таблица 1

xi Х2 W

0 0 A

0 1 B

X = (х1 (а), х2 (а)}, Х2 = |х1 (Ь), х2 (Ь)}, W = {а, Ь} щ = а, w2 = Ь. Построим таблицу, задающую функцию для переменных: XI, Х2, у(а),у(Ь).

Таблица 2

xi X2 y(a) y(b) f(X,Y)

0 0 0 0 0

0 0 0 1 0

0 0 1 0 1

0 0 1 1 1

0 1 0 0 0

0 1 0 1 1

0 1 1 0 0

0 1 1 1 1

1 0 0 0 1

1 0 0 1 1

1 0 1 0 1

1 0 1 1 1

1 1 0 0 1

1 1 0 1 1

1 1 1 0 1

1 1 1 1 1

Из таблицы видно, что ^Х,У)=0, когда заданы признаки объекта (£1=0, X2=0), при этом сам объект отрицается у(а)=0, а также признаки объекта ь (£1=1, X2=0), при этом у(ь)=0.

СКНФ, построенная по таблице 2, будет выглядеть следующим образом:

/(X, У) = (х V х2 V у (а) V у(Ь)) & (х V х2 V у(а) V у(Ь)) & (х V х2 V у(а) V у(Ь)) & (х V х2 V у(а) V у(Ь)) = х2 V у(а) & х V у(Ь) & х1

Эта функция может легко модифицироваться. Каждое новое правило путем операции конъюнкции входит в систему уже существующих, с возможной некоторой их модификацией [6-7].

Также она может быть представлена в следующем рекурсивном виде:

Ж (X) = (^Х);

п __п _

2 (чк™кхк) = -1 &(V х К) V щ) V я-1 &(V х К) V );

I =1 I =1

п __п _

я, = Чк-х &(х хк К); я = х хК); ] = 2-Ш; 2 =

I=1 I=1 1

где Ж(Х) - моделируемая функция, 2] - характеристика объектов на текущий момент, Qj - состояние системы на текущий момент. Состояние системы - это элементы настройки.

Если функцию представить в СДНФ и удачно сократить, она может выражать компактное представление данных. Причем структурированных, в которых будут наши диагнозы, будут классы, в которые диагнозы объединяются по сходным симптомам, и будут сочетания симптомов, не характерные для рассматриваемых диагнозов.

Вообще в случае больших данных такой подход может выглядеть несколько громоздким, поэтому дальше предлагается алгоритм для реализации этого метода.

Алгоритмы моделирования системы знаний

Алгоритм отбора правил, из которых можно получить весь объем рассматриваемых

п

данных, может быть следующим: количество столбцов в таблице ^ к. - это количество

1=1

пунктов диагностики с учетом числа вопросов в каждом пункте. Количество строк будет соответствовать количеству диагнозов, в нашем случае это 17 плюс количество классов, которые будут найдены.

Соблюдая порядок следования, записываем данные по каждому пункту всех пациентов в таблицу следующим образом.

Берем каждого пациента, его диагноз разносим по соответствующим столбцам, диагноз н 1 будет размещен в столбце каждого пункта в соответствии с результатами обследования этого пациента. Например, пункт «пол» будет иметь два столбца со значениями 0 и 1, и диагноз будет помещен в столбец в зависимости от пола пациента. Общий вид таблицы приведен ниже.

Таблица 3

01 11 .... к1-1 02 12....... к2-1.... ..0 п 1п кп-1

М 1 М 1 М п 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

М 2 М 2 М 2

М т М т М т

По ходу заполнения таблицы проверяем столбец, в который попадает диагноз рассматриваемого пациента. Если в столбце уже есть другие диагнозы, то вычеркиваем их и заносим в класс с рассматриваемым диагнозом, заносим их в следующую строку в тот же столбец. Эти диагнозы объединяются в класс по данному пункту диагностики, что продемонстрировано в таблице 4.

Таблица 4

01 11 .... к1-1 02 12....... к2-1.... ..0 п 1п кп-1

М 1

М 2 М 2

М 1 М 2

М т М т

Мт

Далее последовательно рассматриваем строки, если в строке, соответствующей какому-либо диагнозу, остались в квадратах не вычеркнутые диагнозы, то выбираем соответствующий этому диагнозу столбец и считаем это уникальным признаком именно этого диагноза. Также рассматриваем классы, образованные в результате анализа данных [8].

Таким образом, алгоритм позволяет построить те дизъюнкты, которые содержат диагнозы, т. е., по которым и ведется распознавание.

Описание программы

Программа реализует представленный выше алгоритм, состоит из двух исполняемых модулей:

Модуль 1. Выполняет декодирование базы данных с использованием словаря, загружает симптомы и диагнозы в форме вопросов и ответов и анализирует результаты.

Рис. 2.

Модуль 2. Создает информацию на основе исходного файла с данными или для уточнения этой системы знаний. Уменьшает размер базы данных в соответствии с приблизи-

тельным значением, тогда стоит либо снизить точность алгоритма, либо добавить информацию для проверки правильности сохраненных данных.

Рис. 3.

После заполнения всех полей, приведенных на рисунке 3, можем получить результат диагностики с заданной точностью (рис. 4). Там же все рассматриваемые симптомы для постановки диагноза.

Результаты

V

Заполненная анкета

Общая структура слизистой Сохранена

Толщина слизистой норма

Наличие слизи на поверхности обычное

Глубина ямок относительно слизистой 1/2

Ширина валиков обычная

Покровный эпителий валиков и ямок высокий

ШИК-реакция в покровном эпителии отрицательная

Бакаловидные клетки в покровном эпителии нет

Дистрофия и некроз покровного слоя нет

Количество желез обычное

Расположение желез обычное

Просвет желез не определяется

Кол-во клеток в железах уменьшено

Соотношение главных и обкладочных клеток кол-во главных уменьшено

Изменения клеток некроз

Гиперхроматоз есть

Дискариоз есть

Митозы множественные

Бокаловидные клетки в железах множественные Клетки Паннета в дне желез есть Межэпителиальные лимфоциты множественное Инфильтрация лимфоцитов собств, пласт, высокая Инфильтрация плазмоцитами выраженная

Лимфотические фолликулы Инфильтрация нейрофильными лейкоцитами Инфильрация нейтрофильными лейкоцитами резко выраженная Развитие соединительной ткани выраженное Обсеменение Н.Р. выраженное

_ Диагноз(ы) _

Хронический гастрит поверхностный (топография :антральный) с вероятностью 62% Хронический гастрит атрофический (топография:Фундальный) с вероятностью 70% с вероятностью 77%

ОК

Рис. 4

Заключение

Логические алгоритмы могут быть использованы для анализа данных, они дают возможность рассмотреть исходные данные как некий набор общих правил, среди которых можно выявить минимальных набор тех правил, которых достаточно, чтобы получить все рассматриваемые. Эти правила будут порождающими для рассматриваемой области, они помогут лучше понять природу исследуемых объектов и минимизировать поиск правильных ответов.

Информация об авторах

Лютикова Лариса Адольфовна, канд. физ.-мат. наук, зав. отделом «Нейроинформатика и машинное обучение», Институт прикладной математики и автоматизации - филиал Кабардино-Балкарского научного центра РАН;

360000, Россия, Нальчик, ул. Шортанова, 89 А;

lylarisa@yandex.ru, ORCID: https://orcid.org/0000-0003-4941-7854

Шматова Елена Витальевна, стажер-исследователь отдела «Нейроинформатика и машинное обучение», Институт прикладной математики и автоматизации - филиал Кабардино-Балкарского научного центра РАН;

360000, Россия, Нальчик, ул. Шортанова, 89 А;

lenavsh@yandex.ru, ORCID: https://orcid.org/0000-0003-1344-1924

СПИСОК ЛИТЕРАТУРЫ / REFERENCES

1. Zhuravlev Yu.I. On an algebraic approach to solving problems of recognition or classification. Problemy kibernetiki [Problems of Cybernetics]. 1978. Vol. 33. Pp. 5-68. (In Russian)

2. Shibzukhov Z.M. Correct Aggregation Operations with Algorithms. Pattern Recognition and Image Analysis. 2014, Vol. 24. No. 3. Pp. 377-382.

3. Ashley I. Naimi, Laura B. Balzer Stacked generalization: an introduction to super learning. European Journal of Epidemiology. 2018. No. 33. Pp. 459-464.

4. Mesiar R., Komornikova M., Kolesarova A., Calvo T. Fuzzy Aggregation Functions: A revision. Sets and Their Extensions: Representation, Aggregation and Models. Springer-Verlag, Berlin, 2008.

5. Fan Yang Zhilin Yang William W. Cohen Differentiable Learning of Logical Rules for Knowledge Base Reasoning. Advances in Neural Information Processing Systems. Vol. 2017. 2017. Pages 2320-2329.

6. Flach P. Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Cambridge University Press, 2012. 396 p. ISBN: 978-1107096394.

7. Rahman Akhlaqur, Tasnim Sumaira. Ensemble Classifiers and Their Applications: A Review. International Journal of Computer Trends and Technology. 2014. Vol. 10. No 1. Pp. 31-35.

8. Lyutikova L.A., Shmatova E.V. Application of Variable-Valued Logic to Correct Pattern Recognition Algorithms. Advances in Intelligent Systems and Computing. 2020. Vol. 948. Pp. 308-314.

9. Christopher J.C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition, Appeared in: Data Mining and Knowledge Discovery 2. 1998. Pp. 121-167.

10. Lyutikova L.A. Use of logic with a variable valency under knowledge bases modeling. CSR-2006.

MSC: 68T30 Original article

APPLICATION OF THE MACHINE LEARNING METHOD TO SOLVE THE PROBLEM OF MEDICAL DIAGNOSTICS

L.A. LYUTIKOVA, E.V. SHMATOVA

Institute of Applied Mathematics and Automation -branch of Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences 360000, Russia, Nalchik, 89 A Shortanov street

Annotation. The paper solves the problem of creating a software package for computer diagnostics of gastritis. Patient examination indicators and their diagnoses are used as input data. To successfully solve the task, a logical approach to data analysis is being developed, which allows us to find the patterns necessary for qualitative diagnostics. These patterns are identified based on the data provided by specialists and include the results of patient examinations and existing medical practice experience in diagnosis. Systems of multivalued predicate logic are used for expressive representation of data. An algorithm is proposed that implements and simplifies the approaches under consideration. As a result, the developed software package selects the most suitable types of the disease with a predetermined accuracy according to the data of the diagnosis of patients. If it is not possible to make a diagnosis with a desired accuracy based on the results of the examination, then either the accuracy of the solution should be changed, or the patient is proposed to undergo an additional examination.

Keywords: diagnostics, knowledge base, algorithm, clauses, axioms

The article was submitted 02.11.2021 Accepted for publication 29.11.2021

For citation. Lyutikova L.A., Shmatova E.V. Application of the machine learning method to solve the problem of medical diagnostics. News of the Kabardino-Balkarian Scientific Center of RAS. 2021. No. 6 (104). Pp. 58-65. DOI: 10.35330/1991-6639-2021-6-104-58-65

Information about the authors

Lyutikova Larisa Adolfovna, Candidate of Physical and Mathematical Sciences; Head of the Department of Neuroinformatics and Machine Learning, Institute of Applied Mathematics and Automation - branch of Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences;

360000, Russia, Nalchik, 89 A Shortanov street;

lylarisa@yandex.ru, ORCID: https://orcid.org/0000-0003-4941-7854

Shmatova Elena Vitalevna, Trainee Researcher of the Department of Neuroinformatics and machine learning, Institute of Applied Mathematics and Automation - branch of Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences;

360000, Russia, Nalchik, 89 A Shortanov street;

lenavsh@yandex.ru, ORCID: https://orcid.org/0000-0003-1344-1924

i Надоели баннеры? Вы всегда можете отключить рекламу.