Научная статья на тему 'Преобразование кластеров клинических данных на этапе первичной диагностики'

Преобразование кластеров клинических данных на этапе первичной диагностики Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
149
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИАГНОСТИКА / КЛИНИЧЕСКИЕ ДАННЫЕ / РАСПОЗНАВАНИЕ / ИНФОРМАТИВНЫЕ ПРИЗНАКИ / КОВАРИАЦИЯ / КОРРЕЛЯЦИЯ / ПРОСТРАНСТВО КЛАСТЕРОВ / DIAGNOSIS / CLINICAL DATA / RECOGNITION / INFORMATIVE SIGNS / COVARIANCE / CORRELATION / CLUSTER SPACE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Митюхин А. И., Майсеня Е. Н.

Рассмотрен метод кластеризации биомедицинских данных, позволяющий повысить эффективность первичной диагностики. Процесс диагностики реализуется на основе методологии распознавания диагностических признаков. Упрощение процесса распознавания выполняется посредством преобразования пространства исходных кластеров. Приведен вычислительный алгоритм кластеризации и классификации признаков.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Митюхин А. И., Майсеня Е. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TRANSFORMATION OF CLINICAL DATA CLUSTERS AT THE STAGE OF INITIAL DIAGNOSIS

A clustering method of biomedical data, which allows to increase the efficiency of the primary diagnosis is considered. Diagnostic process is realized on the basis of diagnostic signs recognition methodology. Simplification of the recognition process is performed by converting the space of initial clusters. It is shown a computational algorithm of clustering and classification characteristics.

Текст научной работы на тему «Преобразование кластеров клинических данных на этапе первичной диагностики»

Заключение

Проводя БОС-тренинг в несколько сеансов (количество сеансов индивидуально) можно выработать такие психофизиологические качества водителей как скорость и точность сенсомоторных реакций, внимание, мышление, память, способность быстро воспринимать сложившуюся ситуацию, умение оценивать временные интервалы. Стабилометрическую платформу D-1 можно использовать для выработки пороговых критериев профессионально важных психофизиологических качеств водителей транспортных средств.

STABILOMETRIC METHODS OF EVALUATION AND DEVELOPMENT OF PROFESSIONALLY IMPORTANT PSYCHOPHYSIOLOGICAL QUALITIES OF DRIVERS

N.V. SHCHERBINA Abstract

It is proposed to use biofeedback training to develop professionally important psychophysiological qualities of the drivers of vehicles.

Keywords: stabilometry, biofeedback, training.

Список литературы

1. Савченко В.В., Свистун М.С., Сикорский В.В. // Автомобильная промышленность. 2008. № 1. С. 32-34.

2. Савченко В.В. // Системный анализ и управление в биомедицинских системах. 2006. Т. 5, № 1. С. 187-191.

3. Романов А.Н. Автотранспортная психология. М., 2002.

4. Дубовский В.А. // Медицинская техника. 2011. № 2. С. 14-17.

5. Дубовский В.А. Устройство для тренировки двигательных функций человека / Патент РБ № 8397.

6. Щербина Н.В., Ковалевич О.В., Савченко В.В. и др. // Сб. матер. II Междунар. науч.-практ. конференции «BIG DATA and Advanced Analytics. Использование BIG DATA для оптимизации бизнеса и информационных технологий». Минск, 2016. С. 256-263.

7. Дубовский В.А. // Докл. БГУИР. 2016. № 4. С. 67-72.

УДК 51.761.615

ПРЕОБРАЗОВАНИЕ КЛАСТЕРОВ КЛИНИЧЕСКИХ ДАННЫХ НА ЭТАПЕ ПЕРВИЧНОЙ ДИАГНОСТИКИ

А.И. МИТЮХИН, Е.Н. МАЙСЕНЯ

Институт информационных технологий Белорусского государственного университета информатики и радиоэлектроники ул. Козлова, 28, Минск, 220037, Беларусь

Минский городской клинический онкологический диспансер, пр. Независимости, 64, Минск, 220013, Беларусь

Поступила в редакцию 10 ноября 2016

Рассмотрен метод кластеризации биомедицинских данных, позволяющий повысить эффективность первичной диагностики. Процесс диагностики реализуется на основе методологии распознавания диагностических признаков. Упрощение процесса распознавания выполняется посредством преобразования пространства исходных кластеров. Приведен вычислительный алгоритм кластеризации и классификации признаков.

Ключевые слова: диагностика, клинические данные, распознавание, информативные признаки, ковариация, корреляция, пространство кластеров.

_Доклады БГУИР_

2016 № 7 (101)

Введение

Получение определенного диагностического решения основывается на анализе диагностических данных. По мере увеличения количества клинических данных принятие достоверного диагностического решения врачом усложняется и может потребовать значительных временных затрат. Медико-биологическое исследование, основанное на специальном математическом описании и анализе, совместно с цифровыми технологиями становится все более востребованным в современной клинической практике, способствует эффективному установлению диагноза или подтверждению его. При этом обеспечивается более высокая степень достоверности результата.

В работе рассматривается метод, описывающий получение первичного диагностического решения с использованием аппарата корреляционного анализа данных. Ввиду того, что ответственность за правильность диагноза остается на враче, проводящем обследование, положительный результат первичной (начальной) диагностики указывает врачу на необходимость проведения более глубоких и детальных обследований, получения другой дополнительной клинически важной информации. Эффективное проведение первичной диагностики способствует более раннему выявлению патологических процессов, выбору адекватного лечение заболевания.

Теоретические принципы

Диагностическое решение с прогнозируемой точностью можно получить с использованием методологии распознавания образов. Процесс распознавания включает в себя такие этапы как: 1) кластеризация; 2) выделение наиболее информативных признаков; 3) процедура обучения; 4) классификация с помощью заранее накопленных эталонных данных; 5) анализ текущей информации пациентов. Рассмотрим составляющие процесса распознавания.

В практических задачах диагностические данные удобно представлять в виде вектора gk = (g1k g2k ••• gNk) признаков (образа). Здесь N обозначает число признаков, к - это номер класса на множестве Ц, •••, классов. Числовые значения координат (или другие представления данных) вектора-образа соответствуют диагностическим признакам пациента. Предполагается, что все векторы пространственно совмещены в момент регистрации

признаков пациентов. Набор этих векторов запишем в виде матрицы G = ... ) ' размером

N х M . Если рассматривать процедуру распознавания с учителем, необходимо иметь набор из w априорно заданных матриц признаков. Структуры матриц определяют размер и форму кластеров.

Отбор наиболее информативных признаков связан с процессом минимизации признакового пространства через преобразование кластеров. В результате такого преобразования максимизируются расстояния между классами и минимизируются внутриклассовые расстояния. Степень уменьшения размерности (размеров кластеров) зависит от уровня статистической зависимости данных. Количественная оценка статистической зависимости выполняется расчетом ковариационных и корреляционных связей [1]. Ковариационная матрица cov(g) для признаков G определяется выражением

cov(g) = E{(g - mg )(g - mg )T}, (1)

T

где E - оператор математического ожидания, mg = E{G} = (m^^, mN ) - средний вектор.

Матрица описывает внутриклассовые и межклассовые диагностические признаки через

2 ■ « « 2 значение с u - дисперсии 7-ой координаты случайного вектора g и значение с ij -

ковариации 7-ой и у'-ой координаты вектора g. Коррелированность данных определяется

коэффициентом

2

СТ

У ~

СТ ,,

с" =ЖГ ■ (2)

4СТ иСт л

В обследуемых случаях реальные диагностические параметры характеризуются изменчивостью от одного пациента к другому. Коэффициенты корреляции (2) могут принимать значения в диапазоне с ¿у е[-1;1]. Характерные же признаки имеют значения коэффициентов

корреляции Су ^ 1, что свидетельствует о наличии межкомпонентных связей в векторах

матрицы О . Диагностическая информация становится в целом избыточной. Упрощение принятия диагностического решения требует устранения или уменьшения избыточности анализируемых данных, что эквивалентно операции понижения размерности диагностического пространства. Подобные рассуждения справедливы как нормальных, так и для аномальных данных обследуемых пациентов.

В общем подходе устранение межкомпонентных связей состоит в обработке коррелированных данных посредством линейного обратимого преобразования [2] вида ё = Аш, (3)

где ортогональная матрица А - ядро преобразования. Результат преобразования определяется свойствами ядром А. Полная декорреляции исходных данных с целью устранения избыточности достигается, если использовать преобразование, которое учитывает утверждение теоремы [3].

Теорема. Ковариационная матрица соу(ё) в области преобразований вектора ё будет иметь диагональные вид, если матрицу А составить из транспонированных собственных векторов ковариационной матрицы соу(ё) . Таким образом, для ковариационной матрицы соу(ё) в области исходных данных существует матрица А размером п х п, составленная из собственных векторов матрицы соу(ё) . Преобразование коррелированных данных с помощью

ядра, составленного из собственных векторов, можно записать как

N

ёк = ЕёгкА,,к = 1,2,...,М, (4)

¿=1

где к обозначает номер коэффициента преобразования исходного вектораёк = ^к g2к ... gNk), А, - вектор-столбец матрицы А .

Для минимизация признакового пространства путем преобразования п -мерного пространства в пространство меньшей размерности вместо использования всех собственных векторов матрицы А применяется ядро А/ меньшей размерностью, (п х I), I < п . Матрица А/ состоит из I собственных векторов, которым отвечают I наибольших собственных чисел X матрицы А. Наиболее информативные признаки коэффициентов ёк соответствуют

дисперсиям ст g =х коэффициентов преобразования (4).

Эффективность описания пространства признаков определяется выбором сохраняемого множества коэффициентов ёк . Критерием при выборе множества коэффициентов является

сохранение I коэффициентов с наибольшими дисперсиями тах ст2g матрицы соу(£). Вычисление собственных векторов и, соответствующих им собственных чисел, матрицы соу(ё), осуществляется путем решения характеристического полинома ковариационной матрицы (можно найти в [4]). Далее рассмотрим пример автоматической классификации нормальных и аномальных клинических признаков.

Вычислительные этапы

Не теряя общего представления о п - мерных векторах диагностических признаков ю классов, ограничимся решением задачи классификации 3-Б векторов образов принадлежащих к

двум классам: Ю[ - нормальные образы и а2 - аномальные образы. Обучающие множества векторов признаков записаны в виде матриц ^ и С2:

(4 3 4 3 5 3 ^ (6 6 6 7 7

О , =

12 1112 -1 -2 0 -10 -2

; С 2 -

3 3 4 3 4 4 1 2 3 2 2 3

На вход классификатора подается вектор признаков g - (g1 g2 g3 ) с неизвестной

классификацией. Необходимо определить его классификацию. Первый этап. Выбор исходных признаков 1. Ковариационные матрицы, соответствующие классам выражения (1).

( 0,6667 - 0,2667 0,6000 ^ ( 0,2667

и ю

2 , определяются из

соу(С1 ) -

-0,2667 0,2667 - 0,4000 0,6000 - 0,4000 - 0,8000

, соу^ ) -

0 - 0,0667 ^ 0 0,3000 0,3000 -0,0667 0,3000 0,5667 2.

Как видно, значительный уровень коэффициентов ковариации с ц компонент g1, ^, gз на всем множестве векторов позволяет реализовать процесс декорреляции признаков

выполнением преобразования (4). Ядро этого преобразования строится на основе знания статистических характеристик (ковариационных матриц) признаков разных классов. Тогда общая ковариационная матрица, описывающая внутриклассовые и межклассовые диагностические признаки, вычисляется как

соУС) = р1 соУС ) + р2 соу(С2), (5)

где Р1 — Р2 — 0,5 - априорное значение вероятности признаков классов. ( 0,9333 -0,2667 0,5333 ^

соу(С) =

-0,2667 0,5667 -0,1000 0,5333 - 0,1000 1,3667

2. Решение характеристического полинома, соответствующего матрице (5), приводит к нахождению следующих собственных значений: А — 0,3834; А2 — 0,7121 и А3 —1,7712 . Основная информация о классификации диагностических признаков содержится в третьем и втором собственном числе. Тогда практически без потери диагностической информации можно обеспечить эффективное представление данных в области преобразований (4). Матрица собственных векторов, соответствующих А^, А2 и А3 , имеет вид ( 0,6108 - 0,5497 0,5698 ^

А —

0,7495 0,6333 0,1925 -0,2551 0,5447 - 0,7989

(6)

Выбор признаков в области преобразований

На этом этапе рассматривается процедура минимизации пространства кластеров. Для этого строится ядро преобразования , состоящее лишь из двух собственных векторов, а вектор gк будет содержать 2 ненулевые координаты в области преобразований. Применяя усечение матрицы (6) и используя выражение g^ = А / g, получим следующие матрицы обучающих признаков в области преобразований для множеств С и С: ( 3,8238 3,9001 3,0743 3,6313 4,3808 3,9001 ^

8и —

g2l —

ч-1,2746 -1,2737 -1,0195 -0,4757 -0,7308 -1,2737, (6,2044 6,0119 6,4527 6,7614 7,2022 6,4527 ^ 0,9024 1,7013 3,0449 1,4462 2,7898 3,0449

(7)

(8)

Таким образом, устранение избыточности за счет минимизацию внутриклассовой энтропии признаков позволило преобразовать, уменьшить пространственный размер кластеров.

Второй этап. Классификация. Решение задачи классификации сводится к определению оптимальных разделяющих границ кластеров или в разработке процедур отнесения признаков к различным классам образов. Пусть в качестве обучающих множеств классификатора

выступают вектора признаков = (к к ... §1к)Т , где / обозначает число признаков, к -номер класса на множестве { Ю[, Ю2,.., ю№ }. К классу Ю[ и Ю2 относятся векторы-столбцы матриц (7) и (8) соответственно. Если образы {ёк } располагаются в двумерном пространстве признаков и кластеры не пересекаются, разделяющая граница определяется как [5]

И2 -||ё2||2 = 2(ё1 - )Т ё, (9)

где £1 ё2 средние значения векторов образов классов ©1 и ©2 соответственно.

Процесс обучения классификатора распознаванию образов происходит после получения функции, описывающей разделение кластеров. Подставляя в выражение (9)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

значения координат векторов ё, ё2, ё , получаем линейную разделяющую (дискриминантную) функцию С(£) классификатора вида С(ё) = 2,7291 + 3,1629 -15,8679 .

Коэффициенты дискриминантной функции задают параметры и порог классификатора. Автоматическая классификация признака £к выполняется на основе решающего правила классификатора. Принятия решения о классе образа с неизвестной классификацией реализуется с помощью контрольного множества из испытательных образов, точная

классификация которых известна. Вычисления значений С(§) для испытательного множества привели к следующим решающим правилам работы автоматического классификатора: если С(§) < 0 то ё ею1; если С(§) > 0, то ё £ю2 .

Заключение

Преобразование кластеров клинических данных на основе вычисления распределения дисперсий диагностических признаков позволяет уменьшить размерность анализируемых данных, упростить решающее правило работы классификатора практически без потери диагностической информации. Предлагаемый подход может оказаться особенно эффективным на этапе первичной диагностики заболеваний и для текущего контроля состояния тяжелобольных пациентов.

TRANSFORMATION OF CLINICAL DATA CLUSTERS AT THE STAGE

OF INITIAL DIAGNOSIS

A.I. MITSIUKHN, E.N. MAISENIA

Abstract

A clustering method of biomedical data, which allows to increase the efficiency of the primary diagnosis is considered. Diagnostic process is realized on the basis of diagnostic signs recognition methodology. Simplification of the recognition process is performed by converting the space of initial clusters. It is shown a computational algorithm of clustering and classification characteristics.

Keywords: diagnosis, clinical data, recognition, informative signs, covariance, correlation, cluster space.

Список литературы

1. Митюхин А.И. Цифровая обработка речи и анализ изображений. Минск, 2016.

2. Mitsiukhin A.I. // Proceedings 58 International Scientific Colloquium. DE,TU Ilmenau, 2014. ID 2066.

3. Стренг Г. Линейная алгебра и ее применения. М.,1980.

4. МэтьюзДж.,Финк К. Численные методы. Использование МАТЛАБ. М., 2001.

5. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М., 2005.

УДК620.3; 6:531-022.532; 612.821; 612.821.8; 681.3.07; 621.383

МИКРОФЛЮИДНАЯ ЯЧЕЙКА ДЛЯ МАТРИЦ ОПТИЧЕСКИХ РЕЗОНАТОРНЫХ СЕНСОРНЫХ СИСТЕМ

А.В. САЕЧНИКОВ12, Э.А. ЧЕРНЯВСКАЯ1, В.А. САЕЧНИКОВ1, А. ОСТЕНДОРФ2

'Белорусский государственный университет пр. Независимости, 4, Минск, 220030, Республика Беларусь.

2Ruhr Universität Bochum Universitätsstraße, 150, Bochum, 44801, Germany

Поступила в редакцию 11 ноября 2016

Разработана микрофлюидная ячейка, содержащая матрицу распределенных сферических оптических сенсоров. Моделирование динамики потока жидкости показало, что ячейка обеспечивает высокую степень гомогенности скорости движения потока исследуемого биомедицинского раствора. Проведены тестовые эксперименты по детектированию изменений биологической среды внутри ячейки.

Ключевые слова: моды шепчущих галерей, микрофлюидная ячейка, оптический резонанс, сенсор, вычислительная гидродинамика.

Введение

Последнее время оптические сенсорные системы, основанные на резонансе мод шепчущих галерей (WGM), получили большое распространение для детектирования биологических соединений вплоть до отдельных молекул и генов [1]. Для выполнения анализа многокомпонентных соединений была разработана матрица чувствительных оптических сенсоров [2] с применение аддитивных технологий. В дальнейшем была предложена соответствующая методика индивидуализации сенсоров для обеспечения выборочного взаимодействия с компонентами сложных соединений [3].

Известно, что область чувствительности WGM сенсора определяется границами распространения световой волны внутри кольцевого резонатора [4]. Таким образом, сенсор чувствителен только к тем биологическим компонентам, которые находятся вблизи данной области. Поэтому должна быть обеспечена контролируемая водная среда вокруг чувствительной ячейки матрицы. Это позволит проводить количественный анализ/сравнение спектральных откликов от различных сенсоров матрицы.

Простое размещение водного биологического раствора на матрице резонаторов может привести к следующим неоднозначностям последующего анализа данных:

- трудно обеспечить хорошую обтекаемость раствора вокруг сенсора, находящегося внутри матричной структуры;

- временная неопределенность концентрации биологического агента из-за испарения водной основы;

i Надоели баннеры? Вы всегда можете отключить рекламу.