Научная статья на тему 'РАЗРАБОТКА МОДЕЛИ ИНФОРМАЦИОННОЙ СИСТЕМЫ СБОРА И ОБРАБОТКИ БОЛЬШИХ ДАННЫХ В МЕДИЦИНЕ'

РАЗРАБОТКА МОДЕЛИ ИНФОРМАЦИОННОЙ СИСТЕМЫ СБОРА И ОБРАБОТКИ БОЛЬШИХ ДАННЫХ В МЕДИЦИНЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
6
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
медицина / большие данные / информационная система / машинное обучение / визуализация данных / medicine / big data / information system / machine learning / data visualization

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бакирбаев С. Б., Кожамкулова Ж. Ж., Байтенова Л. М.

Статья посвящена разработке недорогой и эффективной модели информационной системы для сбора и обработки больших данных в медицине. Рассматриваются ключевые аспекты создания системы, включая использование доступных технологий сбора данных (электронные медицинские карты, носимые устройства, медицинские изображения), платформ обработки данных с открытым исходным кодом (Apache Hadoop, Spark) и гибридных решений для хранения данных. Основное внимание уделяется выбору инструментов, которые обеспечивают баланс между стоимостью и производительностью. В статье также описаны подходы к визуализации данных для медицинских специалистов с использованием бесплатных и недорогих инструментов. Цель исследования — создание модели, которая повышает эффективность работы медицинских учреждений при минимальных затратах.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бакирбаев С. Б., Кожамкулова Ж. Ж., Байтенова Л. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF MODEL OF INFORMATION SYSTEM FOR COLLECTING AND PROCESSING BIG DATA IN MEDICINE

The article is devoted to the development of an inexpensive and effective model of an information system for collecting and processing big data in medicine. The key aspects of creating a system are considered, including the use of available data collection technologies (electronic medical records, wearable devices, medical images), open-source data processing platforms (Apache Hadoop, Spark) and hybrid data storage solutions. The main focus is on the selection of tools that provide a balance between cost and performance. The article also describes approaches to data visualization for medical professionals using frand low-cost tools. The goal of the study is to create a model that improves the efficiency of medical institutions at minimal cost.

Текст научной работы на тему «РАЗРАБОТКА МОДЕЛИ ИНФОРМАЦИОННОЙ СИСТЕМЫ СБОРА И ОБРАБОТКИ БОЛЬШИХ ДАННЫХ В МЕДИЦИНЕ»

УДК 004.622 Бакирбаев С.Б., Кожамкулова Ж.Ж., Байтенова Л.М.

Бакирбаев С.Б.

магистрант Университет Туран (г. Алматы, Казахстан)

Кожамкулова Ж.Ж.

Phd. асоц. проф. кафедры IT (АУЭС) Университет Туран (г. Алматы, Казахстан)

Научные руководитель:

Байтенова Л.М.

д.э.н. профессор Университет Туран (г. Алматы, Казахстан)

РАЗРАБОТКА МОДЕЛИ ИНФОРМАЦИОННОЙ СИСТЕМЫ СБОРА И ОБРАБОТКИ БОЛЬШИХ ДАННЫХ В МЕДИЦИНЕ

Аннотация: статья посвящена разработке недорогой и эффективной модели информационной системы для сбора и обработки больших данных в медицине. Рассматриваются ключевые аспекты создания системы, включая использование доступных технологий сбора данных (электронные медицинские карты, носимые устройства, медицинские изображения), платформ обработки данных с открытым исходным кодом (Apache Hadoop, Spark) и гибридных решений для хранения данных. Основное внимание уделяется выбору инструментов, которые обеспечивают баланс между стоимостью и производительностью. В статье также описаны подходы к визуализации данных для медицинских специалистов с использованием бесплатных и недорогих инструментов. Цель исследования — создание модели, которая повышает эффективность работы медицинских учреждений при минимальных затратах.

Ключевые слова: медицина, большие данные, информационная система, машинное обучение, визуализация данных.

Сфера медицины накапливает огромные объемы данных, включая электронные медицинские карты, результаты анализов, данные медицинских изображений и информацию с носимых устройств. Эти данные могут использоваться для улучшения качества медицинских услуг, повышения точности диагностики и оптимизации работы медицинских учреждений. Однако традиционные подходы к их обработке часто оказываются недостаточно эффективными. Разработка модели информационной системы для сбора и анализа больших данных может стать ключевым этапом в решении этих проблем [1].

Методы сбора и обработки данных:

Для создания эффективной системы необходимо определить методы сбора данных, включая использование электронных медицинских карт, носимых устройств и систем обработки медицинских изображений. Основные технологии обработки данных включают распределенные системы (Apache Hadoop, Spark), алгоритмы машинного обучения и потоковый анализ. Каждый из этих методов обладает своими преимуществами и недостатками, что делает необходимым их тщательное сравнение и адаптацию для медицинской отрасли [2].

Предложенная модель включает следующие ключевые компоненты:

1. Подсистема сбора данных: отвечает за сбор данных из различных источников.

2. Подсистема обработки: включает модули для фильтрации, очистки и анализа данных.

3. Подсистема хранения: распределенные базы данных для структурированной и неструктурированной информации.

4. Подсистема визуализации: предоставляет врачам и администраторам доступ к результатам анализа.

Применение данной системы позволит [3]:

- Повысить точность диагностики за счет использования аналитических инструментов.

- Оптимизировать распределение ресурсов медицинских учреждений.

- Автоматизировать процессы обработки и анализа данных, сократив затраты времени и ресурсов.

Оценка финансовой части программной и аппаратной инфраструктуры

[4].

Таблица 1. Оценки аппаратной части.

Компонент Аппаратные требования Примерная стоимость (в USD)

Сбор данных Серверы для интеграции данных: - Базовый сервер с 4-ядерным CPU, 16 GB RAM - Носимые устройства и сенсоры: - Устройства для мониторинга сердечного ритма и физической активности (Fitbit Charge, Xiaomi Mi Band, Apple Watch) - Сенсоры уровня глюкозы в крови (например, Dexcom G6, Freestyle Libre 2) - Медицинские сенсоры для измерения артериального давления (iHealth Clear BPM1) 5,000-15,000

Обработка данных Серверы для обработки: - Многоядерные CPU - 64-128 GB RAM - Возможность горизонтального масштабирования 10,000-30,000

Хранение данных Системы хранения: - NAS или SAN с объёмом от 20 TB - Резервное копирование и отказоустойчивость 8,000-25,000

Анализ данных Серверы с GPU для машинного обучения: - GPU-серверы (например, с NVIDIA RTX 3080/3090) - 128 GB RAM - Высокоскоростные SSD 15,000-50,000

Визуализация Рабочие станции для пользователей: - ПК с 4-ядерным CPU, 8 GB RAM - Мониторы высокого разрешения 1,000-5,000

Общая стоимость аппаратной части: 39,000-125,000 USD в зависимости от масштабов и требований.

Таблица 2. Оценка программной части.

Компонент Рекомендации Инструменты Примерная стоимость

Обработка данных Использование открытых платформ Apache Hadoop, Spark 0-10,000

Хранение данных Гибридный подход MongoDB, Amazon S3 5,000-20,000 (в год)

Анализ данных Простые ML-алгоритмы Scikit-learn, TensorFlow Lite 0-5,000

Визуализация Простые дашборды Google Data Studio, Power BI 0-2,000

Общая стоимость программной части: 10,000-42,000 USD в зависимости от объема данных и числа пользователей.

В целях экономии можно уменьшить затраты если использовать существующие сервера и оборудования для сбора данных. В части обработки данных необходимо начать с минимальной конфигурации и масштабировать по мере роста объемов данных. Использование облачных сервисов обработки данных как AWS, Azure может снизить начальные затраты на оборудование, не прибегая сразу к их покупке. В части разработки программной части необходимо использовать программное обеспечение с открытым исходным кодом и веб приложения, это существенно уменьшит затраты на лицензию и требование к рабочим станциям [5][6].

Разработка и внедрение модели информационной системы для работы с большими данными в медицине является перспективным направлением, способным существенно улучшить качество медицинских услуг. Важно отметить, что успешная реализация таких систем требует тщательного выбора методов, инструментов и технологий, а также их адаптации под нужды конкретных медицинских организаций. При грамотном подходе и выборе оптимальных решений можно создать эффективную информ6ационную систему для сбора и обработки больших данных в медицине с минимальными

затратами на аппаратную часть. Важно тщательно спланировать требования и возможности организации, чтобы внедрить систему сбора и обработки больших данных, для повышения в будущем эффективности работы медицинской организации.

СПИСОК ЛИТЕРАТУРЫ:

1. Бакирбаев С. Б., Байтенова Л. М., Кожамкулова Ж. Ж. Сравнительный анализ методов сбора и обработки больших данных в медицине // Proceedings of the 7th International Scientific Conference «Research Retrieval and Academic Letters». Warsaw, Poland, 2024. С. 203-211;

2. Raghupathi, W., & Raghupathi, V. Big data analytics in healthcare: Promise and potential;

3. What Are the 5 Vs of Big Data? [Электронный ресурс]: https://w.coursera.org/articles/5-vs-of-big-data;

4. Самсонов, А. А. Машинное обучение и анализ данных в медицине. Медицинская информатика и инженерия;

5. Shvachko, K., Kuang, H., Radia, S., & Chansler, R. The Hadoop Distributed File System;

6. Хорев, В. Б. Использование Apache Spark в обработке больших данных

Bakirbaev S.B., Kozhamkulova Zh.Zh., Baitenova L.M.

Bakirbaev S.B.

Turan University (Almaty, Kazakhstan)

Kozhamkulova Zh.Zh.

Turan University (Almaty, Kazakhstan)

Scientific advisor:

Baitenova L.M.

Turan University (Almaty, Kazakhstan)

DEVELOPMENT OF MODEL OF INFORMATION SYSTEM FOR

COLLECTING AND PROCESSING BIG DATA IN MEDICINE

Abstract: the article is devoted to the development of an inexpensive and effective model of an information system for collecting and processing big data in medicine. The key aspects of creating a system are considered, including the use of available data collection technologies (electronic medical records, wearable devices, medical images), open-source data processing platforms (Apache Hadoop, Spark) and hybrid data storage solutions. The main focus is on the selection of tools that provide a balance between cost and performance. The article also describes approaches to data visualization for medical professionals using frand low-cost tools. The goal of the study is to create a model that improves the efficiency of medical institutions at minimal cost.

Keywords: medicine, big data, information system, machine learning, data visualization.

i Надоели баннеры? Вы всегда можете отключить рекламу.