УДК 004.622 Бакирбаев С.Б., Кожамкулова Ж.Ж., Байтенова Л.М.
Бакирбаев С.Б.
магистрант Университет Туран (г. Алматы, Казахстан)
Кожамкулова Ж.Ж.
Phd. асоц. проф. кафедры IT (АУЭС) Университет Туран (г. Алматы, Казахстан)
Научные руководитель:
Байтенова Л.М.
д.э.н. профессор Университет Туран (г. Алматы, Казахстан)
РАЗРАБОТКА МОДЕЛИ ИНФОРМАЦИОННОЙ СИСТЕМЫ СБОРА И ОБРАБОТКИ БОЛЬШИХ ДАННЫХ В МЕДИЦИНЕ
Аннотация: статья посвящена разработке недорогой и эффективной модели информационной системы для сбора и обработки больших данных в медицине. Рассматриваются ключевые аспекты создания системы, включая использование доступных технологий сбора данных (электронные медицинские карты, носимые устройства, медицинские изображения), платформ обработки данных с открытым исходным кодом (Apache Hadoop, Spark) и гибридных решений для хранения данных. Основное внимание уделяется выбору инструментов, которые обеспечивают баланс между стоимостью и производительностью. В статье также описаны подходы к визуализации данных для медицинских специалистов с использованием бесплатных и недорогих инструментов. Цель исследования — создание модели, которая повышает эффективность работы медицинских учреждений при минимальных затратах.
Ключевые слова: медицина, большие данные, информационная система, машинное обучение, визуализация данных.
Сфера медицины накапливает огромные объемы данных, включая электронные медицинские карты, результаты анализов, данные медицинских изображений и информацию с носимых устройств. Эти данные могут использоваться для улучшения качества медицинских услуг, повышения точности диагностики и оптимизации работы медицинских учреждений. Однако традиционные подходы к их обработке часто оказываются недостаточно эффективными. Разработка модели информационной системы для сбора и анализа больших данных может стать ключевым этапом в решении этих проблем [1].
Методы сбора и обработки данных:
Для создания эффективной системы необходимо определить методы сбора данных, включая использование электронных медицинских карт, носимых устройств и систем обработки медицинских изображений. Основные технологии обработки данных включают распределенные системы (Apache Hadoop, Spark), алгоритмы машинного обучения и потоковый анализ. Каждый из этих методов обладает своими преимуществами и недостатками, что делает необходимым их тщательное сравнение и адаптацию для медицинской отрасли [2].
Предложенная модель включает следующие ключевые компоненты:
1. Подсистема сбора данных: отвечает за сбор данных из различных источников.
2. Подсистема обработки: включает модули для фильтрации, очистки и анализа данных.
3. Подсистема хранения: распределенные базы данных для структурированной и неструктурированной информации.
4. Подсистема визуализации: предоставляет врачам и администраторам доступ к результатам анализа.
Применение данной системы позволит [3]:
- Повысить точность диагностики за счет использования аналитических инструментов.
- Оптимизировать распределение ресурсов медицинских учреждений.
- Автоматизировать процессы обработки и анализа данных, сократив затраты времени и ресурсов.
Оценка финансовой части программной и аппаратной инфраструктуры
[4].
Таблица 1. Оценки аппаратной части.
Компонент Аппаратные требования Примерная стоимость (в USD)
Сбор данных Серверы для интеграции данных: - Базовый сервер с 4-ядерным CPU, 16 GB RAM - Носимые устройства и сенсоры: - Устройства для мониторинга сердечного ритма и физической активности (Fitbit Charge, Xiaomi Mi Band, Apple Watch) - Сенсоры уровня глюкозы в крови (например, Dexcom G6, Freestyle Libre 2) - Медицинские сенсоры для измерения артериального давления (iHealth Clear BPM1) 5,000-15,000
Обработка данных Серверы для обработки: - Многоядерные CPU - 64-128 GB RAM - Возможность горизонтального масштабирования 10,000-30,000
Хранение данных Системы хранения: - NAS или SAN с объёмом от 20 TB - Резервное копирование и отказоустойчивость 8,000-25,000
Анализ данных Серверы с GPU для машинного обучения: - GPU-серверы (например, с NVIDIA RTX 3080/3090) - 128 GB RAM - Высокоскоростные SSD 15,000-50,000
Визуализация Рабочие станции для пользователей: - ПК с 4-ядерным CPU, 8 GB RAM - Мониторы высокого разрешения 1,000-5,000
Общая стоимость аппаратной части: 39,000-125,000 USD в зависимости от масштабов и требований.
Таблица 2. Оценка программной части.
Компонент Рекомендации Инструменты Примерная стоимость
Обработка данных Использование открытых платформ Apache Hadoop, Spark 0-10,000
Хранение данных Гибридный подход MongoDB, Amazon S3 5,000-20,000 (в год)
Анализ данных Простые ML-алгоритмы Scikit-learn, TensorFlow Lite 0-5,000
Визуализация Простые дашборды Google Data Studio, Power BI 0-2,000
Общая стоимость программной части: 10,000-42,000 USD в зависимости от объема данных и числа пользователей.
В целях экономии можно уменьшить затраты если использовать существующие сервера и оборудования для сбора данных. В части обработки данных необходимо начать с минимальной конфигурации и масштабировать по мере роста объемов данных. Использование облачных сервисов обработки данных как AWS, Azure может снизить начальные затраты на оборудование, не прибегая сразу к их покупке. В части разработки программной части необходимо использовать программное обеспечение с открытым исходным кодом и веб приложения, это существенно уменьшит затраты на лицензию и требование к рабочим станциям [5][6].
Разработка и внедрение модели информационной системы для работы с большими данными в медицине является перспективным направлением, способным существенно улучшить качество медицинских услуг. Важно отметить, что успешная реализация таких систем требует тщательного выбора методов, инструментов и технологий, а также их адаптации под нужды конкретных медицинских организаций. При грамотном подходе и выборе оптимальных решений можно создать эффективную информ6ационную систему для сбора и обработки больших данных в медицине с минимальными
затратами на аппаратную часть. Важно тщательно спланировать требования и возможности организации, чтобы внедрить систему сбора и обработки больших данных, для повышения в будущем эффективности работы медицинской организации.
СПИСОК ЛИТЕРАТУРЫ:
1. Бакирбаев С. Б., Байтенова Л. М., Кожамкулова Ж. Ж. Сравнительный анализ методов сбора и обработки больших данных в медицине // Proceedings of the 7th International Scientific Conference «Research Retrieval and Academic Letters». Warsaw, Poland, 2024. С. 203-211;
2. Raghupathi, W., & Raghupathi, V. Big data analytics in healthcare: Promise and potential;
3. What Are the 5 Vs of Big Data? [Электронный ресурс]: https://w.coursera.org/articles/5-vs-of-big-data;
4. Самсонов, А. А. Машинное обучение и анализ данных в медицине. Медицинская информатика и инженерия;
5. Shvachko, K., Kuang, H., Radia, S., & Chansler, R. The Hadoop Distributed File System;
6. Хорев, В. Б. Использование Apache Spark в обработке больших данных
Bakirbaev S.B., Kozhamkulova Zh.Zh., Baitenova L.M.
Bakirbaev S.B.
Turan University (Almaty, Kazakhstan)
Kozhamkulova Zh.Zh.
Turan University (Almaty, Kazakhstan)
Scientific advisor:
Baitenova L.M.
Turan University (Almaty, Kazakhstan)
DEVELOPMENT OF MODEL OF INFORMATION SYSTEM FOR
COLLECTING AND PROCESSING BIG DATA IN MEDICINE
Abstract: the article is devoted to the development of an inexpensive and effective model of an information system for collecting and processing big data in medicine. The key aspects of creating a system are considered, including the use of available data collection technologies (electronic medical records, wearable devices, medical images), open-source data processing platforms (Apache Hadoop, Spark) and hybrid data storage solutions. The main focus is on the selection of tools that provide a balance between cost and performance. The article also describes approaches to data visualization for medical professionals using frand low-cost tools. The goal of the study is to create a model that improves the efficiency of medical institutions at minimal cost.
Keywords: medicine, big data, information system, machine learning, data visualization.