Научная статья на тему 'ОПЫТ ИСПОЛЬЗОВАНИЯ СКАН-КАРТ ПРИ МАССОВЫХ МЕДИЦИНСКИХ ОБСЛЕДОВАНИЯХ (на примере диспансеризации детей Санкт-Петербурга)'

ОПЫТ ИСПОЛЬЗОВАНИЯ СКАН-КАРТ ПРИ МАССОВЫХ МЕДИЦИНСКИХ ОБСЛЕДОВАНИЯХ (на примере диспансеризации детей Санкт-Петербурга) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
70
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ОПЫТ ИСПОЛЬЗОВАНИЯ СКАН-КАРТ ПРИ МАССОВЫХ МЕДИЦИНСКИХ ОБСЛЕДОВАНИЯХ (на примере диспансеризации детей Санкт-Петербурга)»

и информационные

технологии

И.А.КРАСИЛЬНИКОВ, Е.И.ПЕТРОВ, Н.А.БОРОВИКОВА, Д.И.МОРОЗОВ,

Санкт-Петербургский медицинский информационно-аналитический центр

ОПЫТ ИСПОЛЬЗОВАНИЯ СКАН-КАРТ ПРИ МАССОВЫХ МЕДИЦИНСКИХ ОБСЛЕДОВАНИЯХ

(на примере диспансеризации детей Санкт-Петербурга]

В Санкт-Петербурге диспансеризацией в 2002г было охвачено более 800 тыс. детей. К сожалению, обследование и заполнение «Медицинской карты Всероссийской диспансеризации детей», утвержденной Минздравом России, начали осуществляться за несколько месяцев до выпуска в эксплуатацию специализированного программного обеспечения (ПО), предназначенного для формирования баз данных диспансеризации и отправки соответствующих сведений в НИИ педиатрии и детской хирургии. Таким образом, сложилась ситуация, когда в 60 детских поликлиниках города было накоплено от нескольких сотен до 50-60 тыс. карт, подлежащих вводу в информационную систему.

Проведенная нами экспериментальная оценка скорости ввода карт показала, что даже опытный оператор за час работы может ввести не более 10 карт. При загрузке рабочего места в течение 12 часов в день (работа операторов в 2-3 смены) за неделю (5 рабочих дней) можно ввести не более 600 карт. Вероятно, это максимальная оценка производительности, так как при этом не учитываются гигиенические и технические перерывы, которые на практике и в соответствии с гигиеническими нормативами занимают 10-15% времени.

Для ввода всех карт в течение полугода потребовалось бы оснащение 50-55 рабочих мест, обучение и организация работы более 100 операторов. При этом, кроме расходов на приобретение вычислительной техники и оплату труда операторов, пришлось бы нести неизбежные затраты на приобретение мебели, содержание технических

© И.А.Красильников, Е.И.Петров, 2004 г. © Н.А.Боровикова, Д.И.Морозов, 2004 г.

специалистов, обслуживающих вычислительную технику, и другие накладные расходы.

С учетом вышеизложенного нами была предложена, а затем реализована технология, позволившая существенно сэкономить финансовые и материальные ресурсы и в течение нескольких месяцев сформировать базу данных диспансеризации детей в Санкт-Петербурге. Работа выполнялась в тесном сотрудничестве с нашим партнером, фирмой ABBYY, разработчиком систем распознавания и автоматизированной обработки форм. ABBYY предоставила соответствующее программное обеспечение, бесплатно обучила специалиста МИАЦ, а также оказывала техническую и консультационную поддержку на всех этапах выполнения проекта.

На основе «Медицинской карты Всероссийской диспансеризации детей» была разработана скан-карта (рис.1). Определенную трудность представляло размещение на одностраничной карте более 100 полей, так как обычно количество вопросов на скан-формах не превышает 20-30.

Проблема была решена за счет максимального сокращения числа текстовых полей в карте и замена их выборными пунктами, где предлагается только поставить метку напротив конкретного ответа, а не вписывать сам ответ. Кроме того, для заполнения карты использовались справочники районов и улиц города. Это позволило существенно сократить время заполнения формы и время ее последующей обработки.

Скан-карта была вначале апробирована, а затем тиражирована в типографии.

Выдаче карт в детские поликлиники предшествовала разработка инструкции по их заполнению и детальный инструктаж представителей лечебных учреждений. Однако при переносе данных с уже заполненных при проведении диспансеризации медицинских карт на скан-карты медицинские работники делали весьма много ошибок, выявленных как в процессе сканирования и верификации, так и позже, при логической проверке непротиворечивости данных.

Определенную роль, видимо, сыграло негативное отношение к заполнению скан-карт, так как для медицинских учреждений это была фактически повторная работа по заполнению бумажных документов. Достаточно грубые ошибки (отсутствие фамилий, дат рождения, наличие несуществующих кодов улиц, учреждений, диагнозов по МКБ-10 и др.) имелись почти в 10% карт. Как следовало из бесед с медицинскими работниками, число ошибок было бы значительно меньше при правильной организации работы по диспансеризации и заполнении скан-карт непосредственно в процессе медицинского обследования.

В ряде случаев, несмотря на инструктаж, в

Рис.1. Скан-карта

и информационные

технологии

поликлиниках заполняли не отпечатанные в типографии, а ксерокопированные скан-карты (при копировании происходит перекос служебных меток, что приводит к невозможности распознавания). Такие карты приходилось возвращать на повторное заполнение.

Для обработки бланков «Медицинской карты Всероссийской диспансеризации детей» использовался программно-аппаратный комплекс на базе персональных компьютеров, высокопроизводительных сканеров Fujitsu и ПО ABBYY FormReader (версия Enterprise). Это ПО, специально предназначенное для промышленного ввода большого числа форм, позволяет при этом уменьшить трудозатраты и обеспечивает контроль правильности распознавания данных.

Работа комплекса включает четыре этапа:

1. Сканирование документа и его регистрация (автоматическое присвоение имени графическому файлу, содержащему образ документа).

2. Распознавание графических элементов.

3. Проверка оператором правильности распознавания (верификация).

4. Экспорт полученных данных в базу данных.

Начиная с этапа сканирования, отдельные формы объединяются в пакеты. Величина пакетов (количество входящих в них форм) определяется администратором комплекса. Соответственно этапам работы в состав комплекса входят четыре типа станций, на которые устанавливается специализированное для конкретных операций ПО:

♦ сканирования-регистрации;

Станция сканирования Станция сканирования

Рис.2. Структура комплекса

♦ распознавания;

♦ верификации;

♦ администратора.

Комплекс в целом имеет архитектуру «клиент-сервер». При этом компьютер, выполняющий роль сервера, одновременно может являться сервером приложений (система управления базами данных), файл-сервером (хранение пакетов графических файлов, подлежащих обработке) и станциями распознавания и верификации (в нашем проекте станция распознавания была установлена на отдельном компьютере).

Все компьютеры, на которых установлены какие-либо части комплекса, объединяются в локальную вычислительную сеть. Структура использовавшегося нами комплекса представлена на рис.2.

Операционной системой для рабочих станций являлась MS Windows 2000, для сервера - MS Windows 2000 Server. База данных управлялась MS SQL 7.0.

Аппаратная конфигурация сервера и станций сильно зависит от объема вводимых данных. Наиболее существенные требования предъявляются к процессору, оперативной памяти, объему жестких дисков и пропускной способности локальной сети.

В статье приведены рекомендуемые требования к серверу и станциям компании ABBYY и конфигурация компьютеров, которые реально использовались в проекте (табл. 1).

Как показала практика, «узкими» местами комплекса являются сервер и станция распознавания. Производительность сервера в первую очередь зависела от скорости работы дисковой подсистемы, обеспечивающей постоянный обмен больших массивов данных в сети.

На станции распознавания, где происходит перевод данных из аналогового в цифровой вид, наибольшая нагрузка ложится на центральный процессор и скорость распознавания прямо пропорциональна мощности процессора.

В начале работы для станции распознавания нами использовался компьютер на базе Pentium III 800 МГц, при этом время распознавания одной карты составляло 4-5 сек. После замены процессора на Pentium IV c частотой 1,4 ГГц скорость распознавания увеличилась в 3-4 раза (распознавание одной карты в течение 1-2 сек.)

Как выяснилось в первые недели реализации проекта, существенным параметром, влияющим на организацию работы, загрузку оборудования и эф-

Таблица 1

Рекомендуемые требования к серверу и станциям компании ABBYY и конфигурация компьютеров

Название станции ABBYY Проект

Сервер базы данных — файл-сервер — станция администратора Оперативная память 128Мб или выше (рекомендуется 256 Мб) Процессор Pentium II 300 МГц или выше Рекомендуется HDD SCSI Свободное место на HDD 4Гб или выше (рекомендуется 8Гб). Оперативная память 1Гб Процессор Pentium IV 2,4 ГГц HDD: SCSI 17 Гб -для базы данных, UATA 120 GB -для хранения файлов-пакетов

Станция сканирования Оперативная память 32Мб или выше (рекомендуется 64Мб) Процессор Pentium 133 МГц Свободное место на HDD 250Мб или выше TWAIN-совместимый сканер Оперативная память 256Мб Процессор Pentium IV Celeron 1,4 ГГц HDD: 40 GB Сканер: SCSI Fujitsu fi4640S

Станция распознавания Оперативная память 64Мб или выше (рекомендуется 128Мб) Процессор Pentium II 266 МГц или выше (рекомендуется 400МГц) Свободное место на HDD 300Мб или выше Оперативная память 512 Процессор Pentium IV 1,4 ГГц HDD: 40 GB

Станция верификации Оперативная память 64Мб или выше (рекомендуется 128Мб) Процессор Pentium II 266 МГц или выше (рекомендуется 400МГц) Свободное место на HDD 300Мб или выше Оперативная память 512 Процессор Pentium IV Celeron 1,4 ГГц HDD: 40 GB

>

и информационные

технологии

>

фективность использования рабочего времени операторов станций верификации, является размер пакета. Вначале мы использовали рекомендуемый производителем ПО объем пакетов в 300 Мб (2000 анкет).

Однако после окончания верификации пакета и его отправки на сервер станция верификации ожидала завершение процесса от 40-50 мин. до 1,5 часа. В это время оператор вынужденно отдыхал или при наличии свободного компьютера переходил к другой станции верификации.

Использованние

программно-аппаратного комплекса

позволило достаточно

успешно выполнить поставленную

задачу по формированию

базы данных диспансеризации детей

в г.Санкт-Петербурге.

В качестве первопричины столь длительного времени передачи пакета на сервер мы вначале посчитали низкую пропускную способность сети и заменили хаб,через который были объединены станции, на свитч. Это несколько ускорило процесс передачи данных, но существенно ситуацию не изменило.

После консультации с техническими специалистами компании ABBYY было установлено, что причина длительной задержки связана с особенностями ПО и единственным относительно приемлемым решением является уменьшение объема пакетов в 4 раза (до 500 анкет), сокращающее время ожидания до 15-25 мин. В целом, время обработки такого пакета по этапам работы комплекса составило:

♦ сканирование - 15-20 мин.;

♦ распознавание - 10-15 мин.;

♦ верификация (зависит от квалификации оператора, и качества заполнения карт) - 25-60 мин.;

♦ возврат пакета на сервер для экспорта - 2025 мин.;

♦ экспорт группы проверенных пакетов - 1020 мин.

Наиболее медленным этапом работы является этап верификации, ограниченный скоростью работы человека. Однако именно ручная проверка данных позволяет выявить наибольшее количество ошибок распознавания. Этап верификации в свою очередь может быть разделен на несколько последовательно выполняемых операций.

После получения распознанного пакета (со станции распознавания через сервер комплекса) происходит групповая проверка символов, точность распознавания которых системой автоматически определяется как сомнительная.

Сначала проверяются неуверенно распознанные цифры, потом буквы, потом поля. Процесс групповой верификации построен таким образом, что оператор за один раз просматривает, например, все неуверенно распознанные буквы «А» с первых 50 карт, затем буквы «Б» и так далее, то есть отпадает необходимость искать букву «А» отдельно на каждой карте.

Причем оператор всегда может сравнить проверяемый символ с тем, как он был написан в исходной скан-карте (на экран может выводиться ее графический образ). Скорость групповой верификации во многом зависит от качества заполнения скан-карт: четкость и правильность написания букв, отсутствие на скан-карте грязных пятен и т.д.

После групповой проверки символов осуществляется проверка правил. Правила описываются один раз в процессе создания шаблона скан-кар-ты и позволяют проводить логическую проверку распознанных данных.

Например, можно задать проверку даты рождения, даты заполнения карты, правильности кодов МКБ-10 и др. Процесс проверки правил происходит автоматически, карты с ошибками выводятся оператору для уточняющей ручной проверки. Скорость проверки правил зависит от точности и правильности внесенной на скан-карту информации.

Основной проблемой, с которой мы столкнулись, было неправильное заполнение дат рождения и кодов МКБ-10 (проставлялись коды, отсутствующие в классификаторе). По завершении проверок и внесения корректировок пакет возвращается на сервер для экспорта в базу данных.

Таблица 2

Характеристика реальной производительности комплекса в течение 8-часового рабочего дня

Этап Оборудование Персонал Производительность (тыс. скан-карт)

Сканирование 2 сканера, 2 станции сканирования 1 оператор 10

Распознавание Станция распознавания - 10

Верификация 6 станций верификации 3-4 оператора 4

Экспорт 1 станция администратора 1 администратор 10

Окончательная проверка экспортированных пакетов 1 станция администратора 1 администратор 10

Формирование БД 1 станция администратора 1 администратор 10

Несколько слов следует сказать о сканировании и связанных с ним проблемах, поскольку соответствующее оборудование пока не имеет широкого распространения в здравоохранении. В проекте были использованы два высокопроизводительных сканера фирмы Fujitsu fi-4640s с документированной скоростью сканирования до 100 страниц в минуту.

Использование двух сканеров было обусловлено необходимостью ввода большого числа скан-карт, «страховкой» на случай поломки одного из сканеров, а также потребностью технического ухода за ними в течение рабочего дня. Получив некоторый опыт, один оператор справлялся с работой одновременно на двух сканерах. Технический уход заключался в основном в очистке механизма автоматической подачи бумаги от бумажной пыли. Следует обратить внимание, что на работе механизма автоподачи весьма негативно сказывалось использование при заполнении скан-карт различных средств замазки ошибок.

Для работы сканеров было необходимо использовать в качестве расходных материалов прижимные ролики (ресурс - 100-150 тыс. листов) и прижимные площадки (ресурс 50 тыс. листов). К сожалению, нам не удалось найти в Санкт-Петербурге ни одной компании, занимающейся поставкой комплектующих и сервисным обслуживанием сканеров Fujitsu.

В результате закупки осуществлялись через Москву, а к концу проведения проекта стали отмечаться проблемы с механизмом автоматической подачи листов («зажевывание» бумаги и снижение скорости прохода листов через сканер), хотя количество обработанных каждым сканером листов

не превысило 450 тыс. при документированном ресурсе сканеров 800 тыс. листов.

Характеристика реальной производительности использованного нами комплекса в течение 8-часового рабочего дня представлена в табл. 2.

Подводя итоги, можно сделать вывод, что использованный нами программно-аппаратный комплекс позволил достаточно успешно выполнить поставленную задачу по формированию базы данных диспансеризации детей в Санкт-Петербурге. В ходе проекта была осуществлена настройка ABBYY FormReader Enterprise Edition под наши задачи, что потребовало определенных временных ресурсов.

В компании ABBYY были написаны дополнительные сервисные модули, позволяющие организовать процесс обработки более эффективно. В целом можно отметить, что программа ABBYY FormReader (версия Enterprise) продемонстрировала высокую надежность в работе.

Полученный нами опыт позволяет рекомендовать реализацию аналогичных проектов при потребности обработки объема в 300 тыс. и более карт или при ежедневной нагрузке от 10 тыс., учитывая достаточно высокую стоимость высокопроизводительных сканеров и программного обеспечения. При меньших объемах могут быть использованы локальные комплексы, состоящие из одной рабочей станции (компьютера), установленной на ней программы FormReader, версии Desktop и одного сканера.

Себестоимость таких комплексов намного ниже, поэтому их использование оправдано и при небольших объемах работы (5-10 тыс. одностранич-ных форм).

i Надоели баннеры? Вы всегда можете отключить рекламу.