Автоматизированная система контроля качества персональных данных РГМДР
Иванов В.К., Максютов М.А., Матяш В.А., Севанькаев В.А., Бубнов С.К.
Медицинский радиологический научный центр РАМН, Обнинск
Автоматизированная система контроля качества персональных данных Российского государственного медико-дозиметрического регистра представляет собой мощный программно-математический комплекс, включающий ряд подсистем: синтаксического контроля, логического контроля, контроля миграции наблюдаемого контингента, согласованности различных баз данных Регистра. В стадии разработки находятся подсистемы контроля исполнения протоколов и эпидемиологического контроля. Автоматизированная система контроля качества позволяет на государственном уровне создать основную базу данных Регистра, информация в которой проходит многоплановую проверку и верификацию.
Automated quality control system for personal data of RNMDR
Ivanov V.K., Maksyutov M.A., Matyash V.A., Sevankaev V.A., Bubnov S.K.
Medical Radiological Research Center of RAMS, Obninsk
The automated quality control system for personal data of Russian National Medical and Dosimetric Registry is a powerful software package including a series of subsystems: syntactical control, logic control, control of migration of contingent under monitoring, compatibility of Registry data. The subsystems to control execution of protocols and epidemiologic control are being developed. The automated quality control system allows having a master database at the national level of the Registry, in which information is subjected to diverse checking and verification.
Введение
Одним из наиболее важных направлений в развитии медицины в настоящее время является проведение крупномасштабных эпидемиологических исследований. Для осуществления подобного рода проектов в масштабах государства создаются крупномасштабные медицинские регистры (КМР) с лежащими в их основе базами данных (БД) сверхбольшого объема.
Беспрецедентный опыт по внедрению КМР в России был накоплен при создании и эксплуатации Российского государственного медико-дозиметрического регистра (Регистра) лиц, подвергшихся радиационному воздействию вследствие аварии на ЧАЭС [1]. На 01.01.1997 г. база данных Регистра включала демографическую, медицинскую и дозиметрическую информацию на более 480 тысяч человек.
Регистр имеет иерархическую структуру и включает четыре уровня наблюдения:
• государственный,
• региональный,
• областной,
• районный.
Сбор информации в Регистр осуществляется на районном и областном уровнях при проведении
диспансеризации и в процессе обращения лица за медицинской помощью, а также при проведении специализированного обследования путем выкопировки данных из амбулаторных карт и других документов в специальные формы, называемые первичными бумажными документами. Затем они вводятся в ЭВМ и далее информация поступает в региональный центр (РЦ), который объединяет несколько областей данного региона. В РЦ формируется БД региона, которая передается на государственный уровень регистра. На государственном уровне Регистра происходит объединение региональных БД в БД государственного уровня (основную БД) Регистра.
Существуют следующие типы первичных бумажных документов Регистра:
• регистрационная карта,
• кодировочный талон,
• лист учета данных дозиметрии,
• карта внесения изменений в вышеперечисленные документы.
Регистрационная карта заполняется один раз при регистрации человека в Регистре. Коди-ровочный талон заполняется по итогам диспансеризации или обращаемости за медицинской помощью в течение года. Лист учета данных до-
зиметрии заполняется при проведении специализированного дозиметрического обследования. Карта внесения изменений заполняется по мере необходимости внесения изменений в вышеперечисленные документы. Т.к. кодировочный талон, лист учета данных дозиметрии и карта внесения изменений заполняются многократно, их называют документами динамического наблюдения.
Хранение информации после ее ввода в ЭВМ с первичных бумажных документов осуществляется в таблицах БД специального формата, каждая из которых соответствует определенному типу первичных бумажных документов. Таким образом, для хранения данных в Регистре определены следующие таблицы:
• файл регистрационных карт,
• файл кодировочных талонов,
• файл листов учета данных дозиметрии (дозиметрических талонов),
• файл карт внесения изменений.
Файл регистрационных карт является основной таблицей. Все остальные файлы связаны с ним при помощи внешних ключей, состоящих из комбинации кода ОКПО и регистрационного номера.
Одной из наиболее важных задач, возникающих при ведении Регистра, является обеспечение высокого качества персональных данных, хранящихся в БД. Учитывая распределенность региональных центров по всей территории России, различную степень подготовки персонала в местах сбора данных, а также огромный объем собираемой информации, очевидно, что без автоматизированной комплексной системы контроля функционирование Регистра становится невозможным. Такая система создана специалистами лаборатории программно-математического обеспечения Регистра и постоянно дополняется новыми подсистемами, которые осуществляют более сложные виды контроля [2, 3].
На сегодняшний день она включает следующие виды контроля:
• синтаксический контроль,
• логический контроль,
• контроль миграции,
• контроль согласованности информации в различных БД Регистра.
В стадии разработки находятся подсистема эпидемиологического контроля и подсистема контроля исполнения протоколов, содержащих ошибки и некорректности, выявленные вышеперечисленными системами контроля при приеме информации.
Иерархическая структура системы сбора данных Регистра, а также строго определенный круг задач, решаемый на каждом из его уровней, указывает на необходимость включения различного
числа видов контроля на разных уровнях Регистра. На областном (районном) уровне, где производится ввод первичных документов, вполне достаточно синтаксического и логического контроля. На уровне РЦ производится также контроль миграции и контроль исполнения протоколов. И только на государственном уровне Регистра будут использоваться все вышеперечисленные виды контроля. Рассмотрим их более подробно.
1. Синтаксический контроль данных
Синтаксический контроль данных осуществляется при вводе первичных бумажных документов, а также при приеме информации. Он включает в себя анализ значений полей БД, соответствующих определенным полям первичных бумажных документов, вводимых оператором. В файлах БД Регистра существуют следующие поля: числовое (numeric), дата (date), литерал (literal), символьное (character).
Информация о доступных пользователю полях хранится в специальной таблице описания данных (Data Definition Table). Помимо различных данных, необходимых для вывода и редактирования информации в экранных формах, она содержит ряд полей, значения которых отвечают за синтаксический контроль информации:
level - уровень значимости поля, log_name - ссылка на внешнюю процедуру контроля,
min_val - минимальное значение поля, max_val - максимальное значение поля. Уровень значимости поля, отвечает за обязательность его заполнения. Если level не содержит пустого значения, то заполнение поля является обязательным. Ссылка на внешнюю процедуру контроля необходима для тех полей, заполнение которых происходит по четко определенным правилам. Это характерно для полей, значения которых декодируются по различным словарям или справочникам. Обычно внешняя процедура содержит проверку формата значения поля и вызов функции поиска введенного значения в каком-либо словаре или справочнике. Min_val и max_val содержат соответственно минимально и максимально допустимые значения поля.
В режиме ввода или редактирования данных система производит анализ вводимого значения поля в соответствии с его типом, длиной и параметрами, указанными в соответствующих полях таблицы описания данных (рисунок 1).
При попытке ввести неверное значение поля система генерирует сообщение о ошибке и выводит его на экран. В случае приема данных информация о неверно заполненных полях выводится в файл специального формата - протокол, который передается на региональный (областной, районный) уровни Регистра для исправления ошибок.
а
Рис. 1. Блок-схема синтаксического контроля поля.
- точка возврата к началу процедуры ввода и редактирования поля.
2. Логический контроль данных
Логический контроль данных, также как синтаксический, производится при вводе первичных бумажных документов и при приеме информации [4, 5]. Он проходит в несколько этапов. Первым этапом логического контроля при вводе документов является проверка на дублирование первичного ключа и попытка выявления повторной регистрации лица в БД (рисунок 2). При заполнении первичных бумажных документов каждому из людей, данные на которых подлежат внесению в Регистр, присваивается персональный идентификатор, состоящий из кода ОКПО медицинского учреждения, в котором состоит на учете данное лицо, и его регистрационный номер внутри этого учреждения. Комбинация кода ОКПО и регистрационного номера является уникальной в рамках регистра и является первичным ключом основного файла БД и внешним ключом для связанных с ним файлов документов динамического наблюдения. Следует отметить, что для обеспечения максимального сжатия информации паспортно-регистрационные данные документов динамического наблюдения не хранятся в БД и связь между файлами осуществляется на уровне связи первичного ключа основного файла БД (файла регистрационных карт) с внешними ключами файлов документов динамического наблюдения. Кроме этого существует вероятность повторной регистрации человека в базе данных с другим первичным ключом. Поэтому обеспечение уникальности первичного ключа и исключение возможности повторной регистрации человека в БД при вводе первичных документов является одной из наиболее важных задач, решаемых системой логического контроля. При вводе регистрационный карты пользователь должен заполнить идентификационный фрагмент, состоящий из персонального идентификатора, фамилии, имени, отчества и даты рождения лица, информацию о котором необходимо внести в Регистр. Если система обнаруживает совпадение персонального идентификатора, на экран выводится идентификационные поля регистрационной карты, которая уже введена в БД и система блокирует ввод остальных полей документа. Если идентификационные поля вводимой и введенной регистрационных карт полностью совпали, произошла попытка повторной регистрации лица. В этом случае необходимо проверить оба комплекта первичных документов и оставить для ввода один из них. Если карты с одинаковыми персональными идентификаторами заполнены на разных людей, вводимую регистрационную карту и документы динамического наблюдения необходимо перерегистрировать, присвоив им новый персональный идентификатор.
Не обнаружив совпадения персональных идентификаторов, система осуществляет проверку возможности ввода данных на одного человека под разными персональными идентификаторами. Для этого она использует ключ, состоящий из первых двух букв фамилии, первой буквы имени, первой буквы отчества и даты рождения в формате год, месяц, день (ГГММДД). Если система обнаруживает "похожую” регистрационную карту в БД, ее идентификационные поля, также как в случае дублирования персонального идентификатора, выводятся на экран. Если карты принадлежат разным людям, пользователь имеет возможность продолжить дальнейший ввод полей регистрационной карты. При приеме информации на региональном и государственном уровне Регистра осуществляется процедура контроля за миграцией наблюдаемого контингента, которая включает в себя контроль дублей персональных идентификаторов и проверку повторной регистрации лиц, но уже в несколько ином контексте. Эта процедура будет описана ниже.
Вторым этапом логического контроля является проверка непротиворечивости заполнения полей документов (рисунок 3). На этом этапе существуют два вида логического контроля:
• контроль на уровне документа,
• контроль на уровне пакета документов.
Пакет документов состоит из регистрационной
карты и связанных с ней документов динамического наблюдения (кодировочных и дозиметрических талонов). При логическом контроле на уровне одного документа система производит проверку непротиворечивости заполнения различных полей в рамках данного документа в соответствии с инструкцией по его заполнению. Например, если при вводе регистрационной карты система обнаруживает, что у ликвидатора дата приезда в зону радиационного воздействия более поздняя, чем дата выезда из зоны, генерируется соответствующее сообщение о ошибке. Система также осуществляет логический контроль на уровне пакета документов. В этом случае производится проверка непротиворечивости заполнения полей различных документов, заполненных на человека, включенного в Регистр. Например, если в ранее введенном кодировочном талоне заполнен фрагмент о смерти человека, то ввод нового кодировочного талона, заполненного после смерти, отвергается. Существуют три типа сообщений, генерируемых системой при проведении логического контроля:
• предупреждение,
• ошибка,
• фатальная ошибка.
Предупреждение генерируется в случае возникновения возможной, но крайне редкой ситуации в логике заполнения полей документов. Например, если человек был снят с учета в данном региональном (областном) центре по причине выбытия на другое место жительства (и был поставлен признак выбытия в поле "Причина снятия с учета” кодировочного талона), а через некоторый промежуток времени снова был взят на учет в том же центре, при попытке ввода нового кодировочного талона система выдаст предупреждение о попытке ввода данных о человеке после его выбытия. При этом пользователю разрешается продолжить ввод информации на данного человека, если он уверен, что действует правильно.
Система выводит сообщение об ошибке при возникновении противоречий в логике заполнения полей. Например, если в регистрационной карте человека, возраст которого не достиг 16 лет, в качестве документа, удостоверяющего личность, фигурирует паспорт, система генерирует сообщение об ошибке.
Фатальная ошибка возникает в том случае, если обнаруженное системой противоречие в логике заполнения полей делает невозможной дальнейшую статистическую обработку документа либо всех документов на данного человека. Система не дает возможность пользователю сохранить введенный документ до тех пор, пока обнаруженная фатальная ошибка не будет исправлена. Например, если у ликвидатора дата приезда в зону радиационного воздействия более поздняя, чем дата выезда из зоны, система запрещает запись полей документа в базу данных до тех пор, пока ошибка не будет исправлена.
Последним этапом логического контроля является процедура связывания регистрационной карты с документами динамического наблюдения. Она выполняется при вводе в БД документов динамического наблюдения. Каждый файл хранения данных Регистра наряду с полями, видимыми пользователем, имеет несколько служебных полей, ввод, просмотр и редактирование которых пользователю недоступно. Одно из этих полей содержит внутренний ключ, который формируется для каждой введенной регистрационной карты независимо от пользователя. Кроме внутреннего ключа в регистрационной карте существуют поля счетчиков документов динамического наблюдения, связанных с этой картой. При вводе нового документа динамического наблюдения внутренний ключ заносится из регистрационной карты в соответствующее поле вводимого документа, а счетчик документов данного типа в регистрационной карте увеличивается на единицу. Данная процедура практически исключает разрыв связей между
регистрационной картой и документами динамического наблюдения и потерю информации. Если система обнаруживает рассогласование связей динамических документов с файлом регистрационных карт, на экран выводится соответствующее сообщение и пользователю необходимо, разобравшись в происшедшем, выполнить процедуру восстановления связей, предусмотренную в системе.
3. Контроль миграции
Контроль миграции наблюдаемого контингента производится на региональном и государственном уровнях Регистра (рисунок 4). Его смысл заключается в исключении потери информации при миграции лица, включенного в Регистр, между областями и регионами. Процедура контроля миграции осуществляется следующим образом: при загрузке очередной регистрационной карты система осуществляет поиск по ключу, состоящему из двух первых букв фамилии, первой буквы имени, первой буквы отчества и даты рождения в формате ГГММДД. Если в БД обнаруживается уже загруженная карта с таким же ключом, производится сравнение идентификационных полей загружаемой и загруженной регистрационных карт. К идентификационным полям в данном случае относят фамилию, имя, отчество, дату рождения, пол, адрес места жительства, включающий почтовый индекс, регион, область, район, населенный пункт, улицу, дом, корпус и квартиру, сведения о документе, предъявленном при регистрации.
Если система обнаруживает полное совпадение идентификационных полей, она приступает к анализу хронологии заполнения регистрационных карт и документов динамического наблюдения. При этом в БД остается карта с меньшей датой заполнения. Далее анализируется полнота заполнения регистрационных карт и, при необходимости, автоматически производится дозагрузка незаполненных полей из карты, которая не попадет в БД. Персональный идентификатор (первичный ключ), состоящий из кода учреждения по ОКПО и регистрационного номера, присваиваемый загруженной регистрационной карте, берется из регистрационной карты с наибольшей датой заполнения. При этом меняются внешние ключи всех документов динамического наблюдения, принадлежащих регистрационной карте с меньшей датой для их связи с загруженной регистрационной картой. В том случае, если совпадение идентификационных полей не является полным, система предоставляет пользователю визуально определить: принадлежат ли карты одному лицу. На экран выводятся идентификационные поля загружаемой и загруженной регистрационных карт, причем несовпадающие поля выделены цветом. Если пользователь идентифицирует принадлежность регистрационных карт одному лицу, выполняется процедура, описанная выше. При этом генерируется запись в файл протокола миграции.
4. Контроль согласованности информации в различных БД Регистра
Одной из наиболее важных проблем, возникающих при ведении Регистра, является поиск и верификация медико-дозиметрических данных. Необходимость решения этой задачи, особенно в области верификации диагнозов онкологических заболеваний и причин смерти, явилась одной из причин создания дополнительных регистров в составе Регистра (регистр причин смерти, канцер-регистр и т.д.). В связи с тем, что дополнительные регистры являются самостоятельными структурными единицами в составе Регистра, имея собственный формат первичных документов, инструкции по их заполнению и программно-математические комплексы по вводу и корректировке данных, назрела необходимость связи БД этих регистров с основной базой данных Регистра. Для этого была создана система контроля согласованности информации в различных БД Регистра (рисунок 5). Она работает в пакетно-интерактивном режиме. Принципиальную схему работы этой системы продемонстрируем на примере канцер-регистра. Обнаружив в основной БД Регистра документ с установленным диагнозом онкозаболевания, система ищет аналог в БД соответствующего регистра. Поиск осуществляется по персональному идентификатору и по комбинации фамилии, имени, отчества и даты рождения. Если запись не найдена, система выводит сообщение в протокол с указанием паспортно-регистрационных данных и кодов диагнозов онкозаболевания или смерти. Обнаружив данные об искомом человеке в БД канцер-регистра, система сравнивает соответствующие коды диагнозов, введенные в основную БД с кодами диагнозов, хранящимися в БД канцер-регистра. При полном совпадении кодов система переходит к поиску следующего случая онкозаболевания. Если коды диагнозов не совпадают, осуществляется вывод на экран информации о рассматриваемом случае онкозаболевания и на основании дополнительных данных, хранящихся в БД канцер-регистра, эксперт-медик делает заключение о правильности кодировки данного заболевания и, при необходимости, исправляет неверный код. Информация о произведенном изменении кода онкозаболевания или смерти заносится в файл протокола. Такую же процедуру осуществляет система, если обнаруживает, что у лица, включенного в канцер-регистр, отсутствует информация в основной БД регистра. Если в БД канцер-регистра оказались данные на лиц, включенных в наблюдаемый контингент, но информация о которых отсутствует в основной БД регистра, они также включаются в протокол и отправляются на места сбора данных (областной или районный
уровни регистра) для того, чтобы включить их в БД регионов, в которых они проживают и постараться собрать о них максимально возможный объем информации. Таким образом, при проведении процедуры согласованности данных различных БД Регистра формируется рабочая база данных, с которой работают все аналитические системы Регистра.
5. Эпидемиологический контроль данных и контроль за исполнением протоколов
Находящаяся в стадии разработки подсистема эпидемиологического контроля данных позволит получить количественные оценки качества персональных данных, опираясь на медико-демографические данные и основные соотношения медицинской статистики и радиационной эпидемиологии (рисунок 6). Она позволит производить интерактивный анализ информации, полученной от РЦ. Подсистема будет включать в себя модуль контроля онкозаболеваемости и смертности, а также подсистему контроля неонкологической заболеваемости и смертности [6, 7].
Данный вид контроля будет осуществляться непосредственно перед очередным приемом информации от РЦ. Перед приездом представителей РЦ принимаемая информация по коммуникационным сетям (Internet, E-Mail, и т.д.) передается на государственный уровень Регистра. Подсистема эпидемиологического контроля производит реорганизацию переданного массива данных в свертку, т.е. таблицу специального формата, в которой содержатся необходимые количественные показатели, необходимые для анализа переданной информации.
При анализе онкозаболеваемости и смертности будет производиться сравнение переданной информации с медико-демографическими данными указанного региона, а также обобщенными данными, полученными в предыдущие годы, хранящимися в файлах специального формата аналитической системы Регистра. При превышении показателя онкозаболеваемости и смертности спонтанного уровня производится эпидемиологический анализ извлеченных данных с целью получить выход дополнительных случаев онкозаболевания и смерти на основании половозрастных и дозовых характеристик. Также производится анализ структуры онкологической заболеваемости и смертности.
Неонкологическая заболеваемость и смертность будет контролироваться также на основании информации за предыдущие годы и медикодемографических данных по тем классам заболеваний, информация о которых собирается органами государственной медицинской статистики.
Рис. 5. Блок-схема системы контроля согласованности данных.
Рис. 6. Блок-схема системы эпидемиологического контроля данных.
Результаты контроля в виде табличных форм и графиков выводятся на экран автоматизированного рабочего места эксперта-эпидемиолога, который на их основании делает заключение о качестве переданных в Регистр данных. Подсистема контроля исполнения протоколов будет проверять исправление синтаксических и логических ошибок и некорректностей, информация о которых была передана представителям РЦ при предыдущей передаче данных, а также проводить анализ протоколов контроля миграции и эпидемиологического контроля данных. Она будет обеспечивать обратную связь между РЦ и государственным уровнем Регистра.
Подсистема будет состоять из трех модулей, каждый из которых будет оценивать работу РЦ по исправлению ошибок, обнаруженных в данных, переданных в Регистр при предыдущем приеме информации.
Первый модуль будет проводить сравнение результатов синтаксического и логического видов контроля, проведенного при текущем и предыдущем приеме информации. Будет произведен построковый линкидж протоколов синтаксического и логического видов контроля, а также сравнение итоговых таблиц с результатами контроля, содержащими обобщенную информацию по каждому типу обнаруженных ошибок. На основании полученных результатов будет оцениваться работа РЦ по исправлению обнаруженных ошибок.
Модуль контроля исполнения протоколов миграции будет анализировать работу РЦ с протоколами миграции, переданными его представителям при предыдущей передаче данных. Будет произведен анализ отметок в протоколе миграции и наличия отметок о выбытии (для выбывших из РЦ) и дополнительных документах динамического наблюдения (для взятых на учет из другого РЦ).
Модуль контроля исполнения протоколов эпидемиологического контроля будет отслеживать изменение показателей заболеваемости и смертности и выполнение рекомендаций, переданных экспертом-эпидемиологом представителям РЦ при предыдущем приеме данных.
Заключение
Автоматизированная система контроля качества персональных данных Регистра представляет собой мощный программно-математический комплекс, включающий целый ряд подсистем, каждая из которых обеспечивает определенный вид контроля.
Подсистема синтаксического контроля осуществляет проверку вводимых значений полей БД, соответствующих определенным полям первичных бумажных документов.
Подсистема логического контроля производит проверку непротиворечивости заполнения полей документов, а также исключает возможность по-
вторной регистрации и ввода в БД двух лиц с одним персональным идентификатором.
Подсистема контроля миграции наблюдаемого контингента исключает потерю информации при миграции лица, включенного в Регистр, между областями и регионами.
Подсистема согласованности различных БД Регистра обеспечивает высокое качество персональных данных, хранящихся как в основной БД Регистра, так и БД подрегистров в его составе.
Таким образом, автоматизированная система контроля качества персональных данных позволяет на государственном уровне Регистра сгенерировать основную базу данных, информация в которой подверглась многоплановым проверкам и верификации.
Находящаяся в стадии разработки подсистема контроля исполнения протоколов позволит осуществлять проверку работы РЦ по исправлению ошибок, а также оценивать работу с протоколами миграции и эпидемиологического контроля.
Подсистема эпидемиологического контроля позволит оперативно оценить качество передаваемых данных с точки зрения медицинской статистики и радиационной эпидемиологии при приеме информации.
Внедрение этих новых подсистем позволит значительно повысить качество персональных данных, что, в свою очередь, выведет эпидемиологические исследования, проводимые в рамках Регистра, на качественно новый уровень.
Литература
1. Цыб А.Ф., Деденков А.Н., Иванов В.К. и др. Разработка всесоюзного регистра лиц, подвергшихся воздействию радиации в результате аварии на ЧАЭС//Медицинская радиология. - 1989. - № 7. - С. 3-6.
2. Цыб А.Ф., Иванов В.К., Максютов М.А. и др. Программно-математический комплекс Российского государственного медико-дозиметрического регист-ра//Радиация и риск. - 1992. - Вып. 1. - С. 132-146.
3. Иванов В.К., Максютов М.А., Севанькаев В.А. и др. Информационное и программно-математическое обеспечение по ведению канцер-регистрации на загрязненных радионуклидами территориях Рос-сии//Радиация и риск. - 1995. - Вып. 6. - С. 14-21.
4. Parkin D.M., Muir C.S. Comparability and quality of data//Cancer incidence in five continents, Vol. VI (IARK Scientific publications N 120). - 1992. - P. 45-173.
5. Parkin D.M., Chen V.W. et al. Comparability and quality control in cancer registration. IARK technical report N 19, 1994.
6. McDonald C.J., Barnett G.O. Medical-record systems //Medical Informatics. Computer Applications in Health Care. Addison-Wesley Publishing Company, 1989, Ch. 6, pp. 181-218.
7. Wiederhold G., Perreault L.E. Hospital information systems//Medical Informatics. Computer Applications in Health Care. Addison-Wesley Publishing Company, 1990, Ch. 7, pp. 219-243.