Научная статья на тему 'Основные принципы расчета необходимой численности участников клинических исследований. Часть 1. Общие подходы (обзор)'

Основные принципы расчета необходимой численности участников клинических исследований. Часть 1. Общие подходы (обзор) Текст научной статьи по специальности «Медицинские науки и общественное здравоохранение»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
клиническое исследование / выборка / популяция / размер выборки / дизайн исследования / гипотеза исследования / размер эффекта / статистическая модель / clinical trial / study sample / population / sample size / study design / study hypothesis / effect size / statistical model

Аннотация научной статьи по медицинским наукам и общественному здравоохранению, автор научной работы — Шредер О.В., Горячев Д.В., Меркулов В.А.

ВВЕДЕНИЕ. Корректное планирование клинического исследования (КИ) является гарантией получения валидных результатов оценки эффективности и безопасности медицинского применения лекарственных средств. В настоящее время отсутствуют четкие критерии выбора базовых элементов, лежащих в основе разработки клинического дизайна, и прежде всего исследовательских гипотез, способов определения ожидаемой величины терапевтического эффекта, уровня статистической значимости и мощности исследования, статистических моделей расчета размера выборки субъектов. ЦЕЛЬ. Систематизация и гармонизация технических требований к планированию дизайна клинического исследования в части определения размера выборки. ОБСУЖДЕНИЕ. В работе представлены основные требования и методологические подходы к разработке дизайнов медицинских исследований, направленных на оценку эффективности и подтверждение безопасности лекарственных средств. Приведены базовые принципы расчета необходимого размера выборки для обеспечения необходимой мощности планируемого КИ, а также математические модели, описывающие нулевые и альтернативные гипотезы, используемые при разработке основных статистических дизайнов исследования эффективности и безопасности лекарственных препаратов. Показано, что общим требованием к качеству выборки субъектов исследования является обеспечение ее репрезентативности, то есть соответствие целевой популяции КИ. Выбор математической (вероятностной) модели, на основе которой формулируются исследовательские гипотезы и производится расчет выборки целевой популяции, базируется прежде всего на базовой информации о терапевтическом воздействии и специфических особенностях популяции, полученной из систематических обзоров результатов ранее проведенных исследований, а также в соответствии с классификацией исследуемого препарата. Для расчета размера выборки должны быть определены и обоснованы на этапе разработки дизайна и статистической модели КИ критерии в соответствии с общими требованиями к репрезентативности. Использование программных приложений для расчета мощности и требуемого размера выборки упрощает выполнение рутинных процедур планирования клинических исследований. ВЫВОДЫ. Основных и базовых статистических моделей определения размера выборки недостаточно для проведения качественного исследования. Большое разнообразие дизайнов КИ, методологических подходов к планированию, реализации схем лечения, сбора и анализа данных КИ требует разработки статистических планов каждого конкретного КИ, включая оценку отдельных случаев, метода анализа выживания, относительного риска, диагностические тесты, адаптивные и другие нечасто используемые планы исследования. Следствием этого является востребованность в разработке дополнительных руководств и других информационных ресурсов, содержащих комментарии и примеры применения вероятностной статистики, и последующей гармонизации созданных национальных стандартов с международными.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по медицинским наукам и общественному здравоохранению , автор научной работы — Шредер О.В., Горячев Д.В., Меркулов В.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Basic Principles for Calculating the Required Number of Participants in Clinical Trials. Part 1. Common Approaches (Review)

INTRODUCTION. A well-planned design of a clinical trial (CT) ensures valid results in assessing the efficacy and safety of medicines for human use. However, at present, there are no clear criteria for selecting the basic elements underlying the development of a CT design. This lack of selection criteria primarily concerns planning research hypotheses, calculating the expected therapeutic effect, statistical significance level, and study power, and selecting statistical models for sample size calculation. AIM. The authors aimed to systematise and harmonise the technical requirements for sample size determination in designing CTs. DISCUSSION. First, this article describes the basic requirements for and methodological approaches to designing CTs to assess the efficacy of medicines and to confirm their safety. Next, the article presents the basic principles for calculating the sample size to ensure the required CT power. Finally, the article covers the mathematical models describing the null and alternative hypotheses used in the development of basic statistical designs for efficacy and safety studies. A general requirement for the quality of a study sample is to ensure its representativeness, that is, its compliance with the target CT population. The selection of a mathematical (probabilistic) model to formulate research hypotheses and calculate study samples representative of the target population is based on general data from systematic reviews of previous studies on the therapeutic effects of the study product and the specific characteristics of the target population. In addition, model selection relies on the classification of the study product. Sample size calculation requires defining and justifying certain criteria at the stage of CT design and statistical model development, in line with the general requirements for representativeness. Software for calculating the statistical power and required sample size facilitates routine CT planning. CONCLUSIONS. The sample size determination requires more than the application of basic statistical models. Given the multitude of CT designs and methodological approaches to CT planning, treatment regimens, and data collection and analysis, it is necessary to consider the statistical design of each CT on a case-by-case basis. This consideration should include assessments of individual cases, survival analysis methods, relative risks, diagnostic tests, and adaptive and other infrequent CT designs. The above highlights the need to develop additional guidelines and information resources that would explain and demonstrate the use of probabilistic statistics. The resulting national standards should be harmonised with international standards.

Текст научной работы на тему «Основные принципы расчета необходимой численности участников клинических исследований. Часть 1. Общие подходы (обзор)»

КЛИНИЧЕСКИЕ ИССЛЕДОВАНИЯ CLINICAL TRIAL

УДК 615.038

https://doi.org/10.30895/1991-2919-2024-14-3-338-350 Обзор | Review

Ц) Check for updates

С«)]

BY 4.0

Основные принципы расчета необходимой численности участников клинических исследований. Часть 1. Общие подходы (обзор)

Федеральное государственное бюджетное учреждение «Научный центр экспертизы средств медицинского применения» Министерства здравоохранения Российской Федерации, Петровский б-р, д. 8, стр. 2, Москва, 127051, Российская Федерация

Н Шредер Ольга Васильевна; shrederov@expmed. ги

ВВЕДЕНИЕ. Корректное планирование клинического исследования (КИ) являет-ИвНШНИ ся гарантией получения валидных результатов оценки эффективности и безопасности медицинского применения лекарственных средств. В настоящее время отсутствуют четкие критерии выбора базовых элементов, лежащих в основе разработки клинического дизайна, и прежде всего исследовательских гипотез, способов определения ожидаемой величины терапевтического эффекта, уровня статистической значимости и мощности исследования, статистических моделей расчета размера выборки субъектов.

ЦЕЛЬ. Систематизация и гармонизация технических требований к планированию дизайна клинического исследования в части определения размера выборки. ОБСУЖДЕНИЕ. В работе представлены основные требования и методологические подходы к разработке дизайнов медицинских исследований, направленных на оценку эффективности и подтверждение безопасности лекарственных средств. Приведены базовые принципы расчета необходимого размера выборки для обеспечения необходимой мощности планируемого КИ, а также математические модели, описывающие нулевые и альтернативные гипотезы, используемые при разработке основных статистических дизайнов исследования эффективности и безопасности лекарственных препаратов. Показано, что общим требованием к качеству выборки субъектов исследования является обеспечение ее репрезентативности, то есть соответствие целевой популяции КИ. Выбор математической (вероятностной) модели, на основе которой формулируются исследовательские гипотезы и производится расчет выборки целевой популяции, базируется прежде всего на базовой информации о терапевтическом воздействии и специфических особенностях популяции, полученной из систематических обзоров результатов ранее проведенных исследований, а также в соответствии с классификацией исследуемого препарата. Для расчета размера выборки должны быть определены и обоснованы на этапе разработки дизайна и статистической модели КИ критерии в соответствии с общими требованиями к репрезентативности. Использование программных приложений для расчета мощности и требуемого размера выборки упрощает выполнение рутинных процедур планирования клинических исследований. ВЫВОДЫ. Основных и базовых статистических моделей определения размера выборки недостаточно для проведения качественного исследования. Большое разнообразие дизайнов КИ, методологических подходов к планированию, реализации схем лечения, сбора и анализа данных КИ требует разработки статистических планов каждого конкретного КИ, включая оценку отдельных случаев, метода анализа выживания, относительного риска, диагностические тесты, адаптивные и другие нечасто используемые планы исследования. Следствием этого является востребованность в разработке дополнительных руководств и других информационных ресурсов, содержащих комментарии и примеры применения вероятностной статистики, и последующей гармонизации созданных национальных стандартов с международными.

© О.В. Шредер, Д.В. Горячев, В.А. Меркулов, 2024 338 I Регуляторные исследования и экспертиза лекарственных средств. 2024. Т. 14, № 3

О.В. Шредер X Э, Д.В. Горячев Э, В.А. Меркулов

Ключевые слова: клиническое исследование; выборка; популяция; размер выборки; дизайн исследования; гипотеза исследования; размер эффекта; статистическая модель

Для цитирования: Шредер О.В., Горячев Д.В., Меркулов В.А. Основные принципы расчета необходимой численности участников клинических исследований. Часть 1. Общие подходы (обзор). Регуляторные исследования и экспертиза лекарственных средств. 2024;14(3):338-350. https://doi.org/10.30895/1991-2919-2024-14-3-338-350

Финансирование. Работа выполнена в рамках государственного задания ФГБУ «НЦЭСМП» Минздрава России № 05600026-24-00 на проведение прикладных научных исследований (номер государственного учета НИР № 124022300127-0). Потенциальный конфликт интересов. Д.В. Горячев - член редакционной коллегии журнала «Регуляторные исследования и экспертиза лекарственных средств» с 2018 г. Остальные авторы заявляют об отсутствии конфликта интересов.

Basic Principles for Calculating the Required Number of Participants in Clinical Trials. Part 1. Common Approaches (Review)

Scientific Centre for Expert Evaluation of Medicinal Products, 8/2 Petrovsky Blvd, Moscow 127051, Russian Federation

IS Olga V. Shreder; shrederov@expmed. ru

INTRODUCTION. A well-planned design of a clinical trial (CT) ensures valid results in assessing the efficacy and safety of medicines for human use. However, at present, there are no clear criteria for selecting the basic elements underlying the development of a CT design. This lack of selection criteria primarily concerns planning research hypotheses, calculating the expected therapeutic effect, statistical significance level, and study power, and selecting statistical models for sample size calculation.

AIM. The authors aimed to systematise and harmonise the technical requirements for sample size determination in designing CTs.

DISCUSSION. First, this article describes the basic requirements for and methodological approaches to designing CTs to assess the efficacy of medicines and to confirm their safety. Next, the article presents the basic principles for calculating the sample size to ensure the required CT power. Finally, the article covers the mathematical models describing the null and alternative hypotheses used in the development of basic statistical designs for efficacy and safety studies. A general requirement for the quality of a study sample is to ensure its representativeness, that is, its compliance with the target CT population. The selection of a mathematical (probabilistic) model to formulate research hypotheses and calculate study samples representative of the target population is based on general data from systematic reviews of previous studies on the therapeutic effects of the study product and the specific characteristics of the target population. In addition, model selection relies on the classification of the study product. Sample size calculation requires defining and justifying certain criteria at the stage of CT design and statistical model development, in line with the general requirements for representativeness. Software for calculating the statistical power and required sample size facilitates routine CT planning.

CONCLUSIONS. The sample size determination requires more than the application of basic statistical models. Given the multitude of CT designs and methodological approaches to CT planning, treatment regimens, and data collection and analysis, it is necessary to consider the statistical design of each CT on a case-by-case basis. This consideration should include assessments of individual cases, survival analysis methods, relative risks, diagnostic tests, and adaptive and other infrequent CT designs. The above highlights the need to develop additional guidelines and information resources that would explain and demonstrate the use of probabilistic statistics. The resulting national standards should be harmonised with international standards.

Olga V. Shreder H ©, Dmitry V. Goryachev ©, Vadim A. Merkulov

Keywords: clinical trial; study sample; population; sample size; study design; study hypothesis; effect size; statistical model

For citation: Shreder O.V., Goryachev D.V., Merkulov V.A. Basic principles for calculating the required number of participants in clinical trials. Part 1. Common approaches (review). Regulatory Research and Medicine Evaluation. 2024;14(3):338-350. https://doi.org/10.30895/1991-2919-2024-14-3-338-350

Funding. The study reported in this publication was carried out as part of publicly funded research project No. 056-0002624-00 and was supported by the Scientific Centre for Expert Evaluation of Medicinal Products (R&D public accounting No. 124022300127-0).

Disclosure. Dmitry V. Goryachev has been a member of the Editorial Board of Regulatory Research and Medicine Evaluation since 2018. The other authors declare no conflict of interest.

ВВЕДЕНИЕ

Расчет размера выборки является неотъемлемой частью разработки дизайна большинства клинических исследований (КИ), обеспечивающей ва-лидность, точность и надежность результатов КИ [1-4]. Исключением являются некоторые пилотные исследования, предназначенные для подтверждения целесообразности и возможности проведения более масштабного КИ, определения первичной информации, дающей необходимые представления об основных характеристиках популяции, а также методах сбора данных и расчета размера выборки участников КИ [1-3].

Необходимость научного обоснования размера выборки может быть продемонстрирована на следующих примерах [1, 2, 4]:

• если размер выборки в исследовании с отрицательными результатами достаточен для выявления клинически значимого эффекта, то отрицательные результаты КИ поддаются интерпретации;

• если исследование не продемонстрировало клинически значимый эффект лечения, то эти результаты не могут использоваться для расчета выборки при планировании нового исследования;

• если размер выборки в исследовании с отрицательными результатами недостаточен, то клинически важный (но статистически незначимый) эффект может быть проигнорирован и исследуемое лечение может интерпретироваться как неэффективное (бесполезное).

Проведение КИ должно быть экономически целесообразно, это достигается, в частности, корректным планированием размера выборки [3, 4]:

• исследование, проведенное на выборке небольшого размера, может не привести к обнаружению эффекта и повлечь неоправданные экономические потери, поскольку без достаточного размера выборки собранных данных может быть упущен (не выявлен) клинически значимый эффект, различие между группами или некая взаимосвязь, например, между

дозовыми режимами препарата и показателями излечения пациентов;

• исследование, проведенное на выборке чрезмерно большого размера, может привести к значительным экономическим затратам и при этом дать статистически значимые результаты, которые могут не иметь большого клинического или практического значения. Следует учитывать, что, если исследование основано на очень большой выборке, оно почти всегда приведет к статистически значимым результатам.

При проведении КИ важно придерживаться соблюдения этических принципов [3, 4]:

• исследование, планируемое на выборке небольшого размера, может подвергнуть участников бесполезному, иногда потенциально вредному терапевтическому воздействию без возможности получить клинически важные результаты;

• исследование, планируемое на выборке чрезмерно большого размера, может неоправданно подвергнуть большое число испытуемых потенциально вредному или бесполезному терапевтическому воздействию.

Таким образом, очевидна необходимость сочетания научной, экономической и этической составляющих в программе разработки эффективных и безопасных лекарственных средств (ЛС).

Цель работы - систематизация и гармонизация технических требований к планированию дизайна клинического исследования в части определения размера выборки.

ОСНОВНАЯ ЧАСТЬ

Общие требования, этапы и критерии для расчета выборки

Концепция определения размера выборки и оценки статистической мощности является основой планирования КИ и гарантией получения надежных выводов о клиническом эффекте ЛС. Ключевым инструментом в процессе

планирования и принятия решения о пользе и риске медицинского применения ЛС являются методы доказательной медицины, в частности вероятностной статистики, применяемые в программах клинической разработки в соответствии с требованиями отечественных и зарубежных нормативных актов1.

Статистическая сущность этого принципа заключается в проверке исследовательских гипотез путем статистического анализа клинических данных [1-12]. Нулевая гипотеза (Н0) в большинстве случаев формулируется в предположении об отсутствии различий между сравниваемыми группами терапии в эффективности медицинского вмешательства и утверждает случайный характер их обнаружения. Подтверждением того, что наблюдаемое различие между группами неслучайно и может рассматриваться как весомый аргумент для отклонения нулевой гипотезы в пользу альтернативной гипотезы (Н1), является установление величины разницы, обоснованной при планировании исследования как «величина клинически значимого эффекта». Следует учитывать, что результат определения только статистической значимости различий между группами сравнения без подтверждения наличия искомой величины разницы, обоснованной на этапе планирования как «клинически значимый эффект», не является корректным представлением доказательства альтернативной гипотезы клинического исследования.

Одним из критериев отклонения Н0 является значение уровня статистической значимости, которое в зависимости от выбранного дизайна КИ устанавливается на уровне 0,05 при двустороннем и 0,025 при одностороннем тестировании [2, 4, 5]. Процесс отклонения нулевой гипотезы сопряжен с потенциальными ошибками I и II рода [1-34]:

• риск ошибки I рода (а) связан с вероятностью неправильного отклонения Н0, то есть ассоциируется с ложноположительным результатом принятия Н1;

• риск ошибки II рода (в) связан с вероятностью неправильного отклонения Н1, то есть ассоциируется с ложноотрицательным результатом принятия Н0.

Для исключения таких ошибок в зависимости от условий тестирования статистической

модели клинического исследования определяют значения а- и в-ошибок. Риск ошибки I рода (а) обычно устанавливается равным р=0,05 или р=0,025, а риск ошибки II рода (в) - 10-20%. Поскольку заданное значение разницы или эффекта может быть и выше, и ниже нуля (гипотеза Н0), риск ошибки в всегда односторонний. Чем меньше риск ошибки в, тем больше статистическая мощность (Р=1-в) - вероятность обнаружения разницы между группами терапии, если она действительно существует, и верного принятия гипотезы Н1. Статистическая мощность обычно устанавливается на уровне не ниже 80% при допущении 20%-ной вероятности ошибочного принятия нулевой гипотезы (в=0,20) [2-6].

Общим требованием к качеству выборки субъектов исследования является обеспечение ее репрезентативности, то есть соответствие целевой популяции КИ [2-17].

Выбор математической (вероятностной) модели, на основе которой формулируются исследовательские гипотезы и производится расчет выборки целевой популяции, базируется прежде всего на базовой информации о терапевтическом воздействии, специфических особенностях популяции (демографические характеристики, состояние здоровья, особенности течения заболевания, симптоматические характеристики и т.д.), полученной из систематических обзоров, результатов ранее проведенных исследований, а также классификации исследуемого ЛП (референтный, оригинальный, воспроизведенный, биоаналоговый). Другими факторами, влияющими на определение модели, являются фаза, дизайн, цели, задачи КИ, конечные точки эффективности и безопасности, методы статистической оценки. Выбор статистической модели в большинстве случаев осуществляется из перечня базовых формул (табл. 1 «Классификация и дизайны клинических исследований», опубликована на сайте журнала2, табл. 2).

Требование надежности имеет отношение к ожидаемым результатам планируемого КИ в целом и формированию выборки на основе предварительно полученных данных из пилотных исследований или литературных сведений в частности и включает:

• возможность повторения эксперимента с получением сходных результатов;

1 Рекомендации Коллегии ЕЭК от 03.11.2020 № 19 «О Руководстве по применению принципов биостатистики в клинических исследованиях лекарственных препаратов».

Федеральный закон Российской Федерации от 12.04.2010 № 61-ФЗ «Об обращении лекарственных средств».

ICH Harmonised tripartite guideline. Statistical principles for clinical trials E9, 1998.

ICH Harmonised tripartite guideline. Structure and content of clinical study reports E3, 1995.

2 https://doi.org/10.30895/1991-2919-2024-14-3-338-350-tabl1

Таблица 2. Правила определения размера выборки для сравнения средних значений и пропорций (по L. Thabane [2] с изменениями) Table 2. Guidelines for sample size determination for comparisons between means and proportions (adapted from L. Thabane [2])

Дизайн Гипотеза Формулы для сравнения средних Formulae for comparisons between means Формулы для сравнения пропорций Formulae for comparisons between proportions

Design Hypothesis H0 H1 Формулы Formulae H0 H1 Формулы Formulae

дновыборочный One-sample Неравенство средних (пропорций) Equality of means (proportions) M-Mo=0 M-1V0 (z +z )2o2 n= , M (M-Mo)2 п-п 0=0 <z0/2+zp)2n(1-n) n= (П-П0)2

Превосходство Superiority M-Moi5 M-Mo>5 <Zo+zp>W n (M-Mo-o)2 п-п 0«5 n-n 0>5 (za+z.)2n(1-n) n=--- n (п-По-б)2

О Эквивалентность Equivalence IM-Mol*5 lM-M0l<5 (z.+z„ )W n =--- (lM-Mol-5)2 |П-П0|*5 |n-n0|<5 (za+zp)2n(1-n) n= (П-По-б)2

и z S р о VD ы lel Неравенство средних (пропорций) Equality of means (proportions) M1-M2=0 Mi-M2*0 2(z^+zp)2a2 n = —, —^— ' (IVM2)2 ni-n2=0 ni-n/0 (zo/2+zp)2(ni(1-n2)+n2(1-n2)) n= (П1-П2)2

в all к = z S ta ы § Не меньшей эффективности Non-inferiority Mi-M2<5 2(z.+zp )V n =--- ' (M1-M2-6)2 ni-n2ïô ni-n 2<5 (zi+zp)2(ni(1-n2)+n2(1-n2)) n =--- 1 (П1-П2-0)2

3 ? Превосходство Superiority MI-M2<5 Mi-M2>ô 2(z.+zp )V n =--- ' (M1-M2-5)2 ni-n2«6 ni-n2>5 (zi+z.)2(ni(1-n2)+n2(1-n2» n =--- ' (П1-П2-0)2

а р а с Эквивалентность Equivalence 1М1-М2И lMi-M2l<5 2(z„+z e )W n =--- 1 (lM1-M2l-5)2 |ni-n 2|*5 |ni-n2|<5 (zi+z.)2(ni(1-n2)+n2(1-n2» n =--- 1 (lni-^l-ô)2

и z S р 11 Неравенство средних (пропорций) Equality of means (proportions) Mi-M2=0 MrM2*0 (z +z )2o2 _ > o/2 e n= 2(M1-M2)2 ni-n2=0 ni-n 2*0 (z^+z e)2^,2 n= 2(П1-П2)2

a g к Й s S s t 1 1 u р Не меньшей Mi-M2*5 Mi-M2<5 (za+zp )V ni-n2ïô ni-n 2<5 (za+z e)2^,2

эффективности Non-inferiority n 2(MI-M2-6)2 n 2(П1-П2-б)2

Превосходство Mi-M2<5 Mi-M2>5 (za+zp )2°2 ni-n2«6 ni-n2>5 (za+z e)42

Superiority ni 2(Mi-M2-6)2 n 2(П1-П2-б)2

р <u с Эквивалентность 1М1-М2И lMi-M2l<5 (za+zp )2^2 |ni-n 2|*5 |ni-n2|<5 (za+zp/2)2^,2

Equivalence n 2(lMi-M2l-6)2 n' 2(ln1-n2l-6)2

Таблица адаптирована авторами из [2] / The table is adapted by the authors from [2]

Примечание. H0 - нулевая гипотеза; H1 - альтернативная гипотеза; n - размер выборки; а - стандартное отклонение; 8 -величина разницы (у-у0) или (у1-у2) или (л1-п2), минимальная клинически значимая разница; у - среднее значение распределения переменной отклика (ответа на лечение); у0 - исходное (базовое) среднее значение; у1 - среднее значение нового лечения; у2 -среднее значение стандартного лечения; (у1-у2) - величина разницы, имеющей клиническое значение; п1 - первая доля (значение нового лечения); п2 - вторая доля (значение стандартного лечения); (л1-п2) - величина разницы, имеющей клиническое значение; ad - стандартное отклонение распределения d (где d - изменение по сравнению с исходным уровнем); za - величина для подстановки в формулу расчета выборки - зависит от выбора желаемого уровня значимости (см. табл. 3). Note. H0, null hypothesis; H1, alternative hypothesis; n, sample size; a, standard deviation; 8, size of difference of clinical importance between (у-у0), (у1-у2), or (n1-n2) (minimum clinically meaningful difference); у, mean value of the distribution of the response variable (response to treatment); у0, corresponding baseline mean value; у1, mean value of the new treatment; у2, mean value of the standard treatment; (у1-у2), size of difference of clinical importance; n1, first proportion (value of the new treatment); n2, second proportion (value of the standard treatment); (n1-n2), size of difference of clinical importance; ad, standard deviation of the distribution of d (where d is the change from baseline); za, value to be substituted into the sample size calculation formula, depending on the desired significance level (see Table 3).

• уровень доверия к ожидаемым или полученным результатам;

• данные о точности («уровне статистической значимости»), с которой были получены результаты исследования.

Перечень критериев, необходимых для расчета репрезентативной выборки [1-6]:

• показатель вариабельности основного показателя исследования в числовой шкале измерений. Таким показателем, как правило, является стандартное отклонение, если не обоснована другая статистическая характеристика вариабельности;

• размер эффекта, или «наименьший клинически значимый эффект». Обычно выражается как разность средних значений основного показателя эффекта или разность величин долей ответа на терапию (%). Реже вместо разности используется отношение данных показателей. При отсутствии результатов предыдущих исследований или данных литературы размер ожидаемого эффекта может выражаться в значениях стандартного отклонения в виде стандартизованной разности интересующего показателя;

• уровень статистической значимости (а) - пороговое значение 0,05 при двустороннем и 0,025 при одностороннем тестировании гипотезы. Ниже указанного значения отклоняют Н0 и принимают Н1 при условии подтверждения наличия разницы между группами, соответствующей пороговой величине «превосходства», «эквивалентности» или «не меньшей эффективности», обоснованной при планировании соответствующего дизайна КИ;

• статистическая мощность (Р=1-в) - вероятность обнаружения разницы между группами терапии, если она действительно существует. При допущении 20%-ной вероятности ошибки (в=0,20) мощность устанавливается не менее 80% (Р£0,80) [2-6].

Вышеуказанные критерии должны быть определены и обоснованы на этапе разработки дизайна и статистической модели КИ (табл. 1 «Классификация и дизайны клинических исследований», опубликована на сайте журнала3, табл. 2) [1, 2, 10-18, 20-32].

Таким образом, критериями определения репрезентативной выборки для КИ являются [2, 4, 5]:

• изменчивость основного параметра оценивания (чем разнообразней показания, заявляемые для регистрации, тем больше наблюдений (участников) нужно включить в КИ);

• клинически важный размер эффекта (чем меньше величина эффекта основного критерия оценивания, тем больше наблюдений (участников) необходимо);

• условия тестирования H0 и H - определяются целями и задачами планируемого КИ;

• статистическая мощность теста (уровень вероятности, при которой следует отвергнуть H0).

Изменчивость основного параметра оценивания в большинстве случаев характеризуется величиной стандартного отклонения, определенной на основании данных литературы, систематических обзоров на основе метаанализа (Кокрейновские обзоры) или собственных пилотных исследований, включающих результаты сравнения группирующих средних значений основных показателей эффективности терапии [2, 4, 6, 17]. При определении величины изменчивости основного параметра оценивания из данных источников литературы необходимо учитывать, что большое значение стандартного отклонения указывает на недостаточную значимость эффекта и приведет к формированию выборки большого размера.

Определение наименьшего размера клинически значимого эффекта должно быть основано на данных систематизированных источников, результатов аналогичных клинических исследований, Кокрейновских обзоров, экспертных заключений и клинических рекомендаций или данных собственных пилотных исследований, включающих статистически значимые результаты оценки основных показателей сравнительной фармакотерапии. В случае отсутствия информации о наименьшей клинически важной величине в подходящей для расчета выборки метрической шкале или для обоснования таковой для изучения нового оригинального ЛС могут потребоваться дополнительные перерасчеты опубликованных сходных результатов из доступных источников литературы и приведение их в подходящий формат с последующим обоснованием применимости для определения размера выборки участников планируемого дизайна или пилотного КИ [2, 4, 6-8, 17].

Еще одним способом определения клинически значимого размера эффекта, например при планировании исследования нового оригинального ЛС или при отсутствии какой бы то ни было информации, является его оценка на основе известных стандартизированных значений, названных J. Cohen «малый», «средний» и «большой» размеры эффекта [4, 8, 9]:

https://doi.org/10.30895/1991-2919-2024-14-3-338-350-tabl1

• при тестировании разницы между двумя средними размеры эффекта (С)4 составляют: малый - 0,20; средний - 0,50; большой - 0,80;

• при тестировании разницы между несколькими средними размеры эффекта (р)5 составляют: малый - 0,10; средний - 0,25; большой - 0,40;

• при тестировании разницы между долями с использованием критерия х-квадрат и коэффициента корреляции Пирсона размеры эффекта (ш или г)6 составляют: малый - 0,10; средний - 0,30; большой - 0,50.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Следует учитывать, что размер эффекта зависит от дизайна КИ и критериев оценивания основного показателя, поэтому необходимо обосновать выбор объективной величины эффекта в соответствии со шкалой измерения, использующейся для тестирования исследовательских гипотез.

Условия тестирования нулевой и альтернативной гипотезы

Существуют два варианта тестирования нулевой (Н0) и альтернативной (Н1) гипотез (табл. 3, рис. 1) [2, 9, 17, 18]. В случае когда ожидается разница в одном направлении (правостороннее или левостороннее тестирование), используется одностороннее тестирование. Двустороннее тестирование подходит, когда ожидается разница в любом направлении [2, 17, 18]. Если критическое значение задается величиной 5, то характер распределения и положение критической области для Н0 и Н1 выглядят следующим образом:

1^6 ц>5: критическая область справа - одностороннее тестирование;

ц<6: критическая область слева - одностороннее тестирование;

ц=6 ц=6: две критические области - двустороннее тестирование.

При одностороннем тестировании исследовательской гипотезы требуется выборка меньших размеров, чем при двустороннем. Однако

возможность использования односторонних тестов для расчета должна быть обоснована, не допускается использовать такой тип тестирования только в целях уменьшения размера выборки [12].

Одностороннее направление тестирования не является достаточным основанием, чтобы использовать односторонний критерий для расчета численности субъектов исследования. Такой тип тестирования целесообразно использовать при планировании плацебо-контролируемых исследований или при сравнении комбинированной схемы лечения и монотерапии в КИ с дизайном превосходства [10, 11]. Если нет объективных причин для использования одностороннего тестирования, следует пользоваться двусторонней гипотезой.

При планировании дизайнов «не меньшей эффективности» и «эквивалентности» терапии двустороннее тестирование предполагает, что Н0 заключается в отсутствии различий, а Н1 предполагает, что различия между группами могут проявляться в любом направлении.

Определение уровня ошибки I рода. Альфа (а)-ошибка I рода - это ошибочное заключение о существовании различий, которых в действительности нет. За вероятность ошибки I рода принимается р-значение 0,05 или 0,025 в зависимости от дизайна КИ и условия тестирования гипотез (одно- или двустороннее тестирование). Нулевая гипотеза отклоняется в случаях, если величина р меньше 0,05 или 0,025. Величина р, определяемая как уровень значимости, является тем значением, ниже которого Н0 отклоняется и принимается Н1 о наличии доказательств эффекта. В большинстве случаев двустороннего тестирования уровень статистической значимости выбирается равным а=0,05, или 5%, а при одностороннем тестировании а=0,025, или 2,5%. Выбор большей величины альфа (а=0,05) приводит к уменьшению размера численности субъектов для исследования.

4 с1 - стандартизованная средняя разница между двумя выборками, деленная на объединенное стандартное отклонение; (р1-р2)/а, где и - средние значения эффекта, а - объединенная оценка дисперсии (5) выборок 1 и 2 соответственно

=У(512-+522)/2.

5 р2 - стандартизованная средняя разница между несколькими выборками при использовании F-теста для ANOVA или множественной регрессии;

р2 для множественной регрессии:/2=Л2/(1-Л2), где, ! - квадрат множественной корреляции;

р2 для дисперсионного анализа (ANOVA) в сбалансированном дизайне с одинаковыми размерами выборок по группам:

/2=SS .....рк)/(К*а2), где ......рк) - средние значения эффекта выборки в j-й группе из общего числа К групп,

а - объединенная оценка стандартных отклонений в каждой группе, SS - сумма квадратов в ANOVA.

6 г - коэффициент корреляции Пирсона, определяется как размер эффекта парных количественных данных при использовании анализа взаимосвязи между двумя переменными: диапазон величин от -1 до 1, где, 0 - отсутствие линейной связи, -1 - отрицательная линейная связь, 1 - положительная линейная связь между двумя переменными;

г2 - коэффициент детерминации, определяется как квадрат корреляции Пирсона парных данных и используется для оценки доли дисперсии между двумя переменными: диапазон величин от 0 до 1, где г2 имеет положительное значение; ш - размер эффекта категориальных данных при использовании теста х-квадрат: р1;-р0;)2/р0;, где р0.. - доля ¡-й

группы для Н0, р1.. - доля ¡'-й группы для Н1, т - количество групп.

Таблица 3. Таблица значений критериев, необходимых для расчета выборки в зависимости от условия тестирования гипотезы [1-6,18]

Table 3. Tabulated test statistics required for sample size calculation based on the hypothesis testing conditions [1-6,18]

Условие Доверительный интервал Confidence Ошибка Ошибка II рода (в), % Type II Za и Za/2 (ДЛЯ одно- и дву- Мощность Уровень статисти-

тестирования гипотезы Hypothesis I рода (a), % Type I error (a), % a стороннего тестирования соответственно) z and z _ a a/2 ß Zß теста (P=1-ß), % Test ческой значимости, р Statistical

testing interval error (в), % (for one- and power significance, P

condition two-sided tests, respectively) (P=1-ß), %

90 10 20 0,1 1,64 0,2 0,84 80 <0,1

95 5 20 0,05 1,96 0,2 0,84 80 <0,05

99 1 20 0,01 2,58 0,2 0,84 80 <0,01

95 5 20 0,1 1,64 0,2 0,84 80 <0,1

97,5 2,5 20 0,025 1,96 0,2 0,84 80 <0,025

99,5 0,5 20 0,005 2,58 0,2 0,84 80 <0,005

Двусторонний критерий Two-sided test

Односторонний критерий One-sided test

Таблица составлена авторами по данным литературы / The table is prepared by the authors on the basis of published data

Примечание. Примеры применения критериев, необходимых для расчета выборки, в концепции интервального оценивания.

A) Односторонний тест концентрирует 5% область отклонения гипотезы в одном хвосте нормального распределения (z-оцен-ка 1,64 или выше). При двустороннем тестировании в случае такого же доверительного интервала z-оценка составит ±1,96, так как 5% составляют 2,5% в каждом из двух хвостов стандартного распределения (рис. 1).

Б) za/2 для тестирования, уровень доверия7 которого соответствует 90%, определяется следующим образом: уровень значимости а8 составит 1-0,9=0,1, а/2=0,1/2=0,05. Критическое значение z определяется по таблице критических значений z [4], для абсолютной величины а/2=0,05 составит 1,64 (при одностороннем тестировании гипотезы z0 =1,64). При условии выбора уровня доверия 95% а составит 1-0,95=0,05, то есть а/2=0,05/2=0,025 и соответствующее критическое значение z, для абсолютной величины а/2=1,96 (при одностороннем тестировании гипотезы z005/2=1,96).

B) При условии выбора уровня доверия 99% а составит 1-0,99=0,01, то есть а/2 = 0,01/2 = 0,005, соответствующее критическое значение z для абсолютной величины а/2=2,58 (при одностороннем тестировании гипотезы z00}/2=2,58).

Note. Examples of applying the tests required for sample size calculation based on confidence interval estimation.

A) A one-sided test concentrates the 5% rejection region in one tail of a normal distribution (z-score of 1.64 or greater). A two-sided test for the same confidence interval would result in a z- score of ±1.96 because the 5% rejection region is comprised of 2.5% regions in each of the two tails (Fig. 1).

B) za/2 is determined as follows: For a test that is using a 90% confidence level, the significance level а would be 1-0.9=0.1, and а/2=0.1/2=0.05. The corresponding critical value of z is determined using a table of critical values of z [4]. The critical value of z corresponding to the absolute value of а/2=0.05 would be 1.64 (for one-sided hypothesis testing z0}/2=1.64). For a test that is using a 95% confidence level, the significance level а would be 1-0.95=0.05, that is, а/2=0.05/2=0.025. The critical value of z corresponding to this absolute value of а/2 would be 1.96 (for one-sided hypothesis testing z005/2=1.96).

C) For a test that is using a 99% confidence level, the significance level а would be 1-0.99=0.01, that is, а/2=0.01/2=0.005, and the critical value of z corresponding to this absolute value of а/2 would be 2.58 (for one-sided hypothesis testing z00}/2=2.58).

Статистическая мощность исследования - критерий корректного отклонения Н0 в случаях подтверждения различия между группами сравнения. Этот критерий рассчитывается по формуле Р=1-р (или 100-р (%)), где вероятность ошибки II рода в устанавливается равной не более 20% (соответственно, величина статистической мощности должна быть не ниже 80%). При корректном учете статистической мощности вероятность случайной ошибки в установлении истинной клинически значимой разницы

в эффектах снижается и увеличивается вероятность получения статистически значимого результата исследования.

Размер выборки участников КИ может рассчитываться несколькими способами, при этом во всех случаях применяется одинаковый подход к выбору базовых элементов расчета [3-5, 8, 12-15]: • общий набор формул для расчета размера выборки участников в разных дизайнах КИ [16, 17];

7 Уровень доверия в=1-а - это вероятность попадания значения тестовой статистики в доверительный интервал, который с заданной вероятностью покрывает оцениваемый показатель исследования. Уровни доверия 0,99; 0,95; 0,9 соответствуют уровням значимости 0,01; 0,05; 0,1; уровни значимости и доверия могут быть представлены в процентах и десятичных значениях.

8 Уровень значимости а - заданный уровень статистической значимости - «пороговое значение», относительно которого определяется вероятность (р-значение) непопадания в доверительный интервал значений, если значение тестовой статистики больше или меньше г-показателя альфа-уровня (или р-значение больше или меньше альфа-значения) в зависимости от условий тестирования гипотез исследования.

r 1-a= 0,95

-2a

+2a

0,13% 2,14% 13,59%! 34,13% 134,13% 13,59%

t3a

a=0,05

1,645

Z

95,44%

M ± a = 68,26% площади распределения (=68%) / j ±o = 68.26% of the distribution area (~68%) M ± 2a = 95,44% площади распределения (=95%) / j ± 2o = 95.44% of the distribution area (~95%) M ± 3a = 99,72% площади распределения (=100%) / j ± 3o = 99.72% of the distribution area (~100%) Рисунок подготовлен авторами по собственным данным / The figure is prepared by the authors using their own data

Рис. 1. Условия тестирования гипотезы: а - двустороннее тестирование; b - левостороннее тестирование; c - правостороннее тестирование

Fig. 1. Hypothesis testing conditions: a, two-sided testing; b, left-sided testing; c, right-sided testing

• возможность использования «быстрых формул»9 для расчета размера выборки участников при соблюдении требований по выбору уровня значимости, статистической мощности исследования и расчету стандартизованной разницы [13, 14];

• возможность использования общедоступных таблиц, содержащих стандартизированные значения для расчета размера выборки и проверки исследовательских гипотез, на основе работ J. Cohen [8] или сводных данных об ожидаемых размерах эффекта при использовании непарного f-критерия или критерия х-квадрат Пирсона [16, 17];

• использование общедоступной диаграммы «номограмма Альтмана», устанавливающей связь выборки, мощности статистического критерия, уровня значимости и стандартизованной разности, которая применима для различных статистических дизайнов КИ [3, 11].

Методологические подходы к разработке дизайна клинических исследований

Основные этапы определения необходимой численности участников клинических исследований включают [2-6]: 1) выбор дизайна, соответствующего фазе, цели и задачам КИ; 2) выбор гипотезы и метода расчета или обоснования размера выборки в соответствии с целью КИ, данными литературы и регистрационным статусом действующего вещества исследуемого ЛС; 3) обоснование достаточности размера выборки путем аргументации ожидаемой пороговой

величины различий в эффектах, выбора оценочных критериев, данных об экономической целесообразности (если применимо), особенностях популяции исследования и др.; 4) корректировку размера выборки в случаях проведения промежуточного анализа или в соответствии с правилами адаптивных дизайнов, предусматривающих увеличение размера выборки по результатам промежуточной оценки или учет выбывших из исследования субъектов.

Проведение рандомизированных клинических исследований является основным требованием при регистрации ЛС [15, 16, 18]. В практике проведения КИ наибольшее распространение получили три статистических дизайна (табл. 1 «Классификация и дизайны клинических исследований», опубликована на сайте журнала10, табл. 2): превосходства, не меньшей эффективности, эквивалентности, которые включают [12, 18-33]:

• неконтролируемые планы - дизайны, которые часто выбирают при проведении КИ I и II фаз и пострегистрационных исследований IV фазы;

• контролируемые планы - дизайны, которые часто выбирают при проведении КИ III фазы, в частности рандомизированные схемы параллельного и перекрестного группового анализа.

Исследование превосходства. Целью исследования является доказательство преимущества в терапевтическом эффекте сравниваемых групп лечения.

Быстрые формулы используются для ориентировочного расчета выборки участников при соблюдении определенных тре-

бований к выбору значений мощности, уровня значимости и величины клинически значимого эффекта, часто встречающихся в биофармацевтических исследованиях, и табулирования функции (пошаговое вычисление значений функции); например, допускается ориентировочная мощность 0,80 с уровнем альфа=0,05: для двустороннего Г-теста, п=1б52^2, где п - размер каждой выборки, 52 - дисперсия популяции, d - разница в эффектах =45п; для точного критерия Фишера или критерия х-квадрат: s2=pq, где р=(р1+р2)/2 и q=l-p и d=|pl-p2|. https://doi.org/10.30895/1991-2919-2024-14-3-338-350^аЫ1

к

к

к

о

Эталонным вариантом такого КИ является дизайн исследования терапевтической эффективности нового ЛС по сравнению с плацебо [17-24]. По ряду медицинских и этических причин такая схема не всегда применима, поэтому на практике часто осуществляют сравнение с группой пациентов, получающих стандартную терапию с использованием референтного препарата. Насколько терапия новым препаратом должна быть лучше плацебо или стандартной терапии, определяется пороговым значением, характеризующим наименьшую величину клинически значимой разницы терапевтического эффекта между сравниваемыми группами лечения (табл. 2).

На этапе расчета выборки необходимо предусмотреть визит оценки лечения, указать ожидаемую величину разницы (пороговое значение) для подтверждения превосходства, значение вариабельности основного показателя, величины ошибок I и II рода, приемлемые для исследования, с учетом экономической целесообразности и этических требований к количеству участвующих в исследовании пациентов.

Величина эффекта (5) лечения подвержена значительным изменениям (вариабельности). Учитывая, что вариабельность основных показателей эффективности терапии может оказывать влияние на разницу в эффектах лечения в двух группах терапии, необходимо обосновать величину ожидаемого стандартного отклонения а или дисперсии а2 основного параметра на основе результатов пилотного исследования или опубликованных данных аналогичных исследований [1, 2, 4].

Исследование эквивалентности. Целью исследования эквивалентности является установление идентичности эффектов сравниваемых методов лечения (нулевое значение разницы между группами) [25-30]. Поскольку величина разницы внесена в знаменатель формулы расчета выборки (табл. 2), а деление на ноль невозможно, целью исследования эквивалентности будет определение того, лежит ли разница в эффектах между двумя методами лечения в пределах определенного небольшого интервала от -5 до +5.

На этапе планирования важно указать величину разницы в эффектах лечения, которая будет являться пороговой величиной для принятия решения об эквивалентности [27-30]. В случае тестирования нового (оригинального) препарата лечения целесообразно максимально ограничить риски побочных эффектов от приема новой терапии, которая уступает стандартной терапии,

поэтому в качестве 5 следует указывать допустимо малое значение, которое в то же время демонстрировало бы клинически значимый размер эффекта. По общему правилу 5 может составлять не более половины величины, которая может использоваться в исследовании превосходства [26].

В исследовании эквивалентности Н0 состоит в том, что существует разница не менее 5, а цель исследования - в том, чтобы отклонить Н0 и принять Н1 для доказательства отсутствия разницы в эффекте между методами лечения [26]. В дизайнах исследования превосходства и эквивалентности формулировка исследовательских гипотез (табл. 2) и метод оценки размера выборки имеют сходство, однако интерпретация определяемой величины 5 и выводы по результатам КИ различны.

Доказательство гипотезы эквивалентности предполагает двустороннее тестирование эффективности по основному показателю терапевтического ответа на лечение.

Исследование не меньшей эффективности.

Целью исследования не меньшей эффективности является доказательство того, что новая терапия не менее эффективна, чем стандартное лечение, которое применяется при изучаемой патологии. Следует доказать, что разница в терапевтическом эффекте тестируемого и референтного препарата не выходит за пределы величины 5, установленной при планировании как пороговая величина, подтверждающая одинаковую эффективность лечения пациентов. По условию доказательства не меньшей эффективности новой терапии необходимо указать, что нижняя граница доверительного интервала для разницы в эффекте между сравниваемыми группами лечения находится выше установленной при планировании пороговой величины 5. Положение верхней границы доверительного интервала в большинстве случаев не рассматривается как пороговая величина. В отдельных случаях это может применяться, если предполагается, что новая терапия может продемонстрировать лучший эффект, чем стандартная (референтная) терапия, однако размера ожидаемого эффекта недостаточно для определения превосходства.

Доказательство гипотезы не меньшей эффективности предполагает одностороннее тестирование (табл. 3). По этой причине необходимое количество пациентов в таком исследовании будет меньше, чем в случае исследования эквивалентности [31].

Компьютерное программное обеспечение для расчета мощности и требуемого размера выборки

Для статистического анализа, оценки мощности и расчета размера выборки для различных дизайнов клинического исследования могут быть использованы следующие программные приложения [32]:

• пакеты прикладных программ для расчета мощности и размера выборки: GPOWER***, NOUERY ADVISOR***, PASS****, PC-SIZE (CONSULTANT)*, POWER AND PRECISION***, POWPAL*, POWERPACK**, POWER PLANT**, PS*, STATISTICA**, POWER ANALYSIS**, STAT POWER***, STPLAN*;

• статистические пакеты прикладных программ общего назначения: DATASIM**, JMP**, MacANOVA*, MSUSTAT*, NCSS*, SHAZAM*, SigmaSTAT**, STATISTICA*, STATA*, TRUE EPISTAT**, WDIST*;

• пакеты специализированных прикладных программ для расчета размера выборки: EX-SAMPLE**, POWER AND EFFECT**;

• пакеты специализированных прикладных программ для определения мощности: MONITOR**, NSURV**, TRENDS*;

• приложения для решения общих универсальных задач: DATASIM**, MS EXCEL***, GLIM*, SHAZAM*, SAS*, SIMSTAT, S-PLUS, XLISP-STAT.

Простота изучения и использования указанных программ варьирует от «сложно» (*), «удовлетворительно» (**) до «хорошо» (***) и «отлично» (****).

Программные пакеты привлекательны тем, что результаты расчета размера выборки и мощности можно представить в формате готовых отчетов (листингов), включающих формулировки исследовательских гипотез, значения параметров и статистические характеристики, влияющие на изменение объема выборки и требуемые для обоснования численности субъектов исследования (например, мощности, величины эффекта и другие взаимосвязанные критерии), что упрощает выполнение рутинных процедур планирования КИ.

Представление статистического плана в протоколе исследования

Расчет размера выборки субъектов осуществляется на этапе планирования дизайна и обобщается в протоколе исследования. Выбор

метода расчета размера выборки зависит от типа первичной конечной точки (непрерывной, категориальной и др.) и дизайна исследования (перекрестные, параллельные группы и др.).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Статистический план клинического исследования должен содержать следующую информацию:

• краткое описание целей исследования и дизайна исследования;

• первичные и вторичные конечные точки; гипотезы, подлежащие тестированию;

• уровень значимости и мощности исследования;

• подробное описание методов анализа, которые будут использоваться для анализа результатов и тестирования исследовательских гипотез;

• условия тестирования исследовательских гипотез (одно- или двустороннее);

• обоснование величины наименьшей клинически значимой разницы в эффектах и порогового значения для отклонения Н0 в пользу Н1;

• обоснование величин изменчивости (вариабельности) основного эффекта, использованных в расчете размера выборки;

• обоснование продолжительности исследования и визита оценки терапевтического эффекта;

• обоснование коррекции потерь и методов восстановления данных выбывших субъектов исследования.

Теоретические аспекты теории вероятности (байесовский подход)

Согласно рекомендациям Коллегии ЕЭК11, для обоснования ожидаемого эффекта терапевтического воздействия целесообразно использовать байесовский подход к анализу данных ранее проведенных исследований, то есть на основе априорной вероятности (вероятность правильности гипотезы до наступления события) осуществлять планирование проверки статистических гипотез и определение доверительного интервала вероятности апостериорного распределения интересующего эффекта вмешательства для принятия решения о доказательстве эффективности исследуемой терапии12.

Байесовский подход к определению размера выборки учитывает подходящие результаты распределения эффекта лечения предшествующего

11 Рекомендации Коллегии Евразийской экономической комиссии от 03.11.2020 № 19 «О Руководстве по применению принципов биостатистики в клинических исследованиях лекарственных препаратов».

12 Рекомендации Коллегии Евразийской экономической комиссии от 03.11.2020 № 19 «О Руководстве по применению принципов биостатистики в клинических исследованиях лекарственных препаратов».

Методические рекомендации «Применение математического моделирования в доклинических исследованиях в целях проведения клинических исследований с участием особых популяций», разработанные в рамках рабочей программы НИР ФГБУ НЦЭСМП по этапу № 2 НИР «Разработка руководств по проведению научной экспертизы новых и зарегистрированных лекарственных препаратов для медицинского применения». НИР 121021800098-4 от 06.12.2021.

исследования и позволяет рассчитать прогнозируемые результаты распределения для тестовой статистики и, следовательно, ожидаемые потери для любого заданного размера выборки [33-35, 37, 40, 41]. Такой подход является процедурой двойной оптимизации, позволяющей определить оптимальное решение для заданной величины тестовой статистики и размера выборки, а затем определить размер выборки, который дает наименьшие минимальные потери [34, 35]. Подход D.V. LindLey предполагает использование функций потерь при неправильном принятии решений на основе наблюдаемых данных и байесовский алгоритм, но применяется, когда имеют сходные представления и предшествующие значения исходов [33, 34]. Система J. Gittins и Н. Pezeshk представляет собой гибридную байесовско-частотную систему, согласно которой предполагается, что будущие реализации лекарственного препарата зависят от того, насколько впечатляющими являются результаты клинических испытаний (измеряемые значимостью различий), но при планировании используются предшествующие результаты распределения по терапевтическому эффекту и байесовский подход [35, 36]. Метод расчета О'Надап и соавт. - это обеспечение гарантий на основе байесовской вероятности, что КИ даст значимый результат [37]. Такой подход исключает зависимость от конкретного предполагаемого клинически значимого различия, но при этом использует предшествующее распределение фармакологического эффекта, чтобы гарантированно получить ожидаемую мощность.

ЛИТЕРАТУРА/ REFERENCES

1. Moher D, Dulberg CS, Wells GA. Statistical power, sample size, and their reporting in randomized controlled trials. JAMA. 1994;272(2):122-4.

https://doi.org/10.1001/jama.1994.03520020048013

2. Thabane L. Sample size determination in clinical trials. HRM-733 Class Notes. Hamilton: St Joseph's Healthcare, 2004.

3. Altman DG. Statistics and ethics in medical research. III. How large a sample? BMJ. 1980;281(6251):1336-8. https://doi.org/10.1136/bmj.281.6251.1336

4. Петри А, Сэбин К. Наглядная статистика в медицине. М.: ГЭОТАР-МЕД; 2003.

Petrie A, Sabin K. Medical statistics at a glance. Moscow: GEOTAR-MED; 2003 (In Russ.).

5. Zodpey SP. Sample size and power analysis in medical research. Indian J Dermatol Venereol Leprol. 2004;70(2):123-8. PMID: 17642587

6. Araujo P, Fr0yland L. Statistical power and analytical quantification. J Chromatogr B Analyt Technol Biomed Life Sci. 2007;847(2):305-8.

https://doi.org /10.1016/j.jchromb.2006.10.002

7. Eng J. Sample size estimation: how many individuals should be studied? Radiology. 2003;227(2):309-13. https://doi.org/10.1148/radiol.2272012051

8. Cohen J. Statistical power analysis for the behavioral sciences. New York: Routledge; 1988. https://doi.org/10.4324/9780203771587

9. Lenth RV. Some practical guidelines for effective sample

Байесовские подходы являются вариантами прогнозирования результатов распределения для тестовой статистики на основе предшествующих исходов, обеспечения гарантий надежности и точности оценок, включая результаты доклинических испытаний, и принятия решений для заданной величины тестовой статистики и размера выборки для планируемого клинического исследования [33-39].

ЗАКЛЮЧЕНИЕ

Расчет размера выборки участников является неотъемлемой частью планирования любого КИ. Обоснованный выбор основных критериев оценки и статистических моделей определяет необходимую мощность, качество проведения и последующей интерпретации результатов КИ. В обзоре подробно описаны критерии, термины и базовые статистические модели, определяющие корректность процедуры расчета размера выборки участников КИ в соответствии с рекомендациями Коллегии ЕЭК. Однако большое разнообразие заболеваний, особенностей патогенеза в различных популяциях, процедур диагностики, выбора терапевтических схем лечения, целевых оценочных шкал и целого ряда других характеристик вызывает необходимость применения специфических комбинаций планов КИ, следствием чего является востребованность в разработке дополнительных руководств и других информационных ресурсов, содержащих комментарии и примеры применения вероятностной статистики, и последующей гармонизации созданных национальных стандартов с международными.

size determination. Am Stat. 2001;55(3):187-93. https://doi.org/10.1198/000313001317098149

10. Dubey SD. Some thoughts on the one-sided and two-sided tests. J Biopharm Stat. 1991;1(1):139-50. https://doi.org/10.1080/10543409108835011

11. Bland JM, Altman DG. One and two sided tests of significance. BMJ. 1994;309(6949):248. https://doi.org/10.1136/bmj.309.6949.248

12. Matthews JN. Introduction to randomized controlled clinical trials. New York: Chapman & Hall; 2006. https://doi.org/10.1201/9781420011302

13. Lehr R. Sixteen S-squared over D-squared: a relation for crude sample size estimates. Stat Med. 1992;11(8):1099-102. https://doi.org/10.1002/sim.4780110811

14. Machin D, Campbell MJ. Statistical tables for the design of clinical trials. Blackwell Scientific Publications; 1995. https://doi.org/10.1002/sim.4780071211

15. Pocock SJ. Clinical trials: a practical approach. Wiley & Sons; 2013. https://doi.org/10.1002/9781118793916

16. Armitage P, Berry G. Statistical methods in medical research. Oxford: Blackwell Scientific Publications; 2002. https://doi.org/10.1002/9780470773666

17. Fleiss JL. General design issues in efficacy, equivalency and superiority trials. J Periodontal Res. 1992;27(4 Pt 2):306-13. https://doi.org/10.1111/j.1600-0765.1992.tb01684.x

18. Christensen E. Methodology of superiority vs. equivalence trials and non-inferiority trials. J Hepatol.

2007;46(5):947-54.

https://doi.Org/10.1016/j.jhep.2007.02.015

19. Garrett AD. Therapeutic equivalence: fallacies and falsification. Stat Med. 2003;22(5):741-62. https://doi.org/10.1002/sim.1360

20. Blackwelder WC. "Proving the null hypothesis" in clinical trials. Control Clin Trials. 1982;3(4):345-53. https://doi.org /10.1016/0197-2456(82)90024-1

21. Greene WL, Concato J, Feinstein AR. Claims of equivalence in medical research: are they supported by the evidence? Ann Intern Med. 2000;132(9):715-22. https://doi.org/10.7326/0003-4819-132-9-200005020-00006

22. Costa LJ, Xavier AC, Giglio A. Negative results in cancer clinical trials - equivalence or poor accrual? Control Clin Trials. 2004;25(5):525-33. https://doi.org/10.1016/jxct.2004.08.001

23. Dimick JB, Diener-West M, Lipsett PA. Negative results of randomized clinical trials published in the surgical literature: equivalency or error? Arch Surg. 2001;136(7):796-800. https://doi.org/10.1001/archsurg.136.7796

24. Detsky AS, Sackett DL. When was a "negative" clinical trial big enough? How many patients you needed depends on what you found. Arch Intern Med. 1985;145(4):709-12. https://doi.org/10.1001/archinte.1985.00360040141030

25. Djulbegovic B, Clarke M. Scientific and ethical issues in equivalence trials. JAMA. 2001;285(9):1206-8. https://doi.org /10.1001/jama.285.9.1206

26. Jones B, Jarvis P, Lewis JA, Ebbutt AF. Trials to assess equivalence: the importance of rigorous methods. BMJ. 1996;313(7048):36-9. https://doi.org/10.1136/bmj.313.7048.36

27. Lange S, Freitag G. Choice of delta: requirements and reality - results of a systematic review. Biomed J. 2005;47(1):12-2 7.

https://doi.org/10.1002/bimj.200410085

28. Durrleman S, Simon R. Planning and monitoring of equivalence studies. Biometrics. 1990;46(2):329-36. https://doi.org/10.2307/2531438

29. Ebbutt AF, Frith L. Practical issues in equivalence trials. Stat Med. 1998;17(15-16):1691-701. https://doi.org/10.1002/(sici)1097-02 58(19980815/30) 17:15/16%3C1691::aid-sim971%3E3.0.co;2-j

30. Wiens BL. Choosing an equivalence limit for noninferiority or equivalence studies. Control Clin Trials. 2002;23(1):2-14. https://doi.org /10.1016/s0197-2456(01)00196-9

31. Chan A-W, Hrobjartsson A, Haahr MT, G0tzsche PC, Alt-man DG. Empirical evidence for selective reporting of outcomes in randomized trials: comparison of protocols to

Дополнительная информация. На сайте журнала «Регуляторные исследования и экспертиза лекарственных средств» размещена таблица 1. https://doi.org/10.30895/1991-2919-2024-14-3-338-350-tabl1

Вклад авторов. Все авторы подтверждают соответствие своего авторства критериям ICMJE. Наибольший вклад распределен следующим образом: O.B. Шредер - разработка концепции, написание текста рукописи, редактирование, утверждение окончательного варианта рукописи для публикации; Д.В. Горячев - критический пересмотр текста рукописи, утверждение варианта для публикации; В.А. Меркулов - утверждение окончательной версии рукописи для публикации.

ОБАВТОРАХ/AUTHORS

published articles. JAMA. 2004;291(20):2457-65. https://doi.org/10.1001/jama.291.20.2457

32. Thomas L, Krebs CJ. A Review of statistical power analysis software. Bull Ecol Soc Am. 1997;78(2):128-39.

33. Lindley DV. The choice of sample size. Statistician. 1997;46(2):129-38.

https://doi.org/10.1111/1467-9884.00068

34. Lindley DV. A statistical paradox. Biometrika. 1957;44(1/2):187-92. https://doi.org/10.2307/2333251

35. Gittins J, Pezeshk H. A behavioral Bayes method for determining the size of a clinical trial. Drug Inf J. 2000;34(2):355-63.

https://doi.org/10.1177/009286150003400204

36. Gittins J, Pezeshk H. How large should a clinical trial be? J R Stat Soc Series D Stat. 2000;49(2):177-87. https://doi.org/10.1111/1467-9884.00228

37. O'Hagan A, Stevens JW, Campbell MJ. Assurance in clinical trial design. Pharm Stat. 2005;4(3):187-201. https://doi.org/10.1002/pst.175

38. Шредер ОВ, Бунятян НД, Горячев ДВ, Сюбаев РД, Ен-галычева ГН, Кузнецова АД, Косенко ВВ. Математическое прогнозирование эффективности лекарственных средств в доклинических исследованиях. Ведомости Научного центра экспертизы средств медицинского применения. Регуляторные исследования и экспертиза лекарственных средств. 2022;12(3):315-30.

Shreder OV, Bunyatyan ND, Goryachev DV, Subaev RD, En-galycheva GN, Kuznetsova AD, Kosenko VV. Mathematical prediction of the efficacy of medicinal products in preclinical studies. Bulletin of the Scientific Centre for Expert Evaluation of Medicinal Products. Regulatory Research and Medicine Evaluation. 2022;12(3):315-30 (In Russ.). https://doi.org/10.30895/1991-2919-2022-12-3-315-330

39. Каркищенко НН. Альтернативы биомедицины. Т. 1. Основы биомедицины и фармакомоделирования. М.: Межакадемическое издательство ВПК; 2007. Karkishchenko NN. Biomedicine alternatives. Part 1. Basic principles of biomedicine and pharmacomodeling. Moscow: Interacademic Publishing House of the Military Industrial Complex; 2007 (In Russ.).

EDN:SOPUYN

40. Senn S. Determining the sample size. In: Statistical issues in drug development. John Wiley & Sons; 2007. https://doi.org/10.1002/9781119238614.ch13

41. Julious SA. Designing clinical trials with uncertain estimates of variability. Pharm Stat. 2004;3(4):261-8. https://doi.org/10.1002/pst.139

Additional information. Table 1 is posted on the website of Regulatory Research and Medicine Evaluation. https://doi.org/10.30895/1991-2919-2024-14-3-338-350-tabl1

Authors' contributions. All the authors confirm that they meet the ICMJE criteria for authorship. The most significant contributions were as follows. Olga V. Shreder conceptualised the study, drafted and edited the manuscript, and approved the final version for publication. Dmitry V. Goryachev critically revised the manuscript and approved the final version for publication. Vadim A. Merkulov approved the final version of the manuscript for publication.

Шредер Ольга Васильевна, канд. биол. наук / Olga V. Shreder, Cand. Sci. (Biol.) ORCID: https://orcid.org/0000-0002-7926-6033

Горячев Дмитрий Владимирович, д-р мед. наук / Dmitry V. Goryachev, Dr. Sci. (Med.) ORCID: https://orcid.org/0000-0001-8583-2372

Меркулов Вадим Анатольевич, д-р мед. наук / Vadim A. Merkulov, Dr. Sci. (Med.) ORCID: https://orcid.org/0000-0003-4891-973X

Поступила 11.12.2023 Received 11 December 2023

После доработки 08.04.2024 Revised 8 April 2024

Принята к публикации 10.04.2024 Accepted 10 April 2024

i Надоели баннеры? Вы всегда можете отключить рекламу.