Научная статья на тему 'АНАЛИЗ 19,9 МЛН ПУБЛИКАЦИЙ БАЗЫ ДАННЫХ PUBMED/MEDLINE МЕТОДАМИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА: ПОДХОДЫ К ОБОБЩЕНИЮ НАКОПЛЕННЫХ ДАННЫХ И ФЕНОМЕН “FAKE NEWS”'

АНАЛИЗ 19,9 МЛН ПУБЛИКАЦИЙ БАЗЫ ДАННЫХ PUBMED/MEDLINE МЕТОДАМИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА: ПОДХОДЫ К ОБОБЩЕНИЮ НАКОПЛЕННЫХ ДАННЫХ И ФЕНОМЕН “FAKE NEWS” Текст научной статьи по специальности «Клиническая медицина»

CC BY
711
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ БОЛЬШИХ ДАННЫХ / ФАРМАКОИНФОРМАТИКА / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / ДОКАЗАТЕЛЬНАЯ МЕДИЦИНА / МАШИННОЕ ОБУЧЕНИЕ / АЛГОРИТМЫ ОЦЕНКИ КАЧЕСТВА ПУБЛИКАЦИЙ / ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / BIG DATA ANALYSIS / PHARMACOINFORMATICS / ARTIFICIAL INTELLIGENCE / EVIDENCE-BASED MEDICINE / MACHINE LEARNING / PUBLICATION QUALITY ASSESSMENT ALGORITHMS / THEMATIC MODELING

Аннотация научной статьи по клинической медицине, автор научной работы — Торшин И.Ю., Громова О.А., Стаховская Л.В., Ванчакова Н.П., Галустян А.Н.

Введение. Англоязычные базы данных PubMed/MEDLINE и Embase являются ценными информационными ресурсами для нахождения оригинальных публикаций по фундаментальной и клинической медицине. В настоящее время не существует систем искусственного интеллекта, позволяющих оценивать качество этих публикаций.Цель. Разработка и апробация системы для проведения сентимент-анализа (то есть анализа эмоциональной модальности) публикаций по биомедицине.Материалы и методы. Сформулирована методика анализа «больших данных» биомедицинских публикаций, основанная на топологической теории сентимент-анализа медицинских текстов. Разработаны алгоритмы, позволяющие с 90%-й точностью классифицировать тексты по 16 классам сентиментов (манипулятивные обороты речи, исследования без положительных результатов, пропаганда, подделка результатов, негативное личное отношение, агрессивность текста, негативный эмоциональный фон и др.). На основе алгоритмов предложена балльная шкала оценки сентимент-качества исследований (β-балл).Результаты. Проведен анализ текстов абстрактов 19,9 млн публикаций, зарегистрированных в PubMed/MEDLINE за последние 50 лет (1970-2019). Показано, что публикации с низким сентимент-качеством (значение β-балла текста меньше нуля, что соответствует преобладанию манипулятивных и негативных сентиментов в тексте) составляют всего 18,5% (3,68 из 19,9 млн). Наибольшими значениями β-балла характеризовались публикации по спортивной медицине, системной биологии, нутрициологии, по использованию методов прикладной математики и интеллектуального анализа данных в медицине. Рубрикация всего массива публикаций по 27840 рубрикам (MESH-система PubMed/MEDLINE) указала на повышение β-балла по годам (то есть на положительную динамику сентимент-качества текстов публикаций) для 27090 исследованных рубрик. Наиболее интенсивная положительная динамика найдена для исследований по генетике, физиологии, фармакологии и геронтологии. Выделены 249 рубрик с резко отрицательной динамикой сентимент-качества и с выраженным нарастанием манипулятивных сентиментов, характерных для «желтой» англоязычной прессы. Приведены отдельные оценки международных экспертов, которые подтверждают выявленные закономерности. Заключение. Разработанная система искусственного интеллекта позволяет проводить эффективную оценку сентимент-качества биомедицинских исследований, отфильтровывая потенциально неадекватные публикации, публикуемые под маской «доказательных».

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по клинической медицине , автор научной работы — Торшин И.Ю., Громова О.А., Стаховская Л.В., Ванчакова Н.П., Галустян А.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF 19.9 MILLION PUBLICATIONS FROM THE PUBMED/MEDLINE DATABASE USING ARTIFICIAL INTELLIGENCE METHODS: APPROACHES TO THE GENERALIZATIONS OF ACCUMULATED DATA AND THE PHENOMENON OF “FAKE NEWS

Introduction. The English-language databases PubMed/MEDLINE and Embase are valuable information resources for finding original publications in basic and clinical medicine. Currently, there are no artificial intelligence systems to evaluate the quality of these publications.Aim. Development and testing of a system for sentiment analysis (i.e. analysis of emotional modality) of biomedical publications.Materials and methods. The technique of analysis of the “Big data” of biomedical publications was formulated on the basis of the topological theory of sentiment analysis. Algorithms have been developed that allow for the classification of texts from 16 sentiment classes with 90% accuracy (manipulative speech, research without positive results, propaganda, falsification of results, negative personal attitude, aggressive text, negative emotional background, etc.). Based on the algorithms, a scale for assessing the sentiment quality of research (β-score) is proposed.Results. Abstracts of 19.9 million publications registered in PubMed/MEDLINE over the past 50 years (1970-2019) were analyzed. It was shown that publications with low sentiment quality (the value of the β-score of the text is less than zero, which corresponds to the prevalence of manipulative and negative sentiments in the text) comprise only 18.5% (3.68 out of 19.9 million). The greatest values of the β-score were characterized by publications on sports medicine, systems biology, nutrition, on the use of applied mathematics and data mining in medicine. The rubrication of the entire array of publications by 27,840 headings (MESH-system of PubMed/MEDLINE) indicated an increase in the β-score by years (i.e., the positive dynamics of sentiment quality of the texts of publications) for 27,090 of the studied headings. The most intense positive dynamics was found for research in genetics, physiology, pharmacology, and gerontology. 249 headings with sharply negative dynamics of sentiment quality and with a pronounced increase in the manipulative sentiments characteristic of the tabloid press were highlighted. Separate assessments of international experts are presented that confirm the patterns identified.Conclusion. The proposed artificial intelligence system allows a researcher to make an effective assessment of the sentiment quality of biomedical research papers, filtering out potentially inappropriate publications disguised as “evidence-based”.

Текст научной работы на тему «АНАЛИЗ 19,9 МЛН ПУБЛИКАЦИЙ БАЗЫ ДАННЫХ PUBMED/MEDLINE МЕТОДАМИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА: ПОДХОДЫ К ОБОБЩЕНИЮ НАКОПЛЕННЫХ ДАННЫХ И ФЕНОМЕН “FAKE NEWS”»

ISSN 2070-4909 (print) ISSN 2070-4933 (online)

Современная Фармакоэкономика и Фармакоэпидемиология

х к с

V

и

X S

х

о ф

J

о.

ф S S о х -в

к с а

0

1

» .

n 2

IS

is .¡2

FARMAKOEKONOMIKA

Modern Pharmacoeconomic and Pharmacoepidemiology 2020 Vol. 13 No2

www.pharmacoeconomics.ru

£ 5

И

ф

0 in

£ «

s *

e te ^ ^

¡2 un

1 f* Sí

т: с iL Ф

¡SU

и Ф

IS a X м

I? í

S т

о >

« 5

И

* i H о

ü 5

S ÍE

ä. * &

» IS 6fl ф

н a

Щ .4

a

о

Доступность генной терапии in vivo. Проблемы и решения

Концепция ценностно-ориентированного здравоохранения

Стоит ли переосмыслить полученный полвека назад положительный опыт применения хондроитинсульфатов при атеросклерозе?

Том 13

к

is

IS X EIS

2020

(ц-) ■ »«к!.«!.». ISSN 2070-4909 (print)

https://doi.org/10.17749/2070-4909/farmakoekonomika.2020.021. ISSN 2070-4933 (online)

Анализ 19,9 млн публикаций базы данных PubMed/MEDLINE методами искусственного интеллекта: подходы к обобщению накопленных данных и феномен "fake news"

«Ивановская государственная медицинская академия» Министерства здравоохранения Российской Федерации (Шереметевский проспект, д. 8, г. Иваново 153012, Россия)

им. М. Ф. Владимирского» (ул. Щепкина, д. 61/2, Москва 129110, Россия)

х к с

V

s

X s х

о «

J

а

«

S S о х

Торшин И. Ю.12, Громова О. А.12, Стаховская Л. В.3, §

Ванчакова Н.П.4, Галустян А. Н.5, Кобалава Ж. Д.6, к

Гришина Т. Р.7, Громов А. Н.1, Иловайская И. А.8, *

Коденцова В. М.9, Калачева А. Г.7, Лиманова О. А.7, | 3

Максимов В. А.10, Малявская С. И.11, Мозговая Е. В.12, 5 т

я ,!2

Тапильская Н. И.512, Рудаков К. В.1, Семенов В. А.13 я±

Е £

1 Федеральный исследовательский центр «Информатика и управление» РАН (ФИЦ ИУ РАН) а .¡= (ул. Вавилова, д. 44, корп. 2, Москва 119333, Россия) * я

2 Центр хранения и анализа больших данных, Федеральное государственное о

о с

£ 5

бюджетное образовательное учреждение высшего образования «Московский государственный университет имени М. В. Ломоносова» (Ленинские горы, д. 1, Москва 119991, Россия) § ё

3 Федеральное государственное бюджетное учреждение «Федеральный центр о ¡о

цереброваскулярной патологии и инсульта» Министерства здравоохранения § §

Российской Федерации (ул. Островитянова, д. 1, стр. 10, Москва 117342, Россия) 4 Центр психосоматической медицины при клинической больнице № 122 им. Л. Г. Соколова а Р

(пр. Культуры, д. 4, Санкт-Петербург 194291, Россия) | ^

5 Государственное бюджетное образовательное учреждение высшего образования ■: «Санкт-Петербургский государственный педиатрический медицинский университет» £ ® Министерства здравоохранения Российской Федерации (ул. Литовская, д. 2, * ±

Я 5

Санкт-Петербург 194100, Россия) £ г

6 Федеральное государственное автономное образовательное учреждение высшего образования о Ц «Российский университет дружбы народов» (Медицинский институт) (ул. Миклухо-Маклая, д. 10/3, Москва 117198, Россия)

о «

? а

7 Федеральное государственное бюджетное образовательное учреждение высшего образования « х

«л >

л

8 Государственное бюджетное учреждение здравоохранения Московской области ® I «Московский областной научно-исследовательский клинический институт <5

53 а

9 Федеральное государственное бюджетное учреждение науки «ФИЦпитания и биотехнологии» | £ (Устьинский проезд, д. 2/14, Москва 109240, Россия)

ф ^

10 Федеральное государственное бюджетное образовательное учреждение дополнительного ¡? ®

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

профессионального образования «Российская медицинская академия непрерывного £ о

профессионального образования» Министерства здравоохранения Российской Федерации « |

(Баррикадная ул., д. 2/1, стр. 1, Москва 125993, Россия) £ я

в

11 Федеральное государственное бюджетное образовательное учреждение {§ а высшего образования «Северный государственный медицинский университет» I Министерства здравоохранения Российской Федерации (Троицкий проспект, д. 51, 3 зг

г. Архангельск 163000, Россия)

12 Федеральное государственное бюджетное научное учреждение «Научно-исследовательский институт акушерства, гинекологии и репродуктологии имени Д. О. Отта» (Менделеевская линия, д. 3, Санкт-Петербург 199034,Россия)

13 Федеральное государственное бюджетное образовательное учреждение высшего образования «Кемеровский государственный медицинский университет» (ул. Ворошилова, д. 22а, г. Кемерово 650056, Россия)

Для контактов: Громова Ольга Алексеевна, e-mail: unesco.gromova@gmail.com

х к

с

»

s

X s х

о «

J

а

«

S S о х

РЕЗЮМЕ

Введение. Англоязычные базы данных PubMed/MEDLINE и Embase являются ценными информационными ресурсами для нахождения оригинальных публикаций по фундаментальной и клинической медицине. В настоящее время не существует систем искусственного интеллекта, позволяющих оценивать качество этих публикаций.

Цель. Разработка и апробация системы для проведения сентимент-анализа (то есть анализа эмоциональной модальности) публикаций по биомедицине.

Материалы и методы. Сформулирована методика анализа «больших данных» биомедицинских публикаций, основанная на топологической теории сентимент-анализа медицинских текстов. Разработаны алгоритмы, позволяющие с 90%-й точностью классифицировать тексты по 16 классам сентиментов (манипулятивные обороты речи, исследования без положительных результатов, пропаганда, подделка результатов, негативное личное отношение, агрессивность текста, негативный эмоциональный фон и др.). На основе алгоритмов предложена балльная шкала оценки сентимент-качества исследований (р-балл).

Результаты. Проведен анализ текстов абстрактов 19,9 млн публикаций, зарегистрированных в PubMed/MEDLINE за последние 50 лет (1970-2019). Показано, что публикации с низким сентимент-качеством (значение р-балла текста меньше нуля, что соответствует преобладанию манипулятивных и негативных сентиментов в тексте) составляют всего 18,5% (3,68 из 19,9 млн). Наибольшими значениями р-балла характеризовались публикации по спортивной медицине, системной биологии, нутрициологии, по использованию методов прикладной математики и интеллектуального анализа данных в медицине. Рубрикация всего массива публикаций по 27840 рубрикам (MESH-система PubMed/MEDLINE) указала на повышение р-балла по годам (то есть на положительную динамику сентимент-качества текстов публикаций) для 27090 исследованных рубрик. Наиболее интенсивная положительная динамика найдена для исследований по генетике, физиологии, фармакологии и геронтологии. Выделены 249 рубрик с резко отрицательной динамикой сентимент-качества и с выраженным нарастанием манипулятивных сентиментов, характерных для «желтой» англоязычной прессы. Приведены отдельные оценки международных экспертов, которые подтверждают выявленные закономерности. Заключение. Разработанная система искусственного интеллекта позволяет проводить эффективную оценку сентимент-качества биомедицинских исследований, отфильтровывая потенциально неадекватные публикации, публикуемые под маской «доказательных».

КЛЮЧЕВЫЕ СЛОВА

Анализ больших данных, фармакоинформатика, искусственный интеллект, доказательная медицина, машинное обучение, алгоритмы оценки качества публикаций, тематическое моделирование.

Статья поступила: 18.12.2019 г.; в доработанном виде: 19.03.2020 г.; принята к печати: 01.06.2020 г. Конфликт интересов

Авторы заявляют об отсутствии необходимости раскрытия финансовой поддержки или конфликта интересов в отношении данной публикации. Все авторы сделали эквивалентный вклад в подготовку публикации.

Финансирование

Работа выполнена при поддержке грантов РФФИ 19-07-00356 17-07-00935 17-07-01419 18-07-01022 18-07-00944 18-07-00929 16-07-01133. Для цитирования

Торшин И. Ю., Громова О. А., Стаховская Л. В., Ванчакова Н.П., Галустян А. Н., Кобалава Ж. Д., Гришина Т. Р., Громов А. Н., Иловайская И. А., Коденцова В. М., Калачева А. Г., Лиманова О. А., Максимов В. А., Малявская С. И., Мозговая Е. В., Тапильская Н. И., Рудаков К. В., Семенов В. А. Анализ 19,9 млн публикаций базы данных PubMed/MEDLINE методами искусственного интеллекта: подходы к обобщению накопленных данных и феномен "fake news". ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2020; 13 (2): 146-163. https://doi.org/10.17749/2070-4909/farmakoekonomika.2020.021.

Analysis of 19.9 million publications from the PubMed/MEDLINE database using artificial intelligence methods: approaches to the generalizations of accumulated data and the phenomenon of "fake news"

Torshin I. Yu.12, Gromova O. A.12, Stakhovskaya L. V.3, Vanchakova N. P.4, Galustyan A. N.5, Kobalava Zh. D.6, Grishina T. R.7, Gromov A. N.1, Ilovaiskaya I. A.8, Kodentsova V. M.9, Kalacheva A. G.7, Limanova O. A.7, Maksimov V. A.10, Malyavskaya S. I.11, Mozgovaya E. V.12, Tapilskaya N. I.512, Rudakov K. V.1, Semenov V. A.13

1 Federal Research Center "Informatics and Management of the Russian Academy of Sciences (44-2 Vavilova Str., Moscow 119333, Russia)

2 Moscow State University (1 Leninskie gory, Moscow 119991, Russia)

3 Federal Center for Cerebrovascular Pathology and Stroke (1-10 Ostrovityanova Str., Moscow 117997, Russia)

4 Center for Psychosomatic Medicine at the Clinical Hospital No. 122 named after L. G. Sokolov (4 pr. Kultury, St. Petersburg, 194291, Russia)

5 Saint-Petersburg State Pediatric Medical University (2 Litovskaya Str., St. Petersburg 194100, Russia)

6 Peoples' Friendship University of Russia (10/3 Miklukho-Maklaya Str., Moscow 117198, Russia)

7 Ivanovo State Medical Academy (8 Sheremetevsky prospekt, Ivanovo 153012, Russia)

8 The State Budgetary Healthcare Institution of Moscow Area Moscows regional research clinical institute n.a. M. F. Vladimirskiy (61/2 Shchepkina Str., Moscow 129110, Russia)

9 Federal Research Center for Nutrition and Biotechnology (2/14 Ustinsky proezd, Moscow 109240, Russia)

10 Federal State Budgetary Educational Institution of Continuing Professional Education "Russian Medical Academy of Continu ing Professional Education" of the Ministry of Health of the Russian Federation (2/1 Building 1 Barrikadnaya Str., Moscow 125993, Russia)

11 Northern State Medical University (51 Troitskiy Ave., Arkhangelsk 163000, Russia)

12 The Research Institute of Obstetrics, Gynecology and Reproductology named after D. O. Ott (3 Mendeleev Line, St. Petersburg 199034, Russia)

13 Kemerovo State Medical University (22a Voroshilova Str., Kemerovo 650056, Russia) Corresponding author: Olga A. Gromova, e-mail: unesco.gromova@gmail.com SUMMARY

Introduction. The English-language databases PubMed/MEDLINE and Embase are valuable information resources for finding original publications in basic and clinical medicine. Currently, there are no artificial intelligence systems to evaluate the quality of these publications. Aim. Development and testing of a system for sentiment analysis (i.e. analysis of emotional modality) of biomedical publications. Materials and methods. The technique of analysis of the "Big data" of biomedical publications was formulated on the basis of the topological theory of sentiment analysis. Algorithms have been developed that allow for the classification of texts from 16 sentiment classes with 90% accuracy (manipulative speech, research without positive results, propaganda, falsification of results, negative personal attitude, aggressive text, negative emotional background, etc.). Based on the algorithms, a scale for assessing the sentiment quality of research (p-score) is proposed.

Results. Abstracts of 19.9 million publications registered in PubMed/MEDLINE over the past 50 years (1970-2019) were analyzed. It was shown that publications with low sentiment quality (the value of the p-score of the text is less than zero, which corresponds to the prevalence of manipulative and negative sentiments in the text) comprise only 18.5% (3.68 out of 19.9 million). The greatest values of the p-score were characterized by publications on sports medicine, systems biology, nutrition, on the use of applied mathematics and data mining in medicine. The rubrication of the entire array of publications by 27,840 headings (MESH-system of PubMed/MEDLINE) indicated an increase in the p-score by years (i.e., the positive dynamics of sentiment quality of the texts of publications) for 27,090 of the studied headings. The most intense positive dynamics was found for research in genetics, physiology, pharmacology, and gerontology. 249 headings with sharply negative dynamics of sentiment quality and with a pronounced increase in the manipulative sentiments characteristic of the tabloid press were highlighted. Separate assessments of international experts are presented that confirm the patterns identified.

Conclusion. The proposed artificial intelligence system allows a researcher to make an effective assessment of the sentiment quality of biomedical research papers, filtering out potentially inappropriate publications disguised as "evidence-based".

KEY WORDS

Big data analysis, pharmacoinformatics, artificial intelligence, evidence-based medicine, machine learning, publication quality assessment algorithms, thematic modeling.

Received: 18.12.2019; in the revised form: 19.03.2020; accepted: 01.06.2020. Conflict of interests

The authors declare they have nothing to disclosure regarding the funding or conflict of interests with respect to this manuscript.

The authors contributed equally to this article.

Funding

This work was supported by grants from the Russian Foundation for Basic Research 19-07-00356 17-07-00935 17-07-01419 18-07-01022 18-0700944 18-07-00929 16-07-01133.

For citation

Torshin I. Yu., Gromova O. A., Stakhovskaya L. V., Vanchakova N. P., Galustyan A. N., Kobalava Zh.D., Grishina T. R., Gromov A. N., Ilovaiskaya I. A., Kodentsova V. M., Kalacheva A. G., Limanova O. A., Maksimov V. A., Malyavskaya S. I., Mozgovaya E. V., Tapilskaya N. I., Rudakov K. V., Semenov V. A. Analysis of 19.9 million publications of the PubMed/MEDLINE database using artificial intelligence methods: approaches to the generalizations of accumulated data and to the phenomenon of "fake news". FARMAKOEKONOMIKA. Sovremennaya farmakoekonomika i farmakoepidemiologiya /FARMAKOEKONOMIKA. Modern Pharmacoeconomics and Pharmacoepidemiology. 2020; 13 (2): 146-163 (in Russ.). https://doi.org/10.17749/2070-4909/farmakoekonomika.2020.021.

x

K

c

V

n

X s x

u «

J

a

«

S S o

it

EZ

Основные моменты

Что уже известно об этой теме?

► Англоязычные базы данных PubMed/MEDLINE и Embase являются ценными информационными ресурсами для нахождения оригинальных публикаций по фундаментальной и клинической медицине

► В настоящее время не существует систем искусственного интеллекта, позволяющих оценивать качество этих публикаций

Что нового дает статья?

► Сформулирована методика анализа «больших данных» биомедицинских публикаций, основанная на топологической теории сентимент-анализа медицинских текстов. Проведен анализ текстов абстрактов 19,9 млн публикаций, зарегистрированных в PubMed/MED-LINE, за последние 50 лет

► Публикации с низким сентимент-качеством составляют всего 18,5% (3,68 из 19,9 млн)

► Наибольшими значениями р-балла характеризовались публикации по спортивной медицине, системной биологии, нутрициологии, по использованию методов прикладной математики и интеллектуального анализа данных в медицине

Как это может повлиять на клиническую практику в обозримом будущем?

► Разработанная система искусственного интеллекта позволяет проводить эффективную оценку сентимент-качества биомедицинских исследований, отфильтровывая потенциально неадекватные публикации, публикуемые под маской «доказательных»

► Выделенные рубрики с резко отрицательной динамикой сентимент-качества за последние 10 лет указывают на то, что следует с осторожностью относится к так называемым «международным стандартам»

► Выборки статей из PubMed/MEDLINE, не содержащие лингвистических признаков манипуляции, весьма важны для разработки клинических рекомендаций, учета международного опыта, поиска медицинских разработок с инновационным потенциалом, реализации национальных проектов

Highlights

What is already known about this subject?

► PubMed/MEDLINE and Embase English-language databases that are valuable information resources of original publications in fundamental and clinical medicine

► There are currently no artificial intelligence systems to evaluate the quality of these publications

What are the new findings?

► The technique of analysis of the "Big data" of biomedical publications is formulated based on the topological theory of sentiment analysis of medical texts. Abstracts of 19.9 million publications registered in PubMed/MEDLINE over the past 50 years were analyzed

► Publications with low sentiment quality account for only 18.5% (3.68 of 19.9 million)

► The greatest values of the p-score were characterized by publications on sports medicine, systems biology, nutrition, on the use of applied mathematics and data mining in medicine

How might it impact on clinical practice in the foreseeable future?

► The developed artificial intelligence system allows for an effective assessment of the sentiment quality of biomedical research, filtering out potentially inappropriate publications published under the guise of "evidence"

► Highlighted headings with sharply negative dynamics of sentiment quality over the past 10 years indicate that caution should be taken concerningthe so-called "International standards"

► Subsets of articles from PubMed/MEDLINE that do not contain signs of linguistic manipulation are very important for developing clinical guidelines, taking into account international experience, searching for medical developments with innovative potential, and implementing national projects

ВВЕДЕНИЕ/INTRODUCTION

...Просматривая газеты за несколько последних лет, я убедился, что некоторые методы уголовного мира, причем самые грязные методы, стали безнаказанно применяться в политике...

«Двадцатый век начинается» (1987), по мотивам «Записок о Шерлоке Холмсе» А. К. Дойла

Англоязычные базы данных (БД) PubMed/MEDLINE [1] и Embase

[2] представляют собой исключительно ценные источники информации по исследованиям из области фундаментальной и клинической медицины. Наличие более 30 млн публикаций, зарегистрированных в БД свободного доступа PubMed/MEDLINE, и более 40 млн публикаций в БД Embase указывает на насущную необходимость использования адекватных алгоритмов для поиска и отбора публикаций, необходимых для того или иного исследования. Такого рода алгоритмы особенно важны для масштабного планирования научных исследований и для разработки соответствующих национальных программ в области здравоохранения.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Существующие алгоритмы поиска БД научных публикаций по ключевым словам позволяют достаточно точно выделять подмножества публикаций, релевантных той или иной теме исследований. Однако ни одна из имеющихся поисковых систем не позволяет оценивать качество многих тысяч находимых таким образом публикаций. А ведь решение проблемы оценки научного качества статьи по ее тексту принципиально важно для нахождения объективной научной информации.

Приведем несколько простых примеров. При работе над нашими монографиями [3,4], каждая из которых цитирует по 2500 источников, только по витамину D нам пришлось провести детальный анализ массива из 12700 публикаций, зарегистрированных

в PubMed/MEDLINE, в т.ч. публикаций результатов соответствующих клинических исследований. При попытке экспертного анализа этого массива, что называется «вручную», для экспертов стало очевидным, что более 30% рассмотренных публикаций носят ярко выраженный негативный характер: ведь в них не представлено вообще никаких положительных клинических эффектов от использования витамина D по отношению к любой из исследованных патологий/исходов. Далее мы называем такие публикации «безрезультатными исследованиями».

Поясним вышесказанное. Очевидно, что в полноценном научном исследовании всегда получается набор положительных и отрицательных результатов. В то же время, представление только отрицательных результатов или чрезмерно оптимистичное «выпирание» какого-то одного положительного результата указывает на научную однобокость исследования, вызывает серьезные сомнения в мотивации такого «исследователя» и, вероятно, указывает на определенного рода конфликт интересов.

Пусть для достаточного числа пациентов имеется таблица из 100 показателей состояния здоровья, включая 10 исследуемых «исходов». Такая таблица подразумевает 100*99/2=4950 попарных взаимодействий показателей, в т.ч. 10*99/2=495 взаимодействий, относящихся к исходам исследования. Очевидно, что данные в такую таблицу включаются не случайным образом, а в соответствии с рациональным дизайном биомедицинского исследования. Поэтому т.н. «модельные» выборки (полученные посредством датчика случайных чисел), в которых параметры совершенно не коррелируют друг с другом, исключены по определению.

Нами проведены анализы более 850 таких таблиц реальных данных, включая результаты оригинальных исследований [3,4], и данные из публично доступных источников (http://physionet.org и др.). Накопленный экспертный опыт позволяет однозначно

X

к с

V

s

X s х

о «

J

а

«

S S о х

к с а

0

1

» .

п 2

и

If

S I

0 c

1 s

и

0 m

£ •

s *

e te ^

¡2 un

■S «

1 ■:

-s с il «

H

S I

u « с о. X м

i *

5 T

0 >

« 5 =

ш S * £

H о

¡s s

ë S

1 I

6 *

a » с м ф

h a

x 0 a о

H

S S

I I

x4

IS X EIS

утверждать, что если при анализе таблицы из 100 параметров не найдено ни одного статистического значимого взаимодействия для 4950 попарных взаимодействий, то такая таблица или (1) содержит грубейшие ошибки, допущенные при сборе данных, или (2) данные в таблице были получены с использованием датчика случайных чисел с равномерным распределением, или (3) допущены грубейшие ошибки при анализе данных - игнорирование фундаментальных математических условий применения того или иного статистического критерия, отсутствие стратификационного анализа, арифметические ошибки (см. цитируемые далее работы проф. Дж. Иоаннидиса) и т.п., или (4) возможна фальсификация декларируемых в публикации результатов (предпринимаемая, например, в целях недобросовестной конкуренции).

Как было отмечено выше, «безрезультатными» будем называть такие исследования, в которых не представлено никаких положительных клинических эффектов (то есть представлены только отрицательные результаты, без каких-либо позитивных выводов). Для целей настоящей статьи важен тот факт, что «негативные» или «безрезультатные» исследования отличаются особым стилем изложения, преобладанием определенной лексики и грамматических конструкций. Текст безрезультатных исследований характеризуется избытком конструкций отрицания («did not», «no significant effect» и др.), излишней формализацией языковых конструкций: например, пациенты могут называться не «пациентами» или «пациентками», а некими бесполыми «участниками», англ. -«participants», вместо указания четких клинических диагнозов в абстракте и в тексте статьи по МКБ-10 представлено избыточное, навязчивое употребление не клинических терминов наподобие «основная точка» («primary outcome») или некие абстрактные «неврологические события» при полном отсутствии понятной клиницисту терминологии (например, «I64 Инсульт», «балл по шкале MMSE», «шкала Рэнкина», «балл по IPSS» и т.п.). Иначе говоря, «безрезультатные» исследования, в некотором роде, написаны «по шаблону».

Особого внимания заслуживает и то, что тексты определенных публикаций, индексируемых в PubMed/MEDLINE, характеризуются преобладанием штампов манипулятивного характера, которые в англоязычной литературе широко известны как «spin words» («слова для накручивания сознания») или «weasel words» (дословно - «хорьковые слова», то если слова, используемые для подмены обсуждения по существу на психологическое давление на читателя). Сам термин «weasel words» восходит к шекспировской фразе «I can suck melancholy out of a song, as a weasel sucks eggs» («Я могу высосать меланхолию из песни как хорек высасывает яйца» - В. Шекспир, комедия «Как вам это понравится», 2-й акт) и подразумевает эдова, которые «высасывают смысл из слов рядом с ними и оставляют только треск пустой скорлупы» [5].

Например, словосочетание «adverse outcomes» (что можно перевести как «неблагоприятные исходы») является «хорьковым словом», типичным не только для безрезультатных исследований, но и для бульварной прессы [6]. Многочисленные примеры, приводимые в монографиях [6,7], наглядно показывают, что данное словосочетание повсеместно используется в желтой прессе исключительно для запугивания читателя, а не для представления какой-либо важной информации. К сожалению, как показывают результаты настоящего исследования, лексика англоязычных таблоидов (то есть бульварных листков, см. полный список на сайте www.earthnewspapers. com) весьма широко используется и в некоторых англоязычных медицинских журналах. Существование упоминаемых выше и многих других языковых «шаблонов» и «штампов» позволяет предположить, что процесс отделения манипулятивных публикаций от нормальных публикаций может быть автоматизирован посредством использования современных методов машинного обучения и интеллектуального анализа данных.

В настоящее время не существует систем искусственного интеллекта, позволяющих оценивать качество этих публикаций. Это определило цель нашей работы.

Цель - разработка и апробация системы для проведения сенти-мент-анализа (анализа эмоциональной модальности) публикаций по биомедицине.

МАТЕРИАЛЫ И МЕТОДЫ / MATERIALS AND METHODS

Структура системы сентимент-анализа в рамках машинного обучения

Центральной задачей топологической теории сентимент-анали-за является разработка алгоритмов классификации текстов, позволяющих отличать (с максимально возможной специфичностью и селективностью) тексты заданного класса («безрезультатные», «манипулятивные», «негативные коннотации» и др., см. ниже) от всех остальных текстов. Системы машинного обучения оперируют с множествами прецедентов, представляющих собой материал обучения таких алгоритмов. Отдельный прецедент или объект (отдельное предложение, абстракт или полный научной публикации) состоит из признакового описания (то есть слов и словосочетаний текста) и информации о принадлежности этого объекта к тому или иному классу объектов (например, класс К, -«манипулятивные тексты», класс К2 - «нормальные тексты» и др.). Такие классы принадлежности объектов (текстов), естественно, задаются экспертом.

Оценка разрешимости задач классификации текстов

После того как методами топологической теории анализа данных получены признаковые описания объектов и определены соответствующие классы К,/К2 [8-10], исследуется разрешимость поставленной задачи классификации текстов. Под разрешимостью задач понимается непротиворечивость множеств прецедентов (то есть существования решения у задачи). В случае задачи поиска результативных исследований условие разрешимости этой задачи записывается следующим образом:

V(A1,Kl),(A2,K2)[VPa-pa(Al,P)=Pa(A\P)kKl=K2 (1)

Pr Va=1 J

где Pr - множество всех текстовых прецедентов; N = I Pr I - число текстов во множестве прецедентов, (Л1, K1) ; (A2, K2) - произволь- S ные прецеденты из множества Pr. В прецеденте (A, K) множество A обозначает признаковое описание (например, набор слов или словосочетаний из всех текстов во множестве Pr ); К - класс, к которому принадлежит прецедент (К, или К2); Р - множество всех значений признаков, найденных в прецедентах из Pr; Pa(A,P) - значение a-го бинарного признака из множества Р в прецеденте (A, K) такое, что P(A, P) = 1 когда ключевое слово содержится в прецеденте А, и Pa(A, P) = 0 в противном случае.

Для эффективного установления выполнимости условия (1) вводится некоторый a функционал ^инф(а), позволяющий оценить информативность a-го признака относительно классов К1/К2 [10]. Тогда множество всех значений признаков Р можно линейно упорядочить в соответствии со значением оценки информативности (то есть по убыванию значений Оинф). После упорядочения множества Р большим значениям Dmi}](a) соответствуют меньшие значения ранга информативности a, так что условие (1) записывается как критерий разрешимости на упорядоченном множестве признаков:

х к с

V

и

X s х

о «

J

а

«

S S о а

к с и

0

1

» .

п 2

8.2 H

И

О

0 Е

1 5

И

0 m

Я «

s *

е <а

im ^

¡2 un

■S «

1 f*

i*. с

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а «

>^Pa

min : pa(A)>pa(AJ) (2)

V (Ш^): А 'е Кх, А' е Ко

Рг

где К0 с Р - минимальное по размеру множество признаков, на котором выполнено условие (2).

В качестве Dинф был применен один из D-функционалов [11-15], отвечающий следующим качественным представлениям эксперта об информативности терминов: (а) наиболее интересны термины,

H зЦ

и « с » X м

s p

о >

« 5

и

ю О * g

H о

¡S 2

S я

S X

a a ® с м Ф h a

X 0

a о

H

S S

il x4

IS X EIS

встречающиеся «часто» в выборке К1 (например, десятки раз) и «достаточно редко» (единицы) - в выборке К2; (б) термины, встречающиеся «очень часто» (сотни и тысячи раз), должны учитываться только по мере необходимости для выполнения условия разрешимости (2); (в) термины, встречающиеся «редко» (единицы), в выборке К1 характеризуются наименьшей информативностью; (г) наибольший интерес представляют термины, наиболее релевантные по смыслу (например, «адъювантная терапия»).

Значения Dинф для различных ключевых слов вычислялись следующим образом. Пусть а-ый термин встречается в п^ абстрактах выборки К1 и в па2 абстрактах выборки К2, размеры выборок К1 и К2 - ^ и М2 абстрактов соответственно, а частоты встречаемости термина - vf=пу^+Щ и \2^=па2/(Н1+Ы2). Требованиям (а, б, в, г) вполне отвечает D-функционал вида (3):

Июф = Уа-(П1 "В 2 ■ П 1 /И Ч(уЧ,В 2))

где уа - смысловая релевантность а-го термина в соответствии с заданным экспертами словарем терминов, е0=(Л^+ЛЦ -отношение размеров выборок К1 и К2, П'Ч - кусочно-линейная функция вида (3'), указывающая, насколько чаще а-ый термин встречается в К1, чем в К2. Например, П'Ч =1,0 соответствует тому, что а-ый термин встречается только среди абстрактов выборки К, и ни разу - в К2:

V?<у2: 0

(3')

D ? (Vf, v2)=

'i > V2:

v l- v2

1-

v2

Некоторые признаки могут быть избыточны, так как встречаются в устойчивых сочетаниях слов (например, «лекарственная терапия»), семантически связанных терминах или являются синонимами и др. Поэтому при анализе условия (2) важно принимать во внимание парные взаимодействия терминов. Для произвольного класса К «расстояние» между /-ым и j-ым терминами оценивалось как г (1,])=\Т,АТ]\/\Т1 ^Т]\, где т,= [ЛеХ: р, (Л) =1}, Т = [АеК.р.(А) =1}. С использованием метрики г ^ проводится кластеризация терминов, так что в условии (2) будут фигурировать уже не отдельные слова/термины, а кластера терминов, установленные методом анализа метрических сгущений [9,11-13].

Вычисление условия (2) на множестве прецедентов и лежит в основе использованного метода классификации текстов. Условие (2) позволяет вычислить множество K0 с P, то есть отобрать наиболее информативные признаки, гарантирующие разрешимость задачи классификации. Далее, с применением методов порождения синтетических признаков и прогнозирования числовых переменных [16], использующих алгоритмы логических правил, ранжирования, нейронных сетей и регрессионных подходов, над множеством признаков K0 строятся алгоритмы, позволяющие различать тексты классов К/К2.

Сентимент-анализ текстов

Разработанная система распознавания классов текстов К1/Кг позволяет естественным образом ввести балльные оценки объектов в условии (2), на основе которых оценивается «сентимент-ка-чество» соответствующих текстов. После отнесения объекта A к классу К1 балльная оценка этого объекта относительно класса К1 вычисляется как р(А) =\{a\pa(A,K0)=1,а=1,...,|К0|||. Иначе говоря, балл р для объекта (текста) A суть число наиболее информативных признаков, по которым объект A был отнесен к классу К1.

В случае настоящего исследования признаками являются соответствующие конструкции языка или «сентименты» (так как подразумевается исследование эмоционально нагруженных языковых конструкций). Было изучено 16 классов текстов и построены соответствующие алгоритмы для распознавания этих классов (табл. 1). В результате обучения алгоритмов на коллекции из 2529638 текстов были выделены 7116 языковых конструкций, являющихся наиболее информативными лингвистическими признаками, позволяющими с достаточной точностью распознавать исследованные классы текстов (среднее значение площади под кривой работы алгоритма - 0,88).

В качестве источников обучающих выборок были использованы собственные выборки текстов, накопленные авторами за последние 20 лет исследований (адекватное изложение клинических результатов, положительные результаты исследований, безрезультатные исследования, пропаганда, публикации с установленной фальсификацией результатов, данные о публикациях в PubMed/ MEDLINE, поддержанных некоммерческими организациями-ино-

Таблица 1. Классы текстов с сентиментами, изученные в настоящем исследовании. Table 1. Classes of sentiment texts analyzed in the present study.

№ Классы текстов N AUC m в-балл

1 Манипулятивные обороты 12201 0,90 74 в1, вманип.

2 Адекватное изложение клинических результатов 15827 0,87 25 в2, рклин.

3 Положительные результаты 14394 0,84 13 в3, вполж.

4 Безрезультатные исследования 5672 0,96 16 в4, вотриц.

5 Пропаганда 14229 0,88 202 в5, впроп.

6 Некоммерческие организации-иноагенты 4525 0,89 38 в6, вНКО

7 Подделка результатов 6733 0,83 101 в7, вотозв.

8 Негативное личное отношение 18920 0,91 132 в8, внег.

9 Позитивное личное отношение 20992 0,92 143 в9, впоз.

10 Сеяние раздора, агрессии, массовых беспорядков 8830 0,86 199 в10, враздор

11 Язык тоталитарных сект 5221 0,84 783 в11, всекта

12 Позитивный эмоциональный фон 459993 0,83 1790 в12, впоз.эм.

13 Негативный эмоциональный фон 475952 0,93 1117 в13, внег.эм.

14 Конструктивный диалог 459993 0,82 2009 в14, вконстр.

15 Неконструктивный диалог 475952 0,89 113 в15, внеконстр.

16 Дипломатический «слэнг» 530204 0,88 361 в16, вдипл.

Итого 2529638 0,88 7116 -

X К С V S X s

X

u

Ф J

a

Ф

S

s

0

X a к s

1

IS a О

и x С О

к с a

0

1

» . S 2

¡s.!2

H If

SI

и E

1 s

n

и

Ф

0 in

£ «

s *

e to

irn ^

in

1 i*"

i ■: с

а Ф

H

S I

0 Ф

IS а

X м

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 *

S т

0 >

« 5 =

ш 8

* £

I- о

S *

« Я

£ х

а а

® is

м ф

н а

х 0

а о

S я

1 I

х4

IS X EIS

Примечание. N — число текстов в обучающей выборке;ЛиС — площадь под кривой, как оценка точности алгоритма в кросс-валидации; т — общее число выявленных наиболее информативных признаков (языковых конструкций, сентиментов); /З-балл — обозначения соответствующего /З-балла (см. текст).

Note. N is the number of texts in the training sampling; AUC — area under the curve as an estimate of the accuracy of the algorithm in cross-validation; m is the total number of identified the most informative features (language structures, sentiments); /3-score — designation of the corresponding /3-score (see text).

агентами, официально зарегистрированными в госдепартаментах соответствующих стран, информация с сайтов www.state.gov, www.ngoadvisor.net др.), тексты из англоязычных ресурсов, приводимых в монографиях [6,7,17-19] и на сайте www.earthnewspapers.com (манипулятивные обороты, тоталитарные секты, раздор, агрессия, пропаганда), а также публично доступные интернет-ресурсы, контент которых представлялось возможным использовать для проведения сентимент-анализа, в т.ч. базы данных сообщений из ресурсов Twitter, IMDB, Wikileaks и др. (эмоциональный фон, конструктивность дискурса, дипломатический «слэнг»). Полученные алгоритмы отличались достаточно высокой точностью (AUC=0,88; 95% ДИ: 0,82-0,96) и в среднем позволяют идентифицировать 90% текстов с соответствующими сентиментами с ложнопозитив-ными определениями всего в 8-15%.

Общая балльная оценка текста каждого исследования р(текст) = РДтекст) - р_(текст) вычислялась как разность между значением балльной оценки «положительных» сентиментов р+ = р2+рз+р9+р12+р14 и балльной оценкой «отрицательных» сентиментов Р- t=(3l+f24+p,)+p6+p7+p8+pi0+p„+pi3+pi5+pi6 (см. табл. 1).

Заметим, что предлагаемая математическая методология сен-тимент-анализа биомедицинских текстов имеет непосредственное отношение к проблеме различения «научных» и «псевдонаучных» текстов. В традиционной философии науки имеются особые критерии разграничения научного от ненаучного (псевдонаучного) и, прежде всего, критерий фальсифицируемости известного австрийского философа науки К. Р. Поппера [20,21]. Согласно последнему, утверждение относится к области науки тогда и только тогда, когда существует возможность его экспериментального опровержения с использованием доступного в настоящее время научного инструментария. Если эксперт использует критерий фальсифицируемости и помещает в класс К1 тексты, удовлетворяющие данному критерию (соответственно, в класс К2 помещаются тексты, не удовлетворяющие этому критерию), то формулы (1-3) позволяют «обучать» алгоритмы для решения задачи классификации «научных» и «псевдонаучных» текстов.

К. Р. Поппер достаточно мягко относился к проблеме псевдонаучных публикаций («...наука часто ошибается, и псевдонаука может случайно натолкнуться на истину») [21]. Тем не менее для здравомыслящего ученого очевидна недопустимость использования излишне эмоциональных и уж тем более манипулятивных и пропагандистских языковых конструкций (сентиментов) в тексте научной статьи. В настоящем исследовании мы считаем, что преобладание такого рода сентиментов косвенно указывает на псевдонаучность и даже лженаучность соответствующего текста - ведь излишняя эмоциональность (1) ассоциирована с нарушениями правил логики, (2) может отражать скрываемый конфликт интересов, (3) указывает на необъективность индивидуума, пишущего такой текст. Эти факторы не могут не провоцировать и формирование заведомо ложных утверждений в рамках соответствующего текста, и нарушения принципа фальсифицируемости. Поэтому сформулированные выше количественные оценки сентимент-качества текстов (РГ..Р16 в таблице 1, р+ и р_) могут интерпретироваться как количественные оценки научности/псевдонаучности текстов в соответствии со следующими критериями:

- Изложение научного результата должно использовать конструктивную лексику (Р14), содержать хотя бы какие-нибудь положительные результаты (рз) и проводиться на основе специальной терминологии соответствующей научной области (Р2);

- Излишне депрессивный эмоциональный фон текста (р_, Р4, Р8, Р13) несовместим с конструктивным изложением результатов (Р4);

- Эмоциональный фон научного текста должен быть нейтральным (Р12, Р9~0) или слегка положительным (Р+>0, что интуитивно ясно, так как настоящий исследователь всегда радуется новому открытию);

- Направленная манипуляция эмоциями (характерная, в частности, для ретрагированных исследований, Р7) абсолютно недопустима;

- Научный текст не может содержать языковых конструкций пропагандистского характера (Р5) или конструкций, указывающих выраженное «личное отношение», в особенности эмоциональное приятие/неприятие обсуждаемого результата (Р8);

- Изложение научного результата не может содержать манипулятивных приемов изложения (р^, в т.ч. используемых при вербовке прозелитов тоталитарных сект (PJ, в работе некоммерческих организаций (НКО), являющихся иноагентами (Р6), при организации массовых митингов (Р5) или массовых беспорядков

(PJ;

- Манипулятивные языковые конструкции, повсеместно используемые политиками или средствами массовой информации (Р15), неприемлемы для научных текстов. Двуличный языковый стандарт дипломатического слэнга также недопустим (Р16).

Очевидно, что значения суммарного балла р>0 для текста некоторой публикации соответствуют преимущественному выполнению этих критериев, а значения р<0 - преобладанию соответствующих негативных и неконструктивных сентиментов в тексте соответствующей публикации по биомедицине. Заметим, что разработанная система алгоритмов была обширно апробирована ранее при проведении многочисленных систематических анализов литературы по различным аспектам фундаментальной и клинической медицины [3,4,22-25] и показала свою практическую эффективность.

На основании разработанных алгоритмов проведен анализ массива из 19918308 публикаций, найденных в базе данных PubMed/ MEDLINE по запросу «(1970 [Date - Publication]: 2019 [Date -Publication])». Массив включал аннотированные публикации в англоязычных рецензируемых научных журналах с полным текстом абстракта. Анализ этого массива текстов был проведен с использованием описанных выше современных методов машинного обучения, основанных на топологической теории сентимент-анализа (то есть анализа эмоциональной модальности текста), развиваемой в рамках алгебраического подхода к распознаванию и классификации.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ / RESULTS AND DISCUSSION

Общая оценка массива публикаций в PubMed/MEDLINE

Была изучена встречаемость 16 классов сентиментов (манипу-лятивные обороты речи, пропаганда, негативное личное отношение и др. (см. табл 1)). В течение всего этого периода количество публикаций с низким показателем сентимент-качества (р-балл текста ниже нуля, что соответствует преобладанию манипулятивных и негативных сентиментов) росло гораздо медленнее, чем общее число публикаций в PubMed/MEDLINE (рис. 1).

Визуальный анализ распределений значений р-балла (рис. 2) показывает, что полученный результат весьма позитивен, ведь большинство текстов публикаций, индексируемых в PubMed/ MEDLINE (более 80%), характеризуются положительными значениями р-балла.

Анализ распределения значений р+ и р- (рис. 3) показывает, что большинство исследований (более 90%, включая некоторые из исследований со значениями р<0) характеризуются низкими значениями и балла р+, и балла р-. Иначе говоря, большинство исследований в PubMed/MEDLINE практически не содержат манипулятивных или эмоционально перегруженных конструкций, будь то положительные или отрицательные эмоциональные коннотации. Этот факт соответствует приемлемому качеству подавляющего числа публикаций в PubMed/MEDLINE и еще раз показывает, что PubMed/MEDLINE - ценнейший ресурс для поиска информации по фундаментальной медицине, клинической медицине и по смежным областям (науки о живых системах).

х к с

V

s

X s х

о «

J

а

«

S S о а

к с а

0

1

» .

п 2

8.2 H If

S I

0 c

1 s

и

0 m £ â

s *

e te ^ ^

¡2 un

■S «

1 f*

i*. с

il «

H si

и «

IS a X и

S T

0 >

« 5

M

Ю g * £

H о

¡S *

S s

S X

a a ® с м ф

h a

x 0 a о

H

S S

1 I

x4

IS X EIS

w g

£ o

TS

<a

Ü

I

й и

и

л

б у

Пу

1200000 -

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1000000 -

800000 -

600000 -

400000 -

200000 -

1970

1975

1980

1985

1990

1995

2000

2005

2010

2015

2020

Общее число публикаций

Годы

Потенциально псевдонаучные (ß<0)

Рисунок 1. Динамика публикаций в PubMed/MEDLINE, в т.ч. публикаций с отрицательным в-баллом. Figure 1. The dynamics of publications in PubMed/MEDLINE, including publications with a negative в-score.

Общая характеристика публикаций с отрицательным значением ß-балла

Тем не менее 18,5% публикаций в PubMed/MEDLINE (3,68 млн из 19,92 млн) все же характеризовались отрицательными значениями ß-балла (рис. 4). Интересно отметить, что наибольшим вкладом в отрицательное значение ß-балла этих публикаций вносили «сектантская» лексика (ß11=6,18), негативные сентименты (ß13=4,92) и манипулятивная лексика (ß1=4,24). «Сектантская» лексика включала, в частности, конструкции, основанные на терминах, подразумевающих подавление воли адептов секты, в т.ч. наведение жесткой дисциплины тоталитарного характера и нетерпимость к «уклонистам» («personnel must be», «necessary to use», «aberrations», «mandatory», «staff management», «staff clearance», «training program», «mental training» и др.). Конечно, по отдельности такие термины могут встречаться и в профессионально написанных статьях по тренировке медицинского персонала или

1600000

14OOOOO

1200000

11000000

б800000 ло

» 600000 400000 2000000

-100 -80

-20 0 20 40 Балл оценки публикации

по психологии. Однако определенные сочетания этих терминов, наряду с избыточно частым их употреблением, распознаются разработанными алгоритмами анализа текстов как языковые шаблоны, характерные для менеджмента адептов тоталитарных сект, а вовсе не для тренировки медицинского персонала.

Удивительно, что лингвистические конструкции на основе терминов явно публицистического характера (которые к тому же широко используются организаторами массовых беспорядков - балл Р10 в таблице 1) также нередко встречаются в предположительно «научной» литературе (Р10=2,89): «resistance forces» (силы сопротивления), «political» в сочетании с «repressions» (политические репрессии), «struggle against» (борьба против [режима]), «attack» в связке с «military» (атаковать/атакуйте военнослужащих) и т.п. При этом в статье могут обсуждаться вовсе не какие-то военные операции или явно противоправные действия, а, казалось бы, совершенно другие темы (см. левую колонку таблицы 2).

100%-г

90%-80%-I 70%-60%-I 50%-t 40%-з0% 20% 10% 0%

-80

-20 -0 20 40

Балл оценки публикации

А)

Б)

Рисунок 2. Эмпирическая функция распределения (э.ф.р.) значений в-балла по 19,9 млн публикаций в PubMed/MEDLINE: А) Плотность вероятности э.ф.р.; Б) Интегральная форма э.ф.р.

Figure 2. Empirical distribution function (EDF) of в-score values for 19.9 million publications in PubMed/MEDLINE: A) probability density; Б) The integral form of EDF.

X К Q V

s

X s

X

о «

J

a

«

S S о

X

к С

а

0

1

» .

я 2

i ^

Я.!2

и

If

s ¡

0 c

1 s

и

0 m

£ «

s *

е te

im ^

¡2 un

■S «

1 f""

i ■: с

il «

H

S I

0 «

я a

X ca

1 * S J

0 >

« 5 =

ш S

* £

H о

Я s

ё Я

S X

a a

® с

м ф

н a

X 0

a в

H

S S

1 I

x4

Я X EIS

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0

60

80

0

60

Негативные сентименты (Р13=4,92) также были весьма типичны для текстов с р<0. Действительно, чрезмерно частое употребление конструкций на основе таких словосочетаний как «waste» (понапрасну), «is poorly» ([есть] плохо), «the worst» (наихудшее), «poor quality» (очень низкого качества), «а worse» (еще хуже), «zero potential» (нулевой потенциал), «has to avoid» (дблжно избегать) и др. может целенаправленно настраивать эмоции читателя такого текста на негативное отношение к затрагиваемой в тексте публикации научной теме.

Длины прямоугольников на нижней полосе пропорциональны значениям соответствующих р-баллов (см. табл. 1).

Распределение по странам происхождения публикаций

Анализ стран, из которых исходят англоязычные публикации по биомедицине (рис. 5), показал, что наибольшими значениями р-балла характеризовались тексты публикаций из ОАЭ (р=15,46), Ирана (р=13,67) и Тайваня (р=12,14), затем следовали Южная Корея, Сингапур, Кувейт и Иордания (р=10-11) и отдельные европейские страны (Греция, Словения, Нидерланды, Швейцария, Ирландия, р=9-11). Таким образом, исследователи из этих стран наименее склонны использовать манипулятивную и эмоционально-перегруженную лексику при написании научных статей.

Распределение публикаций по рубрикам MESH и по научным направлениям

Рубрикация всего массива публикаций по 27840 рубрикам MESH-системы PubMed/MEDLINE позволила выявить рубрики, наиболее затронутые и наименее затронутые манипулятивными сентиментами. Практически все 3,68 млн текстов с отрицательны-

Число публикаций

3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 Число позитивных конструкций ( р+ )

«

s

>>

&

о К О M

х

г

œ g

>4

S ï

s

о

4 о

5 T

0-100000 100000-200000

200000-300000 300000-400000

400000-500000

Рисунок 3. Распределение значений р+ и в- по 19,9 млн публикаций в PubMed/MEDLINE (вид сверху).

Примечание. Цветовая шкала отображает число публикаций с соответствующими значениями позитивных (балл в+) и манипулятивных (балл в-) языковых конструкций. Очевидно преобладание статей с достаточно малыми значениями в+ и в- (0-6 баллов).

Figure 3. Distribution of р+ and в- values over 19.9 million publications in PubMed/ MEDLINE (top view).

Note. The color scale displays the number of publications with the corresponding values of positive (score в+) and manipulative (score в-) language constructs. Obviously, there is a predominance of articles with fairly low values of both в+ and в- score (0-6 points).

X К Q V

s

X s

X

о «

J

a

«

S S о а

к с а

0

1

» .

n 2

и

If

S I

0 c

1 s

h

+

+

+

+

+

+

+

+

+

H

2000000 4000000 6000000 8000000 10000000 12000000 14000000 16000000 18000000 20000000 |~1 Научные публикации Q Потенциально псевдонаучные (P<0)

Манипулятивные обороты НКО-иноагенты Раздор, агрессивность Неконструктив

Безрезультатные исследования Подделка результатов Сектанство

Дипломатический слэнг

Пропаганда

Негативное личное отношение Негативный эмоциональный фон

Рисунок 4. Вклад различных негативных сентиментов в формирование отрицательных значений [3-балла для 3,68 млн из 19,92 млн публикаций в PubMed/MEDLINE. Примечание. Длины прямоугольников на нижней полосе пропорциональны значениям соответствующихfî-баляов (см. табл. 1).

Figure 4. Contribution of various negative sentiments to the formation of negative [3-score for 3.68 million of 19.92 million publications in PubMed/MEDLINE. Note. The lengths of the rectangles in the lower strip are proportional to the values of the corresponding fî-score (see table 1).

ми значениями р-балла попали в 3520 из 27840 рубрик PubMed/ MEDLINE. Наиболее характерные примеры таких рубрик приведены в таблице 2.

Манипулятивная англоязычная лексика наиболее распространена в публикациях в разделах «экономика» (р=-17,15) и «юриспру-

денция» (р=-12,60). Весьма «чувствительны» в этом отношении числовые данные по медицинской статистике западных стран (Р=—6,41), в т.ч. рассматривающие вопросы стоимости лекарств (Р=-3,86), перспективы т.н. «планирования семьи» (р=-3,61), легализацию эвтаназии (р=—1,53) и т.п. Чрезвычайно интересно от-

И

0 m

£ •

s *

е <а ^ ^

¡2 un

■S «

1 ■: -s с a «

H

S I

u « с a

X и

i * S T

0 >

« 5 =

ш S * £

H о

¡s s

ë S

1 I

a a » с м ф

h a

x 0 a в

H

S S

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I I

x4

IS X EIS

О

0

Таблица 2. Примеры рубрик PubMed/MEDLINE с наиболее отрицательными и наиболее положительными значениями в-балла по всем публикациям в данной рубрике за последние 50 лет (1970-2019).

Table 2. Examples of PubMed/MEDLINE headings with the most negative and most positive в-score values for all publications in this heading over the past 50 years (1970-2019).

Рубрика PubMed/MEDLINE Статей в-балл Рубрика PubMed/MEDLINE Статей в-балл

MH - 'Economics 7855 - 17,15 MH - 'Resistance Training 2282 28,94

MH - 'Jurisprudence 13221 - 12,60 MH - Muscle Strength/'physiology 4561 28,81

MH - Health Care Costs/'statistics & numerical data 4225 - 6,41 MH - Systems Biology/'methods 2249 26,03

MH - Mental Health Services/'economics 871 - 4,30 MH - 'Molecular Dynamics Simulation 8896 25,77

MH - 'Drug Costs 2671 - 3,86 MH - Learning/'physiology 10886 24,70

MH - 'Policy Making 4876 - 3,79 MH - 'Metabolomics 2106 23,06

SO - Fam Plann Perspect 1389 - 3,61 SO - Artif Intell Med 1309 23,05

MH - 'Insanity Defense 918 - 2,73 MH - Athletic Performance/'physiology 3640 22,82

MH - Health Policy/'legislation & jurisprudence 3943 - 2,59 MH - Maternal Behavior/'physiology 937 22,79

MH - Commitment of Mentally Ill/legislation & jurisprudence 2055 - 2,29 MH - Dietary Supplements/analysis 1095 22,69

MH - Homosexuality, Male/'statistics & numerical data 1163 - 2,22 MH - Maze Learning/'physiology 2007 22,17

MH - 'Medication Errors 2358 - 2,07 MH - Drug Resistance, Multiple, Bacterial/'genetics 1909 22,12

MH - Condoms/'statistics & numerical data 2582 - 2,04 OT - NAFLD 1148 21,83

SO - Cochrane Database Syst Rev 12405 - 1,86 OT - BDNF 1905 21,79

MH - Mental Competency/'legislation & jurisprudence 1250 - 1,70 MH - Proteomics/'methods 14267 21,41

MH - Developing Countries/'economics 916 - 1,58 MH - Muscle, Skeletal/'physiology 16346 20,98

MH - Suicide, Assisted/'legislation & jurisprudence 1206 - 1,53 MH - 'Finite Element Analysis 3408 20,86

MH - 'Population Control 1326 - 1,48 MH - Pattern Recognition, Automated/'methods 14042 20,84

MH - 'Abortion, Legal 2394 - 1,33 MH - Gait/'physiology 8099 20,78

MH - HIV Infections/'transmission 2754 - 1,23 MH - 'Gene Expression Profiling 21965 20,71

MH - Violence/'legislation & jurisprudence 108 - 1,28 MH - Tandem Mass Spectrometry/'methods 11254 20,70

MH _ 'Conflict of Interest 3680 - 1,03 MH - Physical Endurance/'physiology 5745 20,70

MH - Costs and Cost Analysis 34779 - 0,94 MH - Computational Biology/'methods 17691 20,51

MH - Child Abuse/'legislation & jurisprudence 1214 - 0,88 MH - 'Principal Component Analysis 986 20,32

MH - 'Lobbying 2123 - 0,83 MH - 'Droughts 2520 20,10

MH - 'Fraud 1495 - 0,69 MH - Artificial Intelligence 5325 19,59

MH - 'Scientific Misconduct 2196 - 0,67 MH - Nonlinear Dynamics 5409 19,41

SO - N Y Times Web 2170 - 0,64 MH - Caregivers/'psychology 11592 19,24

MH - Marketing of Health Services/'methods 1882 - 0,62 MH - Spectroscopy, Fourier Transform Infrared/'methods 2802 19,24

MH - Civil Rights/'legislation & jurisprudence 1724 - 0,61 MH - 'Neural Networks (Computer) 14038 19,24

MH - 'Sterilization, Reproductive 1674 - 0,59 MH - Energy Intake/'physiology 2905 19,11

MH - 'Peer Review, Research 1597 - 0,58 MH - 'Problem-Based Learning 2226 19,09

MH - 'Abortion, Induced 7870 - 0,54 SO - Proteomics 5841 19,06

MH - Fees, Dental 1030 - 0,53 MH - Thermodynamics 22139 19,05

MH - Evidence-Based Medicine/'standards 1392 - 0,52 MH - Soccer/'physiology 1543 19,04

OT - 'Family Planning Programs 2348 - 0,44 MH - Knee Joint/physiology 2528 18,96

MH - 'Euthanasia 3079 - 0,40 MH - Genome-Wide Association Study/'methods 1825 18,85

MH - 'Embryo Research 878 - 0,31 SO - FEBS J 5728 18,83

MH - State Medicine/standards 1088 - 0,30 MH - Gastrointestinal Tract/'microbiology 2647 18,82

MH - 'Psychotropic Drugs 1690 - 0,27 MH - Insulin Resistance 7251 18,79

Итого 149420 - 2,23 Итого 255052 21,27

метить, что даже в случае статей из чисто публицистических изданий, каким-то образом попавших в PubMed/MEDLINE (например, «Нью Йорк Таймс», рубрика «SO - N Y Times Web»), среднее значение р-балла было намного выше (р=-0,64), чем в случае отдельных «научных» журналов (табл. 3).

В то же время наибольшими положительными значениями р-балла отличались публикации по спортивной медицине («Resistance Training», «Muscle Strength/*physiology», «Athletic Performance», «Energy Intake/*physiology», «Physical

Endurance/'physiology»), системной биологии («Systems Biology/'methods», «Metabolomics») и нутрициологии («Dietary Supplements/analysis»), биофизике («Molecular Dynamics Simulation», «Nonlinear Dynamics», «Spectroscopy, Fourier Transform Infrared/'methods»), математическим методам в биологии и медицине («Finite Element Analysis», «Computational Biology/'methods», «Principal Component Analysis»), в т.ч. математическим методам «искусственного интеллекта» и «машинного обучения» («Artif Intell Med», «Pattern Recognition,

EIS

Таблица 3. Примеры отдельных англоязычных научных журналов с наиболее отрицательными и наиболее положительными значениями р-балла по всем публикациям в за последние 50 лет (1970-2019).

Table 3. Examples of English-language scientific journals with the most negative and the most positive values of р-score averaged over all available publications during the last 50 years (1970-2019).

X К Q V

s

X

Рисунок 5. Распределение значений ß-балла по странам (среднее за последние 50 лет, 1970-2019).

Примечание. Цветовая шкала внизу рисунка кодирует значение ß-балла (красный - 0-5и т.д.).

Figure 5. The distribution of ß-score values by countries (average over the past 50 years, 1970-2019).

Note. The color bar at the bottom of the figure encodes the value of the ß-score (red - 0-5, etc.).

Automated/*methods», «Neural Networks (Computer)», «Problem-Based Learning», «Artificial Intelligence»).

Распределение публикаций по годам

Представляет интерес рассмотреть, как изменялась динамика ß-балла публикаций по годам по каждой из исследованных 27840 рубрик PubMed/MEDLINE. Для этого временные ряды в координатах «год^-балла» для каждой из рубрик были представлены в виде символьных последовательностей в рамках подхода символьной динамики [26]. Попарные расстояния между полученными символьными последовательностями вычислялись с использованием метрики Левенштейна [27] и была проведена кластеризация на основе метода анализа метрических сгущений [11-13]. В результате проведения кластеризации положительная динамика сентимент-качества исследований (то есть систематическое повышение ß-балла по годам) была установлена для 27090 из 27840 исследованных рубрик (97,3%). Наиболее интенсивная положительная динамика найдена для текстов исследований по генетике, физиологии, фармакологии и геронтологии (рис. 6А). Выделены 249 рубрик с резко отрицательной динамикой качества и с выраженным нарастанием манипулятивных сентиментов, подобных встречающихся в «желтой прессе» западных стран (отдельные примеры этих рубрик приведены на рисунке 6Б).

«Пираты» в доказательной медицине?

Наиболее характерной и весьма неожиданной оказалась динамика рубрики PubMed/MEDLINE «SO - Cochrane Database Syst Rev». В самом деле, до 2008 г. ß-балл публикаций под этой рубрикой колебался вблизи вполне приемлемых значений +1,5...+2,2. После 2008 г. началось постоянное снижение значений ß-балла, так что в 2013 г. средний ß-балл публикаций в этой рубрике приобрел отрицательное значение. После 2013 г. началось ещё более стремительное падение значений ß-балла (на 5,1 балла/год), так что к концу 2019 г. среднее значение ß-балла по этой рубрике составило -32,0. В то же время почти все остальные рубрики, имеющие непосредственное отношение к доказательной медицине («Evidence-Based Medicine/*methods», «Evidence-Based Medicine/*education», просто «*Evidence-Based Medicine» и др.), характеризовались отчетливой положительной динамикой ß-балла (рис. 6В). Исключение составила рубрика «Evidence-Based Medicine/*standards» (стандарты доказательной медицины), в которой также отмечена отрицательная динамика.

Столь резкое изменение сентимент-качества публикаций из рубрики «SO - Cochrane Database Syst Rev» и отрицательная динамика в рубрике «Evidence-Based Medicine/*standards» за последние шесть лет полностью соответствуют концепии «рейдерского захвата доказательной медицины» (англ. hijack) т.н. «пиратами»

Журнал Число ß-балл

SO - EBRI Issue Brief 214 -13,78

SO - Reprod Freedom News 143 -7,91

SO - Evid Rep Technol Assess (Full Rep) 73 -7,16

SO - Harv Bus Rev 1357 -5,85

SO - Can HIV AIDS Policy Law Rev 395 -4,90

SO - Annu Rev Popul Law 589 -4,22

SO - J Am Health Policy 204 -3,74

SO - Fam Plann Perspect 1389 -3,61

SO - Lancet HIV 311 -2,74

SO - Bioethics 1394 -2,07

SO - Cochrane Database Syst Rev 12405 -1,86

SO - AIDS Treat News 808 -1,69

SO - AIDS Policy Law 4225 -1,65

SO - Evid Based Dent 842 -1,10

SO - Issues Reprod Genet Eng 54 -0,94

SO - Harv Health Lett 1635 -0,84

SO - Autism Res 587 21,14

SO - Gigascience 237 21,27

SO - J Proteome Res 6573 21,54

SO - Database (Oxford) 633 21,71

SO - Clin Epigenetics 390 21,85

SO - Wiley Interdiscip Rev RNA 429 21,87

SO - Ecology 3693 22,05

SO - Fam Syst Health 351 22,09

SO - Birth Defects Res C Embryo Today 361 22,11

SO - Cell J 374 22,16

SO - Clin Proteomics 171 22,36

SO - Iran J Microbiol 381 22,61

SO - BMC Geriatr 1225 22,82

SO - Eur J Sport Sci 686 22,84

SO - Nutr Diabetes 250 22,89

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

SO - Sports Med 2396 23,84

SO - Front Plant Sci 5955 23,85

SO - BMC Biotechnol 1207 23,99

SO - J Comput Phys 59 24,49

SO - BMC Microbiol 3104 24,92

SO - PLoS Comput Biol 4966 25,19

SO - Metabolomics 310 27,39

SO - BMC Genomics 9555 28,11

SO - Microbiome 321 30,80

SO - BMC Syst Biol 1714 35,97

(термин работы [28]). Проф. Дж. П. Иоаннидис с соавторами отмечают в работе [28], что «доказательная медицина платит цену своего успеха: получив более широкое признание, ею манипулируют и злоупотребляют для поддержки извращенных «повесток дня», которые подрывают репутационную ценность доказательной медицины. Иногда конфликты, стоящие за этими повестками дня, настолько сильны, что можно беспокоиться о том, является ли этот рейдерский захват доказательной медицины обратимым»

EIS

А)

ж к

я «

S

ч

к

£

о я о

ч

4

ж

5

к

5

6

и

MH — Inflammation/*pathology MH - *Aging MH — *Pharmacology MH — *Genetics MH — *Physiology

Б)

>s s я

ca «

s

4

1С ^

к

s *

t о Я о

ж s к

£

В)

ж к я

S

4

к

5

£ о я о

ж

5

к

6

и

45

40 _ 35 -30 -25 -20 15 -10 5

1970 1975 1980 1985 1990 1995 2000

Время, годы

Время, годы

1970 1975 1980 1985 1990 1995 2000

2005 2010 2015 2020

2005 2010 2015 2020

10

0

-10 -

-20

-30

-40

20

10

MH — *Economics MH - Jurisprudence MH - Helth Care Costs/*statistics & numerical data MH - *Policy Making SO - Cochrane Database Syst Rev MH - Costs and Cost Analysis

-20

-30

2020 Время, годы

SO - Cochrane Database Syst Rev

MH - Evidence-Based Medicine/*standards

MH - Evidence-Based Medicine/methods

MH - Evidence-Based Medicine

MH - *Evidence-Based Medicine

MH - Evidence-Based Medicine/*methods

Рисунок 6. Примеры динамики р-балла по различным категориям PubMed/MEDLINE: А) Примеры положительной динамики, Б) примеры отрицательной динамики, В) примеры из области доказательной медицины.

Figure 6. Examples of p-score dynamics for various PubMed/MEDLINE categories: A) examples of positive dynamics, Б) examples of negative dynamics, В) examples from the field of evidence-based medicine.

X К С V S X s

X

u

Ф J

a

Ф

S

s о

it

к С

a

0

1

» .

S 2

8.2 H If

SI

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и E

1 s

и

Ф

0 in % •

s *

e is

irn ^

in « «

1

с

а Ф

н

S I

U Ф

я а X м

i

s p

0 >

« 5 = ^

ш = * £

I- О

S *

« Я ^ Ё

а а » в м ф

н а

х 0 а о

S я

1 I

х4

IS X EIS

0

0

[28]. По результатам настоящего исследования можно предположить, что обсуждаемый «рейдерский захват», возможно, происходил в 2013-2014 гг. (см. рис. 6В).

Описанные проф. Иоанндисом «медицинские пираты», как правило, не имеют отношения к реальной клинической практике, но обладают существенным медийным ресурсом для навязывания своих мнений сотням тысяч практикующих врачей во всем мире

[29]. Поэтому ведущие аналитики в области доказательной медицины обоснованно утверждают, что в настоящее время «метаана-лизы по типу кохрейновских не являются сколько-нибудь доказательными» [30] хотя бы вследствие повсеместного использования устаревших и, более того, ошибочных методов анализа данных. Принимая во внимание то, что в Австралии, Канаде, ЕС и США официально зарегистрирована торговая марка «Кохрейн» [31] и что текстовые продукты интеллектуальной деятельности под данной торговой маркой пользуются популярностью среди врачей, упоминаемые выше «пираты» действительно захватили весьма ценный медийный ресурс. При этом резко упал уровень дискурса: в отличие от сдержанного и более или менее положительного дискурса до 2008 г. (Р=1,5-2,2) уровень дискурса «упал» до откровенно манипулятивного нагнетания негативных эмоций, агрессии, сектантской нетерпимости и т.п. (р=-32,0 в 2019 г.).

Типичным примером «пиратского» продукта, произведенного после этого «захвата», является опубликованная в 2018 г. статья под кодовым номером <^003177». Данная статья, детально проанализированная нами ранее [32], является своего рода «абсолютным лидером» среди публикаций с отрицательным р-баллом (Р=-42, в PubMed/MEDLINE таких статей менее 0,5%, см. распределение на рисунке 2). Для данного текста весьма высоки количества сентиментов манипулятивного характера (Р1=55); сентимен-тов, отражающих негативное личное отношение (Р8=35); сентиментов, формирующих негативный эмоциональный фон (Р13=37); сентиментов, провоцирующих раздор/агрессию (Р10=23), и сентиментов, соответствующих использованию «сектантской» лексики (Р11=32). Даже взятые по отдельности эти значения существенно превышают суммарный отрицательный балл (р_) практически всех остальных текстов в PubMed/MEDLINE (99,98% из 19,9 млн исследованных публикаций - см. рисунок 3Б).

Детальный экспертный анализ текста «^003177» указал на грубейшие нарушения, допущенные при сборе и анализе данных, включая: (1) отсутствие четкой клинической логики, (2) от-

сутствие анализа клинической неоднородности когорт и (3) отсутствие знания простейших основ фармакологии и фармации (например, различий между лекарственным препаратом, БАД и пищевым продуктом) [32]. Сделанные в работе [32] выводы о «максимально возможном игнорировании основ фармакологии, биохимии и эпидемиологии на фоне догматизации шаблонных моделей мышления» весьма органично подтверждаются чрезвычайно высокими значениями баллов «сектантства», «раздора/ агрессии» и негативного личного отношения (см. выше), вычисленными для данной публикации.

Оценка массива публикаций по витамину D

Описанные проблемы со «стандартами доказательной медицины» (упомянутая выше рубрика «Evidence-Based Medicine/*standards») отнюдь не ограничены обсуждаемыми выше примерами. Используемая в настоящей статье методология сентимент-анализа медицинских текстов позволяет устанавливать весьма интересные взаимосвязи между областями, которые, казалось бы, совершенно не связаны друг с другом.

Например, в ходе работы над третьей редакцией нашей монографии по фундаментальной и клинической медицине витамина D3 [3] мы вычисляли р-балл для всех публикаций по исследованиям применения витамина D3 в клинической практике. Заметим, что профилактика дефицита витамина D3 является экономически выгодным способом снижения нагрузки населения коморбидны-ми хроническими патологиями. Помимо многочисленных экспертных оценок, приводимых нами в монографии, в крупномасштабном исследовании (n=7217) была прямо продемонстрирована корреляция между более низким уровнем 25(OH)D3 в крови (<20 нг/мл) и более высокими затратами на содержание пациента в стационаре (P=0,001) [33].

Тем не менее разработанная нами система алгоритмов продолжает регистрировать вал «безрезультатных» исследований витамина D3 (р<0, Р4>10), характеризующихся характерными «шаблонами». Это и термины жесткого отрицания клинических эффектов витамина D3 («not», «no», «did not», «no significant difference», «any evidence», «no use of» и др.), употребляемых с абнормально высокой частотой (наподобие некой ритуальной мантры). Это и чересчур частое употребление слова «все» («all»). Заметим, что использование данного слова должно быть весьма осторожным: ведь парадокс критянина Эпименида известен уже более 2500 лет: «Все критяне - лжецы». Поэтому абнормально частое употребление слова

«

250 -,

200

X

S ¡г (г

S §

В

ЕС сЗ О

4

о

5

tr

150 -

100

50

Иран Австрия Корея Германия Китай Швейцария США Финляндия Канада Н.Зеландия

Япония Бразилия Италия Нидерланды Франция Индия Англия Норвегия Бельгия Австралия

Результативные

Безрезультатные

Рисунок 7. Результативность англоязычных клинических исследований витамина D3 в различных странах. Примечание. Страны упорядочены по убыванию отношения числа результативных и безрезультатных исследований.

X К

с

V

s

X s х

о «

J

а

«

S S о х

к с а

0

1

» .

я 2

i ^

Я.!2

и

If

S I

0 c

1 s

и

0 m

£ •

s *

e <e

hrn ^

¡2 un

■S «

1 ■:

-s с il «

H

S I

u «

я a

X и

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

i *

s p

0 >

« 5 =

ш S

* £

H о

¡s s

ë S

1 I

a a

» с

м ф

h a

x 0

a о

H

S S

I I

x4

Я X EIS

Figure 7. The effectiveness of English-language clinical trials of vitamin D3 in various countries. Note. Countries are ordered by decreasing ratio of the number of productive and inconclusive studies.

0

«все» указывает на необоснованное стремление к обобщению (как правило, без каких-либо логических оснований). С психологической точки зрения, неправомерно частое использование слова «все» может указывать на избыточную эмоциональность, дефицит логического мышления или же на преднамеренные попытки эмоционального давления на читателя.

Анализ р-баллов этих «безрезультатных» исследований витамина D3 не только позволил выявить соответствующие рубрики PubMed/MEDLINE, но и установить ряд весьма поучительных курьезов. Например, в Австралии и в Новой Зеландии результативность исследований эффектов витамина D3 близка к нулю: только одно из 41 исследований, проведенных в Новой Зеландии, было результативно (в Австралии - только четыре из 56). Поскольку эти две страны являются абсолютными рекордсменами по низкой результативности исследований витамина D3 (рис. 7), то можно предположить, что на австралийском континенте законы физики, химии и биологии действуют по-другому. Однако, в соответствии с принципом Оккама, гораздо более вероятным объяснением столь выдающегося отсутствия результативности клинических исследований витамина D3 в Австралии и Новой Зеландии может играть чрезвычайно высокий уровень лоббистской деятельности молокозаводчиков этих двух стран (мировое лидерство по производству сухого молока). Мы обсудили эту возможную взаимосвязь ранее [34]. Кстати, крайне любопытно отметить, что языковые штампы «необходимы дальнейшие исследования» и «источник финансовой поддержки» являются характерными особенностями именно безрезультатных исследований по витамину D3.

ЗАКЛЮЧЕНИЕ / CONCLUSION

В работе сформулирована методика анализа «больших данных» биомедицинских публикаций, основанная на топологической теории сентимент-анализа медицинских текстов (то есть анализа эмоциональной модальности). Разработаны алгоритмы, позволяющие с 90%-й точностью классифицировать тексты по 16 классам сентиментов (манипулятивные обороты речи, исследования без положительных результатов, пропаганда, подделка результатов, негативное личное отношение, агрессивность текста, негативный эмоциональный фон и др.). На основе алгоритмов предложена балльная шкала оценки сентимент-качества исследований (р-балл) и проведен анализ текстов абстрактов 19,9 млн публикаций из PubMed/MEDLINE. Показано, что публикации с низким сентимент-качеством (р-балл текста меньше 0, что соответствует преобладанию манипулятивных и негативных сентиментов) составляют всего 18,5% (3,7 из 19,9 млн). Рубрикация всего массива публикаций по 27840 рубрикам (MESH-система PubMed/ MEDLINE) указала на повышение р-балла по годам (то есть на положительную динамику качества исследований) для 27090 исследованных рубрик. Наиболее интенсивная положительная динамика найдена для исследований по генетике, физиологии, фармакологии и геронтологии.

Благодарности

Авторы выражают благодарность за консультирование по теме статьи акад. РАН В.Н. Серову, акад. РАН Г.Т. Сухих, акад. РАН Е.И. Гусеву, акад. РАН Ю.И. Журавлеву, проф. Н.К. Тетруашвили, проф. А.А. Баранову, проф. А.И. Федину, доц. к.м.н. А.К. Хаджидису.

Особая благодарность - руководителю проекта «Электронная библиотека» Российской государственной библиотеки, руководителю отдела УФКС РГБ к.м.н. Н.В. Авдеевой.

Также были выделены 249 рубрик с резко отрицательной динамикой качества и с выраженным нарастанием манипулятивных и негативных сентиментов. К данным рубрикам относятся публикации по экономическим и юридическим аспектам биомедицины, по разработке т.н. «международных стандартов» для контроля за рождаемостью; тексты по экономике развивающихся стран, по психотропным препаратам, по легализации эвтаназии, стоимости стоматологических услуг в западных странах и т.п. Крайне интересно отметить, что абсолютным лидером по резкому ухудшению сентимент-качества публикаций являлись публикации из рубрик, связанных с повсеместно навязываемыми т.н. «стандартами доказательной медицины» (падение р-балла более чем на пять баллов/год за последние шесть лет - больше, чем во всех остальных 248 рубриках). Этому падению соответствует серия недавних скандалов вокруг публикационной активности соответствующего издания [32,34]. Интересным направлением дальнейших исследований является разработка алгоритмов «искусственного интеллекта» для оценки сентимент-качества текстов по доказательной медицине.

На наш взгляд, использование систем алгоритмов, подобных разработанной системе, может быть полезно в рамках реализации федерального закона № 489 ФЗ «Об основах охраны здоровья граждан в Российской Федерации» по вопросам клинических рекомендаций» от 25.12.2018 г. В рамках этого закона установлено, что действующие в настоящее время протоколы лечения будут применяться до их пересмотра не позднее 31 декабря 2021 г. Предполагается, что клинические рекомендации будут разработаны или обновлены медицинскими профессиональными НКО по отдельным группам заболеваний [35].

Выборки статей из PubMed/MEDLINE, не содержащие лингвистических признаков манипуляции, весьма важны для разработки клинических рекомендаций [35,36], дальнейшего совершенствования деятельности агентст по оценке технологий здравоохранения (ОТЗ) разных стран [38-40], организации агентств по оценке технологий здравоохранения [37-39], повышения эффективности поиска медицинских разработок с инновационным потенциалом [40], в т.ч. инновационных лекарственных препаратов [41] и для реализации проектов по другим важным направлениям в сфере российского здравоохранения.

Таким образом, разработанный комплекс алгоритмов позволяет проводить эффективную оценку сентимент-качества текстов биомедицинских исследований, отфильтровывая потенциально псевдонаучные публикации, публикуемые под масками якобы «доказательных исследований», «международных рекомендаций», «рекомендуемых стандартов» и т.п. Идентификация манипулятивных, эмоционально негативных и прочих нежелательных сентиментов в публикациях PubMed/MEDLINE важна для: (1) предотвращения «накачки» медийной среды российских врачей негативными эмоциями; (2) остановки «продвижения» вышеупомянутых деструктивных тем; (3) идентификации реальных доказательных исследований и отделения их от штампованных «fake news», мимикрирующих под доказательность.

Acknowledgements

The authors are grateful for the advice on the topic of acad. RAS V.N. Serov, Acad. RAS G.T. Dry, Acad. RAS E.I. Gusev, Acad. RAS Yu.I. Zhuravlev, prof. N.K. Tetruashvili, prof. A.A. Baranov, prof. A.I. Fedina, Assoc. Ph.D. A.K. Hajidis.

Special thanks to the head of the Electronic Library project of the Russian State Library, the head of the UFKS Department of the RSL, Ph.D. N.V. Avdeeva.

x к

С V S X s

X

u

Ф J

a

Ф

S

s о a

к в a

0

1

» . S 2

8.2 H If

SI

и E

1 s

и

Ф

0 in

£ «

s *

в to

irn ^

in

1 i*"

i ■: в

а Ф

H

S I

0 Ф

я а X м

1 *

S т

0 >

« 5 =

ш 8 * £

I- о

S *

« Я

£ х

а а ® в м ф

н а

х 0 а о

Н

S I

1 I

х4

IS X EIS

ЛИТЕРАТУРА:

1. Canese K., Weis S. PubMed: The Bibliographic Database. 2002 Oct 9 [Updated 2013 Mar 20]. In: The NCBI Handbook. 2nd edition. Bethesda (MD): National Center for Biotechnology Information (US); [Электронный ресурс] URL: https://www.ncbi.nlm.nih.gov/books/ NBK153385/. Дата обращения: 12.12.2019.

2. Li L., Smith H. E., Atun R., Tudor Car L. Search strategies to identify observational studies in MEDLINE and Embase. Cochrane Database Syst Rev. 2019; MR000041. DOI: https://dx.doi. org/10.1002/14651858.MR000041.pub2.

3. Громова О. А., Торшин И. Ю. Витамин D - смена парадигмы. М. 2017; 750 с.

4. Громова О. А., Торшин И. Ю. Микронутриенты и репродуктивное здоровье. Руководство. М. 2019; 672 c.

5. Stewart Chaplin. The Stained Glass Political Platform. The Century Magazine. USA. 1900.

6. Summers E. Weasel Words: 200 Words You Shouldn't Trust: 200 Words You Can't Trust. Chambers (Ed.), Slang & Idiom Dictionaries. 2009; 208 p.

7. Watson D. Watson's Dictionary of Weasel Words, Contemporary Cliches, Cant and Management Jargon. Knopf, 1st Ed. 2004; 357 p.

8. Torshin I. Y., Rudakov K. V. Combinatorial analysis of the solvability properties of the problems of recognition and completeness of algorithmic models. Part 1: factorization approach. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2017; 27 (1): 16-28.

9. Torshin I. Yu., Rudakov K. V. Combinatorial analysis of the solvability properties of the problems of recognition and completeness of algorithmic models. Part 2: metric approach within the framework of the theory of classification of feature values. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2017; 27 (2): 184-199.

10. Torshin I. Y. Optimal dictionaries of the final information on the basis of the solvability criterion and their applications in bioinformatics. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2013; 23 (2): 319-327.

11. Torshin I. Yu., Rudakov K. V. On the theoretical basis of the metric analysis of poorly formalized problems of recognition and classification. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2015; 25 (4): 577-587.

12. Torshin I. Y., Rudakov K. V. On metric spaces arising during formalization of problems of recognition and classification. Part 1: properties of compactness. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2016; 26 (2): 274.

13. Torshin I. Yu., Rudakov K. V. On metric spaces arising during formalization of problems of recognition and classification. Part 2: density properties. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2016; 26 (3): 483-496.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Torshin I. Y., Rudakov K. V. On the application of the combinatorial theory of solvability to the analysis of chemographs. part 1: fundamentals of modern chemical bonding theory and the concept of the chemograph. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2014; 24 (1): 11-23.

15. Torshin I. Y., Rudakov K. V. On the application of the combinatorial theory of solvability to the analysis of chemographs. Part 2: local completeness of invariants of chemographs in view of the combinatorial theory of solvability. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2014; 24 (2): 196-208.

16. Torshin I. Yu., Rudakov K. V. On the Procedures of Generation of Numerical Features Over Partitions of Sets of Objects in the Problem of Predicting Numerical Target Variables. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2019; 29 (4): 654-667. DOI: https://dx.doi.org/10.1134/S1054661819040175.

17. Чернышев В. М. Меч Обоюдоострый. Конспект по Сектоведению. М. 2011; 138 с.

18. Дворкин А. Л. Сектоведение: Тоталитарные секты. Опыт систематического исследования. 3-е изд., перераб. и доп. Н. Новгород. 2014; 816 с.

19. Okter A. Mastermind: The Truth of the British Deep State. Arashtirma Publishing. 2017; 698 pp.

20. Котеров А. Н. Критерии причинности в медико-биологических дисциплинах: история, сущность и радиационный аспект. Сообщение 1. постановка проблемы, понятие о причинах и причинности, ложные ассоциации. Радиационная биология, радиоэкология. 2019; 59 (1): 5-36. DOI: https://dx.doi.org/10.1134/ S0869803119010065.

21. Поппер К. Р. Предположения и опровержения: рост научного знания. М. 2004; 638 с.

22. Громова О.А., Торшин И. Ю., Тетруашвили Н.К., Тапильская Н.И. Систематический анализ эффектов молибдена: здоровье беременной и плода. Вопросы гинекологии, акушерства и перинатологии. 2019; 18 (4): 83-94. DOI: https://dx.doi.org/10.20953/1726-1678-2019-4-83-94.

23. Громова О. А., Торшин И. Ю., Тетруашвили Н. К., Галустян А. Н., Курицына Н. А. О перспективах использования комбинаций фолиевой кислоты и активных фолатов для нутрициальной поддержки беременности. Акушерство и гинекология. 2019; 4: 87-94. DOI: https://dx.doi.org/10.18565/aig.2019A87-94.

24. Торшин И. Ю., Лила А. М., Громова О. А., Наумов А. В., Громов А. Н. Об антикоагулянтных и антиагрегантных свойствах молекулы глюкозамина сульфата. Современная ревматология. 2019; 13 (3): 135-141. DOI: https://dx.doi.org/10/14412/1996-7012-2019-3-135-141.

25. Громова О. А., Торшин И. Ю., Максимов В. А., Громов А. Н., Рудаков К. В. Систематический анализ исследований лактитола. Экспериментальная и клиническая гастроэнтерология. 2019; (2): 131-142. DOI: https://doi.org/10.31146/1682-8658-ecg-162-2-131-142.

26. Арнольд В., Ильяшенко Ю., Аносов Д. и др. Динамические системы - 1. Итоги науки и техн. Сер. Соврем. пробл. мат. Фундам. Направления. М.: ВИНИТИ. 260 с.

27. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академий Наук СССР. 19654 163 (4): 845-848.

28. loannidis J. P.A. Hijacked evidence-based medicine: stay the course and throw the pirates overboard. J Clin Epidemiol. 2017 Apr; 84: 11-13. DOI: https://dx.doi.org/10.1016/j.jclinepi.2017.02.001.

29. loannidis J. P. Evidence-based medicine has been hijacked: a report to David Sackett. J Clin Epidemiol. 2016 May; 73: 82-6. DOI: https://dx.doi.org/10.1016/j.jclinepi.2016.02.012. PMID: 26934549.

30. M0ller M. H., loannidis J. P.A., Darmon M. Are systematic reviews and meta-analyses still useful research? We are not sure. Intensive Care Med. 2018 Apr; 44 (4): 518-520. DOI: https://dx.doi. org/10.1007/s00134-017-5039-y.

31. Cochrane is a registered trademark in Australia, Canada, the European Community and the USA. 2017-09-19. [Электронный ресурс] URL: http:// trademarks.justia.com/791/85/cochrane-79185910.html. Дата обращения: 12.12.2019.

32. Торшин И. Ю., Громова О. А., Кобалава Ж. Д. О репрессиях и>-3 полиненасыщенных жирных кислот адептами доказательной медицины. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019; 12 (2): 91-114. DOI: https://doi. org/10.17749/2070-4909.2019.12.2.91-114.

33. Hannemann A., Wallaschofski H., Nauck M., Marschall P., Flessa S., Grabe H. J., Schmidt C. O., Baumeister S. E. Vitamin D and health care costs: Results from two independent population-based cohort studies. Clin Nutr. 2018 Dec; 37 (6 Pt A): 2149-2155. DOI: https://dx.doi.org/10.1016/j.clnu.2017.10.014.

x к Q V

s

X s

X

о «

J

a

«

S S о

X

К С

а

0

1

» .

¡s 2

i ^

8.2

H If

s ¡

0 c

1 s

и

0 m

И «

s *

е <в

im ^

¡2 un

■S «

1 f""

i ■: с

a «

H

S I

0 «

n a X ca

1 * S J

0 >

« 5 =

ш S * £

H о

Ü s

ё Я

S X

a a ® с м ф

н a X 0

a в

H

S S

1 I

x4

IS X EIS

34. Механик А. Г. Искусственный интеллект на страже здоровья. Беседа вторая с О. А. Громовой и И. Ю. Торшиным. Стимул: Журнал об инновациях в России. 30 Октября 2019. [Электронный ресурс] URL: https://stimul.online/articles/science-and-technology/ iskusstvennyy-intellekt-na-strazhe-zdorovya-beseda-vtoraya/. Дата обращения: 12.12.2019.

35. Блинов Д. В., Акарачкова Е. С., Орлова А. С., Крюков Е. В., КорабельниковД. И. Новая концепция разработки клинических рекомендаций в России. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019; 12 (2): 125— 144. DOI: https://doi.Org/10.17749/2070-4909.2019.12.2.125-144.

36. Журавлева Н. И., Шубина Л. С., Сухоруких О. А. Обзор методик оценки достоверности научных доказательств и убедительности рекомендаций, применяемых при разработке клинических рекомендаций в российской федерации. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019; 12 (1): 34-41 DOI: https://doi.Org/10.17749/2070-4909.2019.12.1.34-41.

37. Хачатрян Г. Р., Омельяновский В. В., Мельникова Л. С., Ратушняк С. С. Международный опыт организации и финансового обеспечения агентств по оценке технологий здравоохранения. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019. Т. 12. № 2. С. 146-154. DOI: https://doi.org/10.17749/2070-4909.2019.12.2.146-154.

REFERENCES:

1. Canese K., Weis S. PubMed: The Bibliographic Database. 2002 Oct 9 [Updated 2013 Mar 20]. In: The NCBI Handbook. 2nd edition. Bethesda (MD): National Center for Biotechnology Information (US); [Electronic resource] URL: https://www.ncbi.nlm.nih.gov/books/ NBK153385/. Accessed: 12.12.2019.

2. Li L., Smith H. E., Atun R., Tudor Car L. Search strategies to identify observational studies in MEDLINE and Embase. Cochrane Database Syst Rev. 2019; MR000041. DOI: https://dx.doi. org/10.1002/14651858.MR000041.pub2.

3. Gromova O. A., Torshin I. Yu. Vitamin D - a paradigm shift. Moscow. 2017; 750.

4. Gromova O. A., Torshin I. Yu. Micronutrients and reproductive health. Guide. Moscow. 2019; 672 c.

5. Stewart Chaplin. The Stained Glass Political Platform. The Century Magazine. USA. 1900.

6. Summers E. Weasel Words: 200 Words You Shouldn't Trust: 200 Words You Can't Trust. Chambers (Ed.), Slang & Idiom Dictionaries. 2009; 208 p.

7. Watson D. Watson's Dictionary of Weasel Words, Contemporary Cliches, Cant and Management Jargon. Knopf, 1st Ed. 2004; 357 p.

8. Torshin I. Y., Rudakov K. V. Combinatorial analysis of the solvability properties of the problems of recognition and completeness of algorithmic models. Part 1: factorization approach. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2017; 27 (1): 16-28.

9. Torshin I. Yu., Rudakov K. V. Combinatorial analysis of the solvability properties of the problems of recognition and completeness of algorithmic models. Part 2: metric approach within the framework of the theory of classification of feature values. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2017; 27 (2): 184-199.

10. Torshin I. Y. Optimal dictionaries of the final information on the basis of the solvability criterion and their applications in bioinformatics. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2013; 23 (2): 319-327.

11. Torshin I. Yu., Rudakov K. V. On the theoretical basis of the metric analysis of poorly formalized problems of recognition and classification. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2015; 25 (4): 577-587.

38. Лазарева М. Л., Тюрина И. В. Финансовая статистическая отчетность медицинских организаций: существующие недостатки и направления оптимизации. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2018; 11 (4): 61-66 Р01: https://doi.Org/10.17749/2070-4909.2018.11.4.061-066.

39. Омельяновский В. В., Федяева В. К., Мусина Н. З. Концепция многокритериального анализа принятия решений в текущей системе оценки технологий в здравоохранении России. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2018; 11 (3): 3-7 DOI: https://doi. огд/10.17749/2070-4909.2018.11.3-003-007.

40. Хрусталев М. Б., Максимова А. А. Эффективный поиск научных разработок с инновационным потенциалом в медицине. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2019; 12 (1): 27-33 Р01: https://doi. огд/10.17749/2070-4909.2019.12.1.27-33.

41. Мусина Н. З., Федяева В. К., Омельяновский В. В., Хачатрян Г. Р., Герасимова К. В., Лемешко В. А., Кончиц С. П. Обзор существующих зарубежных подходов к определению и оценке инновационности лекарственных препаратов. ФАРМАКОЭКОНОМИКА. Современная Фармакоэкономика и Фармакоэпидемиология. 2017; 10 (3): 66-74 Р01: https://dOi.Org/10.17749/2070-4909.2017.10.3.066-074.

12. Torshin I. Y., Rudakov K. V. On metric spaces arising during formalization of problems of recognition and classification. Part 1: properties of compactness. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2016; 26 (2): 274.

13. Torshin I. Yu., Rudakov K. V. On metric spaces arising during formalization of problems of recognition and classification. Part 2: density properties. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2016; 26 (3): 483-496.

14. Torshin I. Y., Rudakov K. V. On the application of the combinatorial theory of solvability to the analysis of chemographs. part 1: fundamentals of modern chemical bonding theory and the concept of the chemograph. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2014; 24 (1): 11-23.

15. Torshin I. Y., Rudakov K. V. On the application of the combinatorial theory of solvability to the analysis of chemographs. Part 2: local completeness of invariants of chemographs in view of the combinatorial theory of solvability. Pattern Recognition and Image Analysis (Advances in Mathematical Theory and Applications). 2014; 24 (2): 196-208.

16. Torshin I. Yu., Rudakov K. V. On the Procedures of Generation of Numerical Features Over Partitions of Sets of Objects in the Problem of Predicting Numerical Target Variables. Pattern Recognition and Image Analysis. 2019; 29 (4): 654-667. DOI: https://dx.doi.org/10.1134/ S1054661819040175.

17. Chernyshev V. M. Sword Double-edged. Abstract on Sectology. Moscow. 2011; 138 s. (in Russ)

18. Dvorkin A. L. Sectology: Totalitarian sects. Experience in systematic research. 3rd ed., Revised. and add. N. Novgorod. 2014; 816 s. (in Russ)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

19. Okter A. Mastermind: The Truth of the British Deep State. Arashtirma Publishing. 2017; 698 pp.

20. Koterov A. N. Causal Criteria in Medical and Biological Disciplines: History, Essenceand Radiation Aspect. Report 1. Problem Statement, Conceptionof Causes and Causation, False Associations. Radiatsionnaya biologiya, radioekologiya (in Russ). 2019; 59 (1): 5-36. DOI: https://dx.doi.org/10.1134/S0869803119010065.

21. Popper K. R. Assumptions and rebuttals: the growth of scientific knowledge. Moscow. 2004.

22. Gromova O. A., Torshin I. Yu., Tetruashvili N. K., Tapil'skaya N.I. A systematic analysis of the effects of molybdenum: the health of the

x к

С V S X s

X

u

Ф J

a

Ф

S

s о

X

к С

a

0

1

» .

S 2 i ^

8.2

H If

s I

0 c

1 s

и

Ф

0 in

£ «

s *

e is

irn ^

in

1 ■: в

а Ф

H

3 t

О Ф

я а

X м

¡ *

S т

0 >

« 5 =

ш 8

* £

I- о

¡S S

ё Я

1 X

а а

® с

м ф

н а

х 0

а о

Н

S I

I I

х4

IS X EIS

pregnant woman and the fetus. Voprosy ginekologii, akusherstva i perinatologii. 2019; 18 (4): 83-94 (in Russ). DOI: https://dx.doi. org/10.20953/1726-1678-2019-4-83-94.

23. Gromova O. A., Torshin I. Yu., Tetruashvili N. K., Galustyan A. N., Kuritsyna N. A. On prospects for using combinations of folic acid and active folates for the nutritional support of pregnancy. Akusherstvo i ginekologiya. 2019; 4: 87-94 (in Russ). DOI: https://dx.doi. org/10.18565/aig.2019.4.87-94

24. Torshin I. Y., Lila A.M., Gromova O. A., Naumov A. V., Gromov A. N. On the anticoagulant and antiaggregatory properties of a glucosamine sulfate molecule. Modern Rheumatology Journal. 2019; 13 (3): 135-141. (In Russ.) DOI: https://doi.org/10.14412/1996-7012-2019-3-135-141.

25. Gromova O. A., Torshin I. Y., Maximov V. A., Gromov A. N., Rudakov K. V. Systematic analysis of lactitol studies. Experimental and Clinical Gastroenterology. 2019;(2):131-1 42. (In Russ.) DOI: https:// doi.org/10.31146/1682-8658-ecg-162-2-131-142.

26. Arnold V., Ilyashenko Yu., Anosov D. et al. Dynamical systems -1. Results of science and technology. Ser. Lying. prob. mat. Fundam. Directions. Moscow. 260 s. (in Russ)

27. Levenshtein V. I. Binary codes with correction of loss, insertion and substitution of characters. Doklady Akademii Nauk SSSR. 1965; 163 (4): 845-848 (in Russ).

28. Ioannidis J. P.A. Hijacked evidence-based medicine: stay the course and throw the pirates overboard. J Clin Epidemiol. 2017 Apr; 84: 11-13. DOI: https://dx.doi.org/10.1016/j.jclinepi.2017.02.001.

29. Ioannidis J. P. Evidence-based medicine has been hijacked: a report to David Sackett. J Clin Epidemiol. 2016 May; 73: 82-6. DOI: https://dx.doi.org/10.1016/j.jclinepi.2016.02.012.

30. M0ller M. H., Ioannidis J. P.A., Darmon M. Are systematic reviews and meta-analyses still useful research? We are not sure. Intensive Care Med. 2018 Apr; 44 (4): 518-520. DOI: https://dx.doi.org/10.1007/ s00134-017-5039-y.

31. Cochrane is a registered trademark in Australia, Canada, the European Community and the USA. 2017-09-19. [Electronic resource] URL: trademarks.justia.com/791/85/cochrane-79185910.html. Accessed: 12.12.2019.

32. Torshin I. Y., Gromova O. A., Kobalava Z. D. Concerning the "repression" of u> -3 polyunsaturated fatty acids by adepts of evidence-based medicine. FARMAKOEKONOMIKA. Modern Pharmacoeconomic and Pharmacoepidemiology. 2019; 12 (2): 91-114 (In Russ.) DOI: https://doi.org/10.17749/2070-4909.2019.12.2.91-114.

33. Hannemann A., Wallaschofski H., Nauck M., Marschall P., Flessa S., Grabe H. J., Schmidt C. O., Baumeister S. E. Vitamin D and health care costs: Results from two independent population-based

cohort studies. Clin Nutr. 2018 Dec; 37 (6 Pt A): 2149-2155. DOI: https://dx.doi.org/10.1016Zj.clnu.2017.10.014.

34. Mekhanik A. G. Artificial intelligence on guard of health. The second conversation with O. A. Thundering and I. Yu. Torshin. Stimul: Zhurnal ob innovatsiyakh v Rossii. 30.10.2019. (in Russ) [Electronic resource] URL: https://stimul.online/articles/science-and-technology/ iskusstvennyy-intellekt-na-strazhe-zdorovya-beseda-vtoraya/. Accessed: 12.12.2019.

35. Blinov D. V., Akarachkova E. S., Orlova A.S., Kryukov E. V., Korabelnikov D. I. New framework for the development of clinical guidelines in Russia. FARMAKOEKONOMIKA. Modern Pharmacoeconomic and Pharmacoepidemiology. 2019; 12 (2): 125-144 (In Russ.) DOI: https:// doi.org/10.17749/2070-4909.2019.12.2.125-144.

36. Zhuravleva N. I., Shubina L.C., Sukhorukikh O.A. The use of the level of evidence and grade of recommendations scales in developing clinical guidelines in the Russian Federation. FARMAKOEKONOMIKA. Modern Pharmacoeconomic and Pharmacoepidemiology. 2019; 12 (1): 34-41 (In Russ.). DOI: https://doi.org/10.17749/2070-4909.2019.12.1.34-41.

37. Khachatryan G. R., Omelyanovskiy V.V., Melnikova L. S., Ratushnyak S. S. Organizational structure and funding of health technology assessment agencies around the world. FARMAKOEKONOMIKA. Modern Pharmacoeconomic and Pharmacoepidemiology. 2019; 12 (2): 146-154 (In Russ.) DOI: https://doi.org/10.17749/2070-4909.2019.12.2.146-154

38. Lazareva M. L., Tyurina I. V. Financial statistical reporting by medical organizations: shortcomings and areas of optimization. FARMAKOEKONOMIKA. Modern Pharmacoeconomic and Pharmacoepidemiology. 2018; 11 (4): 61-66. (In Russ.) DOI: https:// doi.org/10.17749/2070-4909.2018.11.4.061-066.

39. Omelyanovsky V. V., Fedyaeva V. K., Musina N. Z. The concept of multi-criteria analysis of decision-making in the current system of health technology assessment in Russia. FARMAKOEKONOMIKA. Modern Pharmacoeconomic and Pharmacoepidemiology. 2018; 11 (3): 3-7 (In Russ.) DOI: https://doi.org/10.17749/2070-4909.2018.11.3-003-007

40. Khrustalev M. B., Maksimova A. A. Effective search for potentially innovative scientific results in medicine. FARMAKOEKONOMIKA. Modern Pharmacoeconomic and Pharmacoepidemiology. 2019; 12 (1): 27-33. (In Russ.) DOI: https://doi.org/10.17749/2070-4909.2019.12.1.27-33

41. Musina N.Z., Fedyaeva V.K., Omel'yanovskii V.V., Khachatryan G. R., Gerasimova K. V., Lemeshko V. A., Konchits K. P. Review of the current approaches to the assessment of the drug innovative potential worldwide. FARMAKOEKONOMIKA. Modern Pharmacoeconomic and Pharmacoepidemiology. 2017; 10 (3): 66-74. (In Russ.) DOI: https:// doi.org/10.17749/2070-4909.2017.10.3.066-074.

Сведения об авторах:

Торшин Иван Юрьевич - к.ф-м.н., к.х.н., с.н.с., Институт фармакоинформатики, ФИЦ «Информатика и Управление» РАН. Scopus Author ID: 7003300274; Author ID: 54104; ORCID ID: https://orcid.org/0000-0002-2659-7998; WoS ResearcherlD: C-7683-2018; РИНЦ SPIN-код: 1375-1114.

Громова Ольга Алексеевна - д.м.н., профессор, в.н.с., научный руководитель Института фармакоинформатики, ФИЦ «Информатика и Управление» РАН; в.н.с. Центра хранения и анализа больших данных, МГУ. Author ID: 94901; Scopus Author ID: 7003589812; ORCID ID: https://orcid.org/0000-0002-7663-710X; WoS ResearcherID: J-4946-2017. РИНЦ SPIN-код: 6317-9833. E-mail: unesco.gromova@gmail.com.

Стаховская Людмила Витальевна - д.м.н., профессор, директор ФГБУ «Федеральный центр цереброваскулярной патологии и инсульта». ORCID ID: https://orcid.org/0000-0001-6325-923.

Ванчакова Нина Павловна - д.м.н., профессор, психиатр, Центр Психосоматической Медицины при клинической больнице № 122 им. Л. Г. Соколова ORCID ID: https://orcid.org/0000-0003-1997-0202.

Галустян Анна Николаевна - к.м.н., доцент, зав. кафедрой фармакологии с курсом клинической фармакологии и фармакоэкономики, ГБОУ ВПО СПб-ГПМУ Минздрава России. ORCID ID: https://orcid.org/0000-0001-9679-632X.

Кобалава Жанна Давидовна - д.м.н., профессор, заведующая кафедрой внутренних болезней с курсом кардиологии и функциональной диагностики МИ ФГАОУ РУДН; заведующая кафедрой внутренних болезней, кардиологии и клинической фармакологии ФПК МР МИ ФГАОУ РУДН, МИ ФГАОУ РУДН.

Гришина Татьяна Романовна - д.м.н., проф., зав. кафедрой фармакологии ФГБОУ ВО ИвГМА Минздрава России. ORCID ID: https://orcid.org/0000-0002-1665-1188. Aurhor ID: 113019.

Громов Андрей Николаевич - инженер-исследователь ФИЦ ИУ РАН. AuthorID: 15082; Scopus Author ID: 7102053964; ORCID ID: https://orcid.org/0000-0001-7507-191X; WoS ResearcherID: C-7476-2018; РИНЦ SPIN-код: 8034-7910.

Иловайская Ирэна Адольфовна - врач-эндокринолог высшей категории, д.м.н., доцент, старший научный сотрудник отделения терапевтической эндокринологии, ГБУЗ МО МОНИКИ им. М. Ф. Владимирского. ResearcherID: I-1159-2014; ORCID ID: https://orcid.org/0000-0003-3261-7366. Scopus Author ID: 6506067338.

x к Q V

s

X s

X

о «

J

a

«

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

S S о

X

К С

а

0

1

» .

n 2

8.2 H If

S I

0 c

1 s

и

0 m £ â

s *

e <e

hrn ^

¡2 un

■S «

1 f""

i ■:

-s с il «

H

S t

u « с a

X и

i * s p

0 >

« 5 =

ш S * £

H о

¡s s

ë S

S X

a a ® с м ф

h a

x 0 a о

H

S S

1 I

x4

IS X EIS

Коденцова Вера Митрофановна - д.б.н., профессор, г.н.с., лаборатория витаминов и микроэлементов, ФГБУН «ФИЦ питания и биотехнологии».

Калачева Алла Геннадьевна - к.м.н., доцент кафедры фармакологии ФГБОУ ВО ИвГМА Минздрава России. ORCID ID: https://orcid.org/0000-0001-6144-5781.

Лиманова Ольга Адольфовна - к.м.н., доцент кафедры фармакологии ФГБОУ ВО ИвГМА Минздрава РФ. ORCID ID: https://orcid.org/0000-0002-2342-3036. ®

Максимов Валерий Алексеевич - д.м.н., профессор кафедры диетологии и нутрициологии, гастроэнтеролог, РМАПО. ORCID ID: https://orcid.org/0000-0003-4120-1071.

и

Малявская Светлана Ивановна - д.м.н., профессор, проректор по научной работе ФГБОУ ВО СГМУ (г. Архангельск) Минздрава России. ORCID ID: http:// orcid.org/0000-0003-2521-0824; eLIBRARY ID: 6257-4400. IL

Мозговая Елена Витальевна - д.м.н., доцент, руководитель акушерского отдела с перинатологией ФГБНУ «Научно-исследовательский институт акушерства, гинекологии и репродуктологии им. Д. О. Отта» РАН; профессор кафедры акушерства, гинекологии и репродуктологии медицинского факультета СПбГУ. WoS ResearcherID: L-1432-2017; Author ID Scopus: 24822403200; Author ID: 386830.

Eh

Тапильская Наталья Игоревна - д.м.н., профессор, ведущий научный сотрудник отделения вспомогательных репродуктивных технологий, ФГБНУ «Научно-исследовательский институт акушерства, гинекологии и репродуктологии им. Д. О. Отта» РАН. Author ID Scopus: 23013489000; WoS ResearcherID: A-7504-2016; ORCID ID: https://orcid.org/0000-0001-5309-0087; ID map of science: 00052162; РИНЦ SPIN-код: 3605-0413.

Рудаков Константин Владимирович - акад. РАН, зам. директора Федерального Исследовательского Центра Информатика и Управление РАН, зав. кафедрой интеллектуальные системы МФТИ. Scopus Author ID: 6603540895.

Семенов Владимир Александрович - д.м.н., профессор, ФГБОУ ВО «Кемеровский Государственный Медицинский Университет» Минздрава России. About the authors:

Ivan Yu. Torshin - MD, PhD, Senior Researcher, Federal Research Center "Informatics and Management", Russian Academy of Sciences; Big Data Storage and

Elena V. Mozgovaya - MD, Dr Sci Med, Associate Professor, Head of the Obstetric Department with Perinatology, The Research Institute of Obstetrics, Gynecology and Reproductology named after D. O. Ott; Professor, Department of Obstetrics, Gynecology and Reproductology, Faculty of Medicine, Saint-Petersburg State Pediatric Medical University. WoS ResearcherID: L-1432-2017; Author ID Scopus: 24822403200; Author ID: 386830.

о

к с a о

Analysis Center, Moscow State University. Scopus Author ID: 7003300274; Author ID: 54104; ORCID ID: https://orcid.org/0000-0002-2659-7998; WoS ResearcherID: C-7683-2018; RSCI SPIN-code: 1375-1114.

is

Olga A. Gromova - MD, Dr Sci Med, Professor, Senior Researcher, Scientific Director of the Federal Research Center "Informatics and Management", Russian Academy of Sciences; Leading Researcher, Center for Big Data Analysis, Moscow State University; Author ID: 94901; Scopus Author ID: 7003589812; ORCID ID: 5 .¡2

X A

https://orcid.org/0000-0002-7663-710X; WoS ResearcherID: J-4946-2017. RSCI SPIN-code: 6317-9833. E-mail: unesco.gromova@gmail.com.

Lyudmila V. Stakhovskaia - MD, Dr Sci Med, Professor, director, Federal Center for Cerebrovascular Pathology and Stroke. ORCID ID: https://orcid.org/0000-0001-6325-923.

Nina P. Vanchakova - MD, Dr Sci Med (medical psychology and psychiatry), Professor, Psychiatrist, Center for Psychosomatic Medicine at the Clinical Hospital No. 122 named after L. G. Sokolov. ORCID ID: https://orcid.org/0000-0003-1997-0202.

Anna N. Galustyan - MD, PhD, Associate Professor, Head of the Department of Pharmacology, Saint-Petersburg National Pediatric Medical University. ORCID ID: https://orcid.org/0000-0001-9679-632X. Zhanna D. Kobalava - MD, PhD, Professor, Head of the Department of Internal Medicine, Cardiology and Clinical Pharmacology, Peoples' Friendship University. c Tatiana R. Grishina - MD, Dr Sci Med, Head of the Department of pharmacology, Ivanovo State Medical Academy. ORCID ID: https://orcid.org/0000-0002-1665-1188. Aurhor ID: 113019.

Biotechnology. ®

Alla G. Kalacheva - MD, PhD, Associate Professor of the Department of Pharmacology and Clinical Pharmacology, Ivanovo State Medical Academy. ORCID ID: https://orcid.org/0000-0001-6144-5781.

Andrey N. Gromov - research engineer, Federal Research Center "Informatics and Management", Russian Academy of Sciences. AuthorID: 15082; Scopus Author ID: 7102053964; ORCID ID: https://orcid.org/0000-0001-7507-191X; WoS ResearcherID: C-7476-2018; RSCI SPIN-code: 8034-7910.

Irena A. Ilovayskaya - MD, Dr Sci Med, endocrinologist of the highest category, associate professor, senior researcher at the Department of Therapeutic Endocrinology, Moscow Regional Research and Clinical Institute (MONIKI). ResearcherID: I-1159-2014; ORCID ID: https://orcid.org/0000-0003-3261-7366. Scopus Author ID: 6506067338.

Vera M. Kodentsova - Dr Sci Biol, Professor, Senior Researcher, Laboratory of Vitamins and Microelements, Federal Research Center for Nutrition and

Olga A. Limanova - MD, PhD, Associate Professor of the Department of Pharmacology, Ivanovo State Medical Academy. ORCID ID: https://orcid.org/0000-0002-

u g

u «

2342-3036.

ValeryA. Maksimov- MD, Dr Sci Med, gastroenterologist, Professor of the Department of Dietetics and Nutritionology, Russian Medical Academy of Continuing Professional Education. ORCID ID: https://orcid.org/0000-0003-4120-1071.

Svetlana I. Malyvskaya - MD, Dr Sci Med, Professor, Head of Sciences, Northern State Medical University. ORCID ID: http://orcid.org/0000-0003-2521-0824; eLIBRARY ID: 6257-4400. O >

IS

5 si

Natalia I. Tapilskaya - MD, Dr Sci Med, Professor, Leading Researcher of the Department of Assisted Reproductive Technologies, The Research Institute of Obstetrics, Gynecology and Reproductology named after D. O. Ott. Author ID Scopus: 23013489000; WoS ResearcherID: A-7504-2016; ORCID ID: https://orcid. org/0000-0001-5309-0087; ID map of science: 00052162; RSCI SPIN-code: 3605-0413.

Konstantin V. Rudakov- Academician of the Russian Academy of Sciences, Scientifik Director of the Federal Research Center for Informatics and Management RAS, head of Department of Intellectual Systems MIPT. Scopus Author ID: 6603540895.

Gfl Q

Vladimir A. Semenov - MD, Dr Sci Med, Professor, Kemerovo State Medical University. £ a

® «

к

Ï* IS X EIS

i Надоели баннеры? Вы всегда можете отключить рекламу.