Научная статья на тему 'Модифицированные алгоритмы искусственного интеллекта для создания лекарственных препаратов'

Модифицированные алгоритмы искусственного интеллекта для создания лекарственных препаратов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
192
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОГНОЗИРОВАНИЕ ЗАВИСИМОСТИ "СТРУКТУРА-СВОЙСТВО" / МОДИФИЦИРОВАННЫЕ АЛГОРИТМЫ / МЕТОДЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА / PREDICTION OF DEPENDENCE "STRUCTURE/PROPERTY" / MODIFIED ALGORITHMS / ARTIFICIAL INTELLIGENCE METHODS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Самигулина Галина Ахметовна, Самигулина Зарина Ильдусовна

Статья посвящена разработке интеллектуальной технологии для прогнозирования зависимости «структура-свойство» лекарственных соединений на основе модифицированных алгоритмов искусственного интеллекта в пакете прикладных программ Rapid Miner.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Самигулина Галина Ахметовна, Самигулина Зарина Ильдусовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Modified algorithms of artificial intelligence to drugs design

The article is devoted to development of the intellectual technology for predicting of the dependence "structure-property" on the basis of modified algorithms of artificial intelligence in the Rapid Miner software package.

Текст научной работы на тему «Модифицированные алгоритмы искусственного интеллекта для создания лекарственных препаратов»

имитационных моделей на основе модельно-управляемого подхода // Восьмая всероссийская научно-практическая конференция по имитационному моделированию и его применению в науке и промышленности «Имитационное моделирование. Теория и практика» (ИММОД-2017) (18-20 октября 2017 г., С-Петербург). - С-Петербург, 2017. С. 288-293.

2. Тарасов В.Б. Агенты, многоагентные системы, виртуальные сообщества: стратегическое направление в информатике и искусственном интеллекте // Новости искусственного интеллекта. 1998. № 2. С. 5-63.

3. Городецкий В.И., ГрушинскийМ.С., Хабалов А.В. Многоагентные системы (обзор) // Новости искусственного интеллекта. 1998. № 2. С. 64-116.

4. Городецкий В.И., Бухвалов О.Л., Скобелев П.О. и др. Современное состояние и перспективы индустриальных применений многоагентных систем // Управление большими системами. Вып. 66. М.: ИПУ РАН, 2017. С. 94-157.

5. Павлов А.И., Столбов А.Б. Прототип системы поддержки проектирования агентов для имитационных моделей сложных систем // Программные продукты и системы. 2016. № 3. С. 79-84.

Сведения об авторах

Ольга Анатольевна Николайчук

доктор техн. наук, старший научный сотрудник Институт динамики систем и теории управления им. В.М. Матросова СО РАН Эл. почта: [email protected] Россия, Иркутск

Александр Иннокентьевич Павлов

кандидат техн. наук, старший научный сотрудник Институт динамики систем и теории управления им. В.М. Матросова СО РАН Эл. почта: [email protected] Россия, Иркутск

Александр Борисович Столбов, кандидат техн.

наук, младший научный сотрудник

Институт динамики систем и теории управления

им. В.М. Матросова СО РАН

Эл. почта: [email protected]

Россия, Иркутск

Information about authors

Olga A. Nikolaychuk

Ph.D., Senior Researcher

Matrosov Institute for System Dynamics and Control

Theory of Siberian Branch of RAS

Е-mail: [email protected]

Russia, Irkutsk

Alexander I. Pavlov

Ph.D., Senior Researcher

Matrosov Institute for System Dynamics and Control Theory of Siberian Branch of RAS E-mail: [email protected] Russia, Irkutsk

Alexander B. Stolbov

Ph.D., Researcher

Matrosov Institute for System Dynamics and Control Theory of Siberian Branch of RAS E-mail: [email protected] Russia, Irkutsk

УДК 004.89 Г.А. Самигулина1, З.И. Cамигулина2

1 Институт информационных и вычислительных технологий 2Казахстанско-Британский технический университет

МОДИФИЦИРОВАННЫЕ АЛГОРИТМЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА ДЛЯ СОЗДАНИЯ ЛЕКАРСТВЕННЫХ ПРЕПАРАТОВ

Статья посвящена разработке интеллектуальной технологии для прогнозирования зависимости «структура-свойство» лекарственных соединений на основе модифицированных алгоритмов искусственного интеллекта в пакете прикладных программ Rapid Miner. Ключевые слова: прогнозирование зависимости «структура-свойство», модифицированные алгоритмы, методы искусственного интеллекта.

G.A. Samigulina1, Z.I. Samigulina2

institute of information and computing technologies 2Kazakh-British Technical Universit

MODIFIED ALGORITHMS OF ARTIFICIAL INTELLIGENCE TO DRUGS DESIGN

The article is devoted to development of the intellectual technology for predicting of the dependence "structure-property" on the basis of modified algorithms of artificial intelligence in the Rapid Miner software package.

Key words: prediction of dependence «structure/property», modified algorithms, artificial intelligence methods.

1. Введение

В связи с последними достижениями в области компьютерного молекулярного дизайна лекарственных препаратов в настоящее время открыто огромное количество структур химических соединений. По данным крупнейшего мирового хранилища химической информации Mol-Instincts исследовано более 2.85 млн. компонентов. Рост огромного числа химической информации приводит к необходимости разработки новых интеллектуальных алгоритмов для обработки многомерных данных. Таким образом, в настоящее время важнейшей составляющей процесса исследования биологической активности химических соединений новых лекарственных препаратов является разработка современных модифицированных алгоритмов ИИ для обработки структурной химической информации и формирования баз данных (БД) лекарственных соединений с заданными свойствами на основе оптимального набора дескрипторов.

Широкое распространение получили следующие интеллектуальные алгоритмы для прогнозирования зависимости «структура-свойство» лекарственных соединений: нейронные сети (НС) [1], генетические алгоритмы (ГА) [2], искусственные иммунные системы [3], алгоритмы на основе ансамбля деревьев решений [4], метод опорных векторов [5], метод «ближайшего соседа» [6] и т.д.

Современные программные продукты для моделирования больших БД химической информации позволяют исследовать на своей основе разработанные модифицированные алгоритмы. К ним относятся такие программные продукты как: WEKA, Rapid Miner, LIBSIM, Bioclipse, RStudio и т.д. В качестве программного продукта для разработки интеллектуальной технологии прогнозирования зависимости «структура-свойство» лекарственных соединений выбрана графическая среда визуального программирования Rapid Miner, которая позволяет увеличить производительность и повысить уровень интеллектуальной аналитики [7]. Данный программный продукт решает следующие задачи: выбора информативных признаков (Feature selection), классификации (Classification), кластеризации (Clustering), ассоциации (Association), вычисления последовательности (Sequence), прогнозирования (Forecasting), оценивания (Estimation), визуализации данных (Visualization, Graph Mining), подведения итогов эксперимента (Summarization).

Постановка задачи формулируется следующим образом: необходимо разработать интеллектуальную технологию на основе модифицированных алгоритмов искусственного интеллекта для прогнозирования зависимости «структура-свойство» лекарственных препаратов с применением программного обеспечения Rapid Miner.

2. Интеллектуальная технология прогнозирования зависимости «структура-свойство» на основе модифицированных алгоритмов ИИ

Для решения поставленной задачи рассмотрим алгоритм интеллектуального анализа БД дескрипторов лекарственных соединений:

1. Загрузка БД дескрипторов химических веществ в пакет прикладных программ Rapid Miner.

2. Предварительная обработка БД десрипторов для снижения размерности исследуемых данных на основе применения различных алгоритмов: метода главных компонент (PCA), Random Forest (RF) [8], ГА и т.д.

3. Формирование БД, состоящих из информативных дескрипторов по результатам предварительной обработки данных.

4. Формирование экспертами классов (например, классификация веществ по продолжительности действия).

5. Анализ БД, полученных после этапа 2 для решения задачи классификации методами: опорных векторов, «ближайшего соседа», НС и т.д. для получения наилучшего результата в зависимости от характера исходных данных.

6. Оценка эффективности рассматриваемых алгоритмов.

7. Сравнительный анализ полученных результатов. Принятие решений.

В качестве примера рассмотрим анализ БД дескрипторов сульфаниламидов с различной продолжительностью действия с помощью ГА в пакете прикладных программ Rapid Miner (рис 1).

В пакете прикладных программ Rapid Miner реализован функциональный блок, который позволяет не только выбирать дескрипторы из исходного набора данных, но и генерировать новые атрибуты, поэтому данный оператор содержит специализированные мутационные и кроссо-верные операторы. Дескрипторы сульфаниламидов загружаются в программу с помощью операторов «Read Excel» или «Retrive», с обязательной установкой точки останова. Оператор Generate является вложенным, внутри которого хранится подпроцесс необходимый для предоставления вектора производительности. Далее применяется оператор Split Validation, который тоже является вложенным оператором [7]. Внутри блока «Split Validation» в разделе «Training»

используется оператор линейной регрессии для обучения модели (рис 1). Полученный вектор эффективности в результате используется базовым алгоритмом.

Рис. 1. Работа вложенных процессов в среде Rapid Miner

Далее осуществляется решение задачи классификации, на рис.2 и рис.3 представлен пример моделирования сформированной БД дескрипторов сульфаниламидов с помощью НС и метода «ближайшего соседа» после предварительной обработки данных на основе ГА.

Z

j.HII;;-4

],«S2-.j, ' -i-..."! - ..,

;..0r.№ J i. Lerts*.! '"-i- >-. j 3 КЛАСС

\ i

\ i

-i-----------1-

i__________

I.________________.

! 2 КЛАСС

1 КЛАСС

Рис. 2 Результаты решения задачи классификации на основе НС

Рис. 3. Результаты решения задачи классификации на основе метода «ближайшего соседа»

Результаты исследования интеллектуальной технологии для прогнозирования зависимости «структура-свойство» лекарственных соединений на основе модифицированных алгоритмов ИИ представлены в таблице.

Таблица

Результаты интеллектуального анализа данных в среде Rapid Miner

Алгоритмы предварительной обработки данных

Наименование алгоритма RF PCA GA

Время моделирования 23с 3м43с 10 м 18с

Оценка эффективности 96% 93% 83.4%

Эффективность метода «ближайшего соседа» после предварительной обработки

Время моделирования 8с 15с 28с

Оценка эффективности 93% 90.6% 81.2%

Эффективность НС после предварительной обработки

Время моделирования 5м49с 8м34с 13м30с

Оценка эффективности 65% 62% 60%

Эффективность метода опорных векторов после предварительной обработки

Время моделирования 2с 11с 18с

Оценка эффективности 94.2% 91.5% 82.3%

Сравнительный анализ результатов моделирования показывает, что метод «ближайшего соседа» обладает следующими достоинствами: простотой использования результатов моделирования, полученные решения не уникальны, а могут применяться в других случаях. В качестве недостатков можно отметить: вычислительную трудоемкость за счет необходимости полного перебора обучающей выборки данных и возможность применения для обработки БД небольшой размерности.

Метод опорных векторов подходит для работы с реальными данными. Недостатком является использование для классификации не всего множества образцов, а лишь их небольшой части, которая находится на границах областей [9]. Применение нейронной сети, которая представлена в программном продукте Rapid Miner не дает необходимой эффективности, для увеличения точности решения задачи классификации необходимо увеличение числа скрытых слоев и эпох обучения.

3. Заключение

Авторы считают, что применение специализированного программного обеспечения при создании новых лекарственных препаратов позволяет осуществлять высокопроизводительное компьютерное моделирование на основе современных методов искусственного интеллекта и визуализацию данных.

Работа выполнена по гранту КН МОН РК на тему: «Разработка и анализ баз данных для информационной системы прогнозирования зависимости «структура-свойство» лекарственных соединений на основе алгоритмов ИИ» (2018-2020 гг.).

Литература

1. Ghasemi F., Mehridehnavi A., Fassihi A., Pérez-Sánchez H. Deep neural network in QSAR studies using deep belief network //Applied Soft Computing Journal. 2018. № 62. Р. 251-258.

2. Alisi I.O., Uzairu A., Abechi S.E., Idris S.O. Quantitative structure activity relationship analysis of coumarins as free radical scavengers by genetic function algorithm // Physical Chemistry Research. 2018. Vol. 6. № 1. Р. 208-222.

3. Ivanciuc O. Artificial Immune System Classification of Drug-induced Torsade de Pointes with AIRS (Artificial Immune Recognition System) // Journal of Molecular Design. - 2006. - №5. - Р.488-502.

4. Ko G.M., Reddy S., Kumar S., Bailey B.A., Garg R. A Random Forest Model for the Analysis of Chemical Descriptors for the Elucidation of HIV-1 Protease Protein-Ligand Interactions // Applied Computational Science and Engineering Student and Computational Science Curriculum Development (ACSESS), SDSU. 2010. P. 1-6.

5. Liu F., Zhou Z. A new data classification method based on chaotic particle swarm optimization and least square-support vector machine // Chemometrics and intelligent laboratory systems. 2015. Р. 147-156.

6. Chikh M.A., SaidiM. Diagnosis of Diabetes Diseases Using an Artificial Immune Recognition System2 (AIRS2) with Fuzzy K-nearest Neighbor // Journal of Medical Systems. 2012. Vol. 36. № 5. P.2721-2729.

7. Hofmann M., Klinkenberg R. Rapid Miner: Data Mining use cases and business analytics applications. 2014. 463 c.

8. Samigulina G., Samigulina Z. Immune Network Technology on the Basis of Random Forest Algorithm for Computer-Aided Drug Design // Bioinformatics and Biomedical Engineering. 2017. P. 50-61.

9. ЧубуковаИ.А. Data Mining. -М.: Бином, 2008. 382 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сведения об авторах

Галина Ахметовна Самигулина

д.т.н., зав. лаб. ИСУиП

Институт информационных и вычислительных технологий

Эл. почта: [email protected]

Республика Казахстан, Алматы

Зарина Ильдусовна Самигулина

канд. наук, докторант

Казахстанско-Британский технический университет Эл. почта: [email protected] Республика Казахстан, Алматы

Information about authors

Galina Ahmetovna Samigulina

d.t.s., chief of the ICSaF

E-mail: galinasamigulina@mail. ru

Institute of information and computing technologies

Republic of Kazakhstan, Almaty

Zarina Ildusovna Samigulina

Ph.D, assoc. prof.

Kazakh-British Technical University E-mail: zarinasamigulina@mail. ru Republic of Kazakhstan, Almaty

УДК 372.851; 510.2 Ю.А. Смолина, О.Г. Шипилова

МАОУ «Гимназия 13 «Академ»

МЕТОДИЧЕСКАЯ РАЗРАБОТКА ИНТЕЛЛЕКТУАЛЬНОГО ФИЗИКО-МАТЕМАТИЧЕСКОГО КВЕСТА «ЗАГАДКА РАМАНУДЖАНА»

Статья посвящена актуальности и вопросам развития математических способностей у учащихся школ. В статье представлена методическая разработка мероприятия, направленного на развитие устойчивого интереса учащихся к математике и физике и их приложениям. Ключевые слова: развитие математических способностей и интереса к математике, внеклассная и внеурочная работа, метапредметные связи.

Ju.A. Smolina, O.G. Shipilova

Gymnasium № 13 «Akadem»

METHODOLOGICAL DESCRIPTION OF INTELLECTUAL QUEST "RAMANUJAN'S RIDDLE"

The following article is devoted to the questions of relevance of the development of mathematical skills among school students. It describes a variety of techniques, types and forms of educational work of the teacher, by means of which it is possible to achieve high performance of school students. Keywords: development of mathematical skills and interest in mathematics, project and research activities, extra-curricular work, interdisciplinary communications

«Предмет математики настолько серьезен, что полезно не упускать случаев делать его немного занимательным».

Б. Паскаль

Современная ситуация в школе характеризуется обновлением содержания, структуры, технологий обучения и ресурсного обеспечения образовательного процесса в условиях ФГОС. В основу нового стандарта заложены: запросы семьи, общества и государства; концепция духовно-нравственного развития личности гражданина России; фундаментальное ядро образования. Впервые образовательный стандарт является отражением социального заказа, согласующим требования современного рынка труда, семьи, общества и государства. В связи с этим разрабатываются новые учебные программы, в рамках которых осуществляется образовательный процесс. Меняются не только программы образовательных предметов, их содержание, цели и задачи, но и роль учителя. Преподаватель находится в поиске тех методов, приемов, технологий, которые

i Надоели баннеры? Вы всегда можете отключить рекламу.