Рис. 1. Информационная модель распространения инфекции на ограниченной территории
пользованием мультиагентного подхода была изучена динамика распространения ВИЧ-инфекции среди мужчин-гомосексуалистов в Амстердаме [6]. Данная модель рассматривает распространение инфекции в одной группе риска, такой подход часто встречается при моделировании.
Многие приемы, используемые при применении мультиагентного подхода, разработаны в настоящее время в недостаточной степени. В частности, не решались задачи параметрической идентификации указанных моделей, нахождения необходимого числа агентов, обеспечивающих репрезентативность вычислительных экспериментов, приемы использования подхода для моделирования морфологических характеристик объектов.
Целью данной работы является разработка математической модели, предназначенной для реализации мультиагентного подхода, позволяющего учесть индивидуальные свойства объектов, составляющих систему и правила их взаимодействия.
РАЗРАБОТКА МУЛЬТИАГЕНТНОЙ МОДЕЛИ ИНФЕКЦИИ
Сущность данного метода моделирования состоит в том, что он позволяет, задавшись начальными параметрами по каждому типу объектов, а также системой правил, согласно которой объекты взаимодействуют друг с другом и окружающей средой, вычислить динамические закономерности развития инфекции и выявить наиболее существенные свойства агентов, способствующих изменению темпов распространения.
На рис. 1 представлена информационная модель распространения инфекции на ограниченной территории.
Основные допущения, принятые при разработке математической модели, имеют следующий вид.
1. Моделирование осуществляется на ограниченной территории, где существует вероятность взаимодействия любого агента с любым другим из системы.
2. Время в модели дискретно. Единицей времени является одна итерация. В реальном времени она может представлять собой один день, месяц, год и т. п. в зависимости от значений параметров модели. Отсчет
времени начинается с нуля итераций. Шаг времени равен единице.
3. В начальный момент времени формируется множество агентов системы согласно статистическим данным. У каждого объекта существует набор неизменных свойств и изменяющихся параметров. Свойства и параметры агентов определяются на стадии формирования всего множества агентов.
4. Максимальная продолжительность жизни агента задается количеством итераций, по истечении которого агент умирает. Максимальная продолжительность жизни может быть изменена в процессе моделирования, в случае инфицирования агента.
5. Все агенты разбиваются на типы, определяющие его отношение к инфекции: здоровый агент, инфицированный агент, носитель инфекции (способный к инфицированию других агентов, но при этом не испытывающий негативного влияния инфекции). Здоровые агенты, в свою очередь, могут обладать иммунитетом либо быть склонными к заражению.
6. Для каждого типа объектов определяется система правил, взаимодействие по которым определяет характер динамики распространения инфекции.
7. Взаимодействие одновременно возможно только между двумя агентами системы. То есть невозможно такое взаимодействие, в результате которого изменяются параметры нескольких агентов.
8. Замена типа происходит при взаимодействии объектов разных типов. Результатом взаимодействия является тип, определяющий статус инфицирования объекта.
9. Расчеты общей динамики для всей популяции агентов производятся традиционными статистическими методами.
10. Возможно внесение в систему новых инфицированных агентов и удаление из системы существующих. Так, процессы эмиграции и иммиграции населения приводят к изменению общего количества объектов системы.
Мультиагентная модель распространения инфекции, разработанная с учетом принятых допущений, имеет следующий вид. Общее количество инфицированных агентов на любой итерации можно рассчитать по формуле (1):
2353
КП - Ку + Кг - Ке ■
(1)
где Кт{ - общее количество инфицированных; Ку -количество инфицированных в результате внутренних процессов; Кг - количество инфицированных иммигрантов; К - количество инфицированных эмигрантов.
Количество инфицированных в результате внутренних процессов рассчитывается по формуле:
КV-X Ч- О ■
(2)
где К% - количество инфицированных различными
путями заражений; Б - количество умерших среди инфицированных; - г'-й путь передачи инфекции.
В начальный момент времени имеется множество М - множество агентов различного типа:
М - {{С\},{С2},...,{Ср }},
гдер - количество типов объектов.
Ск - С,<}, к -1,р ■
(3)
где Сд- - множество объектов типа к; пк - общее количество объектов типа к в начальный момент времени.
В начальный момент времени параметры объектов типа к задаются в соответствии с выражением
ск ^ Ък, ак, атк, м>к, рк, кк }
V 1 1 1 1 1 1 '
г -1, п
(4)
где - пол объектов; ак - возраст объектов в на-
к
чальный момент времени; ат - максимальная продолжительность жизни объектов типа к; wk - количе-
г
ство взаимодействий объекта с другими объектами; рк - вероятность инфицирования при взаимодействии; кк - продолжительность жизни инфицированного объекта.
Возникновение '-го объекта типа к в момент времени t+1 определяется выражением (5), а его гибель выражением (6)
(Ск), ^ (Ск + { ск}),+1 (Ск), ^ (Ск -{ ск })м .
(5)
(6)
Система правил (7) определяет изменение а^ -
возраста объекта типа к за единицу времени. Согласно второму правилу системы, необходимо исключить объект из множества объектов типа к, если отведенный ему максимальный срок жизни уже истек.
('ск )-1 :(ак \ - (ак \ 1 +1
1(ак 1
> атк ^ (Ск \ ^ (Ск
■к!), -
к -1, р, г -1, Пк
(7)
Выражение (8) позволяет уменьшать максимальный срок жизни объектов типа к на заданное количество итераций к1 (максимальная продолжительность жизни '-го объекта после изменения типа) в случае изменения типа объекта в результате взаимодействия объектов различных типов.
С е Ск\К+1 * к Ц (атк\+1 -\(ак), + к,. ,(ак), + к,. < атк
I атк, (ак)1 + к¡ > атк
(8)
Согласно выражению (9) вероятность нового инфицирования при взаимодействии двух агентов ск и
т
с существует, если выполняется условие:
с е Ск, ст е Ст \ к * тЦ ЗР(Л П В) * (
(9)
где элементарное событие А - это взаимодействие здорового агента с инфицированным агентом Л еЖ , Ш-пространство элементарных событий при взаимодействии агентов; элементарное событие В - передача инфекции в результате взаимодействия В е О , О - пространство элементарных событий при передаче инфекции; г - 1, щ , ] - 1, пт ; Пк - количество объектов
заданного типа к; Пт - количество объектов заданного типа т.
Замена г'-го объекта типа к на /-й объект типа т происходит при изменении статуса инфицирования в соответствии с выражением:
((Ск){^ (Ск -{к}){+1 \(Ст ) ^ (Ст +У } ) + 1 .
(10)
Система (1)—(10) позволяет, задавшись начальными параметрами по каждому типу объектов, моделировать процесс распространения инфекции на основе агентно-ориентированного подхода.
Приведенная математическая модель и отдельные ее компоненты обсуждались в работах [8-9]. На ее основе была разработана программа для математического моделирования развития инфекции [10].
ВЫЧИСЛИТЕЛЬНЫЕ ЭКСПЕРИМЕНТЫ
В качестве примера использования математической модели приведем результаты моделирования распространения ВИЧ-инфекции в России. В качестве эмпирических данных для моделирования взяты стати-
2354
стические данные Федерального научно-методического Центра по профилактике и борьбе со СПИДом и данные Федеральной службы государственной статистики.
На основании статистических данных по ВИЧ-инфекции проведена параметрическая идентификация модели, которая позволила установить вероятность основных путей заражения. Установлено, что вероятность передачи инфекции половым путем составляет 0-10 % для мужчины, 15-30 % для женщины, 40-50 % в случае взаимодействия мужчины с мужчиной. Вероятность передачи инфекции при использовании инъекционной иглы составляет 95 %. Относительная погрешность вычислений при этом составила 15,5 %.
Основные результаты, полученные в процессе моделирования, приведены на рис. 2-3.
Из рис. 2 видно, что количество инфицированных по результатам моделирования с начальным условием (в 1996 г. 2603 инфицированных), начиная с 2002 г., превышает статистические данные. Относительная погрешность вычислений при этом равна 16,4 %. При этом характеры динамики инфекции, изображенные на рис. 2, совпадают для модели и эмпирических данных. Стоит отметить также, что абсолютное большинство экспертов, оценивающих динамику ВИЧ в России, считает, что статистические данные сильно занижены относительно реального количества инфицированных.
о> 6
- 5
0#
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
год
Рис. 2. Динамика ВИЧ-инфекции в России по годам (° - статистические данные, • - усредненные модельные результаты); начальное условие: в 1996 г. было 2603 инфицированных
7
га л т 4
3
2
1
Рис. 3. Динамика ВИЧ-инфекции в России по годам (° - статистические данные, • - усредненные модельные результаты), начальное условие: в 1996 г. было 1200 инфицированных
2355
Учитывая, что оценки вероятностей различных путей заражения, полученные при идентификации модели, близки к оценкам медиков, причиной такого результата могут быть лишь неправильные начальные условия. Необходимо отметить, что в 1996 г. лабораторные и статистические средства контроля и наблюдения за инфицированными были в недостаточной степени совершенны, что и могло привести к такой ситуации. Поэтому в ходе вычислительных экспериментов нами было принято решение о включении начальных условий в число идентифицируемых параметров. В ходе идентификации было получено меньшее число инфицированных в 1996 г. - 1200 человек.
На рис. 3 показана динамика развития инфекции при начальном условии - количество инфицированных 1200 человек. Видно, что в данном случае расчеты по модели хорошо совпадают со статистическими данными.
В ходе вычислительных экспериментов установлено также уменьшение влияния инъекционного пути передачи инфекции и увеличение влияния полового пути как по модельным данным, так и по существующей статистике. Характер изменения количественных показателей модели совпадает с реальными наблюдениями, это означает, что модель позволяет выявлять наиболее существенные пути передачи инфекции, что необходимо при разработке стратегий для борьбы с инфекцией. На основании изложенного можно сделать предположение о верном выборе правил взаимодействия агентов, адекватности и практической применимости модели для изучения распространения инфекции.
ЗАКЛЮЧЕНИЕ
В ходе анализа литературных данных, посвященных существующим методам математического моделирования и моделям распространения различных инфекций, показано, что наиболее подходящим аппаратом для моделирования развития инфекций является муль-тиагентный подход. Он позволяет, задавшись начальными параметрами по каждому типу объектов, а также системой правил, согласно которой объекты взаимо-
действуют друг с другом и окружающей средой, вычислить динамические закономерности развития как всей социальной системы, так и наблюдать изменения свойств каждого агента.
Разработана математическая модель распространения инфекции, в основе которой лежит мультиагент-ный метод.
Проведены вычислительные эксперименты по моделированию ВИЧ-инфекции в России. Сравнение результатов моделирования с реальными статистическими данными позволяет говорить о применимости разработанной модели для изучения процессов распространения инфекций.
СПИСОК ЛИТЕРАТУРЫ
1. Weiss G. Multiagent Systems: A Modern Approach to Distributed Artificial Intelligence. Cambridge: MIT Press, 1999.
2. Разжевайкин В.Н. Модели динамики популяций. М.: ВЦ РАН, 2006. 88 с.
3. Perelson A.S. Modelling viral and immune system dynamics // Nature Reviews Immunology. 2002. № 1. P. 28-36.
4. Куравский М.Л. Моделирование распространения эпидемий // Экологические системы и приборы. 2003. № 2. С. 49-54.
5. Cing T.J., Kwang H.H., Zaiyi G. Sufficiency Verification of HIV-1 Pathogenesis Based on Multi-Agent Simulation // GECCO. 2005. P. 305-312.
6. Shan A.M., Sloot P.M.A., Quax R., Zhu Y., Wang W. Complex Agent Networks explaining the HIV epidemic among homosexual men in Amsterdam // Mathematics and Computers in Simulation. 2010. V. 80. № 5. P. 1018-1030.
7. Карпов Ю.Г. Имитационное моделирование систем. Введение в моделирование с AnyLogic 5. СПб.: БХВ-Петербург, 2005. 400 с.
8. Арзамасцев А.А., Улыбин А.В. Имитационное моделирование развития инфекции с использованием агентного подхода // «Имитационное моделирование. Теория и практика» (ИММ0Д-2009): материалы 4 Всерос. науч.-практ. конф. по имитационному моделированию и его применению в науке и промышленности. СПб.: ОАО «ЦТСС», 2009. Т. 2. С. 266-270.
9. Арзамасцев А.А., Улыбин А.В. Имитационное моделирование развития инфекции с использованием агентного подхода // Вестник Тамбовского университета. Серия Естественные и технические науки. Тамбов, 2010. Т. 15. Вып. 2. C. 614-619.
10. Улыбин А.В., Арзамасцев А.А., Тепляков Д.В. Свидетельство о государственной регистрации программы для ЭВМ № 2010611510 РФ «Модель развития инфекции на основе агентного подхода». Зарегистрировано в реестре программ для ЭВМ 19.02.2010.
Поступила в редакцию 24 сентября 2016 г.
Арзамасцев Александр Анатольевич, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, доктор технических наук, профессор, зав. кафедрой математического моделирования и информационных технологий, e-mail: [email protected]
Зенкова Наталья Александровна, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, кандидат психологических наук, доцент кафедры математического моделирования и информационных технологий, e-mail: [email protected]
Улыбин Андрей Владимирович, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, кафедра математического моделирования и информационных технологий, e-mail: [email protected]
Информация для цитирования:
Арзамасцев А.А., Зенкова Н.А., Улыбин А.В. Математическая модель развития инфекционного процесса на основе мультиагентного подхода // Вестник Тамбовского университета. Серия Естественные и технические науки. Тамбов, 2016. Т. 21. Вып. 6. С. 23522357. DOI: 10.20310/1810-0198-2016-21-6-2352-2357
Arzamastsev A.A., Zenkova N.A., Ulybin A.V. Matematicheskaya model' razvitiya infektsionnogo protsessa na osnove mul'tiagentnogo podkhoda [Mathematical model of infectious process development basing on multiagent approach]. Vestnik Tambovskogo universiteta. Seriya Estestvennye i tekhnicheskie nauki — Tambov University Review. Series: Natural and Technical Sciences, 2016, vol. 21, no. 6, pp. 2352-2357. DOI: 10.20310/1810-0198-2016-21-6-2352-2357 (In Russian).
2356
UDC 519.6
DOI: 10.20310/1810-0198-2016-21 -6-2352-23 57
MATHEMATICAL MODEL OF INFECTIOUS PROCESS DEVELOPMENT BASING ON MULTIAGENT APPROACH
© A.A. Arzamastsev, N.A. Zenkova, A.V. Ulybin
Tambov State University named after G.R. Derzhavin 33 Internatsionalnaya St., Tambov, Russian Federation, 392000 E-mail: [email protected]
The development of mathematic model which lets to realize multiagent approach and trance infectious process is analyzed. As an example of model use the research of process expansion of HIV infection in Russia. Key words: mathematic modeling; multiagent approach; HIV infection; multiagent model of infectious process development
REFERENCES
1. Weiss G. Multiagent Systems: A Modern Approach to Distributed Artificial Intelligence. Cambridge: MIT Press, 1999.
2. Razzhevaykin V.N.Modeli dinamikipopulyatsiy [Models of population dynamics]. Moscow, Computer centre of RAS Publ., 2006. 88 p. (In Russian).
3. Perelson A.S. Modelling viral and immune system dynamics. Nature Reviews Immunology, 2002, no. 1, pp. 28-36.
4. Kuravskiy M.L. Modelirovanie rasprostraneniya epidemiy [Models of disease distribution]. Ekologicheskie sistemy i pribory — Ecological Systems and Devices, 2003, no. 2, pp. 49-54. (In Russian).
5. Cing T.J., Kwang H.H., Zaiyi G. Sufficiency Verification of HIV-1 Pathogenesis Based on Multi-Agent Simulation. GECCO, 2005, pp. 305-312.
6. Shan A.M., Sloot P.M.A., Quax R., Zhu Y., Wang W. Complex Agent Networks explaining the HIV epidemic among homosexual men in Amsterdam. Mathematics and Computers in Simulation, 2010, vol. 80, no. 5, pp. 1018-1030.
7. Karpov Yu.G. Imitatsionnoe modelirovanie sistem. Vvedenie v modelirovanie s AnyLogic 5 [Imitational modeling of systems. Introduction in modeling with AnyLogic 5]. St. Petersburg, BHV-Peterburg Publ., 2005, 400 p. (In Russian).
8. Arzamastsev A.A., Ulybin A.V. Imitatsionnoe modelirovanie razvitiya infektsii s ispol'zovaniem agentnogo podkhoda [Imitational modeling of infection development with the use of agent approach]. Materialy 4 Vserossiyskoy nauchno-prakticheskoy konferentsii po imitatsionnomu modelirovaniyu i ego primeneniyu v nauke i promyshlennosti «Imitatsionnoe modelirovanie. Teoriya i praktika» (IMMOD-2009) [Materials of the 4 All-Russian scientific-practical conference on imitational modeling and its use in science and industry "Imitational modeling. Theory and practice"]. St. Petersburg, JSC Centre of Shipbuilding and Shiprepairing Technologies Publ., 2009, vol. 2, pp. 266-270. (In Russian).
9. Arzamastsev A.A., Ulybin A.V. Imitatsionnoe modelirovanie razvitiya infektsii s ispol'zovaniem agentnogo podkhoda [Simulation modeling of dynamics of the infection by means of the agent based approach]. Vestnik Tambovskogo universiteta. Seriya Estestvennye i tekhnicheskie nauki — Tambov University Reports. Series: Natural and Technical Sciences, 2010, vol. 15, no. 2, pp. 614-619. (In Russian).
10. Ulybin A.V., Arzamastsev A.A., Teplyakov D.V. Svidetel'stvo o gosudarstvennoy registratsii programmy dlya EVM№ 2010611510 RF «Model' razvitiya infektsii na osnove agentnogo podkhoda» [State registration certificate of program for EVM № 2010611510 RF "Model of infection development basing on agent approach"]. Registered in register of programs for EVM 19 February 2010. (In Russian).
Received 24 September 2016
Arzamastsev Aleksander Anatolevich, Tambov State University named after G.R. Derzhavin, Tambov, Russian Federation, Doctor of Technics, Professor, Head of Mathematical Modeling and Information Technologies Department, e-mail: [email protected]
Zenkova Natalya Aleksandrovna, Tambov State University named after G.R. Derzhavin, Tambov, Russian Federation, Candidate of Psychology, Associate Professor of Mathematical Modeling and Information Technologies Department, e-mail: [email protected]
Ulybin Andrey Vladimirovich, Tambov State University named after G.R. Derzhavin, Tambov, Russian Federation, Mathematical Modeling and Information Technologies Department, e-mail: [email protected]
2357
УДК 004.853
DOI: 10.20310/1810-0198-2016-21 -6-23 58-2365
ПОДХОДЫ К НЕЧЕТКОМУ ПОИСКУ НЕЖЕЛАТЕЛЬНОГО КОНТЕНТА
НА ВЕБ-СТРАНИЦЕ
© Е.С. Чиркин, Д.В. Лопатин
Тамбовский государственный университет им. Г.Р. Державина 392000, Российская Федерация, г. Тамбов, ул. Интернациональная, 33 E-mail: +[email protected]
Рассмотрен ряд алгоритмов нечеткого поиска нежелательной текстовой информации на веб-странице с естественным осмысленным текстом («мешок слов», метод и-грамм, trie, фонетический поиск, хеширование текста и метод шинглов, рекуррентные нейронных сетей, представление слов в виде векторов). Показано, что при нечетком поиске фрагментов нежелательного контента посредством алгоритма дедупликации можно применять метод шинглов с рядом модификаций.
Ключевые слова: нечеткий поиск; метод шинглов; контент; веб-страница
ВВЕДЕНИЕ
В настоящее время актуальной проблемой является поиск негативной информации на реальной веб-странице (контент, url-адреса и ряд других структурных единиц). По статистическим данным проекта httparchive.org [1], средний размер текстового контента на странице составляет 58 кбайт. Однако словарь эвфемизмов, субкультурного сленга, сокращений, ошибок в написании и другой нежелательной информации может принимать значительные размеры.
Цель работы: проанализировать существующие и предложить новые подходы к нечеткому поиску специфичного контента на веб-странице.
НЕЧЕТКИЙ ПОИСК
Существует множество разнообразных алгоритмов для нечеткого поиска нежелательной информации на веб-странице, среди них выделяется ряд особенно эффективных в применении к естественным и осмысленным текстам, созданных человеком. Рассмотрим некоторые подходы к поиску контента на веб-странице.
Анализ «множества слов» («bag of words», «мешок слов») - сравнение фраз ведется без учета порядка слов в них. Достоинства: высокая скорость работы, хорошие результаты на естественных текстах. Недостатки: возможны ложноположительные срабатывания, если искомая фраза имеет самостоятельное значение, но в тексте для поиска в окно поиска попали фрагменты соседних независимых слов (фраз), образующих, таким образом, новое, искомое значение. Иногда данная особенность алгоритма используется или игнорируется намеренно.
Метод и-грамм - поиск осуществляется через сравнение слов фрагментами по и символов, для чего удобно использовать суффиксное дерево. Для увеличения быстродействия до максимального теоретического предела алгоритм может быть модифицирован в ко-
нечный автомат. Обычно используется и = 3, увеличение значения ведет к увеличению количества ложноот-рицательных ошибок, но увеличивает скорость поиска. Метод может быть доработан для работы с фразами. Достоинства: относительно высокая скорость работы, низкое потребление памяти. Недостатки: увеличение количества ошибок при поиске коротких слов, а также при малых и.
Метод и-грамм, модифицированный для поиска в «мешке слов». Достоинства: приемлемая скорость работы, высокое качество работы при множественных естественных ошибках в тексте: слияние-разделение слов, перестановка соседних символов, замена и удаление символов. Недостатки: низкое качество работы при поиске коротких (фрагментов) текстов в коротких текстах.
Адаптированная к нечеткому поиску алгоритмическая структура trie [2]. Достоинства: высокая скорость поиска, путь прохода по дереву можно использовать в качестве расстояния. Недостатки: все виды искажений искомого текста закладываются на этапе построения дерева, что влечет за собой экспоненциальный рост потребляемой памяти при увеличении расстояния ошибки.
Фонетический поиск - для сравнения слова текста и словаря предварительно преобразовываются в форму, напоминающую их звучание или ее эквивалентную запись. Достоинства: хорошие результаты при поиске в ограниченном словаре вводимых пользователем слов, особенно с ручной доработкой словаря. Недостатки: по историческим причинам слова современного русского языка в настоящее время затруднительно сколько-нибудь адекватно автоматизировано представить их фонетической или аналогичной ей записью. Алгоритмы фонетического поиска особенно восприимчивы к ошибкам в начале слов, к перестановкам, пропускам и добавлениям букв, к ошибкам типа слияние-разделение слов [3-6].
2358