МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ВЫЧИСЛИТЕЛЬНЫХ МАШИН, КОМПЛЕКСОВ И КОМПЬЮТЕРНЫХ СЕТЕЙ
УДК 004.75
ДЕЦЕНТРАЛИЗОВАННОЕ ФОРМИРОВАНИЕ РАСПРЕДЕЛЕННЫХ РЕЕСТРОВ РАЗМЕЧЕННОГО ИНТЕРНЕТ-КОНТЕНТА
Э.В. Мельник, А.Б. Клименко, А.А. Родина
Предлагается новый подход к децентрализованному формированию выборок размеченных данных с использованием технологий распределенного реестра. Представлена архитектура системы и проведен анализ возможностей размещения ее элементов в пределах сетевой инфраструктуры с акцентом на современные технологии распределенных вычислений.
Ключевые слова: распределенный реестр, сквозные технологии, распределенные вычисления, туманные вычисления, краевые вычисления, обучающая выборка.
Введение
Интенсивное развитие сети Интернет и, в частности, социальных сетей, привели к актуальности вопроса о мониторинге публикуемого контента. Это является важной областью исследований, поскольку социальные сети стали как идеальным инструментом злоумышленников, так и средой, позволяющей распространять полезную информацию, а также проводить мониторинг состояния реальных объектов, связанных, к примеру, с экологической безопасностью населения. И в первом, и во втором случае современные средства мониторинга интернет-контента используют обучающие выборки, создание которых является отдельной комплексной и дорогостоящей задачей по причине необходимости привлечения специалистов для проведения классификации контента, а также по причине использования централизованных баз данных для хранения размеченной информации.
В настоящее время объемы циркулирующей в сети Интернет информации продолжают интенсивно расти. Это, с одной стороны, актуализирует задачу обеспечения безопасности индивида в информационном
282
пространстве, с другой стороны, позволяет решать задачи распространения полезной и важной информации, например, при информировании населения об опасных тенденциях, выявленных в окружающей среде.
Одним из наглядных примеров обеспечения безопасности пользователей является необходимость пресечения разного рода злоумышленных действий в информационных пространствах (cyberbulling, identity theft) [1,2]. Такие задачи решаются комплексом методов, включая методы психологической диагностики, методы идентификации потенциально опасного контента, организацию обратной связи с пользователями и др. Методы идентификации потенциально опасного контента также реализуемы широким кругом методов и средств, в том числе, с применением нейросетевого анализа [3], онтологического анализа[4], анализа ключевых слов и тематик контента[5] и др. Следует отметить, что большинство методов анализа контента опираются в решении на методы кластерного анализа и классификации объектов [6,7], что приводит к необходимости обеспечения таких систем размеченными базами данных образцов контента [8,9]. Создание последних является ресурсоемкой задачей, к тому же, базы данных в классическом понимании не обеспечивают должного уровня интеграции различных наборов размеченных данных. При этом при создании размеченных баз данных для последующего использования в задачах идентификации потенциально опасного контента возникают следующие проблемы:
- необходимость минимизации ошибок разметки баз данных (labeling errors)[10,11];
- распространение размеченных данных по всем базам данных с целью ускорения их пополнения (что в перспективе уменьшает ресурсозатраты).
Распространение полезной и важной информации о потенциально опасных явлениях в социальных сетях, а также мониторинг социальных сетей на предмет публикаций, позволяющих идентифицировать происходящие в мире опасные явления, также является комплексной задачей, в которой необходимо решить такие вопросы, как:
- отсеивание информации, неадекватной действительности или внедренной злоумышленно;
- создание размеченных баз данных образцов контента, по которым можно в дальнейшем производить классификацию публикуемого контента, и либо относить его к потенциально опасным явлениям, либо к неопасным.
Проводя сравнение между проблемами создания размеченных баз данных и задачи мониторинга и идентификации опасных явлений (рис.1) можно сделать вывод о том, что между задачами может быть проведена аналогия, что, в свою очередь, делает возможным их решение идентичными методами.
Создание размеченных БД для идентификации потенциально опасного интернет-контента
Ошибки разметки
Ускорение наполнения баз данных путем распространения новых размеченных данных
Задачи мониторинга информационного пространства, идентификация опасных явлений
Отсеивание ложной информации
Наполнение баз данных размеченными данными, распространение новых размеченных данных
Рис. 1. Структура проблем создания размеченных баз данных и мониторинга и идентификации опасных явлений
В данной статье предложена архитектура системы, решающей следующие задачи:
- формирование размеченных баз данных интернет-контента и их интеграция;
- идентификация контента, содержащего сведения о потенциально опасных явлениях.
1. Определения и принципы функционирования системы
Сформулируем основные определения и принципы разрабатываемой системы.
Идентифицируемым контентом (ИК) будем называть контент сети Интернет (текст, изображения, видео), который должен быть идентифицирован некоторым лицом, принимающим решение (ЛПР) и сохранен в базе размеченных данных.
В случае, если ИК должен быть сохранен в БД для использования в обучении, к примеру, нейросетевых систем мониторинга интернет-пространства, задачей ЛПР является присвоение ИК имени класса из множества заранее определенных. Если речь идет об идентификации контента как признака опасного явления, тогда, аналогично, ИК должен быть отнесен к одному из заранее определенных классов опасных явлений, либо признан ложным. Во всех случаях здесь актуальна минимизация ошибок разметки, так называемых labeling errors. Помимо этого, для мониторинга распространения информации об опасных явлениях весьма актуальной является еще и классификация контента по признаку адекватности действительности. Например, на рис. 2,3 приведены примеры контента, первый из которых (рис.2) действительно является признаком опасного явления, второй (рис.3) вряд ли имеет связь с действительностью.
284
Рис. 3. Новости портала о найденной русалке
Стандартным решением проблемы идентификации контента является привлечение экспертов, выступающих в роли ЛПР, осуществляющих соотнесение контента с тем или иным классом. Однако, такой подход имеет недостатки:
- ошибки разметки (labeling error) связанные с субъективностью восприятия информации;
- дополнительные затраты ресурсов.
Введем определение следующего компонента системы: сообщество - это распределенное географически множество лиц в информационном пространстве, заинтересованных в проведении идентификации интернет-контента. Например, сообществами могут быть родители учеников школ, заинтересованные в идентификации контента, потенциально опасного для детей, либо граждане, заинтересованные в состоянии экологии города и т.д.
При этом предполагается следующее: сообществу отправляется для оценки произвольный элемент контента, и каждый член сообщества производит оценку, причисляя контент к заранее определенному классу. Например, рис. 2 и 3 могут быть классифицированы как «опасно» и «неопасно», или как «опасно» и «ложь».
Поскольку сообщество является системой децентрализованной, для того, чтобы поместить идентифицированный контент в базу данных, необходимо достижение консенсуса по оцененному контенту. Здесь сделаем допущение о том, что сообщество функционирует на основе модели асин-
хроннои сети с ограниченном задержкой, что делает консенсус достижимым [12-15]. Верной будем считать идентификацию, принятую большинством голосующих.
После того, как принято совместное решение по поводу идентификации контента, размеченные данные сохраняются в БД.
2. Технологии распределенного реестра для хранения размеченных данных
Архитектура, использующая СУБД, имеет недостатки: для разрозненных сервисов, в рамках которых осуществляется разметка контента, существуют не интегрированные базы данных, что приводит, во-первых, к нерациональному использованию ресурсов за счет многократного дублирования данных, во-вторых, изменения в оной БД не приводят к изменениям в БД другого сервиса.
Технология распределенного реестра - это технология хранения информации, ключевыми особенностями которой является совместное использование и синхронизация цифровых данных согласно алгоритму консенсуса, географическое распределение равнозначных копий в разных точках по всему миру, отсутствие центрального администратора [16].
Организация хранения размеченного контента в виде распределенного реестра (distributed ledger) позволяет избавиться от перечисленных недостатков, поскольку каждый сервис осуществления разметки или мониторинга интернет-пространства получает в распоряжение полную копию реестра. При этом обновления, являющиеся результатом работы сообщества в рамках сервиса А, будут отражены и для сервиса Б и для сервиса В (рис.4).
Рис. 4. Хранение размеченных данных на основе распределенного
реестра
Таким образом, во-первых, повышается эффективность работы сообществ по наполнению баз данных размеченным контентом, во-вторых, обеспечивается надежность и отказоустойчивость баз данных, в-третьих, может быть исключено массовое дублирование данных.
286
3. Архитектура системы децентрализованного формирования распределенных реестров размеченного интернет-контента
Как уже было сказано выше, в основе системы лежит распределенный реестр (рис. 5).
Рис. 5. Архитектура системы децентрализованного формирования распределенных реестров размеченного интернет-контента
Рассмотрим компоненты системы, приведенной на рис. 5, более подробно.
Подсистема поиска ИК - осуществляет поиск контента для последующей идентификации и его рассылку сообществам. Работа системы разбита на итерации, и каждая итерация включает следующие действия:
- рассылка ИК сообществам;
- идентификация контента;
- помещение размеченных данных в реестр.
В каждой итерации происходит процедура идентификации одного элемента ИК в рамках одного сообщества.
После того, как каждый член сообщества произвел оценку полученного контента, производится процедура голосования с целью достижения консенсуса по принятому решению. На схеме архитектуры это производится подсистемой достижения консенсуса.
Подсистема формирования блока данных осуществляет сбор размеченного контента и производит объединение его в блоки. Это производится с целью уменьшения нагрузки на сетевую инфраструктуру.
Далее каждый узел, сформировавший блок данных, участвует в голосовании на предмет, какой из сформированных блоков будет положен в реестр следующим. Здесь также необходимо применение алгоритмов распределенного консенсуса, и в данном случае, когда количество узлов предполагается относительно небольшим, целесообразно использование алгоритма Practical Byzantine Fault Tolerance (PBFT) [17]. Данный алгоритм отличается высоким быстродействием и энергоэффективностью относительно консенсуса Накамото [18], при этом, однако, рассчитан на ограниченное число участников. Предполагая, что число сервисов по формированию реестров размеченных данных ограничено, примем допущение и о том, что в заданных условиях PBFT будет достаточным и, к тому же, обеспечивает стойкость по отношению до k/3 узлов с византийским поведением.
4. Схема размещения системы децентрализованного формирования распределенных реестров размеченного интернет-контента в сети
В настоящее время широкий круг систем работает на основе облачных сервисов (cloud computing), таких, например, как Azure, GCE, AWS. Помимо этого, начиная с 2012г. развиваются концепции туманных вычислений (fog computing) и краевых вычислений (edge computing), ключевую идею которых составляет такое размещение вычислительной нагрузки, чтобы нагрузка на сетевые структуры была минимальной.
Опираясь на эти концепции организации распределенных вычислений, рассмотрим основные схемы размещения компонентов системы децентрализованного формирования распределенных реестров размеченного интернет-контента в сети. Способы размещения зависят от географического расположения членов сообществ:
- в пределах ЛВС;
- в пределах домена туманных вычислений;
- распределены произвольно.
В первом случае, поскольку члены сообществ находятся на краю сети и между ними обеспечены высокоскоростные каналы связи, вопрос консенсуса внутри сообщества целесообразно решать путем применения концепции краевых вычислений (edge computing). Консенсус относительно порядка сохранения сформированных блоков данных целесообразно решать в пределах облачного слоя, поскольку алгоритм PBFT подразумевает интенсивный информационный обмен между участниками системы.
Во втором случае, когда члены одного сообщества находятся в пределах одного «туманного» домена (но не принадлежат одной ЛВС), процедуру выработки консенсуса по содержимому ИК имеет смысл разместить в туманном слое. При этом компонент системы будет иметь централизованный характер, размещаясь на одном узле, и принятие решения осуществляется простым перебором полученных оценок ИК. На рис. 7 показано схематичное размещение компонентов.
Рис. 6. Размещение компонентов системы в условиях сформированных
в пределах ЛВС сообществ
Рис. 7. Размещение компонентов системы в случае, когда сообщество пользователей находятся в пределах одного «туманного» домена
289
В случае же, когда сообщество пользователей формируется абсолютно произвольно, и различные члены сообщества могут находиться в любой точке земного шара, наиболее рациональными решениями могут быть следующие: данные от каждого члена сообщества отправляются в «облачный» слой, и там происходит выработка консенсуса по оцениваемым данным, либо происходит формирование кластеров членов сообществ и их прикрепление к узлам туманного слоя. На рис. 8 показан вариант размещения компонентов системы с отправкой данных в облако. Следует отметить, что копии реестра могут храниться как на узлах облачного слоя, так и на узлах туманного слоя.
Подсистема поиска ИК
Облако
Рис. 8. Размещение компонентов системы в случае, когда сообщество пользователей географически распределено
Заключение
В данной статье предложена архитектура системы децентрализованного формирования распределенных реестров размеченного интернет-контента. Актуальность создания таких реестров проистекает из разнообразия задач мониторинга и анализа интернет-контента. Социальные сети играют двоякую роль, представляя собой, с одной стороны, среду с повышенными угрозами кибербезопасности, с другой стороны, среду, позволя-
290
ющую производить мониторинг и прогноз реальных объектов, в том числе, окружающей среды. В обоих случаях наличие реестров размеченных данных позволяет производить мониторинг и анализ состояния социальных сетей, но создание таких реестров является процедурой ресурсоемкой.
Децентрализованное формирование реестров размеченных данных, предполагая делегирование полномочий по идентификации интернет-контента заинтересованным сообществам пользователей, направлено на уменьшение количества ошибок разметки (что реализуется путем применения алгоритмов достижения консенсуса), а также на удешевление процедуры идентификации контента. Также использование распределенного реестра размеченных данных вместо классических централизованных баз данных ускоряет наполнение размеченным контентом и уменьшает степень дублирования данных.
Учитывая разнообразие современных технологий организации распределенных вычислений, размещение компонентов системы также важно и во многом зависит от размещения членов сообществ относительно друг друга.
Исследование выполнено при поддержке проектов РФФИ 18-2922086, 18-05-80092.
Список литературы
1. What Is Cyberbullying // Вебсайт Stopbullying.gov [Электронный ресурс]. URL: https://www.stopbullying.gov/cyberbullying/what-is-it/index.html (дата обращения: 30.01.2019).
2. What personal information might criminals take? // Identity Theft [Электронный ресурс]. URL: https://www.identitytheft.org.uk/ (дата обращения: 01.02.2019).
3. Проект нейросетевого продукта «Soroka» // Вебсайт Neurohive [Электронный ресурс]. URL: https://hackathon2018.neurohive.io/projects/ uznay-khorosho-ili-plokho-govoryat-o-tebe-ili-tvoey-firme-v-internete-nasha-soroka-s-iskusstvennym-i/ (дата обращения: 01.02.2019).
4. Zagorulko Yu., Borovikova O., Bulgakov S., Sidorova E. Ontology-based approach to development of adjustable knowledge internet portal for support of research activity // Bull. of NCC. Ser.: Comput. Sci. 2005. Is. 23. P.45 -56.
5. Vaismoradi M, Turunen H, Bondas T. Content analysis and thematic analysis: Implications for conducting a qualitative descriptive study. Nurs Health Sci. 2013. P. 398 - 405.
6. Т. В. Батура. Методы анализа компьютерных социальных сетей // Вестник НГУ. Серия: Информационные технологии, 2012. Т. 10. Вып. 4. С. 13 - 28.
7. K-Nearest Neighbors Classification Method // Вебсайт Frontline Systems, Inc. [Электронный ресурс] URL: https://www.solver.com/k-nearest-neighbors-classification-method (дата обращения: 06.02.2019).
8. Зарубин О.А. Применение нейронных сетей для целей анализа данных дистанционного зондирования Земли // Современные научные исследования и инновации. 2016. № 8 [Электронный ресурс]. URL: http://web.snauka.ru/issues/2016/08/70887 (дата обращения: 07.02.2019).
9. Беликова К. Обучение нейросети с учителем, без учителя, с подкреплением — в чем отличие? Какой алгоритм лучше? // Вебсайт Neuro-hive [Электронный ресурс]. URL: https://neurohive.io/ru/osnovy-data-science/obuchenie-s-uchitelem-bez-uchitelja-s-podkrepleniem/ (дата обращения: 07.02.2019).
10. Bekker Al.J. and Goldberger J. Training deep neural-networks based on unreliable labels // Bar-Ilan University [Электронный ресурс]. URL: http://www.eng.biu.ac.il/goldbej/files/2012/05/icassp 2016 Alan.pdf (дата обращения: 07.02.2019).
11. Graves Al., Fern andez S., Gomez F., Schmidhuber J.. Connectionist Temporal Classification: Labelling UnsegmentedSequence Data with Recurrent Neural Networks // [Электронный ресурс]. URL: http://citeseerx.ist.psu.edu/ viewdoc/download?doi=10.1.1.75.6306&rep=rep1&type=pdf (дата обращения: 07.02.2019).
12. Bracha G., Toueg S. Asynchronous consensus and broadcast protocols. J.ACM, 32, 1985, P. 824 - 840.
13. Fisher M. J., Lynch N. A., Paterson M. S. Impossibility of distributed consensus with one faulty process. J.ACM, 32, 1985. P. 374 - 382.
14. Dolev D., Dwork C., Sockmeyer L. On the minimal synchronism needed for distributed consensus.J.ACM,34, 1987. P. 77 - 97.
15. Dwork C., Lynch N. A., Sockmeyer L. Consensus in the presence of partial synchrony. J.ACM, 35, N 2, 1988. P. 288 - 323.
16. Клейн Д. Технология распределенного реестра DLT за рамками блокчейна // Вебсайт CryptoFox [Электронный ресурс]. URL: https://crypto-fox.ru/faq/ distributed-ledger-technology/ (дата обращения: 08.02.2019).
17. Castro M., Liskov B. Practical Byzantine Fault Tolerance // The Proceedings of the Third Symposium on Operating Systems Design and Implementation, New Orleans, USA, February 1999 [Электронный ресурс]. URL: http://pmg.csail.mit.edu/papers/osdi99.pdf (дата обращения: 08.02.2019).
18. «Алгоритмы консенсуса»: Подтверждение доли и доказательство работы // Вебсайт Habr [Электронный ресурс]. URL: https://habr. com/ru/company/bitfury/blog/327468/ (дата обращения: 08.02.2019).
Мельник Эдуард Всеволодович, д-р техн. наук, главный научный сотрудник, [email protected], Россия, Ростов-на-Дону, Южный научный центр Российской академии наук,
Клименко Анна Борисовна, канд. техн. наук, старший научный сотрудник, anna_klimenko@,mail.ru, Россия, Таганрог, Научно-исследовательский институт многопроцессорных вычислительных систем им. акад. А. В. КаляеваЮФУ,
Родина Арина Алексеевна, инженер - исследователь, ar.rodina@,mail.ru, Россия, Ростов-на-Дону, Южный научный центр Российской академии наук
TRAINING SETS DISTRIBUTED LEDGER DECENTRALIZED FORMING E.V. Melnik, A.B. Klimenko, A.A. Rodina
The current paper presents a new approach to the decentralized training sets formation on a basis of distributed ledger technologies. The system architecture is developed and presented, and the analysis of its components distribution through the network is conducted, with emphasize on the contemporary distributed computing technologies.
Key words: distributed ledger, cross-cutting technologies, distributed computing, fog - computing, edge - computing, training set.
Melnik Eduard Vsevolodovich, doctor of technical sciences, leader research fellow, evml [email protected], Russia, Rostov-on-Don, Southern Scientific Center of the Russian Academy of Sciences,
Klimenko Anna Borisovna, candidate of technical sciences, senior research fellow, anna_klimenko@,mail. ru, Russia, Taganrog, Scientific Research Institute of multiprocessor computing systems,
Rodina Arina Alekseyevna, research engineer, ar. rodina@,mail. ru, Russia, Rostov-on-Don, Southern Scientific Center of the Russian Academy of Sciences