Научная статья на тему 'ПОИСК ФЕЙКОВЫХ САЙТОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ОПРЕДЕЛЕНИЯ ВИЗУАЛЬНОГО СХОДСТВА СТРАНИЦ'

ПОИСК ФЕЙКОВЫХ САЙТОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ОПРЕДЕЛЕНИЯ ВИЗУАЛЬНОГО СХОДСТВА СТРАНИЦ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
99
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СРАВНЕНИЕ САЙТОВ / ФЕЙКОВЫЙ САЙТ / СРАВНЕНИЕ ИЗОБРАЖЕНИЙ / ПЕРЦЕПТИВНЫЙ ХЭШ / КЛАССИФИКАЦИЯ WEB-СТРАНИЦ / SELENIUM WEBDRIVER / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Привалов Александр Николаевич, Смирнов Вадим Анатольевич

В статье показана актуальность выявления фейковых сайтов организации, созданных при помощи известных онлайн-конструкторов сайтов (wix.com, Google.Сайты и др.). Особенностью таких поддельных сайтов является то, что они визуально сходны с оригинальным сайтом, но при этом имеются существенные различия во фрагментах html-кода, задающих тот или иной элемент, доменных имен поддельного и подлинного сайта. В качестве метода поиска подобных фейковых сайтов предлагается визуальное сравнение скриншотов страниц сайтов. При этом более качественные результаты достигаются при предварительной обработке страницы, которая состоит в удалении рекламных блоков, изображений, относящихся в большей степени к конкретной статье на сайте, а не макету web-страницы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Привалов Александр Николаевич, Смирнов Вадим Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SEARCH FOR FAKE SITES USING THE METHOD OF DETERMINING THE VISUAL SIMILARITY OF PAGES

The article shows the relevance of identifying fake websites of organizations created with the help of well-known online site designers (wix.com, Google.Sites, etc.). The peculiarity of such fake sites is that they are visually similar to the original site, but there are significant differences in the fragments of html code specifying this or that element, the domain names of the fake and genuine site. As a method of searching for such fake sites, a visual comparison of screenshots of site pages is proposed. At the same time, better results are achieved by pre-processing the page, which consists in removing ad blocks, images related more to a specific article on the site, rather than the layout of the web page.

Текст научной работы на тему «ПОИСК ФЕЙКОВЫХ САЙТОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ОПРЕДЕЛЕНИЯ ВИЗУАЛЬНОГО СХОДСТВА СТРАНИЦ»

The article discusses the main indicators and criteria for the stability of the functioning of radio-electronic means in the conditions of high-power electromagnetic radiation, presents a model for determining the elements of radio communications most susceptible to exposure, characterized in that it allows for the interaction ofparts, methods of installation and installation of technical means based on the deductive method.

Key words: high-power electromagnetic radiation, ultra-wideband effects, radio-electronic means, antenna-feeder devices, radio communication means.

Sokolov Sergey Sergeevich, doctor of technical sciences, Vice-Rector for Educational Activities, sokolo Vv_S_S@yandex.ru, Russia, Saint-Petersburg, Admiral S.O. Makarov State University of the Sea and River Fleet,

Ivanov Denis Alexandrovich, candidate of technical sciences, teacher, prosto _deniss@mail.ru, Russia, Chelyabinsk, Branch of the Military Training and Scientific Center of the Air Force «Air Force Academy named after Professor N.E. Zhukovsky and YuA. Gagarin»,

Fedulov Yuri Vladimirovich, applicant, _ feDul44@mail.ru, Russia, Saint-Petersburg, RUBIN Research Institute «Rubin»,

Zabnin Alexander Konstantinovich, applicant, Z_o@mail.ru, Russia, Saint-Petersburg, RUBIN Research Institute «Rubin»

УДК 004.056.53

DOI: 10.24412/2071-6168-2022-9-260-265

ПОИСК ФЕЙКОВЫХ САЙТОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДА ОПРЕДЕЛЕНИЯ ВИЗУАЛЬНОГО СХОДСТВА СТРАНИЦ

А.Н. Привалов, В.А. Смирнов

В статье показана актуальность выявления фейковых сайтов организации, созданных при помощи известных онлайн-конструкторов сайтов (wix.com, Google. Сайты и др.). Особенностью таких поддельных сайтов является то, что они визуально сходны с оригинальным сайтом, но при этом имеются существенные различия во фрагментах html-кода, задающих тот или иной элемент, доменных имен поддельного и подлинного сайта. В качестве метода поиска подобных фейковых сайтов предлагается визуальное сравнение скриншотов страниц сайтов. При этом более качественные результаты достигаются при предварительной обработке страницы, которая состоит в удалении рекламных блоков, изображений, относящихся в большей степени к конкретной статье на сайте, а не макету web-страницы.

Ключевые слова: сравнение сайтов, фейковый сайт, сравнение изображений, перцептивный хэш, классификация web-страниц, Selenium WebDriver, информационная безопасность

Введение. Базовой концепцией развития современной промышленности является усложнение технологий и связанное с этим широкое внедрение цифровых технологий повышения качества выпускаемой продукции [1, 2]. Переход к новым цифровым технологиям управления связан с использованием в качестве регуляторов новых устройств, обладающих, по сравнению с аналоговыми регуляторами, новыми свойствами [3, 4, 5], связанных с последовательной интерпретацией операторов алгоритма управления, разворачивающихся в реальном физическом времени. Благодаря этому цифровой регулятор, помимо алгоритмической реализации закона управления, вносит временные задержки в процесс управления, что, в свою очередь, влияет на качественные характеристики системы управления в целом. Каждый алгоритм управления обрабатывает случайные данные, формирующиеся на выходах датчиков, и включает решающие операторы в точках ветвления, поэтому при его интерпретации генерируются случайные интервалы времени между транзакциями, как при вводе/выводе данных (перекос данных), так и при вычислении управляющего воздействия (чистый отставание) [5, 6, 7]. В то же время промышленность, военная и другая техника при переходе на новые технологии управления должны обеспечивать требуемое качество продукции вне зависимости от случайных факторов времени [8, 9, 10]. В связи с этим возникает научная проблема создания моделей цифровых систем управления, учитывающих реальные физические характеристики цифровых регуляторов, которые могут быть использованы в качестве базовой модели при синтезе регуляторов.

Методы моделирования цифровой системы управления хорошо известны [11, 12, 13, 14], но приемлемы для использования в рутинной инженерной практике методы, позволяющие не только оценивать задержки управляющей программы произвольной сложности, но и использовать эти параметры при синтезе регулятора, не получили широкого распространения, что подтверждает необходимость и актуальность исследований в этой области.

Материалы и методы. Существующие методы верификации подлинности Интернет-ресурсов основаны на определении сходства доменных имен, содержимого сайтов и других признаков (в том числе, представленных в интеллектуальной карте анализа web-страницы [4], в качестве входных данных для нейронечеткой модели [5]). Эти методы эффективны для проверки сайтов, созданных при помощи копирования Мт1-кода оригинального сайта и/или размещенных по адресу, доменное имя для которого зарегистрировано автором сайта.

В фейковых сайтах на конструкторах доменное имя заимствовано от хостинга, а элементы web-страницы созданы в визуальном редакторе. Методом поиска подобных ресурсов, имитирующих заданный сайт организации, должен стать метод визуального сравнения скриншотов страниц сайтов. Одной из известных работ в данной области является исследование Нага М., Yamada А., Miyake Y. [6], где указано, что сходство изображений web-страниц сайтов может быть небольшим. В частности, у различных страниц интернет-магазинов может быть сходен только макет сайта, а описание товара и реклама сходных товаров будут различными (см. рис. 1).

НПО ПППП ИНН

□QQO

различные товары

Рис. 1. Страницы интернет-магазина с различными товарами (сайт technoforce.store)

Если рассмотреть более подробно процесс создания скриншота web-страницы и сравнения полученных изображений, то при этом можно выделить ряд особенностей, вследствие которых результаты сравнения могут быть разными.

Первым методом (далее - метод A) создания скриншота web-страницы является создание скриншота экрана компьютера с браузером, в котором данная страница открыта. В большинстве случаев при этом скриншот содержит изображение только части сайта. Данный метод не будет применяться нами, поскольку для оценки степени визуальной схожести подлинного и поддельного сайтов организаций важна не только верхняя часть сайта (так называемая «шапка», header), но и нижняя (то есть «подвал», footer).

Вторым методом (далее - метод B) получения скриншота web-страницы является создание изображения всей web-страницы (полный скриншот). В современные браузеры встроены инструменты, позволяющие эмулировать устройство с любым разрешением для получения скриншота заданного размера (см. рис. 2).

Таким образом, получение полного скриншота web-страницы возможно при подборе размеров в режиме «Адаптивный дизайн», либо написанием скрипта, который будет автоматизировано пролистывать веб-страницу и создавать скриншот при каждой прокрутке. В дальнейшем эти скриншоты необходимо соединить. Этот метод позволяет сравнить все видимые элементы web-страницы, включая рекламу и изображения в основной части страницы сайта, которые снижают степень сходства.

При наличии общепринятого набора тегов для разметки макета сайта, можно было бы получить скриншот страницы, склеенный только из элементов интерфейса. Например, в языке разметки HTML5 различные элементы макета сайта принято выделять отдельными специализированными тегами (<header>, <footer>, <main> и т.д.). В то же время эта версия языка используется не всеми сайтами, вследствие чего ориентация программы именно на содержимое данных тегов не является универсальным путем сравнения сайтов.

О ö httpE:;,technoforce.store

я [ SM|| i"i UMK; 1 ' Ьез ограничения' ф

Популярные категории

ТВ, Видео и Аудио

Компьютерная техника

Смартфоны и гаджеты

Смявт-Во«лети. Смют-чвсм. Эигтвигу» ШР'Н

гагд

Рис. 2. Режим «Адаптивный дизайн» в браузере Mozilla Firefox

Thakur и др. [7] предлагают метод сравнения, при котором со страницы анализируемого web-сайта извлекается логотип. После этого полученное изображение проверяется с помощью поисковой системы Google на предмет использования в качестве логотипов других сайтов. Стоит отметить, что не любая организация имеет собственный логотип. Кроме того, корректным является применение чужого логотипа в ситуации франчайзинга, возникновении филиалов организации и создания их сайтов.

В данной работе мы предлагаем использовать новый метод (далее - метод C) создания скриншота web-страницы. В процессе тестирования метода были использованы две выборки, содержащие 105 различных элементов. Элементом первой выборки являлись URL-адреса двух различных страниц сайтов организаций, которые сравнивались между собой. Первая выборка содержала 77 элементов. Элементом второй выборки являлись URL-адреса двух различных сайтов - поддельного сайта, взятый с сервиса PhishTank [8], и официального сайта, который он имитировал. Вторая выборка содержала 28 элементов. Скриншоты элементов, выполненных по каждому методу, сравнивались между собой.

Результаты. Для того, чтобы показать наличие атак с использованием онлайн-конструкторов сайтов, был проанализирован список интернет-ресурсов, внесенных в реестр PhishTank летом 2022 года. Среди них было определено количество сайтов, размещенных на платформах Google.Сайты и wix.com. Результаты этого анализа представлены на рис. 3 и подтверждают наличие данной проблемы.

Рис. 3. Количество фишинговых сайтов, созданных в конструкторах(по месяцам)

Актуальность разработок в сфере противодействия фейковой активности показывает и анализ вхождения слов «фишинг» и «phishing» в ключевые слова статей, размещенных в системе РИНЦ (см. рис. 4). Увеличение количества статей с данными ключевыми словами показывает рост интереса к данному явлению со стороны научной общественности.

Предложенный метод C, как и метод B, предполагает создание полного изображения web-страницы. В отличие от общеизвестных методов, при использовании этого метода обязательным является выполнение следующих условий:

1) В момент создания скриншота в веб-браузере должно быть установлено расширение для блокировки рекламы (uBlock Origin [11] или подобное);

2) Перед созданием скриншота необходимо выполнить на странице JavaScript-код, удаляющий все изображения, чей размер превышает 400x400. Ограничение размера призвано сохранить такие важные элементы интерфейса, как, например, логотип сайта.

262

С целью увеличения скорости и точности сравнения изображений в настоящее время активно используется метод, связанный с построением перцептивного хеша изображения [12]. Одним из шагов алгоритма хеширования при этом выступает уменьшение изображения до небольшого квадрата (например, 32x32 пикселя). Это обосновывается необходимостью отделить структуру изображения от элементов «зашумления».

150

oot^O'HfNm^LniDr-vooc^O'H оооооооооооооо

фишинг phishing

Рис. 4. Количество упоминаний ключевых слов в статьях (по годам)

В нашем случае это позволит сделать акцент в схожести именно макетов страниц сайтов, а не текста на них. В то же время подобное уменьшение масштаба способно негативно отразиться на результате, поскольку исходные размеры различных страниц даже одного и того же сайта могут различаться (см. рис. 5).

ч

К

Рис. 5. Скриншоты различных страниц сайта университета (sspu.ru) и результат их масштабирования

На рис. 5 показано, что у страницы слева верхняя и нижняя части сайта заняли на итоговом изображении 2 пикселя. В то же время на скриншоте справа эти же элементы масштабируются в 1 пиксель. Вследствие этого сходство итоговых изображений будет ниже.

В связи с этим размеры сравниваемых скриншотов должны быть одинаковы. Достигается это следующим алгоритмом:

Шаг 1. Открываем страницу A в браузере. Сохраняем ее полные ширину (Awídth) и высоту

(Aheight).

Шаг 2. Открываем страницу B в браузере. Сохраняем ее полные ширину (Bwidth) и высоту

(Bheight).

Шаг 3. Открываем страницу A в браузере. При помощи адаптивного дизайна настраиваем для скриншота размеры: ширину - max(Awidth,Bwidth) и высоту - max(Aheight,Bheight). Делаем скриншот. Шаг 4. Аналогично делаем скриншот страницы B. При тестировании методов были использованы: язык программирования Java и среда программирования Eclipse;

Selenium - для автоматизации действий браузера и браузер Firefox [9];

Selenium Shutterbug - библиотека для создания скриншотов веб-страниц в браузере [10];

Сравнение изображений производилось на основе алгоритма Difference Hash [13], который был реализован следующим образом:

Шаг 1. Создано изображение S размерами 17x16 путем масштабирования входного изображения I.

Шаг 2. Создано изображение Y путем преобразования изображения S в черно-белый формат с оттенками серого.

Шаг 3. Получена хэш-строка h, где каждый символ определяется по формуле: (0, если Yu <Yi+1J (0<i < 15,

= (l, если YU >Yi+1J, при условиях Ь <j < 15.

Таким образом, каждый бит хэш-строки устанавливается равным 1 тогда, когда левый пиксель ярче правого пикселя, и 0 в противном случае.

Итоговые хэш-строки изображений сравнивались между собой с использованием расстояния Хэмминга.

В результате тестирования методов:

для 64% элементов выборки, содержащих ссылки на различные страницы одного и того же сайта сходство оказалось выше для скриншотов, сделанных по методу C, чем в случае создания скриншотов по методу B;

для 71% элементов выборки, содержащих ссылки на подлинный и поддельный сайт сходство оказалось выше для скриншотов, сделанных по методу C, чем в случае создания скриншотов по методу

B.

Заключение. Предложенный метод создания скриншотов позволил увеличить степень сходства web-страниц, определяемую программой путем отделения элементов макета сайта от остальных графических элементов на странице. В связи с этим использование предложенного метода способно повысить точность поиска фейковых сайтов при указании порога принятия решения о подлинности сайта на основе степени сходства web-страниц.

В дальнейшем предполагается применение данного метода при разработке программного средства для анализа фейковой активности. Использование программного анализатора позволит повысить эффективность выявления угроз (в том числе, угрозы распространения ложной и вредоносной информации) со стороны фейковой активности в глобальной сети Интернет.

Список литературы

1. Новая крупномасштабная фишинговая кампания использует Microsoft Azure и Google Sites для кражи криптовалют. [Электронный ресурс] URL: https://www.securitylab.ru/news/533217.php (дата обращения: 23.09.2022).

2. Некрасов Г.А., Романова И.И. Разработка поискового робота для обнаружения веб-контента с фейковыми новостями // Инновационные, информационные и коммуникационные технологии. 2017. № 1. С. 128-130.

3. Рассадина А.А. Фейковые новости и информационные фильтры как инструменты формирования общественного мнения в современном медиапространстве // Трансформация медиасреды в XXI веке: Материалы международной научно-практической конференции, Москва, 24 апреля 2019 года / Ответственный редактор Д.В. Неренц. М.: Российский государственный гуманитарный университет, 2019.

C. 401-411.

4. Афанасьева Н.С., Елизаров Д.А., Мызникова Т.А. Классификация фишинговых атак и меры противодействия им // Инженерный вестник Дона. 2022. № 5(89). С. 169-182.

5. Катасева Д.В., Баринов А.И. Нейронечеткая модель определения фишинговых сайтов // Вестник Технологического университета. 2022. Т. 25. № 1. С. 69-72.

6. Hara M., Yamada A., Miyake Y. Visual similarity-based phishing detection without victim site information // Proceedings of the IEEE Symposium on Computational Intelligence in Cyber Security, 2009. P. 3036. DOI: 10.1109/CICYBS.2009.4925087.

7. Thakur H., Supreet K., Logo Image Based Approach for Phishing Detection, An International Journal of Engineering Sciences, 2016. P. 129-139.

8. PhishTank. Join the fight against phishing. [Электронный ресурс] URL: https://phishtank.org (дата обращения: 13.09.2022).

9. Савин И.А., Батенькина О.В. Проблемы автоматизированного тестирования кроссплатфор-менных веб-приложений // Творчество молодых: дизайн, реклама, информационные технологии : Сборник трудов XV Международной научно-практической конференции студентов и аспирантов / Научный редактор Л. М. Дмитриева. Омск: Омский государственный технический университет, 2016. С. 143-147.

10. Glib Briia. Страница проекта Selenium Shutterbug на GitHub [Электронный ресурс] URL: https://github .com/assertthat/selenium-shutterbug (дата обращения: 13.09.2022).

11. Raymond H. Расширение для блокировки рекламы uBlock Origin в браузере Firefox. [Электронный ресурс] URL: https://addons.mozilla.org/en-Us/firefox/addon/ublock-origin (дата обращения: 05.09.2022).

12. Рудаков И.В., Васютович И.М. Исследование перцептивных хеш-функций изображений // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. 2015. № 8. С. 269-280. DOI 10.7463/0815.0800596.

13. Fei M., Ju Zh., Zhen X., Li J. Real-time visual tracking based on improved perceptual hashing. Multimedia Tools and Applications. Vol 76. Issue 3. P. 4617-4634. DOI: 10.1007/s11042-016-3723-5.

Привалов Александр Николаевич, д-р техн. наук, профессор, privalov. 61 @mail. ru, Россия, Тула, Тульский государственный педагогический университет им. Л.Н. Толстого,

Смирнов Вадим Анатольевич, аспирант, v.a.d.i.m@bk.ru, Россия, Шуя, Ивановский государственный университет (Шуйский филиал)

SEARCH FOR FAKE SITES USING THE METHOD OF DETERMINING THE VISUAL SIMILARITY OF PAGES

A.N. Privalov, V.A. Smirnov

The article shows the relevance of identifying fake websites of organizations created with the help of well-known online site designers (wix.com, Google.Sites, etc.). The peculiarity of such fake sites is that they are visually similar to the original site, but there are significant differences in the fragments of html code specifying this or that element, the domain names of the fake and genuine site. As a method of searching for such fake sites, a visual comparison of screenshots of site pages is proposed. At the same time, better results are achieved by pre-processing the page, which consists in removing ad blocks, images related more to a specific article on the site, rather than the layout of the web page.

Key words: site comparison, fake site, image comparison, perceptual hash, classification of web pages, Selenium WebDriver, information security

Privalov Aleksandr Nikolaevich, doctor of technical sciences, professor, privalov. 61@mail. ru, Russia, Tula, Tula State Pedagogical University. L.N. Tolstoy,

Smirnov Vadim Anatolyevich, postgraduate, v.a.d.i.m@bk.ru, Russia, Shuya, Ivanovo State University (Shuya Branch)

УДК 004.5

DOI: 10.24412/2071-6168-2022-9-265-268

ГЛУБОКОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ В УПРАВЛЕНИИ МАНИПУЛЯЦИОННЫМИ РОБОТАМИ

М.Ю. Серебряков, С.В. Колесова, А.А. Зинченко

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Проблемы применения машинного обучения в области управления роботизированными манипуляциями являются одними из наиболее важных для современной робототехники. Сейчас наиболее перспективным видом обучения является глубокое обучение с подкреплением, которое совмещает в себе глубокое обучение, в основе которого лежат искусственные нейронные сети, и обучение с подкреплением, ищущее оптимальную модель поведения путем взаимодействия с окружающей средой.

Ключевые слова: глубокое обучение, машинное обучение, обучение с подкреплением, глубокое обучение с подкреплением, управление роботизированными манипуляциями, эффективность выборки, обобщение.

Введение. Изначально роботы были разработаны для помощи людям или замены их в случаях выполнения повторяющихся и/или опасных задач, которые люди обычно предпочитают не выполнять или они в принципе не в состоянии это сделать из-за определенных физических ограничений, накладываемых экстремальными условиями. К ним относится, например, ограниченная доступность узких, длинных труб, проложенных под землей, анатомического расположения частей человеческого тела при определенных малоинвазивных хирургических процедурах, объектов на дне океана. Благодаря постоянному развитию механики, сенсорных технологий [1], интеллектуального управления и других современных технологий роботы приобрели автономность, возможности которой значительно улучшились, а также

265

i Надоели баннеры? Вы всегда можете отключить рекламу.