Этап 2. Далее администратор принимает решение о том, стоит ли соглашаться с данной нагрузкой или нет. В данном случае нагрузка удовлетворяет заданные условия.
Второй метод содержит в себе определение объема передаваемого трафика для всей сети и анализ с коррекцией полученных результатов для объема передаваемого служебного трафика.
Соблюдение заданных условий помогаетуложиться в допустимый предельный диапазон, обеспечивая требуемую информативность наблюдаемых процессов.
9. Выводы
В данной работе представлено решение для задач по обеспечению уменьшения нагрузки служебным трафиком общих каналов передачи данных. Задача основана на трех методах уменьшения нагрузки.
Научная новизна состоит в том что получил дальнейшее развитие метод уменьшения нагрузки служебным трафиком общих каналов передачи данных в компьютерной сети.
Практическая значимост ь состоит в снижении расходов на эксплуатацию сети и повышении ее производительности за счет увеличения пользовательского трафика.
Сравнение с лучшими аналогами. Данная работа предлагает задачу уменьшения нагрузки компьютерной сети. Описанный метод основан на [2-4], но в отличие от ранее предлагаемых методов не требует сокращения пользовательского трафика, что приводит к недовольству со стороны пользователей. Целью метода являлось увеличение пользовательского трафика за счет сокращения служебного трафика и шумов, в отличие от [1, 5]. Предложенный метод является более информативным и требует меньше финансовых затрат по сравнению с [6] и [7].
УДК658.512.011:681.326:519.713
ИНФРАСТРУКТУРА АНАЛИЗА И ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ КИБЕРПРОСТРАНСТВА
ХАХАНОВ В.И., ЧУМАЧЕНКО С.В.,
ЛИТВИНОВА Е.И., МИЩЕНКО А.С.,
АДАМОВ А.С.________________________________
Предлагается модель и метрика кибернетического пространства, где субъектами выступают взаимодействующие процессы или явления с физическим носителем в виде компьютерных систем и сетей. Разрабатывается оценка меры бинарного отношения двух объектов в киберпространстве для распознавания любого типа взаимодействия объектов при решении практических задач информационной безопасности. Предлагается модель быстродействующего гетерогенного мультиматричного процессора, предназначенного для быстрого поиска информационных объектов в киберпространстве. Описываются инфраструктуры сервисного обслуживания программ-
Направления дальнейших исследований. Дальнейшая работа будет направлена на разработку метода формирования схем запросов для систем мониторинга компьютерной сети.
Литература: 1. http://technet.microsoft.com/en-us/ library/cc181833.as px. 2. KcClay, Crovella,M., Friedman, T., Shannon, C., Spring, N. Community-oriented network measurement infrastructure (CONMI) workshop report. SIGCOMM Comput. Commun. Rev. 36(2) (2006) 41-48. 3. Cranor, C., Johnson, T., Spataschek, O., Shkapenyuk, V. Gigascope: A stream database for network applications. In: Proceedings of ACM Sigmod, New York, Ny, USA, ACM Press (June 2003). Р. 647-651. 4. Stankovic J., Lu C., Son S., Tao G. The case for feedback control real-time scheduling. In: Proceedings of the 11th Euromicro Conference on Real-Time Systems. (June 1999). Р. 11-20. 5. Keys K., Moore D., Estan C. A robust system for accurate real-time summaries of internet tra?c. In: Proceedings of ACM Sigmetrics, New York, NY, USA, ACM Press (2005). Р. 85-96. 6. Estan C., Keys K, Moore D., Varghese G. Building a better NetFlow. In: Proceedings of ACM Sigcomm, New Y ork, NY, U SA, ACM Press (August 2004). Р. 245-256. 7. Barlet-Ros P., Amores-Ltopez D., Iannaccone G., Sanju ‘s-Cuxart J. and Solte-Pareta J. On-line Predictive Load Shedding for Network Monitoring. In Proc. Of IFIP-TC6 Networking, Atlanta, USA, May 2007. Р. 124-136.
Поступила в редколлегию 06.04.2011
Рецензент: д-р техн. наук, проф. Самойленко Н.И.
Саенко Владимир Иванович, канд. техн. наук, доцент, профессор кафедры ИУС ХНУРЭ. Научные интересы: менеджмент компьютерных сетей. Увлечения и хобби: садоводство, видеосъемка. Адрес: Украина, 61166, Харьков, пр. Ленина 14, тел. 7021-415.
Коленцева Татьяна Александровна, аспирантка кафедры ИУС ХНУРЭ. Научные интересы: менеджмент компьютерных сетей. Увлечения и хобби: web-дизайн. Адрес: Украина, 61166, Харьков, пр. Ленина 14, тел. 7021-415.
ного продукта для защиты от вредоносных программ и верификации проектов цифровых систем. Предлагается структурная модель распознавания деструктивных образов на основе отношений входного образа, эталонов и критериев сходства.
1. Введение
Киберпространство (cyberspace) - метафорическая -абстракция, используемая в философии и в компьютерах, - является виртуальной реальностью, которая представляет Ноосферу или Второй мир «внутри» компьютеров и сетей. Это определение взято из Википедии и согласуется с многочисленными публикациями, авторами которых в абсолютном большинстве являются философы. Возможно, уже настало время взглянуть на определение и сущность киберпространства с позиции технологической и математической культуры. Основная аксиома, заложенная в определении, виртуальность пространства.
Виртуальность (virtus - потенциальный, возможный) - вымышленный, воображаемый объект или явление,
40
РИ, 2011, № 2
не присутствующее в реальном мире, а созданное игрой воображения человеческой мысли, либо смоделированное при помощи других объектов. Реальные компьютеры создают «нереальное пространство», а точнее, Второй мир, который вполне может стать первым. Не хватает малого - целенаправленного самосовершенствования компьютерного сообщества, способного на равных с человеком участвовать в создании и формировании киберпространства. В нем информация - реальность и сущность пространства, компьютер - ее носитель или форма.
Киберпространство - совокупность взаимодействующих по метрике информационных процессов и явлений, использующих в качестве носителя компьютерные системы и сети.
Метрика - способ измерения расстояния в пространстве между компонентами процессов или явлений. Расстояние в киберпространстве это - кодовое расстояние по Хэммингу между парой векторов, обозначающих компоненты процесса или явления. Расстояние, производная (булева), степень изменения, различия или близости есть изоморфные понятия, связанные с определением отношения двух компонентов процесса или явления. Понятие близости (расстояния) компонентов в киберпространстве есть мера их различия. Производная - мера бинарного отношения динамических или статических компонентов в процессах или явлениях. Процедуры сравнения, измерения, оценивания, распознавания, тестирования, диагностирования, идентифицирования имеют место при наличии хотя бы одного отношения.
Рыночная привлекательность киберпространства. Тенденция последних лет в части создания новых коммуникационных, вычислительных и информационных сервисов, полезных для человека, обращает внимание на создание все более специализированных гаджетов (gadget), имеющих существенные преимущества перед персональными компьютерами и ноутбуками: энергопотребление, компактность, вес, стоимость, функциональные возможности, дружественность интерфейса. Практически вся десятка лучших за 2010 год специализированных изделий (Apple iPad, Samsung Galaxy S, Apple MacBook Air, Logitech Revue, Google Nexus One (HTC Desire), Apple iPhone 4, Apple TV, Toshiba Libretto W100, Microsoft Kinect, Nook Color) реализована в виде цифровых систем на кристаллах. К 2012 году рынок мобильной и беспроводной связи перейдет на 20 нм (итоги январского Саммита 2011 альянса Common Platform). Дальнейшее развитие технологий по годам: 2014 - 14 нм, 2016 - 11 нм. В 2015 году 55% сотовых телефонов станут смартфонами, планшетные компьютеры заменят ноутбуки и нетбуки. Суперфоны (Nexus-1, Google) станут той соединительной тканью, которая свяжет все остальные устройства и сервисы. Переход от вычислительных платформ к мобильным устройствам с малым форм-фактором приведет к существенному снижению энергопотребления во всем мире. Надвигается следующая волна компьютеризации под названием
РИ, 2011, № 2
«интернет вещей», которая приведет к широкому распространению датчиковых сетей, включая их интеграцию в человеческое тело. Мировой рынок перечисленных выше устройств и гаджетов насчитывает сегодня порядка 3 миллиардов изделий.
С учетом изложенного выше можно сделать следующие выводы в отношении эволюционирования киберпространства: 1) Персональный компьютер, уходя с рынка, трансформируется в широкий спектр гаджетов доступа в киберпространство, обладающих функциональностью персональных компьютеров, компактностью и низкой стоимостью. 2) Как интерфейс связи между человеком и киберпространством гаджет в меньшей степени нуждается в защите. 3) Киберпространство имеет иерархию от индивидуального дружественного пространства пользователя до глобального, где фигурируют «облака», данные и сети по интересам. 4) Для повышения информационной безопасности предметного (целевого) киберпространства возможно делать его блуждающим, что затруднит определение его точного адреса. 5) Нарождается новая структура в виде киберпространства как части общей экосистемы планеты, для которой необходимо создавать инфраструктуру информационной безопасности как средство сервисного обслуживания. 6) Стремительно развивается мощный сегмент рынка планшетных компьютеров, которые не имеют входов и выходов, кроме Internet. Такая ситуация подталкивает пользователя к созданию индивидуального киберпространства, независимого от типа гаджета, которое должно быть надежно защищено. 7) Сегодня еще высокая стоимость программных приложений на компьютере экономически оправдывает применение антивирусных защит. Но завтра, для дешевых устройств типа, IPad и IPhon, с низкой мощностью программных приложений антивирусная защита станет экономически нецелесообразной. Одновременно возникает новый субъект для защиты - индивидуальное киберпространство (данные и приложения), которое получает сервисы от технологических «облаков» и сетей по интересам. 8) Одним из возможных решений для охраны пространства может быть его вакцинация в виде введения некоторой избыточности, которая дает возможность осуществлять мониторинг и экстренную связь с облаком антивирусных сервисов в целях удаления функциональных нарушений. 9) Вакцинация данных и программ на персональном компьютере также может быть интересным решением. Она позволяет более оперативно осуществлять мониторинг данных, используя информацию от внедренных в папки и программы агентов в виде ассерцион-ных операторов.
Один из возможных шагов в данном направлении представлен ниже в виде структуры публикации как технологии тестирования и диагностирования вредоносных компонентов (ВК - malware) Tv: Mt - метрика и модель процессов тестирования, Hc - полезная функциональность (программа), G t - граф транзакций программных блоков, {M , M } две модели тес-
41
тирования программы (таблица вредоносов и матрица активизации программных блоков), {D , D , D } -три метода (анализ строк, столбцов таблицы и матрицы в целом) диагностирования ВК, использующих механизм ассерций (ассерция - логическое высказывание, определяющее функциональные ошибки программного кода), Pm - создание архитектуры мультиматричного процессора для параллельного и быстрого анализа табличных данных, R - имплементация моделей методов и средств в систему - инфраструктуру информационной безопасности киберпространства (И-ИБК):
Tv = M1 ^Hc ^GL ^
t
f і Dc Mf
Ms ^ Dm
|Dr pm ^R.
Сущность исследования - существенное уменьшение времени диагностирования ВК и повышение качества сервисов киберпространства благодаря разработке ассерционно-ориентированной инфраструктуры, моделей и методов тестирования и диагностирования программных продуктов и данных. Информация, необходимая для поиска блоков с ВК, определяется в процессе моделирования (эмуляции) программного кода. Эффективность предметного киберпространства (программного изделия) определяется нормированным в интервале [0,1] интегральным критерием:
E = F(L,T,H) = min[3(L + T + H)],
Y = (1 - P)n;
L = 1 - Y(1-k) = 1 - (1 - P)n(1-k);
T = [(1-k) X Hs] /(Hs + Ha); H = Ha /(Hs + Ha).
Здесь представлены: уровень заражения вредоносными компонентами L, время тестирования T, программно-аппаратная избыточность, определяемая механизмами ассерций и средствами сервисного обслуживания H. Параметр L, как дополнение к параметру Y, характеризующему выход годной продукции, зависит от тестопригодности проекта k, вероятности Р существования ВК и числа необнаруженных вредоносов n. Время тестирования определяется тестопригодностью проекта k, умноженной на структурную сложность аппаратно-программной функциональности, отнесенной к общей сложности продукта в строках кода. Программно-аппаратная избыточность находится в функциональной зависимости от сложности ас-серционного кода и других избыточностей, отнесенных к общей сложности продукта. При этом программная или аппаратная, избыточность должна обеспечивать заданную глубину диагностирования деструктивов функциональности за время выхода изделия на рынок, определенное заказчиком.
Цель исследования - существенное повышение качества сервисов, доставляемых со стороны программ-
ных, аппаратных изделий, сетевых структур киберпространств а и уменьшение стоимости эксплуатационных расходов за счет создания инфраструктур сервисного обслуживания и безопасности, обеспечивающих дружественную эксплуатацию, тестирование и устранение нефункциональных деструктивных компонентов.
Задачи: 1) Разработка модели кибернетического пространства. 2) Математический аппарат и двигатель для анализа и сервисного обслуживания киберпространства. 3) Процесс-модели и критерии взаимодействия вредоносных компонентов с программными кодами полезных функциональностей. 4) Инфраструктура киберпространства и реализация ее компонентов.
Источники: 1. Актуальные проблемы анализа киберпространства [1-3]. 2. Метрика киберпространства [4, 5]. 3. Аппаратура и матричные процессоры для поиска информации [6-13, 14-17, 18-28]. 4. Распознавание деструктивных образов при защите киберпространства [4,5,28].
2. Киберпространство или интеллектуальная компьютерная экосистема
Инфраструктура кибернетического пространства, метрика его измерения и процесс-модели анализа и синтеза субъектов дают возможность создавать эффективные решения компьютерных средств и технологий, ориентированных на быстрый поиск, распознавание, диагностирование не только позитивных, но и негативных субъектов. Конкретно, предложенная инфраструктура может решать задачи: 1) Описание многообразия деструктивных компонентов кибернетического пространства. 2) Формализация процессов взаимодействия триады компонентов < программа, деструктивности, тесты>. 3) Диагностирование и устранение деструктивных компонентов. 4) Создание и эффективное использование базы деструктивных данных. 5) Создание быстродействующих интеллектуальных саморазвивающихся средств сервисного обслуживания и защиты кибернетического пространства.
Сегодня чрезвычайно важно обозначить возможные пути для решения проблемы создания саморазвивающейся компьютерной экосистемы. Эволюция ИКЭС основывается на использовании трех наиболее важных компонентов: фантазия, математика и технология, где субъектом экосистемы выступает саморазвивающийся компьютер (СРК). При этом дефицит в мире фантазеров или фантастов, связанный с шаблонами обучения и постепенным закрепощением будущего инженера по мере получения им образовательных услуг в школе и университете, существенно тормозит эволюцию СРК. Основное отличие СРК от современного компьютера заключается в концепции жизненного цикла. Стратегия настоящего компьютера есть обучение или повторение уже пройденного пути. Принципиальная позиция СРК - постоянный поиск новых путей для самосовершенствования (эволюционирования) на основе мирового опыта, скрытого в инфор-
42
РИ, 2011, № 2
мационном пространстве. Согласно запрету Геделя, адаптированному для информационного пространства, нельзя создать компьютер, который способен решать любые задачи, формально представленные спецификацией. Тем не менее, принцип Геделя предоставляет методологическую основу эволюции (саморазвития) ИКЭС, которую можно интерпретировать следующим образом. Для информационного пространства всегда можно придумать такую полезную спецификацию, которая не покрывается существующими у человечества решениями, что обусловливает создание нового функционального или технологического компонента для его последующего включения в планетарную библиотеку. ИКЭС имеет возможность повторить эволюцию человечества, только в тысячи раз более быстрыми темпами. На рис. 1 представлен замкнутый цикл эволюции ИКЭС, который фактически изоморфен спирали развития человечества, накрученной на временную ось.
Рис.1. Цикл ИКЭС
Здесь заложены основные принципы эволюции, явно выраженные уже в современной компьютерной индустрии: 1) Стандартизация - самое главное для эволюции и жизненного цикла СРК - рынок не принимает и не понимает нестандартных по интерфейсу решений.
2) Специализация есть повышение эффективности предоставляемых (персонально ориентированных) сервисов изделия, связанных с быстродействием, качеством, затратами, энергосбережением путем оптимизации структуры и функциональных компонентов, покрывающих спецификацию. 3) Повсеместное использование векторно-логического критерия качества решения в задачах генерирования идей, синтеза и анализа. Г енерирование - процесс создания новой функциональности. При этом синтез оперирует существующими в информационном пространстве компонентами для создания структуры. Анализ - оценивание полученного решения. 4) Диаграмма Хассе используется для выработки стратегии оптимизации покрытия функциональностей спецификации библиотечными компонентами или их сочетаниями, принадлежащими информационному пространству. Она со-
гласуется с современной Y-технологией, входящей в состав ESL Design, суть которой - использовать библиотечные компоненты на всех уровнях проектирования изделия для покрытия специфицируемой функциональности в процессе синтеза.
Человек окружен природой, состоящей из многих полезных для него субъектов: флора, фауна, которые эволюционируют по своим законам. Никто не пытается сделать, например, из лошади или дельфина человека. Но в части развития компьютеров мы горим желанием сделать его мыслящим, наделить органами чувств - сотворить его подобным, в конце концов, человеку. Нужно ли это человеку? Вопрос - спорный. Не лучше ли будет взять на вооружение другой тезис - компьютер, как реальная часть природы, имеет право занимать в ней собственную нишу для самостоятельного эволюционирования и самосовершенствования. Насколько он будет подобен человеку в будущем? Трудно судить. Но он есть и будет более совершенным в одних задачах, менее - в других, также как и природные субъекты по отдельным параметрам превосходят человека. Не обижается же он на рыб, которые могут нырять и обходиться без воздуха, или на птиц, наделенных возможностью летать. Но, заимствуя у субъектов природы отдельные функциональности, человек создает изделия, расширяющие его возможности. Поэтому не следует сталкивать лбами человека и компьютер, которые и в будущем будут жить в мире и согласии, как субъекты природы, использующие друг друга для решения общественно полезных задач. Не следует также пытаться копировать живой мозг человека, по сути, в неживом кремниевом кристалле. Копия всегда будет хуже оригинала! Но инкапсулировать функциональности мозга в кристалл - значит расширить мощность сервисов, полезных для решения практических задач в информационном пространстве. Идея самостоятельного развития компьютера по собственному пути немного подрезает крылья у фантазии - сделать его неотличимым от человека. Но при этом она окрыляет практических исследователей и IT-индустрию. Становится возможным уже в ближайшее десятилетие сотворить саморазвивающуюся информационно-компьютерную экосистему! Кроме того, от взаимодействия Software и Hardware, освященного оригинальной идеей, действительно появляются полезные функциональности: специализированные изделия, мобильные телефоны, RFID, планшеты, серверы, сети, формирующие в совокупности информационное пространство планеты. Рынок, как и природа, осуществляет селекцию или естественный отбор практически ориентированных разработок, среди которых нет места слабым субъектам или проектам, а выживают сильнейшие представители в своем экологическом слое.
Относительно интеллекта. Википедия дает краткое и достаточно полное определение: «Интеллект - способность системы создавать в ходе самообучения программы для решения задач». Это относится к естественному и искусственному интеллекту. Как
РИ, 2011, № 2
43
следствие можно предположить, что есть нечто выше интеллекта, поскольку в приведенном определении нет места для креативной эволюции субъекта. Здесь есть чистое повторение пройденного кем-то пути с использованием обучения или самообучения. Получается, человек - только повторитель? Где же место в интеллекте для создателей новой культуры, математической и технологической, машин, строений? Определение также противоречит принципу Геделя и не оставляет места для человека как творца. Все отдается Богу, который создал этот мир, а человеку оставил только функциональность познавать его. Но ведь вселенная не стоит на месте - она развивается, можно предположить, что саморазвивается. То же самое относится и к человеку. В определении интеллекта заложен процесс познания мира. Но Творец не создавал компьютер, машины, здания, мосты. Кто же это сделал? Человек, наделенный интеллектом, что не есть только обучение для познания мира. Маленькая корректировка может существенно поправить понятие интеллекта, если в нем появятся два вида деятельности: повторение (познание) и созидание. Идея оригинальности может быть представлена как булева производная от функции-спецификации f по всем переменным-компонентам, которые должны покрыть спецификацию:
E = -^ = 1 ^ f(x1,X2,...,xi,...,xn) © f(x1,X2,...,xi,...,xn) = 1 dx;
Если существует компонент xj, которого нет в библиотеке решений, то производная укажет на него, что означает - необходимо создание новой, еще не известной функциональности. Формально уравнение булевой производной определяет существенность компонента xi для реализации спецификации при его наличии или отсутствии. Естественно, если критерий качества покрытия спецификации или идеи существующим опытом человечества равен нулю, то данный факт следует понимать как повторение уже пройденного кем-то пути, если при этом не создается новая структура, которая может быть представлена одной из переменных. В противном случае фиксируется создание нового компонента или структуры, которые включаются в библиотеку новых и полезных для человека функциональностей.
Интеллект - способность субъекта природы к познанию и созиданию для формулирования и решения проблем, связанных с повышением качества жизненного цикла при ограниченных ресурсах времени и средств. Здесь можно не упоминать примитивизмы: самообучение и самосовершенствование, которые направлены только на себя любимого.
На рис. 2 представлены графики развития двух составляющих интеллекта во времени, по годам обучения в университете. Наиболее креативными являются студенты третьего курса, когда их творческий потенциал уже подкреплен полученной технологической и математической культурой, которые способны мате-
риализовать еще не покинувшие его фантастические идеи. Что касается циклов активности человека, то можно предположить наличие синус-косинусоидаль-ной (познание-созидание) зависимости, возрастающей по логарифмическому закону от возраста:
f (t) = sinT + cos T + log2 T .
Созида ние^ч
Познан ие
Курс: 1 2 3 4 5
Рис. 2. Составляющие интеллекта в развитии
Какчеловек берет лучшие функциональностиу субъектов природы для расширения своих возможностей, так и компьютер имеет целью совершенствовать себя (окружающий мир), заимствуя или подсматривая у природы интересные решения: кремний - для выполнения элементарных логических функций; математику - для формализации и решения проблем; естественные языки - для создания спецификации и интерфейса проекта; функциональность человеческого мозга, формально выделенную в векторно-логический анализ - для организации структур данных, поиска, распознавания и принятия решений.
Интересно уже сейчас ответить на вопрос, каким будет кибернетическое пространство, компьютер и сервисы через 10 лет, или представить новые перспективные направления развития компьютера и Internet как единой информационно-компьютерной экосистемы, ориентированной на повышение качества жизни путем ее непрерывного использования для поиска, распознавания и принятия решений. При этом продукция от Intel и Microsoft рассматривается как всем доступный инструмент, применяемый для построения стандартизованных и специализированных под каждого пользователя мозгоподобных и дружественных для каждого человека планеты персональных серверов. Сколько людей - столько и компьютеров, индивидуально настроенных на каждого конкретного человека. Рыночная привлекательность - все население и все компьютеры планеты. Опасности - выход из-под контроля человека саморазвивающейся информационно-компьютерной экосистемы планеты.
Что можно сделать? 1) Убрать из компьютера тяжеловесную арифметику для повышения быстродействия мозгоподобных (ассоциативно-логических) задач на несколько порядков. 2) Создать стандартизованные структуры данных - иерархия таблиц - для ИКЭС. 3) Разработать параллельный логический ассоциативный мультипроцессор без использования арифметических операций. 4) Создать простые, эффективные метрики и критерии оценивания получаемых решений
44
РИ, 2011, № 2
в векторно-логическом информационном пространстве. 5) Разработать процесс-модели, реализующие рыночно привлекательные функциональности, ориентированные на поиск, распознавание и принятие решений в ассоциативном векторно-логическом пространстве. 6) Создать инфраструктуру, ориентированную на автоматическое генерирование процесс-моделей поиска, распознавания и принятия решений в кибернетическом пространстве планеты.
3. Эволюция Cyber Space и Internet
Для создания схемы, реализующей полезную функциональность, следует генерировать примитивы P = {Pi,P2,...,Pi,...,Pn} самого нижнего уровня. Для этого необходимо создавать фильтры F = {Fi,F2,...,Fj,...,Fm} , формирующие таблицы примитивных отношений, взятых из информационного пространства планеты (рис. 3). Имея стандартизованные структуры данных для отдельных порталов и браузеров, доставляющих новые сервисы с более высоким быстродействием, следует ожидать постепенного качественного улучшения всех компонентов Cyber Space. Конечная цель такого взаимного и положительного влияния элементов инфраструктуры кибернетического пространства - выработка единых стандартов по интерфейсам и его превращение в саморазвивающуюся интеллектуальную информационно-компьютерную экосистему. Существенное значение будут иметь первичные фильтры или преобразователи для создания новых стандартизованных примитивов, создающих технологичную инфраструктуру для скоростного драйва по Cyber Space с использованием специализированного неарифметического двигателя (I-Computer). Со временем аморфная или «мусорная» часть Internet будет уменьшаться, а стандартизованная инфраструктура - увеличиваться. К 2020 году информационное пространство планеты должно принять цивилизованные форматы структур данных со стандартизованными интерфейсами, подобно тому, как это происходило с развитием планетарной инфраструктуры транспортных сообщений с терминалами, отелями, заправками, ориентированными на сервисы, удовлетворяющие любые запросы пользователя.
В настоящее время отсутствуют стандарты формирования и хранения структур однотипных данных на сайтах и порталах Internet, хотя в сетях базы данных имеют высокий уровень локальной стандартизации. Аморфность глобальной сети затрудняет понимание информации поисковыми системами для распознавания и принятия правильных решений. Трудно ожидать, что информационное пространство в одночасье перейдет на рельсы принятых всеми форматов и интерфейсов. Единственным выходом может служить эволюционирование структур данных. Для этого необходимо разрабатывать преобразователи (фильтры) форматов данных. Наличие первичных фильтров позволяет автоматизировать времязатратные процессы создания библиотек базовых примитивов. Имея спецификацию (рис. 4), представленную после обработки вербального описания в форме вектора входных и выходных переменных, нетрудно записать стратегию создания новой функциональности как задачу поиска покрытия библиотечными элементами обобщенного вектора <X,Y>. Общее решение задачи похоже на синтез автоматной модели, определяющей взаимодействие компонентов во времени и в пространстве. Однако многообразие примитивов, заранее не заданных, исключает такую возможность, что означает -необходим переход из строгого детерминизма цифровых автоматов в область эволюционных, но детерминированных решений.
4 S V Р ч Л Y
pi Pi
Р2 U Рт 1 г h
Р3 L 4 F
jj"4 ▼ ' Г Г
р5 -> р 1 4-J—
і*6 р7 Wn
-* Yr і Pm
р8
1 t *
Рис. 4. Синтез покрытия спецификации примитивами
Интеллект f формулируется в виде двух функций (g-созидание и h-повторение), где C,R - процессы созидания и повторения; N, L - примитивы (новый и существующие в библиотеках):
I=f(C,R)=C©R 1)C=g(R,N)=R©N 2)R=h(QL)=C®L
1) Г енерирование оригинальной функциональности в форме вектора спецификации новых полезных для человека или компьютера сервисов. 2) Синтез функциональной структуры путем покрытия существенных переменных вектора спецификации минимальным множеством примитивов из доступных библиотек планеты для формирования выходного вектора полезных свойств. Повторение двух упомянутых выше
РИ, 2011, № 2
45
пунктов для создания новой примитивной функциональности, необходимой при решении задачи покрытия. Здесь прослеживаются две спирали развития субъекта киберпространства. Одна идет вверх, по пути создания новых структурных спецификаций. Другая - вниз, по пути создания новых примитивов, обозначающих появление оригинальных технологий.
4. Метрика киберпространства
Пусть имеется n Ф 0 конечное число точек в пространстве, составляющее цикл, где каждая из них задана двоичным вектором, длины k:
А — (A1,A2,...,A1,...,An) — {(ап, a12,...,alj,...,a1k),
(а21, a22v,a2j ,...,a2k)v,v,(aii, ai2 ,...,aij,...,aik),...,
(an1,an2, -,anj, -,ank)},aiJ — {0,1}
Расстояние между двумя точками определяется в
k
виде: di — di(Ai,Ai+i) — ay © ai +у.
j—1
Метрика в кибернетического или векторного логического двоичного пространства определяется нулевой xor-суммой расстояний di между ненулевым и конечным числом точек, замкнутых в цикл:
в — © di — 0. (1)
i—1
Иначе: метрика в киберпространства есть равная нулю xor-сумма расстояний между конечным числом точек, образующих цикл. Сумма k-мерных двоичных векторов, задающих координаты точек циклической фигуры, равна нулю. Данное определение метрики ставит во главу угла не элементы множества, а отношения, что позволяет сократить систему аксиом с трех до одной и распространить ее действие на сколь угодно сложные конструкции n-мерного пространства. Классическое задание метрики для определения взаимодействия одной, двух и трех точек в векторном логическом пространстве, является частным случаем
в -метрики при i —1,2,3 соответственно: fd! — 0 ^ a — b;
M — <! d1 © d2 — 0 ^ d(a, b) — d(b, a);
fd1 © d2 © d3 — 0 ^ d(a, b) © d(b, c) — d(a, c).
Метрика в векторного логического многозначного пространства, где каждая координата определена в алфавите, составляющем булеан
aij — {аЬaIv’arv^am}, есть равная пустому множеству симметрическая разность расстояний между конечным числом точек, образующих цикл:
в — A di — 0 . (2)
i—1
Равенство пустому множеству симметрической разности теоретико-множественного взаимодействия подчеркивает равнозначность компонентов (расстоя-
ний), участвующих в формировании уравнения, где единственная операция, используемая в аналитической, четырехзначной модели, определяется A -таблицей:
A 0 1 x 0 n 0 1 x 0
0 1 x 0 0 x 1 0 x 0 0 1 10 0 x 0 1 x 0 0 1 x 0 0000 0 11 0 0 1 x 0 0000
u 0 1 x 0
0 0 x x 0
1 x 1 x 1
x x x x x
0 0 1 x 0
a 0 1 x 0
a 10 0 x
Здесь также приведены таблицы истинности для других базовых теоретико-множественных координатных операций, далее используемых по тексту. Число примитивных символов, образующих замкнутый относительно теоретико-множественных координатных операций алфавит, может быть увеличено. При этом мощность алфавита (булеана) определяется выражением m — 2Р , где p - число примитивов.
На основе введенной метрики киберпространства можно формировать квазиоптимальное информационное пространство планеты. Оно не привязано к топологии поверхности и в этом смысле является виртуальным. Но в части покрытия поверхности и пространства телекоммуникациями физическая основа Cyber Space должна быть мажорированной в целях обеспечения отказоустойчивости и надежности функционирования каналов связи при возникновении катаклизмов. Информационная структура Cyber Space должна быть иерархической и замкнутой, как глобально, так и локально, на любом уровне иерархии. Элементарная ячейка структуры пространства должна быть треугольной. Это обеспечит существенное уменьшение информационных объемов Cyber Space, в пределе - на треть. Что означает повышение производительности всех приемо-передатчиков и хранилищ контента планеты на 3 3 %? Данное утверждение связано с аксиомой транзитивного замыкания конечного числа (1,2,3,4,.. ,,n) точек в информационном векторно-логическом пространстве:
1) d1 — 0;
2) d1 © d2 — 0;
3) dj © d2 © d3 — 0;
4) d1 © d2 © d3 © d4 — 0;
5) d1 © d2 © ... © di © ... © dn — 0.
Рассматривая все возможные варианты транзитивного замыкания с позиции минимизации условий для восстановления информации, очевидным представляется факт восстановления третьей стороны треугольника по двум известным. В этом случае достаточ-
46
РИ, 2011, № 2
но, например, передать по каналу связи две стороны, чтобы восстановить третью. Сокращение передаваемых объемов в данном случае равно 33%. Во всех других случаях уменьшение объемов информации будет меньшим. Например, для замкнутого четырехугольника необходимо передать три расстояния или стороны, чтобы восстановить четвертую, выигрыш -25%. Таким образом, плоскостная интерпретация Cyber Space будет иметь вид, представленный на рис. 5.
Для того чтобы восстановить всю упомянутую структуру, необходимо иметь (передать) уже не 2/3 объема информации, которая соответствует каждым двум сторонам из трех всех треугольников, представленных зеленым (более светлым) цветом. Для данной структуры достаточно передать стороны, заданные зеленым цветом, что составляет 44% от объема кодов-расстояний. Остальные 56% компонентов треугольников могут быть определены с помощью аксиомы:
d1 © d2 © d3 = 0 ^ d3 = d1 © d2. В общем случае функциональная зависимость отношения восстанавливаемых сторон замкнутого в треугольник пространства к общему числу n слоев треугольной структуры определяется выражением:
£ (i+1)
£(3 х i)
-3(—2—
3 n +1
+1)=
1 2 + n +1 1 n + 3 n + 3
3 n +1 3n +1 3(n +1)
График отношения количества передаваемой информации к ее полному восстанавливаемому объему расстояний в треугольном кибернетическом пространстве представлен на рис. 6. Предельное значение графика стремится к 33 %. Это означает - для больших информационных объемов треугольного пространства достаточно передать третью часть всех кодов-расстояний, чтобы затем восстановить полное пространство кодов.
Треугольная метрика пространства есть самая экономичная, поскольку она создает самые короткие расстояния и пути между объектами, благодаря наличию
транзитивного замыкания. Соседство объекта с шестью точками делает метрику более предпочтительной по сравнению с «Манхэттеном» в части выбора путей для достижения объекта в пространстве. Оптимальная структура мультипроцессорной системы должна быть составлена из треугольников. Здесь оптимальность определяется соотношением длины пути между любыми двумя точками и общим числом сторон, формирующих треугольное пространство. Длина пути здесь всегда будет не хуже, чем в «Манхэттене», но общее число связей больше на одну диагональ в каждом четырехугольнике. Это дает возможность существования прямых контактов для 6 соседей, что существенно для мультипроцессора. «Манхэттен» с диагональными связями обладает той же длиной пути, что и треугольное пространство, но имея при этом на одну связь больше. Здесь задействована вторая диагональ четырехугольника, что обеспечивает соседство с восемью вершинами пространства. Поскольку треугольник - самая примитивная фигура, формирующая плоскость, то вес одной стороны, которую не следует хранить для идентификации пространства, будет максимальным в треугольнике. Далее собранные в систему треугольники дают уже 66% структурных компонентов, которые можно не описывать при формировании пространства, но которые при желании можно восстановить. Все другие примитивные плоскостные фигуры дают меньший выигрыш при формировании ими Cyber Space.
Рис. 6. Функция числа расстояний для восстановления пространства
5. Типы взаимодействия объектов и интегральная оценка
Кодовое расстояние по Хэммингу дает возможность численно оценить меру равенства объектов или абсолютную оценку числа несовпадений в разрядах двух векторов. Недостатками такого измерения являются:
1) Отсутствие относительной оценки взаимодействия объектов - одно несовпадение на ста разрядах или на двух - две большие разницы. 2) Скрытость в скалярной оценке числа координат, по которым произошло несовпадение, представляется деструктивной для анализа результата. 3) Неспособность адекватно и однозначно оценивать все типы взаимодействия двух
РИ, 2011, № 2
47
объектов, представленных на рис. 7. Здесь существует скалярная неразличимость оценивания первого и третьего, второго и четвертого вариантов отношений между m и A.
Рис. 7. Типы взаимодействия двух объектов
У помянутые выше недостатки определяют необходимость создания универсальной неарифметической оценки взаимодействия двух объектов в киберпространстве, которая должна иметь одинаковый с оцениваемыми объектами формат, выраженную структуру взаимодействия переменных и распознавать любые типы теоретико-множественного или векторного взаимодействия объектов. Важно также создать аппаратную поддержку быстрого путешествия по киберпространству в целях поиска информации, распознавания образов и принятия решений [4] на основе векторных неарифметических операций. Оценка бинарного отношения или решения задачи определяется векторно-логическим критерием качества взаимодействия запроса (вектора m) с системой ассоциативных векторов (ассоциаторов), в результате которого генерируется конструктивный ответ в виде одного или нескольких ассоциаторов, а также, пока еще, численной характеристики степени принадлежности (функции качества) входного вектора m к найденному решению: ц(т є A). Входной вектор
m = (ть m2,..., ть..., mq), т{ є {0,1, x} и матрица А^ ассоциаторов (векторов) Aijr(є Ajj є Aj є А) = {0,1, x} имеют одинаковую размерность, равную q . Далее степень принадлежности m-вектора к вектору А будет обозначаться как
p,(m є A).
Существует 5 типов теоретико-множественного (логического) А-взаимодействия двух векторов m Пі A , определенных ранее на рис. 7. Они формируют все примитивные варианты реакции некоторой системы на входной вектор-запрос. В технической диагностике (Design & Test) - указанная последовательность действий изоморфна маршруту: поиск дефектов, их распознавание, принятие решения на восстановление работоспособности. Все три стадии технологического маршрута нуждаются в метрике оценивания решений для выбора оптимального варианта.
Определение. Интегральная теоретико-множественная метрика для оценивания качества запроса есть
функция взаимодействия многозначных векторов mAA, которая определяется средней суммой трех нормированных параметров: кодовое расстояние d(m, A), функция принадлежности p,(m є A) и функция принадлежности p,(A є m):
Q = |[d(m,A) + p,(m є A) + p,(A є m)],
1 k
d(m, A) = — [n - card (mi n Ai = 0)];
n i=1
p,(m є A) = 2c-a;
p,(A є m) = 2c-b;
k
a = card (nAj = x); (4)
k
b = card (y^ = x);
k
c = card (mi n Ai = .);
i=1 ■
Пояснения. Пересечение (объединение) векторов -есть векторная логическая операция, основанная на соответствующих координатных теоретико-множественных операциях. Операции координатного пересечения и объединения определены в алфавите Кантора {0,1, x = {0,1}, 0} . Нормирование параметров позволяет оценить уровень взаимодействия векторов в интервале [0,1]. Если зафиксировано предельное максимальное значение каждого параметра, равное 1, то векторы равны между собой. Минимальная оценка, Q = 0 , фиксируется в случае полного несовпадения векторов по всем n координатам. Следует заметить, если пересечение двух векторов равно пустому множеству, то степень двойки от символа «пусто» равна
2card(mnA)=0 л0 г\ г\ ~
= 2 = 0. Это действительно оз-
начает, что количество общих точек при пересечении двух пространств, формируемых двумя векторами, равно нулю.
Цель введения векторно-логического критерия качества решения заключается в существенном повышении быстродействия при подсчете оценки Q взаимодействия компонентов m и A при анализе ассоциативных структур данных путем использования только векторных логических операций. Арифметический критерий (4) без усреднения функций принадлежности и кодового расстояния можно трансформировать к виду:
Q = d(m,A) + p,(m є A) + p(A є m), k
d(m,A) = card(m; © A; = U);
i=1
p,(m є A) = card(Aj = U) - card(m; л Aj = U);
i=1
k
p(A є m) = card(mj = U) - card(mj л Aj = U);
i=1
U = J1 ^ {mj,Aj} = {0,1};
\x -n {mj,Aj} = {0,1,x}.
(5)
48
РИ, 2011, № 2
Представленные здесь векторные логические операции изоморфны (a,v,®, —) « (п,^, А,~) теоретико-множественным. При этом теоретико-множественные координатные операции, соответствующие данным логическим, были определены ранее на многозначном алфавите Кантора в выражении (5). Первый компонент, составляющий критерий, формирует степень несовпадения n-мерных векторов - кодовое расстояние, путем выполнения операции xor, второй и третий определяют степень непринадлежности результата конъюнкции к числу единиц каждого из двух взаимодействующих векторов. Понятия принадлежности и непринадлежности являются взаимодополняющими, но в данном случае технологичнее вычислять непринадлежность. Следовательно, необходимый критерий качества равен нулю, когда два вектора равны между собой. Оценка качества взаимодействия двух двоичных векторов убывает по мере возрастания критерия от нуля до единицы. Для того чтобы окончательно исключить арифметические операции при подсчете векторного критерия качества, необходимо объединить три оценки в одну:
Q = d(m,A) v |q(m є A) v |д(Аєш) =
= m Ф A v A a m a A_v m a m a A = _
= m Ф A v [A a (m v _A)] v [m a im v A)] =
= m Ф A v [Am v AA v mm v mA] =
= (Am v mA) v [Am v_AA v mm v mA] =
= Am v mA v Am v AA v mm v mA =
= m Ф A.
Процедура вычисления векторного критерия качества зависит от значности алфавита:
В качестве примера далее представлена оценка бинарного взаимодействия четырех пар многозначных векторов:
Ql = mi(1xxxx010) Ф Ai(10xx10xx) = (01000001); Q2 = m2(1xxxx001) Ф A2(10xx1010) = (010000UU); Q3 = m3(1000001() Ф A3(1000001() = (0000000();
Q4 = m4(1111100) Ф A4(0001100]) = (1110000Q.
В первом случае кодовое расстояние теряет свой смысл, поскольку два объекта имеют общее пространство
m1(1xxxx010) п A1(10xx10xx) = (10xx1010) .
Здесь необходимо определить взаимодействие многозначных векторов в виде функций принадлежности с помощью операции симметрической разности. Это означает, что одна метрика работает в различных по алфавиту пространствах для оценивания бинарных отношений векторно-логических объектов. Во втором случае число координат, равное универсальной единице (U), формирует кодовое расстояние бинарного взаимодействия. Равно как и универсальный ноль (0) идентифицирует координатные равенства векторной логической оценки. Третья оценка фиксирует равенство объектов, заданных в двоичном алфавите описания координат. Здесь, говоря языком скалярных отношений, кодовое расстояние равно нулю, а функции принадлежности имеют максимальное единичное значение. Четвертая оценка есть расстояние между двоичными векторами, равное трем координатам.
Q =
|mФ A ^ {mj,Aj} = {0,1}; [mAA ^ {mj, Aj} = {0,1,x}.
(6)
В случае, когда алфавит описания координат имеет три значения, вычисление симметрической разности
осуществляется в соответствии с А - операцией, определенной ранее. Критерий качества логически объединяет кодовое расстояние и функции принадлежности. Алфавит, в свою очередь, разделяет данные оценки на два случая. Если он двоичный, то функции принадлежности равны нулю (существует различие, хотя бы по одной координате) или единице (векторы идентичны). Для многозначного алфавита существование хотя бы одного пустого координатного пересечения также уничтожает функции принадлежности. В противном случае их логическое объединение по or-функции порождает симметрическую разность, которая в двоичном алфавите носит название xor-операции. Таким образом, кодовое расстояние по Хэммингу равно функциям принадлежности и равно метрике векторно-логического пространства:
Q=mФA=
d(mA) =n®A^-{ml,Ai}={0,1};
Критерий качества Q однозначно определяет три формы взаимодействия двух любых объектов в n-мерном векторном логическом пространстве: расстояние и две функции принадлежности, равные расстоянию. Увеличение числа нулей повышает критерий качества, а наличие единиц обусловливает ухудшение качества взаимодействия по соответствующим булевым переменным. Критерий качества Q = mФ A согласуется с метрикой оценивания расстояния или взаимодействия объектов в векторно-логическом пространстве, а также имеет тривиальную вычислительную процедуру для оценивания решений, связанных с анализом и синтезом информационных объектов. В самом деле, векторное логическое пространство не должно иметь метрического расстояния и численных критериев качества, включающих арифметические операции на скалярных величинах. Для сравнения оценок необходимо определять мощность единиц в каждом векторе без выполнения операций суммирования. Это можно сделать с помощью регистра [14], который позволяет за один такт выполнить сдвиг влево и уплотнить все единичные координаты n-разрядно-
p(meA)vp(AEm)=пAA.^{щ,Ai}={al,a2,...pq,...p<k}•го двоичного вектора.
РИ, 2011, № 2
49
Процесс-модель поиска оценки лучшего решения из более чем двух альтернатив представлена на рис.8 и имеет следующие пункты. 1) Первоначально в вектор-результат Q, в котором будет сохранено лучшее решение, заносятся единичные значения во все координаты (худшее решение) и одновременно осуществляется операция slc сдвига влево с уплотнением единиц текущего вектора Qj. 2) Выполняется сравнение двух векторов: Q и очередной оценки Qj из списка решений. 3) Реализуется векторная операция and (Q л Qj), результат которой сравнивается с содержимым вектора Q, что дает возможность изменить его, если вектор Qj имеет меньшее число единичных значений. 4) Процедура поиска оценки лучшего решения повторяется n раз:
Q = Q(v((Q л Qj) © Q)) v Qj (v((Q л QO © Q));
Y = v((Q л Q,) © Q);
Q = QY v Q,Y.
Рис. 8. Процесс-модель выбора решения
Векторные логические критерии качества взаимодействия ассоциативных наборов позволяют получать оценку поиска, распознавания и принятия решения с высоким быстродействием логических параллельных операций на основе специализированного процессора, что особенно существенно для критических систем реального времени.
6. Двигатель для киберпространства
Для скоростного путешествия по киберпространству (поиск объектов и оценка их взаимодействия) нужен простой и быстродействующий мультиматричный процессор (ММП), где каждая команда (and, or, xor, slc) обрабатывает параллельно и предельно быстро только одну бинарную операцию на матрицах (двумерные массивы данных). Количество командно-ориентированных матриц-примитивов создает систему -гетерогенный мультиматричный процессор бинарных операций с буфером M (рис. 9). Мультиматричный модуль процессора включает 4 блока памяти со встроенными на них операциями (A - and, B - xor, C - slc -shift left crowding, D - or) и буферную память M. Модуль ориентирован на параллельное выполнение в данном случае одной из четырех инструкций (ISA -Instruction Set Architecture), оперирующих матрицами двоичных данных одинаковой размерности: M = M {and, or,xor,slc} {A,B,C, D} с занесением результата в буфер M.
ций
Особенность ММП в том, что не ячейка матрицы имеет систему команд из четырех операций, а каждая команда имеет собственную матрицу ячеек в качестве данных для параллельной обработки, что существенно упрощает структуру управления и устройства в целом. Вся сложность ММП перенесена на структуры данных, где память матрицы имеет одну аппаратно-реализованную встроенную команду, что позволяет иметь примитивную систему управления параллельными вычислительными процессами (SIMD - Single Instruction Multiple Data), последовательностную по своей сути, а значит, нет необходимости создавать сверхсложные компиляторы, ориентированные на распараллеливание вычислительных процессов. Здесь каждый матричный процессор выполняет одну операцию, встроенную в запоминающие элементы матрицы. Но возникают ситуации, когда матричный уровень (M-level) задания данных избыточен для выполнения, например операций над булевыми (B-level) или регистровыми (R-level) переменными. Для такого случая необходимо иметь иерархию по уровням представления данных. Стандартные блоки ММП: памяти данных DM и программ PM, управления CU, интерфейс I-face и сервисного обслуживания I-IP, а также мультиматричный модуль процессора, включающий 4 блока памяти со встроенными в них операциями (A - and, B - xor, C - or, D - slc - shift left crowding) и буферную память M.
Практическая значимость мультиматричного процессора:
1. Векторная и матричная оценки степени сходства прообразов или взаимодействия объектов любой природы вычисляются параллельно, путем обработки векторов или матриц, использующих операцию симметрической разности, определяемую за один временной такт благодаря применению мультиматричного процессора.
2. Наглядность матричной оценки в фрагментах изображения, где существуют различия, дает возможность корректировать не только анализируемый объект, но и эталонные примитивы на стадии создания библиотеки образов.
50
РИ, 2011, № 2
3. Матричный двоичный образ является одним из перспективных вариантов применения технологии распознавания, поскольку все объекты в кибернетическом пространстве, по сути, есть цифровые образы, к которым применима универсальная модель векторно-логического процесса распознавания, предложенная выше.
4. Стандартизация моделей образов. Разбиение образа на сегменты позволяет масштабировать изображения любой размерности для их приведения к матрице одной размерности, имеющей одинаковое число координат, которые идентифицируются двоичными или многозначными значениями, составляющими сигнатуру изображения. Это дает возможность стандартизировать модели входных образов, эталонов и критериев под эгидой одинакового формата данных. Имея дв а любых из упомянутых компонентов, можно легко восстановить третий. Например, взаимодействие матриц одной размерности образа, эталона и критерия качества взаимодействия может быть представлено тремя полезными равенствами:
Q = m © A;
m © A © Q = 0
m = A © Q;
A = m © Q
для решения сотен практически полезных задач, включая: принятие решений, распознавание образов, тестирование и диагностику процессов и явлений. Области применения векторно-логической или матричной технологии анализа процессов или явлений: 1) распознавание текстов в регистрационных картах пересечения границы; 2) идентификация личности по фотографиям, близким к стандартным снимкам, для получения визовых документов; 3) поиск аналогов в Интернете по заданным образам; 4) сортировка изображений в базе данных по классам и признакам; 5) дактилоскопия и создание классифицированной библиотеки спецслужб; 6) распознавание и классификация программных вирусов; 7) распознавание почерков и идентификация личности по существенным признакам написания букв; 8) идентификация наземных целей и движущихся объектов (самолеты, корабли, машины); 9) синтез или корректировка образов по характерным существующим признакам; 10) управление робототехническими комплексами; 11) распознавание образов обоняния, вкуса, звуковых, тепловых и радиочастотных излучений; 12) распознавание лингвистических конструкций и примитивов, а также их оценивание при сравнении с эталонами; 13) динамическая визуализация эффектов последовательного и мягкого трансформирования одного образа в любой другой.
7. Инфраструктура программного продукта
Проблема создания эффективной инфраструктуры кибернетического пространства (Cyber Space), а также саморазвивающейся информационно-компьютерной экосистемы (ИКЭС) планеты особенно важна для глобальных компаний, таких как Лаборатория Касперского, Google, Microsoft, Apple, Intel. Экосисте-
ма - совокупность популяций, взаимодействующих между собой и окружающей их средой неопределённо долгое время, имеющая сходство относительно протекающих в них энергетических (информационных) процессов.
Кибернетическое пространство как объект природы также подвержено влиянию деструктивных компонентов, влияющих на работоспособность субъектов, которыми являются компьютеры, системы и сети. Поэтому сейчас и в будущем важной проблемой остается стандартизация пространства и специализация всех взаимодействующих субъектов, включая негативные, как неотъемлемую часть экосистемы. Данная акция есть постоянно действующая во времени, цель которой - не отставать, но на один шаг опережать появление новых вредоносных компонентов.
Для этого необходимо разработать инфраструктуру сервисного обслуживания программного продукта для защиты от вредоносных программ, которая включает: 1) Наблюдение за состоянием компьютерных систем и сетей в процессе функционирования и тестирования штатных функциональных блоков на основе использования стандартов ассерционного анализа.
2) Т естирование функциональных модулей путем подачи проверяющих наборов от различных тестовых генераторов, ориентированных на проверку вредоносов или исправного поведения.
3) Диагностирование отказов и вредоносов путем анализа информации, полученной на стадии тестирования и использования специальных методов встроенного поиска ВК на основе ассерционной избыточности, ориентированной на обнаружение вредоносного кода, что позволит идентифицировать и устранять деструктивы программных продуктов без использования внешних средств. Т аким образом, можно будет обходиться без сложных внешних программ моделирования, тестирования и диагностирования путем прививки каждого программного изделия тестопригодной интеллектуальной избыточностью кода на стадии его создания. При этом следует использовать предикат узнавания буквы а: xa = x © a , который оперирует не только булевыми, но регистровыми и матричными переменными, что делает его практически значимым в формальной записи уравнений диагноза или распознавания:
xa « x © a = 0 v min Qi ^ x © a © Q = 0 i
На основе предиката узнавания а-образа любой сложности, природы и формы можно создавать достаточно компактные уравнения предикатов, формирующие интеллектуальные решения в области распознавания образов, принятий решений, тестирования знаний и технических объектов, диагностирования (узнавания) вирусных компонентов в программном коде.
РИ, 2011, № 2
51
4) Восстановление работоспособности функциональных модулей после фиксации отрицательного результата тестирования и определения места и вида вредоноса при выполнении фазы диагностирования внутренними средствами, создающими инфраструктуру функциональности.
5) Измерение сигнатуры, основных характеристик и параметров функционирования изделия на основе встроенных средств, позволяющих производить временные и функциональные измерения для идентификации состояния программного продукта.
6) Надежность и отказоустойчивость функционирования изделия в процессе эксплуатации, которая достигается диверсификацией функциональных блоков, их дублированием и восстановлением работоспособности в реальном масштабе времени, а также встроенными средствами сервисного обслуживания, работающими в реальном масштабе времени.
В связи с этим предложенные компоненты инфраструктуры кибернетического пространства, метрика его измерения и процесс-модели анализа и синтеза субъектов дают возможность создавать эффективные решения компьютерных устройств, ориентированных на быстрый поиск, распознавание, диагностирование не только позитивных, но и негативных субъектов. Конкретно, предложенная инфраструктура может решать задачи: 1) Описание многообразия деструктивных компонентов кибернетического пространства. 2) Формализация процессов взаимодействия триады компонентов <программа, деструктивности, тесты>. 3) Диагностирование и устранение деструктивных компонентов. 4) Создание и эффективное использование базы деструктивных данных. 5) Создание быстродействующих интеллектуальных саморазвивающихся средств сервисного обслуживания и защиты кибернетического пространства.
8. Модель поиска ВК в программных продуктах
Используется уравнение пространства f(F,T,L,U) = 0 ^ F ф T ф L ф U = 0, которое трансформируется к виду L = (T ф F) ф (T ф U). Диагностирование ВК сводится к сравнению результатов модельного (T ф F) и натурного (T ф U) экспериментов, которое формирует список функциональных нарушений L, присутствующих в объекте диагностирования. Формула-модель процесса поиска блока Fj с функциональными нарушениями сводится к выбору решения посредством определения xor-взаимодействия между тремя компонентами:
p
L = Fi ^ [(Tф Fi) ф (Tф Ui)] = 0. i=1
Аналитическая модель верификации HDL-кода с использованием механизма темпоральных ассерций (дополнительных линий наблюдения) ориентирована на достижение заданной глубины диагностирования и представлена в следующем виде:
52
M = f(F,A,B,S,T,L), F = (A*B) х S; S = f(T, B);
A={AbA2,...,Ai,...,An}; B={B1,B2,...,Bi,...,Bn};
S = ^Т^’.^Ь.^ш^ Si = {SibSi2,...,Sij,...,Sip};
T = {T1,T2,...,Ti,..,Tk}; L = {L1,L2,...,Li,..,Ln}.
(7)
Здесь F = (A * B) х S - функциональность, представленная графом (рис. 10) транзакций программных блоков (Code-Flow Transaction Graph - CFTG), где S = {Si,S2,...,Sj,...,Sm} - вершины или состояния программного продукта при моделировании тестовых сегментов.
Каждое состояние Sj = {Sji,Sj2 ,..,Sij,...,Sjp} определяется значениями существенных переменных проекта (булевы, регистровые переменные, память). Ориентированные дуги графа представлены конкатенацией программных блоков B = (Bi,B2,...,Bj,...,Bn) и соответствующих им ассерций
A = {Ai,A2,...,Aj,...,An} . Каждая дуга Bj - группа операторов кода - формирует состояние вершины Sj = f(T,Bj) в зависимости от теста
T = {Ti,T2,...,Tj,...,Tk}. Вершина может иметь более одной входящей (исходящей) дуги. Множество блоков с функциональными нарушениями представлено списком L = {Li,L2,...,Lj,...,Ln} .
Рис. 10. Пример ABC-графа программы
Модель кода, представленная в форме Assertion Based Coverage Graph (ABC-Graph), отображает не только структуру программного кода, но и тестовые срезы функциональных покрытий, формируемые с помощью программных блоков, входящих в рассматриваемую вершину. Последняя определяет отношение между достигнутым на тесте пространством переменных и потенциально возможным, которое формирует функциональное покрытие как мощность состояния i-
вершины графа Q = cardCj" / cardCp . В совокупности все вершины графа должны составлять полное покрытие пространства состояний переменных программного кода, которое формирует качество теста,
ме того, механизм ассерций < A,C >, существующий на графе, позволяет выполнять мониторинг дуг
РИ, 2011, № 2
(code-coverage) A = {Aj,An} и вершин (functional coverage) C = {Ci,C2,.,Ci,...,Cm}. Ассерции на дугах отвечают за диагностирование функциональных нарушений в программных блоках. Ассерции на вершинах графа дают дополнительную информацию о качестве тестов (ассерций) в целях их улучшения или дополнения. ABC-граф HDL-кода дает возможность использовать аппарат тестопригодного проектирования для оценки качества программного продукта с позиции минимизации затрат на создание тестов, диагностирование, а также исправление функциональных нарушений. Также граф дает возможность оптимизировать синтез теста путем решения задачи покрытия минимальным множеством активизированных путей всех дуг (вершин). Минимальный тест для приведенного ABC-графа имеет шесть сегментов, которые активизируют все пути:
T = S0SjS3S7S9 V S0SjS4S8S9 V S0SjS5S7S9 V
V S0S2S4S8S9 V S0S2S5S7S9 V S0S2S6S8S9.
Тесту можно поставить в соответствие следующую матрицу активизации программных блоков:
Bj B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14
T1 1 1 1 1
T2 1 1 1 1
T3 1 1 1 1
T4 1 1 1 1
T5 1 1 1 1
Тб 1 1 1 1
Матрица активизации иллюстрирует факт неразличимости на тесте функциональных нарушений в блоках 3 и 9, 8 и 12, которые составляют два класса эквивалентностей при наличии одной ассерции (монитора) в вершине 9. Для устранения такой неразличимости необходимо создать два дополнительных монитора в вершинах 3 и 6. В результате 3 ассерции A = (A3,A6,A9) дают возможность различить между собой все блоки программного кода. Таким образом, граф позволяет не только синтезировать оптимальный тест, но и определять минимальное число мониторов (ассерций) для поиска неисправных блоков с заданной глубиной диагностирования.
Увеличение числа ассерционных мониторов приводит к модификации таблицы активизации. Иначе, на заданном тесте и механизме ассерций необходимо однозначно решать задачу диагностирования функциональных нарушений программного кода с глубиной до программного блока. При этом число ассерций и тестовых сегментов должно быть минимально допустимым для кодовой идентификации всех блоков:
|t| +| A| > log2|B| = cardT + cardA > log2 cardB . Первоначально количество мониторов-ассерций равно числу тестовых сегментов. Таблица активизации программных модулей позволяет выполнять идентификацию блоков кода с функциональными нарушениями на обобщенном векторе экспериментальной проверки (ассерционного мониторинга)
v=(V,V2,...,V,...Vn),V =M,V = T ®BJ,yj(B4 =1)
Координата вектора Vi = Ti Ф Bj = 1 идентифицирует факт «падения» тест-сегмента на подмножестве активизированных им блоков. В соответствии с вектором V, заданным на таблице активизации с учетом приведенного выше правила вычисления его координат:
Bj B1 B2 B3 B4 B5 B6 B7 B9 B10 B11 B12 B13 ^.4 V
T1 1 1 1 1 0
T2 1 1 1 1 1
T3 1 1 1 1 0
T4 1 1 1 1 1
T5 1 1 1 1 0
T6 1 1 1 1 1
можно построить логическую функцию функциональных нарушений программного продукта, которая упрощается на основе использования координат вектора экспериментальной проверки V:
B = (T V B1v B3 V B9 V B13) a (T2 V B V B4 v B10 v B14) a a (T3 v B1 v B5 v B11 v B13) a (T4 v B2 v B6 v B10 v B14) a a(T5 vB2 vB7 vB11 vД3) a(T6 vB2 v B8 vB12 vB14); {V,T} = (010101) ^
B = (0 v B1 v B4 v B10 v B14) a (0 v B2 v B6 v B10 v B14) a a (0 v B2 v B8 v Д2 v Д4) =
= (B vB4 vB0 vBj4) a(B2 vB6 vB0 vB4) a a (B2 v B8 v Bj2 v B14) =
= B1B2 v B4B2 v ...v B3B6B12 v ...v B14.
После преобразования КНФ к дизъюнктивной нормальной форме полученные термы содержат все возможные решения в виде покрытия единичных координат вектора экспериментальной проверки одиночными или кратными функциональными нарушениями программных блоков. Выбор лучшего решения связан с определением терма ДНФ минимальной длины. В данном примере оптимальным решением является терм, содержащий один блок B = B14, который своим функциональным нарушением покрывает три единицы в
векторе экспериментальной проверки V = (010101) . Данный факт также очевиден из сравнения двух последних столбцов матрицы активизации B.
Определенный интерес представляет задача однозначной идентификации блока с нарушениями путем анализа матрицы активизации. Для рассматриваемого примера графа и соответствующей ему таблицы необходимо поставить три обобщенных монитора в вершинах 3, 6, 9 ABC-графа. Такое эвристическое решение требует изменения структуры матрицы актив иза-ции путем добавления разрядов в некоторых координатах таблицы B (механизме ассерций) и вектора экспериментальной проверки V:
РИ, 2011, № 2
53
Bij B1 B2 B3 B4 B5 B6 B7 Bg B9 B10 B11 B12 B13 B14 V A
T1 1 11 01 1 00 3,9
T2 1 1 1 1 1 9
T3 1 1 1 1 0 9
T4 1 1 1 1 1 9
T5 1 1 1 1 0 9
Тб 1 11 01 1 01 6,9
В общем случае количество ассерций, различающих n функциональных блоков, соединенных последовательно, равно n-1. Для решения задачи мониторинга программного кода в целях достижения максимальной глубины поиска дефектных модулей можно использовать таблицу активизации, по которой достаточно просто установить классы эквивалентных программных блоков, которым соответствуют одинаковые столбцы. В каждом классе, имеющем мощность, равную n блоков, необходимо задать n-1 ассерцион-ный монитор для всех блоков, исключая последний из них. При этом таблица активизации становится неоднородной по размерности числа битов в каждой координате, которая определяется минимальным числом мониторов для распознавания программных блоков, соединенных последовательно. Кроме того, в таблице активизации появляется столбец ассерцион-ных мониторов, задающий последовательность вершин графа для снятия состояния ассерций в процессе моделирования. В случае более чем 50% существенности всех ассерционных мониторов для диагностирования большинства блоков целесообразно сделать таблицу активизации однородной на полном полученном множестве ассерций. В данном случае полученная структура превращается в таблицу функций неисправностей (ТФН) [2], где точки в координатах обозначают нулевые векторы ассерционных состояний на одном тест-сегменте:
Bj B1 B2 B3 B4 B5 B6 B7 Bg B9 B10 B11 B12 B13 B14 V A
T1 T2 T3 T4 T5 Тб 101 001 001 001 001 101 101 001 001 001 001 010 001 001 001 001 001 001 001 001 001 001 001 001 000 001 000 001 000 001 3.6.9 3.6.9 3.6.9 3.6.9 3.6.9 3.6.9
Она предоставляет полную информацию о поведении программного продукта на тестовых сегментах, где реакции создаются с помощью минимального множества ассерционных мониторов, достаточного для распознавания любого программного модуля с функциональными нарушениями. Процесс-модель диагностирования сводится к одной итерации сравнения вектора экспериментальной проверки со столбцами матрицы активизации или Т ФН:
n r=1,m r=1,m
L = L v Bj ^ ^ (Bjjr Vir) = (0 vmin).
J=1 i=1k i=1,k
В данном примере использование приведенного выше критерия приводит к следующему результату:
54
L = B14 ^ Vi, r(Bi,14,r © Vi,r = 0). Сигналы несовпадения, равные 1, отсутствуют при выполнении xor-операции между вектором V и столбцом 14 матрицы активизации. Таким образом, если задан тест уже имеется, то для повышения глубины диагностирования остается единственный путь, связанный с повышением количества ассерционных мониторов, которое увеличивает размерность матрицы активизации до таблицы функций неисправностей в соответствии с
выражением: Q = |t| x |B x IA = cardT x cardB x cardA.
Поэтому введение каждой новой ассерции должно иметь весомые аргументы, связанные с повышением глубины поиска дефектов, поскольку добавление каждой новой ассерции увеличивает размерность Т ФН в два раза.
9. Модель эволюции киберпространства
Когда появляются новые свойства на структуре? Каково минимальное число компонентов для создания нового качества? Два - только на данном количестве компонентов можно создать новое свойство (property). Если нет второго элемента, его нужно придумать. В общем случае синтез модели (структуры) начинается с определения базовой функциональности, все остальные компоненты можно рассматривать как производные, присоединяемые посредством xor-операции
{a} ^ {a,b} ^ {a,b,©} ^ a © b = c ^ a © b © c = 0.
Чем может быть второй компонент по отношению к базе? Некоторым дополнением от противоположности до полного совпадения (рис. 11), которое дает возможность целенаправленно улучшить модель процесса или явления при наличии эталона, или при стремлении к нему (U - универсум примитивов):
b = {0, a, U,a n b = a л (a v b), a n b = b л (a v b),a n b v 0 л (a v b v 0), a, a nb = 0}.
Рис. 11. Типы бинарного взаимодействия
Введение третьего и последующих компонентов должно быть аргументированным действием с позиции повышения адекв атности модели или появления у нее новых свойств. Прокомментировать сказанное можно на примере графа технической диагностики F © T © L = 0 . Базовый элемент - функциональность, производные от него - тест и список дефектов, каждый из которых может быть получен при условии, что
РИ, 2011, № 2
априори известно дополнение - дефекты или тест T = F 0 L, L = F 0 T. Триада минимальное число взаимодействующих объектов, образующее полезное новое свойство в форме транзитивного замыкания. Что есть базовый элемент в триаде, определяется субъективно и это не суть. Основа есть транзитивное замыкание любого числа компонентов посредством xor-операции. По существу графа технической диагностики - функциональность представлена таблицей истинности, тест есть сокращенная таблица истинности. Следовательно, xor-операция дает возможность формально отличить друг от друга два рассматриваемых компонента, в результате чего получится функциональное покрытие, выраженное в структурной оценке полноты теста относительно пространства состояний, заданного таблицей истинности. При задании дефектов и функциональности, взаимодействующих на основе xor-операции, получается тест, проверяющий все дефекты. Если к триаде компонентов добавить четвертую, в виде реального устройства, подлежащего тестированию, граф отношений
T 0 F 0 L 0 U = 0 становится более адекватным по сравнению с исходной моделью технической диагностики, поскольку возникает новое свойство, связанное с возможностью проведения диагностических экспериментов. При этом компонент - реальное изделие также имеет xor-взаимодействие со всеми вершинами графа. Взаимодействие оценивается структурным критерием качества бинарного xor-отношения.
Подводя некоторый итог сказанному выше, следует заметить, что на примере технической диагностики достаточно легко можно построить граф xor-отношений, включающий все известные технологии (модели и методы). Каждая новая вершина должна иметь
ненулевую оценку взаимодействия относительно всех n
предыдущих m 0 Ai ^ 0. В противном случае, она i=1
является повторением хотя бы одной из существующих и не может быть задекларирована как достижение или новшество. Таким образом, можно создать граф, содержащий тест, дефекты, функциональность, функциональное покрытие, реальное изделие, механизм ассерций T0L0F0C0U0A = 0. Условием создания графа xor-взаимодействия компонентов является одинаковый формат данных. В противном случае необходимо создавать конверторы для переформатирования данных. Как следствие, из приведенных рассуждений можно создавать библиотеки типичных эталонов (прообразов) с производными от них в виде матриц отличий каждого образа от оригинала. В данном случае появляется возможность сокращения объема информации, подлежащей хранению, и быстрого воспроизведения полной модели любого их библиотечных образов. Сокращение возможно, если предположить, что критерии отличия образов от прообраза имеют преимущественно близкие к нулю оценки, для которых существуют эффективные методы сжатия информации. Для последовательностей двоичных строк в целях сжатия информации можно вычислять
xor-отношение (расстояние) между соседними строками, что дает возможность получить матрицу расстояний, которая при последующей свертке имеет существенно большее число нулевых координат, что представляет интерес для средств кодирования информации в целях передачи данных, изображений и видеоинформации. Все сказанное относится только к моделям информационного взаимодействия процессов или явлений в киберпространстве. Что представляет собой производная на графах? Это - симметрическая разность между двумя графами (подграфами), представленными любой из известных форм (аналитическая, табличная, графическая), которая определяется применением xor-операции к двум компонентам
Gi 0Gj = (Gi nGj)u(Gi nGj) .
Рассматривая в динамике развитие киберпространства (Второго мира), можно сделать экстраполирующий вывод, что оно стремится по меньшей мере повторить Первый (социум) во всех его отношениях, а затем и превзойти его по многим свойствам. Поэтому, чтобы ответить на вопрос, каким будет киберпространство как образ по взаимодействующим процессам или явлениям, необходимо посмотреть на прообраз, представленный системой взаимных отношений, существующих в Первом мире. Опять же понять, чего еще нет сейчас, но должно в качестве новых свойств (N) появиться во Втором мире, необходимо определить xor-отношение или сравнить два существующих мира W1 0 W2 = N .
10. Инфраструктура тестирования вредоносных компонентов и спама
На основе мультиматричного (-регистрового) процессора создана инфраструктура (рис. 12) тестирования электронной корреспонденции. Здесь фигурируют четыре процесс-модели: тестирование на стадии моделирования, диагностирование функциональных нарушений, оптимизация диагноза, восстановление работоспособности.
Рис. 12. Инфраструктура диагностирования электронной корреспонденции
1. Процесс-модель тестирования включает модель кода, механизм ассерций, testbench и coverage (по-
РИ, 2011, № 2
55
крытие). Последнее оценивает качество теста проверки всех состояний проекта. В результате моделирования синтезируется матрица активизации программных блоков B и матрица ассерционных реакций A на тестовые сегменты, которая может быть трансформирована к вектору состояния ассерций m путем применения функции or к вектор-столбцам A-матрицы:
B = (T © F);
m
' m = V Aj ^ A = (T © Ac).
j=1
1. Два последних компонента используются во второй процесс-модели для диагностирования блоков писем. Результатом диагностирования является вектор дефектов, формирующий подмножество блоков т^ с функциональными нарушениями. При этом не исключены ошибки как в testbench, так и в ассер-ционных операторах, отвечающих за тестирование и мониторинг программных блоков. Тройственная неопределенность диагноза D = {Bj> Ti> Aij} характерна при отсутствии точной идентификации блока в процедуре сравнения столбцов матрицы активизации с вектором ассерционных реакций.
2. Третий блок решает задачу минимизации числа блоков, подозреваемых в наличии функциональных нарушений, до одного из них. При этом используется матрица активизации блоков и
диагноз т^, полученный в предыдущей процесс-модели.
3. Модуль исправления функциональных нарушений ориентирован на ручной поиск ошибок в одном программном блоке, представленном вектором m b . Возможен также автоматический режим исправления ошибок в блоках, если в инфраструктуре верификации предусмотрена библиотека диверсных программных модулей, имеющих аналогичные функциональности.
Предложенная инфраструктура является одним из шагов на пути создания автомата тестирования программных блоков. Далее представлен пример диагно-
стирования функционального нарушения на основе использования матрицы активизации. Вектор ассер-ционных реакций получен из соответствующей матрицы Ay = {1 ^ failed, 0 ^ passed} путем дизъюнктивного объединения содержимого каждой строки:
Последующее выполнение xor-операции между вектором ассерций и столбцами матрицы активизации блоков позволяет найти лучшее решение, которое определяется минимальным кодовым расстоянием
Результат диагностирования - блок 3 имеет функциональные нарушения, поскольку три ассерции «упали» на тестовых сегментах 2,4 и 8, которые в таком сочетании активизируют только блок с номером 3. Если выполнять процесс диагностирования, используя не вектор, а матрицу ассерций, то процесс поиска дефектных блоков будет иметь следующий вид:
n n
L = L v Bj ^ ^(Bjj © mi) = (0 v min): i=1 i=1
Bj Bj B2 B3 B4 B5 B6 B7 B8 T m 4 Bj B2 B3 B4 B5 B6 B7 B8
T, 1 1 1 Tj Tj 1 1 1
T2 1 1 1 T2 1 T2 1 1 1 1 1
T3 1 1 1 T3 T3 1 1 1
T4 1 1 1 © T4 1 = T4 1 1 1 1 1
T5 1 1 1 T5 T5 1 1 1
Тб 1 1 1 T6 T6 1 1 1
T7 1 1 1 T7 T7 1 1 1
T8 1 1 1 T8 1 T8 1 1 1 1 1
d(A, Bj) 4 4 0 4 2 4 6 6
Aij A1 A2 A3 A4 A5 A6 A7 A8
T1 T2 T3 T4 T5 T6 T7 T8 1 1 1 1 1 1 1
mi = v Ajj =
j=1
T m
T1
T2 1
T3
T4 1
T5
T6
T7
T8 1
56
РИ, 2011, № 2
Результат диагностирования аналогичен предыдущему - блок 3 имеет функциональные нарушения, поскольку кодовое расстояние равно нулю только для столбца с номером 3.
Практическая реализация моделей и методов тестирования была интегрирована в среду анализа Antispam компании Design and Test (рис. 13). Введенные в систему модули ассерций и библиотека писем (позитив, негатив, серая зона) существенно (на 10%) уменьшили серую зону, что дало возможность на 15% сократить общее время обработки корреспонденции.
Рис. 13. Инфраструктура диагностирования спама
Фактически применение ассерций и библиотеки корреспонденции дает возможность каждому пользователю существенно (от 5 до 1 минуты) сократить время ручного анализа ежедневной корреспонденции (рис. 14). Механизм ассерций позволяет повысить качество диагностирования корреспонденции до уровня 97%. На рис. 14 приведены графики повышения качества анализа информационных сообщений по трем сегментам: позитив, негатив, серая зона, до и после внедрения анализатора Antispam на выборке из 100 пользователей за 9 месяцев.
—^TL -^S —^SA —^UL
JU Ag Sp Ctt Nv Dec Jfen Feb Mr TL 764 8Й 1002 906 1015 1Z6 1052 1206 1193
S 532 596 706 630 707 889 7311 844 836
SA 152 170 190 180 202 251 219 2S 226
LL 80 89 106 96 106 133 102 129 131
Рис. 14. Сравнительный анализ внедрения системы Antispam
Динамика занесения позитива в негативную библиотеку, равно как и наоборот, указывает на уменьшение процента неправильного распознавания по мере эксплуатации и обучения системы. Внедрение разработанного приложения в Украине, имеющей 12 млн пользователей почтовых сервисов, дает возможность получить следующий годовой эффект сэкономленного по стране времени в долларовом эквиваленте:
Q = N х D х T х M =
4
= 12 000 000users х 250days х — hours х $5 =
J 60
= $1 000 000 000
На рис. 15 представлен интерфейс (GUI), который даёт возможность пользователю работать со своей электронной почтой, которая была диагностирована с помощью системы Antispam. Нежелательные, неполезные письма были собраны в папке «Нежелательная почта», в то время как полезная почта сразу попадала в “INBOX” (папка с входящими сообщениями).
Folders
Last Refresh:
Sat.2:00 pm
ІГНьгЬс тятяїі)
INBOX
IN BOX.Drafts
INBOX.Seut
INBOX.Trash
Нежелательная no
Oil' рлплеігн ые
Удаленные
Current Folder: INBOX m
Compose Addresses Folders Options Search Help Squirr
| Next | 1 2 3 | Show All | Toggle All Viewing Messages: 1 to 15 (3-
Move Selected To: Trqpsfbnn Selec ted Mfe
I INBOX г | | Move | | Forward | | Read | | Unread | | Di
FromD
- Константин Кулем за і cristina
_ Dress-Code.rom.ua .i Oper-GSM (Харьков)
- Денне Королюк .1 Alyona Е
. Oper-GSM (Харьков)
.1 ss ss
_■ Дех ТОрнй .1 ...
.. Oper-GSM (Харьков)
J Андрей Пеньков ■ Владислав Да ни люк і Oper-GSM (Харьков)
. vitalmko@meta.oa
Р- ил ■ | Next I 1 2 З I Show All I Toggle All
Date О Subject □
10:09 am Re: Canon PowerShor A3100 IS silver Frl, 10:16 pm Canon Powers hot АЗШ0 IS silver Wed, 9:28 am 1 Анонс новых парфюмов на Dress-Cnde.com.ua Mar 23. 2011 + Прайс игровые приставки Орег-...
Маг 22, 2011 Phottix BP-D60 Premium
Mar 20. 2011 + Re: Предложение о сотрудничестве - www.Foto-Video. Магів, 2011 + Прайс игровые приставки Орег-...
Маг 17, 2011 Объектив SONY 50F1.8 Маг 16, 2011 sigma 30mm 1,4 для canon
Маг ІЗ, 2011 Re: Предложение о сотрудничестве - www.Foto-Video.,.. Mar II, 2011 + Прайс игровые приставки Орег-...
Маг 9.2011 (но subject)
Маг 7,2011 а татцм 17-50
Маг 4, 2011 + Прайс игровые приставки Орег-...
Маг 3,2011 а-н Перечень О
Viewing Messages: 1 to 15 (З-:
Рис. 15. Интерфейс системы Antispam
РИ, 2011, № 2
57
11. Интеллектуальный спам-фильтр. Описание 4. Определение принадлежности сообщения m серосистемы Antispam му пулу:
Каждое сообщение должно быть отнесено к одному из трех пулов (матриц): L = {L0,L1,Lx} - позитивные, негативные, неопределенные (unknown state). Соответствующие им библиотеки B = {B0,B1,Bx} имеют сигнатуры в виде двоичного вектора, который задает отношение принадлежности каждого сообщения к тестовым параметрам распознавания спама. В процессе обучения Antispam-системы формируется таблица функций спама (ТФС), открытая к пополнению:
B = |Бч| = B х T,
B = (B1,B2v,Bjv,BnX T = (Ti,T2,..,TI,..,Tm)-
Для определения принадлежности нового сообщения m к одному из библиотечных типов сообщений L используется следующий критерий:
n n
L = L v Bj ^ ^(By © mi) = (0 v min)
I=1 i=1
Он определяет кодовое расстояние путем последовательного сравнения между новым сообщением и каждым компонентом трех библиотек. Наличие простейшего мультиматричного процессора позволяет выполнять данные логические операции параллельно.
Стратегия (алгоритм) функционирования системы Antispam:
m = f(T) ^
L0
L1
L0 v B0 ^ B0 © m = 0; L1 v Bl ^ Bj © m = 0;
Lx = Lx v Bx ^ Bx © m = (0 v min).
1. Тестирование нового сообщения относительно существующих параметров спама. В результате каждое сообщение формализуется в вектор (сигнатуру) на множестве тестов:
m = f(T) = (m1,m2,...,mi,...,mm) .
2. Определение принадлежности сообщения m пулу спама:
0 0 n n L0 = L0 v Bj ^ ^ (By © mi) = 0
i=1 i=1
Если принадлежность сообщения к спаму не выявлена, переход к пункту 3, иначе - пополнение библиотеки спама, удаление его в корзину и переход к пункту 5.
3. Определение принадлежности сообщения m пулу позитива:
11 11
L1 = L1 v Bj ^ £(By © mi) = 0 i=1 i=1
Если принадлежность сообщения к позитиву не выявлена, переход к пункту 4, иначе пополнение библиотеки позитива и переход к пункту 5.
nn
Lx = Lx v Bj (By © mi) = (0 v min)
i=1 i=1
5. Конец процедуры. Переход к пункту 1 для анализа нового сообщения.
Серый пул также имеет сигнатуры сообщений, но принадлежность к пулу определяется не только точным совпадением всех разрядов, но и минимальным кодовым расстоянием между сообщением и столбцом ТФС.
В процессе функционирования системы Antispam каждое серое сообщение проверяется на принадлежность к двум детерминированным пулам, которые постоянно совершенствуются путем модификации и пополнения критериев за счет учета опыта пользователя.
Тест-параметры представлены в таблице.
Пример диагностирования на основе использования таблицы функций спама представлен ниже, где на тест-параметрах имеется 6 переменных и 14 видов спама. Здесь вектор m есть новое сообщение, подлежащее идентификации.
Bj B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 B14 m
T1 1 1 1 1 0
T2 1 1 1 1 1
тз 1 1 1 1 1 0
T4 1 1 1 1 1
T5 1 1 1 1 0
T6 1 1 1 1 1
В соответствии с пунктом 2 алгоритма результат диагностирования - компонент 14:
L0 = L0 v B14 ^ B14 © m = 0 ,
дающий минимальное значение кодового расстояния, равное нулю.
Дополнительным пунктом повышения качества системы следует считать определение принадлежности автора спама к ближайшим «соседям» пользователя на основе анализа информации, полученной из Internet по запросу существования отношения «пользователь - источник». Это работает, если источник с пользователем имеет общие точки соприкосновения: публикации, конференции, университеты, школы, бизнес, отдых, интересы. В дальнейшем двоичные диаграммы решений как последовательная стратегия распознавания может быть использована для минимизации информационных массивов за счет усложнения структур данных.
Оценка качества модели диагностирования спама показывает эффективность применения пары (тест, ассерция - как реакция входного сообщения на тест-вопрос) для заданной глубины диагностирования. Оценка функционально зависит от длины теста |т|, числа ассерций наблюдения |А|, количества распознаваемых сообще-
58
РИ, 2011, № 2
ранстве, которая способна распознавать любые типы теоретико-множественного или векторного взаимодействия объектов при решении практических задач распознавания образов и диагностирования технических изделий.
3. Разработаны инфраструктуры сервисного обслуживания программного продукта для защиты от вредоносных программ и верификации проектов цифровых систем, которая включает шесть компонентов, создающих условия для защиты и надежного функционирования программных и аппаратных компонентов.
4. Предложена новая модель программного продукта в форме графа блочных транзакций, а также новый матричный метод диагностирования функциональных нарушений, которые характеризуются технологичностью подготовки данных в процессе поиска некорректных блоков, что дает возможность существенно уменьшить время проектирования цифровых систем на кристаллах.
5. Усовершенствованы методы поиска функциональных нарушений, которые отличаются параллелизмом выполнения векторных операций над строками таблицы ФН, что дает возможность существенно (х10) повысить быстродействие вычислительных процедур, связанных с диагностированием и восстановлением работоспособности программных и аппаратных продуктов.
6. Разработана архитектура мультиматричного процессора, ориентированного на повышение быстродействия процедур встроенного диагностирования функциональных нарушений в программном или аппаратном изделии, которая отличается использованием параллельных логических векторных операций and, or, xor, slc, что дает возможность существенно (х10) повысить быстродействие диагностирования одиночных и/или кратных дефектов (функциональных нарушений).
Тест-параметры пулов
Позитивный пул Негативный пул Серый пул
1. Наличие в 1. Запрещённые символы в адресе 1. Возможность отписки
контактной книге 2. Если есть несовпадение значений команды 2. Неизвестный RCPT
владельца ящика HELO/EHLO 3. Наличие большого
2. Известный RCPT 3. Отсутствие команды HELO количества
3. Авторизация 4. Отправители, представляющиеся как получателей
отправителя localhost.localdomain 4. Новый отправитель
4. Наличие FQDN 5. Отправители, представляющиеся в HELO 5. Удаление предыдущих
5. Наличие отправителя именем secondary mx или собственным IP писем данного
6. Содержание ASCII 6. Отправители из dsl, dialup зоны в HELO отправителя
символов 7. Отправители, представляющиеся именем 6. Наличие
7. Необходимое и локального компьютера словосочетаний из
допустимое 8. Пустой отправитель словаря
количество команд в 9. Сброс по RCPT: неизвестный пользователь 7. Наличие FQDN
email 10. Содержание не ASCII символов 8. Наличие отправителя
8. Наличие IP - адреса в 11.Отправители, использующие IP адрес вместо 9. Содержание ASCII
белом локальном домена символов
списке 12. Отсутствие FQDN 10. Необходимое и
9. Друзья ближайшего 13.Большое количество «сопроводительных» допустимое количество
окружения по команд команд в email
интересам 14. Наличие словосочетаний из словаря 11 Наличие IP - адреса в
10. Вышестоящее 15.Наличие IP адреса в чёрных списках спам- белом локальном
начальство и подчиненные листов (локальный, глобальный) списке
РИ, 2011, № 2
ний Nd в матрице на общем числе примитивов, занесенных в библиотеку N :
Q = E х D = № х NL
IT х IA N •
Эффективность диагностирования есть отношение минимального числа двоичных разрядов, необходимых для идентификации (распознавания) всех примитивов к реальному количеству разрядов кода, представленному произведением длины теста на число ассерций в каждом из них. Если первая дробь оценки равна 1 и все примитивы матрицы распознаются (Nd = N), то тест и ассер-ции оптимальны, что доставляет критерию качеств а модели диагностирования значения, равного 1. Для матрицы Bij, приведенной выше, оценка качества модели имеетвид:
4 12 4
Q =-----х — = - = 0,57
6х1 14 7
Оценка могла быть выше, если бы на тесте из шести вопросов распознавались сообщения B3, B9, которые являются эквивалентными.
12. Заключение
1. Предложена модель эволюционирующего кибернетического пространства, где субъектами выступают взаимодействующие процессы или явления с физическим носителем в виде компьютерных систем и сетей. Стандартизация пространства и всех взаимодействующих субъектов, включая негативные, возможна на основе предложенной бета метрики, которая структурированно и адекватно оценивает меру взаимодействия отношений в киберпространстве.
2. Дана универсальная неарифметическая модель структурной оценки отношения двух объектов в киберпрост-
59
7. Предложена инфраструктура диагностирования ВК программного кода цифровых систем, которая имеет четыре процесс-модели для тестирования, диагностирования, оптимизации и исправления ВК, замкнутые в цикл, что дает возможность уменьшить время сервисного обслуживания.
8. Разработана процесс-модель диагностирования спама в параллельном режиме на основе использования трех расширяемых матриц хранения и идентификации видов спама, что дает возможность существенно повысить качество диагностирования и уменьшить время установления диагноза входного сообщения.
8. Практическая реализация моделей и методов тестирования была интегрирована в среду анализа Antispam компании Design and Test. Введенные в систему модули ассерций и библиотека писем (позитив, негатив, серая зона) существенно (на 10%) уменьшили серую зону, что дало возможность каждому пользователю на 15% сократить общее время обработки корреспонденции.
Литература: 1. Babulak E. Future Global Office // 12th International Conference “Computer Modelling and Simulation”. 2010. P. 352-356. 2. Caplan K., Sanders J.L. Building an international security standard // IT Professional.- Vol. 1, Issue 2. 1999. P. 29-34. 3. Qishi Wu, FerebeeD., YunyueLin, Dasgupta D. Visualization of security events using an efficient correlation technique // Computational Intelligence in Cyber Security, CICS ’09. 2009. P. 61-68. 4. Инфраструктура мозгоподобных вычислительных процессов / М.Ф. Бондаренко, О. А. Гузь, В.И. Хаханов, Ю.П. Шабанов-Кушнаренко. Харьков: Новое Слово. 2010. 160 с. 5. Хаханов В.И., Чумаченко С.В. Модели пространств в научных исследованиях // Радиоэлектроника и информатика. 2002. №1. С. 124-132. 6. IEEE Standard for Reduced-Pin and Enhanced-Functionality Test Access Port and Boundary-Scan Architecture IEEE Std 1149.7-2009. 985 p. 7. Da Silva F., McLaurin T., Waayers T. The Core Test Wrapper Handbook. Rationale and Application of IEEE Std. 1500™. Springer. 2006. XXIX. 276 p. 8.MarinissenE.J., YervantZorian. Guest Editors’ Introduction: The Status of IEEE Std 1500.IEEE Design & Test of Computers. 2009. No26(1). P.6-7. 9. IEEE Std 1800-2009 IEEE Standard for System Verilog-Unified Hardware Design, Specification, and Verification Language. http:// ieeexplore.ieee.org/servlet/opac?punumber= 5354133. 10. Marinissen E.J. Testing TSV-based three-dimensional stacked ICs // DATE 2010. 2010. P.1689-1694. 11. Benso A., Di Carlo S., Prinetto P., Zorian Y. IEEE Standard 1500 Compliance Verification for Embedded Cores // IEEE Trans. VLSI Syst. 2008. No 16(4). P. 397-407. 12. UbarR., Kostin S., Raik J. Embedded diagnosis in digital systems // 26th International Conference “Microelectronics”, MIEL 2008. 2008. P. 421-424. 13. Elm M., Wunderlich H.-J. Scan Chain Organization for Embedded Diagnosis // Design, Automation and Test in Europe, DATE ’08. 2008. P. 468-473. 14. Проектирование и тестирование цифровых систем на кристаллах. Verilog & System Verilog / В.И. Хаханов, Е.И. Литвинова, О. А. Гузь.- Харьков: ХНУРЭ. 2009. 484с. 15. Проектирование и верификация цифровых систем на кристаллах / В.И. Хаханов, И.В. Хаханова, Е.И. Литвинова, О. А. Гузь. Харьков: Новое слово. 2010. 528с. 16. Семенец В.В., Хаханова И.В., Хаханов В.И. Проектирование цифровых систем с использованием языка VHDL. Харьков: ХНУРЭ. 2003.492 с. 17. Хаханов В.И., ХахановаИ.В. VHDL+Verilog = синтез за минуты. Харьков: ХНУРЭ.2006. 264с. 18. Zorian Yervant. Guest Editor’s Introduction: Advances in Infrastructure IP // IEEE Design and Test of Computers. 2003. P.49-55. 19.
Bulent I. Dervisoglu. A Unified DFT Architecture for Use with IEEE 1149.1 and VSIA/IEEE P1500 Compliant Test Access Controllers. Proceedings of the Design Automation Conference. 2001. P. 53-58. 20. Bergeron J. Writing Testbenches using System Verilog. Springer US.2006. 414 p. 21. Shibata T. Implementing brain-like systems using nano functional devices // Ultimate Integration ofSilicon, ULIS 2009. 2009. P. 131-134. 22. Soliman M.I., Al-Junaid A.F. Codevelopment of Multi-level ISA and hardware for an efficient matrix processor // International Conference Computer Engineering & Systems.2009. P. 211-217. 23. Senning C., Studer C., Luethi P., Fichtner W. Hardware-efficient steering matrix computation architecture for MIMO communication systems // IEEE International Symposium Circuits and Systems. 2008. P. 304-307. 24. Pedram Ardavan, Daneshtalab Masoud, Sedaghati-Mokhtari Nasser, Fakhraie Sied Mehdi. A High-Performance Memory-Efficient ParallelHardware for Matrix Computation in Signal Processing Applications // International Symposium Communications and Information Technologies. ISCIT ’06. 2006. P. 473-478. 25. Chenlong Hu, Ping Yang, Ying Xiao, Shaoxiong Zhou. Hardware design and realization of matrix converter based on DSP & CPLD // 3rd International Conference Power Electronics Systems and Applications. 2009. P. 1-5. 26 . Dave N., Flem ing K., Myron King, Pellauer M., Vijayaraghavan M. Hardware Acceleration of Matrix Multiplication on a Xilinx FPGA // 5th IEEE/ACM International Conference Formal Methods and Models for Codesign. 2007. P.97-100. 27. Loucks WM., SnelgroveM., Zaky S.G. A Vector Processor Based on One-BitMicroprocessors // IEEE Micro. 1982. Vol. 2. Issue 1. P. 53-62. 28. Hilewitz Y, Lauradoux C., Lee R.B. Bit matrix multiplication in commodity processors // International Conference Application-Specific Systems, Architectures and Processors. 2008. P. 7-12.
Поступила в редколлегию 06.04.2011
Рецензент: д-р техн. наук, проф. Филатов В.А.
Хаханов Владимир Иванович, декан факультета КИУ ХНУ -РЭ, д-р техн. наук, профессор кафедры АПВТ ХНУРЭ. Научные интересы: техническая диагностика цифровых систем, сетей и программных продуктов. Увлечения: баскетбол, футбол, горные лыжи. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 70-21-326. E-mail: hahanov@kture. kharkov. ua.
Чумаченко Светлана Викторовна, заместитель декана факультета КИУ ХНУРЭ, д-р техн. наук, профессор кафедры АПВТ ХНУРЭ. Научные интересы: математическое моделирование, методы дискретной оптимизации. Увлечения: фотография. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 70-21-326. E-mail: ri@kture.kharkov.ua.
Литвинова Евгения Ивановна, заместитель декана факультета КИУ ХНУРЭ, д-р техн. наук, профессор кафедры АПВТ ХНУРЭ. Научные интересы: техническая диагностика цифровых систем. Увлечения: плавание, горные лыжи. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 70-21 -421. E-mail: kiu@kture.kharkov.ua.
Мищенко Александр Сергеевич, аспирант кафедры АПВТ ХНУРЭ. Научные интересы: технологии тестирования и WEB-приложения. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 70-21-326. E-mail: alex@simplesolutions.com.ua.
Адамов Александр Семенович, преподаватель ЦНСИМ ХНУРЭ, аспирант кафедры АПВТ ХНУРЭ. Научные интересы: антивирусные технологии,технологии тестирования и WEB-приложения. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 70-21-326. E-mail:
alex@simplesolutions.com.ua.
60
РИ, 2011, № 2