Научная статья на тему 'Надежность современных инфокоммуникационных сетей связи'

Надежность современных инфокоммуникационных сетей связи Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
397
77
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Шарнин С. Г., Закиров В. И., Золотухин В. В.

В данной работе приведены результаты исследования надежности современных инфокоммуникационных сетей связи, включающие в себя классификацию причин отказов, их интенсивности и время устранения последствий отказов, а также предложения по разработке нового интегрального показателя надежности инфокоммуникационных сетей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Шарнин С. Г., Закиров В. И., Золотухин В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Надежность современных инфокоммуникационных сетей связи»

Типовой фрагмент логической нейронной сети, размещённый на i-м узле, представлен на рис. 3. Здесь а>р - предпочтительные веса смежных узлов по адресу передачи, - к - отрицательный вес обратной связи (к - коэффициент загрузки буфера смежного узла).

Функция активации:

V = ^CjV., если эта сумма больше h, 0 - в противном случае.

j

В данном случае эта функция имеет вид:

Vi = VA coy - кi, если эта разность превышает порог h, 0 в противном случае.

Порог h выбирается экспериментально так, чтобы предпочтение могло быть выбрано между не полностью загруженными узлами.

Общим критерием эффективности управления является максимизация пропускной способности сети. Частными критериями являются: 1) минимум среднего времени выполнения запроса на передачу пакета в сети; 2) минимум времени ожидания пользователем возможности выполнения своих запросов.

Список литературы:

1. Джон Росс. Беспроводная компьютерная сеть Wi-Fi своими руками. -СПб.: Наука и Техника, 2009. - 348 с.

2. Барский А.Б. Нейроинформатика. Модели на логических нейронных сетях. Учебное пособие. - М.: МИИТ, 2009. - 252 с.

3. Барский А.Б. Нейроинформатика. Однослойные логические нейронные сети: учебное пособие. - М.: МИИТ, 2008. - 208 с.

4. Барский А.Б. Нейроинформатика. Структурированные логические нейронные сети: учебное пособие. - М.: МИИТ, 2008. - 168 с.

НАДЕЖНОСТЬ СОВРЕМЕННЫХ ИНФОКОММУНИКАЦИОННЫХ СЕТЕЙ СВЯЗИ

© Шарнин С.Г.*, Закиров В.И.*, Золотухин В.В.*

Сибирский федеральный университет, г. Красноярск

В данной работе приведены результаты исследования надежности современных инфокоммуникационных сетей связи, включающие в себя классификацию причин отказов, их интенсивности и время устранения последствий отказов, а также предложения по разработке нового интегрального показателя надежности инфокоммуникационных сетей.

* Аспирант СФУ.

* Аспирант кафедры «Инфокоммуникаций» СФУ.

" Доцент кафедры «Электронной техники и телекоммуникаций» Института информатики и телекоммуникаций Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнёва, кандидат технических наук.

Современный этап развития общества характеризуется значительным увеличением объёма и ценности передаваемой информации, что свидетельствует о переходе к глобальному информационном обществу. Ценность передаваемой информации с учетом огромных скоростей передачи данных диктует требование высокой надежности сети связи. Действительно, отказ сети даже на небольшой промежуток времени может привести к потере огромного количества информации, а, следовательно, и прибыли оператора связи, не считая убытков, которые несут клиенты провайдера услуг связи. Причем второй фактор является, на первый взгляд, неочевидным, но имеет ещё большее значение: снижение качества обслуживания в эпоху жесткой конкуренции неизбежно ведёт к потере части клиентов, которые «мигрируют» к другому провайдеру; а вернуть клиентов - задача уже более сложная, требующая ещё больших вложений финансовых средств на рекламу и новые услуги.

Именно поэтому задача обеспечения высокого качества функционирования систем связи, и в частности - задача обеспечения надежности сети связи, является актуальной в настоящее время. Достижение высоких показателей надежности должно осуществляться на всех этапах жизненного цикла инфокоммуникационных систем, начиная от этапа проектирования, строительства и заканчивая этапом эксплуатации и технического обслуживания. Причем, если на этапе проектирования повышение надежности сети связи достигается за счет выбора грамотных и обоснованных технических решений (топологии сети связи, используемого оборудования и типа кабеля связи), на этапе строительства - путем выбора проверенных строительных организаций и тщательного контроля процесса строительства, то на этапе эксплуатации приходится иметь дело с уже априори заданными на предыдущих этапах показателями надежности, а выбор методов и средств достижения требуемой надежности строго ограничен.

Прежде чем говорить об отказах инфокоммуникационных сетей, необходимо ввести понятия надежности и отказа системы связи. Согласно рекомендации 0602 Международного союза электросвязи под надежностью системы связи понимается свойство сохранять во времени в установленных пределах значения всех параметров, характеризующих способность выполнять требуемые функции в заданных режимах и условиях применения [2, 3]. Поскольку основной задачей любой системы связи является передача информации на расстоянии, то отказом системы связи будем считать невозможность передачи данных абонентов с заранее заданными показателями качества (скорость передачи информации, величина задержки, вероятность потери).

Современные инфокоммуникационные сети архитектурно состоят из двух частей - станционной и линейной части. К станционной части относятся коммутаторы, маршрутизаторы, мультиплексоры и т.п. В свою очередь, оборудование станционной части в настоящее время можно представить состоящим из аппаратных и программных средств, распределенных в

пространстве. К линейной части относятся все возможные виды линий связи: волоконно-оптические, медные, беспроводные (радиоканал).

Отказы в работе инфокоммуникационной сети могут быть вызваны неисправностями как в станционной, так и линейной части сети. Причины отказов могут быть самыми разными, начиная от сбоя в работе аппаратных или программных средств, заканчивая человеческим фактором, перегрузками или форс-мажорными обстоятельствами.

В рамках данной работы был произведен анализ сбоев и источников простоев одного из операторов связи г. Красноярска Красноярского края за период с июня 2011 года по октябрь 2012 года. Сбои и источники простоев были классифицированы на 8 категорий, причем категории для большей ясности в зависимости от причины отказа подразделяются на подкатегории:

1. Сбои программного обеспечения:

1.1. Внутренние дефекты (ошибки).

1.2. Человеческий фактор.

1.3. По вине пользователя.

2. Отказ аппаратных средств:

2.1. Внутренние дефекты.

2.2. Природные явления.

2.3. Проблемы электропитания.

3. Электропитание.

4. Линейные повреждения:

4.1. Вандализм.

4.2. Природные явления.

4.3. Низкий уровень сигнала.

4.4. Обрыв линий связи.

4.5. Человеческий фактор.

5. Нарушение условий эксплуатации.

6. Плановые работы:

6.1. Связанные с программным обеспечением.

6.2. Связанные с аппаратной частью.

6.3. Связанные с линиями связи.

7. Прочие или причина не определена.

8. Перегрузка.

В категории «Сбои программного обеспечения (ПО)» выделено три подкатегории. К внутренним дефектам причислялись такие сбои, как отказ протоколов, зависание операционных систем оборудования, накопление ошибок на интерфейсах, которые приводили к зависанию этих интерфейсов.

Сбои, относящиеся к человеческому фактору, были выявлены следующие: некорректное конфигурирование оборудования, некорректная настройка различных протоколов, отключение ирИпк-интерфейсов (т.е. после этого оборудование становится недоступным для удаленного конфигурирования

и, соответственно, приводит к простою части сети, при этом восстановление возможно только после перезагрузки оборудования с консоли или по питанию), создание петель маршрутизации. Эти сбои связаны с невнимательностью обслуживающего персонала и недостаточностью знаний по эксплуатации данного типа оборудования.

Еще одной подкатегорией сбоев ПО являются сбои по вине пользователя. К таким сбоям приводят пользователи, от которых идет паразитный исходящий трафик, возможно из-за вирусов на ПК пользователя. Было несколько случаев подмены MAC-адреса пользовательского оборудования на MAC-ад-рес оборудования оператора. В этих случаях возникал так называемый flapping, который приводил к сбою на уровне IP.

Отказы аппаратных средств - это отказы оборудования систем передачи, коммутаторов, маршрутизаторов, оборудования уплотнения. По сути, данные отказы приводили к выходу из строя этого оборудования. К внутренним отказам относятся сбои из-за внутренних дефектов оборудования, старения элементов, схем и т.п. Природные явления, такие как грозы и дожди, также приводят к сбоям в работе оборудования. Сбои оборудования по причине отключения электроснабжения происходят, когда питание на оборудовании пропадает из-за сбоев электросети или плановых работ на электросети, а при обратном включении электроэнергии блоки питания оборудования не выдерживают скачка напряжения и перегорают. Такие сбои оператор связи не может контролировать, потому что, как правило, электросети обслуживает государственная организация.

В отдельную категорию выделены сбои по причине отсутствия электропитания. Не следует путать эти сбои с проблемами электропитания, которые приводили к выходу из строя оборудования. В эту категорию включались сбои, при которых оборудование не сгорало при обратном включении электричества. Длительность простоя в данном случае зависит только от длительности отсутствия питания.

В категории линейные повреждения отдельно выделена подкатегория вандализм. Вандализм - умышленная порча имущества линий связи. Похожая подкатегория - обрыв линий связи. К этой подкатегории причислялись отказы, связанные с нарушением целостности линий связи при выполнении каких-либо земляных работ. Эти обрывы не связаны с выполнением плановых работ и возникают из-за некомпетентности сторонних организаций или частных лиц, которые проводят земляные работы без согласования с оператором связи. Например, был случай, когда сотрудники сторонней организации проводили работы по рытью траншеи и оборвали оптический кабель оператора связи. Тогда на место выехала группа быстрого реагирования и зафиксировала данный факт. Строительная организация, проводившая эти мероприятия, понесла убытки, связанные восстановлением оптического кабеля.

К отказам по вине человека относятся неверные действия обслуживающего персонала при монтаже линий связи. Например, неверно был сварен оптический кабель, при подключении одного оптического патч-корда вытащили другой патч-корд из работающего интерфейса, при проведении ремонта в здании отключили линии связи. Низкий уровень сигнала возникает при старении («помутнении») оптического волокна со временем и при некачественной сварке.

Нарушение температурного режима является основной причиной отказов при нарушении условий эксплуатации. Происходит это в основном летом и зимой, когда температура либо возрастает до предельно допустимого значения, при котором возможна эксплуатация оборудования, либо, наоборот, становится слишком низкой. Как показала практика, работа оборудования уже критична при температуре в помещении машзала, равной 28 °С. Был случай, когда при температуре -15 °С уменьшался уровень сигнала в оптическом кабеле.

Также в статистике отмечены отказы при проведении плановых работ. Эти отказы возникали как при проведении плановых работ, связанных с программным обеспечением - в основном при настройке протоколов маршрутизации, обновлении операционных систем маршрутизаторов и т.п., так и при модернизации сети, когда возникали простои, связанные с аппаратной частью. Еще одной подкатегорией плановых работ является перенос линий связи, например при реконструкции автомобильной дороги.

К категории «Прочее или причина не определена» были причислены все те простои, которые нельзя было отнести ни к одной из перечисленных выше категорий. Одним из примеров может послужить пожар по неустановленной причине. Возможно, это было короткое замыкание. Также наблюдалось пропадание доступности объектов и её последующее восстановление через некоторое время, причем с электропитанием на объекте было всё в порядке.

Такая категория отказов как «Перегрузка» - это категория, в которой собирались простои при загрузке каналов связи на 100 %. В основном это очень редкие простои: за всё время наблюдения было выявлено всего четыре таких простоя. Причины данных простоев устранялись в оперативном порядке путем перенаправления трафика по обходным маршрутам.

В результате анализа статистики об отказах за указанный период времени были получены следующие результаты: количество отказов каждого типа (согласно приведенной выше классификации), а также общее время простоев и средняя продолжительность устранения отказа каждого типа (в часах) (табл. 1). Полученные результаты представлены в виде графиков и круговых диаграмм (рис. 1, 2). Ранее подобный анализ статистических данных об отказах сети связи проводился в работе [1], однако это было в 1997 году и относилось к телефонной сети общего пользования (ТфОП) США.

Таблица 1

Отказы по категориям и источникам простоев с июня 2011 года по октябрь 2012 года

Категория или источник отказа Количество Общая продолжитель- Средняя продолжитель-

случаев ность простоев, ч ность одного простоя, ч

Сбои программного обеспечения: 133 1181,47 8,88

внутренние дефекты 107 947,1 8,85

человеческий фактор 4 2,15 0,54

по вине пользователя 22 232,22 10,55

Отказ аппаратных средств: 41 7892,75 192,51

внутренние дефекты 28 629,5 22,48

природные явления 8 7092,48 886,56

проблемы электропитания 5 171,25 34,25

Электропитание 78 1518,85 19,47

Линейные повреждения: 40 1466,46 36,66

вандализм 4 124,12 31,03

природные явления 5 776,98 155,39

низкий уровень сигнала 8 356,3 44,54

обрыв линий связи 19 203,36 10,70

человеческий фактор 4 5,7 1,42

Нарушение условий эксплуатации 4 11,83 2,96

Плановые работы: 39 155,39 3,98

связанные с программным обес- 11 46,55 4,23

печением

связанные с аппаратной частью 15 48,01 3,20

связанные с линиями связи 13 60,83 4,68

Прочие или причина не опреде- 30 298,93 9,96

лена

Перегрузка 4 9,65 2,41

Всего 369 12535,83 33,97

Рис. 1. Круговая диаграмма процентного содержания (количества) отказов по категориям

б)

Рис. 2. Распределение общей (а) и средней (б) продолжительности простоев

по категориям

В результате анализа полученных данных можно сделать вывод, что главным источником, приводящим к наибольшему числу отказов, является программное обеспечение (ПО) оборудования. Сбои ПО происходили в 133 случаях или 36 % всех отказов. Следующим источником отказов, согласно статистике, является электропитание - 78 случаев и 21 % от общего числа. На третьем месте - отказ аппаратных средств (41 случай) и линейные повреждения (40 случаев), а также простои по причине плановых работ. На эти три источника отказов приходится примерно по 11 % процентов от всех отказов и простоев. На нарушение условий эксплуатации, перегрузку и ка-

тегорию «Прочее или причина не определена» приходится по четыре, четыре и 30 случаев соответственно.

Однако если посмотреть на общую продолжительность всех перечисленных выше категорий отказов, то на первом месте выступает отказ аппаратных средств (7892,75 ч), далее - проблемы с электропитанием (1518,85 ч) и линейные повреждения (1466,46 ч). Сбои ПО (1181,47 ч) располагаются на четвертом месте, категория «Прочее или причина не установлена» (298,93 ч) на пятом месте. Плановые работы заняли 155,39 часов. В конце списка располагается перегрузка каналов связи (9,65 ч) и нарушение условий эксплуатации (11,83 ч). Длительность последних категорий отказов, судя по обрабатываемой статистике, складывалась из простоев в зимний период времени и летний период, в пики минимальных отрицательных и максимальных положительных температур воздуха.

Огромное значение общей продолжительности простоев по причине отказа аппаратных средств получилось из-за того, что во время грозы сгорел один коммутатор на сети, а у оператора связи просто не было возможности его оперативно заменить. При этом абоненты, подключенные к данному коммутатору, пострадали не столь сильно, потому что на следующий день этих абонентов переключили на другой коммутатор в этом же доме. Данный простой длился 6928,5 часов, поэтому авторы серьезно обсуждали вопрос о возможности включения данной выборки в общую статистику. Кроме того, устранение отказов аппаратных средств является, как правило, более сложным процессом, особенно если отсутствует возможность оперативного переключения на резерв (замены отказавшей платы из комплекта запасных), и, соответственно, требует большего времени. Многие сбои программного обеспечения, напротив, легко устраняются перезагрузкой соответствующих устройств. Таким образом, наибольшее количество отказов программных средств вовсе не означает максимальное суммарное время простоя.

В заключение можно заметить следующее: сами по себе величины средней продолжительности устранения отказа и количества отказов определенной категории малоинформативны по причине отсутствия прямой связи с масштабом последствий для абонентов и упущенной прибыли. Иными словами, простой коммутатора сети доступа, обслуживающего 24 абонента, в течение 100 часов может иметь для оператора меньшие последствия, чем простой коммутатора магистральной сети, который передает трафик 5000 абонентов, даже в течение всего одного часа. В таком случае более информативным является произведение количества отказов на среднее время устранения одного отказа, которое в таблице указано как общая продолжительность простоев определенной категории отказов. Такое понятие, безусловно, позволяет более взвешенно учитывать последствия отказа для всей сети в целом, однако, также является неполным, поскольку не учитывает важность того или иного элемента сети и последствия его отказа соответственно.

Дело в том, что все элементы сети имеют разную важность с точки зрения их надежности: последствия отказа коммутатора уровня доступа, обслуживающего несколько десятков абонентов, несравнимы с отказом шлюзового маршрутизатора, обеспечивающего подключение всех абонентов к сети Интернет или важным внутрисетевым серверам. Даже если указанные элементы будут иметь одинаковое число отказов и одинаковую продолжительность времени их устранения (то есть общее время простоя), то последствия таких отказов будут совершенно разными. Именно введение нового понятия (коэффициента), учитывающего важность отдельного элемента гетерогенной сети, по мнению авторов, позволит связать теоретические понятия теории надежности, такие как вероятность безотказной работы или коэффициент готовности элемента сети, либо вероятность связности узлов сети, с практическими величинами, понятными современному инженеру, занимающемуся эксплуатацией сети связи. В частности, данный коэффициент позволит оценить ту упущенную выгоду, которую оператор связи мог бы получить путем устранения (или уменьшения последствий) некоторых категорий отказов. Дело в том, что современному оператору сети связи малоинтересны такие цифры, как коэффициент готовности сети связи, равный 0,95 или 0,995, однако величина прибыли, которая безвозвратно теряется по причине возникающих в сети отказов, не говоря уже о потере привлекательности оператора услуг связи в глазах клиентов, являются для него более значимыми и весомыми доводами. Таким образом, именно разработка интегрального показателя надежности сети связи, основанного на известных элементарных показателях надежности, позволит подойти к решению проблемы надежности современных инфокоммуникационных сетей связи с практической точки зрения, а значит, приблизить теорию к практическим аспектам функционирования сети связи.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Список литературы:

1. D. Richard Kuhn. Sources of failure in the Public Switched Telephone Network // IEEE Computing Practices. - 1997. - April. - Р. 31-36.

2. Rec. G.602. Reliability and availability of analogue cable transmission systems // ITU-T. - 1998. - November. - 5 p.

3. Rec. G.911. Parameters and calculation methodologies for reliability and availability of fibre optic systems // ITU-T. - 1997. - April. - 39 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.