Научная статья на тему 'Применение методов семантического анализа текстовой информации'

Применение методов семантического анализа текстовой информации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
684
91
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕМАНТИЧЕСКИЙ АНАЛИЗ / ТЕКСТОВАЯ ИНФОРМАЦИЯ / АНТИПЛАГИАТ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мошина О. В., Гордеева О. А.

Статья посвящена обзору методов обнаружения и выделения заимствований в текстовых данных. Данные алгоритмы используются для поиска идентичных или синонимичных фрагментов текста в анализируемом документе и базе текстов. В статье также приведены примеры систем поиска плагиата. Рассмотренные методы и системы будут полезны для широкого круга исследователей, научных сотрудников и инженеров, чья деятельность связана с проверкой текстов на выявление заимствований.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мошина О. В., Гордеева О. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение методов семантического анализа текстовой информации»

P{w(t) = n} = exp(-Ät)

(It )n

n!

(6)

На основе системы сигнализации Softswitch/IMS с мгновенным восстановлением, вероятность безотказной работы в течение малого интервале времени t может быть представлена в виде [3]:

Рвбр(tm) = 1 + o(tm) , (7)

где o(t ) — определяет члены более высокого порядка малости, чем At .

С учетом (7), вероятность отказа в системе сигнализации выражается как

Peo (t) =Л-tm + o(tm) (8)

Проведенные исследования показывают [1, 2], что для практических целей, оценок числа отказов на большом интервале времени в системе сигнализации можно использовать тот факт, что величина w(t) асимптотически нормальна при t . В этом случае численные вероятностные характеристики случайной величины выражается следующим образом:

E[w(t)] = t / E[Q], D[w(t)] = a2 ~ ,

To

a2 = D[Q] , i = 17П (9)

С целью практического расчета показателей надежности системы Softswitch/IMS с мгновенным восстановлением, получаем нижеследующее выражение, которые описывается стандартом нормального закона распределения [4]:

(imp\W{t)~t/T° <А'i = (1 /2жу1 f exp(-f2 /2)dt , (10)

(тф/Т>5 J

Выражения (10) определяет функцию стандартного нормального закона распределения Ф(Х) имеющего математическое ожидание E[Q] = 0 и дисперсию

D[Qi ] = 1 •

На основе исследования получены аналитические выражения, произведены численные расчеты для оценки показателей надежности системы Softswitch/IMS. Допустим, некоторые элементы системы Softswitch/IMS имеет T0= 50 ч, a = 30 ч, и требуется с достоверностью 0,95 оценить число запасных элементов системы сигнализации, необходимое для работы в течение времени t = 4000 час.

По таблице квантилей нормального распределения найдем квантиль уровня 0,95, т.е. U095 , удовлетворяющее условию Ф(Ро 95) = 0,95 . Получим, что

U0 95 = 0 ,84 . Тогда

вероятностью 0, 95 выполня-

ется следующей неравенство t

w(t) < [- + /TojT~o] = 45

To

Полученные числовые значения на основе расчета аналитических выражений показывает, что нормальное функционирование системы сигнализации Softswitch/IMS при использовании эффективной стратегии восстановления минимум необходимо иметь в системе 4 5 функциональных элементов.

Таким образом, в результате исследование мультисервисных сетей связи получены аналитические выражения, позволяющие оценить показатели надежности системы Softswitch/IMS при использовании эффективной стратегии восстановления.

ЛИТЕРАТУРА

1. Ибрагимов Б.Г. Мультисервисные сети связи. Системы и протоколы сигнализации. LAP LAMBERT Academic Publishing, Verlag-GmbH. Deutschland. 2016. - 260 с.

2. Садыхов Г.С., Бабаев И.А. Расчетные формулы, оценки и предельные значения функций готовности и простоя восстанавливаемых технических объектов// Надежность и качество сложных систем. № 1 (13), 2016. - c.3 - 14.

3. Ибрагимов Б.Г., Гусейнов Ф.И., Ибрагимов Р.Ф.Оценка некоторые показатели качества функционирования системы сигнализации//Труды Международного Симпозиума «Надежность и Качество», II-том. Пенза, ПГУ. 2015. - с.199 - 201.

4. Нетес В.А. Основы теории надежности. Изд. 2-е, перераб./МТУСИ. - М ., 2014. - 74 с.

5. Ибрагимов Б.Г., Гасанов А.Г., Ибрагимов Р.Ф. Исследование отказоустойчивости системы сигнализации при использовании подсистемы IMS // Труды Международного Симпозиума «Надежность и Качество», II-том. Пенза, ПГУ. 2016. - с.43 - 45

УДК 004.021, 81-322, 004.65 Мошина О.В., Гордеева О.А.

ФГАОУ ВО «Самарский национальный исследовательский университет имени академика (Самарский университет)» Самара, Россия

ПРИМЕНЕНИЕ МЕТОДОВ СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ

С.П.Королева

Статья посвящена обзору методов обнаружения и выделения заимствований в текстовых данных. Данные алгоритмы используются для поиска идентичных или синонимичных фрагментов текста в анализируемом документе и базе текстов. В статье также приведены примеры систем поиска плагиата. Рассмотренные методы и системы будут полезны для широкого круга исследователей, научных сотрудников и инженеров, чья деятельность связана с проверкой текстов на выявление заимствований.

Ключевые слова:

семантический анализ, текстовая информация, антиплагиат

Введение. С развитием и повсеместным проникновением сети Интернет появилась возможность свободного доступа к огромным массивам информации. Большое количество онлайн-библиотек, книг, пособий и других Интернет-ресурсов способствовали бурному росту некорректных заимствований и прямого плагиата в различных сферах человеческого общества - образовании, промышленности, научном сообществе.

Плагиат - это незаконное использование под собственным именем (полностью или частично) чужого произведения или изобретения без указания источника заимствования [1]. Плагиат бывает двух видов [2]:

- дословное изложение чужого текста,

- парафраза, или завуалированный плагиат, - замена отдельных слов, выражений их синонимичными аналогами с сохранением общего содержания заимствованного текста.

На сегодняшний день проблема плагиата имеет высокую актуальность. И для решения задачи по обнаружению плагиата применяют специализированные программы, определяющие процент заимствования текстов.

В данной статье проанализированы существующие решения (методы и системы) проверки текстовой информации на наличие плагиата.

Системы обнаружения плагиата.

Основное назначение системы обнаружения плагиата - проверка текстов на заимствования, то есть сравнение текстов на наличие общих элементов - строк или фраз. На сегодняшний день существует большое количество программ, проверяющих текст на наличие плагиата. Выделяют три основных вида таких систем [3]:

1. «Онлайновые» системы - поиск оригинальных источников в сети Интернет с помощью интеграции

с поисковыми системами. К таким системам относятся, например, сервис www.miratools.ru (рисунок 1), Автор-NET, «Plagiarism-Detector Personal», «АУРА-Текст» и другие.

2. «Оффлайновые» системы - поиск дубликатов в пределах локальной коллекции. Примерами таких систем являются «AntiPlagiarist» (рисунок 2), «AntiCutAndPaste, «WCopyFind» (рисунок 3).

3. Универсальные системы, формирующие собственные коллекции текстов и осуществляющие поиск дубликатов на основании текстов этой коллекции. К системам третьего вида относятся «Детектор плагиата» (рисунок «Антиплагиат» (рисунок 5),

4) , «Плагиат «CopyCatch».

Информ»,

Рисунок 2 - Экранная форма приложения «AntiPlagiarist»

Рисунок 3 - Экранная форма приложения «WCopyFind»

' АвЮМГкМрММММ

e,>tn &.1J H*cTpoAvi ne^xw»

Труды Международного симпозиума «Надежность и качество», 2017, том 1

-

Г> Г* ■г

Ш'Ш им

О ЧУ

шщ ,

Ф«Я« • Ф*Рш Ф«йл • Пат»« Ф**л ■ И кг «смет Пука Файп П*> о П*»« Интернет Степ Н ветре*».*

Таблицы | Сравниваемые файлы | Результаты сравнения | Протокол работы программы | Осмовмуо таблицм | Исходны« и сраоиимвмыо документы | Но проэмалюиромммые документы

Документы найденные в Интернете (128) проверено (62)

№ URL Hstotmyo в Иитпие»е | 06мм ftbl 'Pother Стат* *

60 Nip сhtt !'J-V»(хм/fftnngj1 QjH*» rt HTML Ofeteor»«

61 Nip medafat (u/vobVki^Vn^^AH^IM^LEWINAmmM 212 HTML OiW»5or»i

62 Nip //»»» budi!««l«l8UO/Fi«TASy^.15fANIASY/OMON.RA cHM 218 HTML 06piüot«I J

63 htlp /Акт neodtu/pHevwi/omcrta rtn 193 HTML Необработан

64 Nip Miwroojo nerod'w'OteflOvKMJmcrfl* Ыя4 230 HTML Необработан

65 Nip HwriM» neod u4>el9vn.0U0H.RA)M 255 HTML Необработан Ii

Таблица сравнения документов (62)

Адрес СДОММ6МУ О «вку«ИГ« Колете

Адрес

51 C\Tm»A2\TXTSC_ftopa*Ftoi_JS0T«<aopn« hilp t/нчм ttrtv-, rti.'UoiM<c*5/PEl£VlN/Yjic 7 18 1856 <47 340 32 331

52 С\ТтсгЛ2\ТХТ\С..Ргодм»Г1м_Дета*тсрП<» (*p Mite« rwtttnetiuAdvyVPeb'PcOroS Nie 29 33 1855 812 732 36 729

53 СЛТпет\2\ТХТ\С..РНа4»Пн_Х1«П*Щ>П|| Wlp ¿Mayältel лИЬ/>26 99 93 1855 1884 1851 2 1851

54 С\ТгпоЛ2\ТХТ\С_Рю®а»Нм_Дете«те*>Г|л hnp//*«fet<ronedu**1irt0*3MON_Rft.H«i 81 30 1SS5 2017 1673 ia> 1650

55 С\ТлогЛ2\ТхТ\С_Рюд»в®Ив1_Д»та«»о(>Пл hup tlx wwMiuwrt wn/t^tn/^лы pH*. 1 3 1855 47 56 и 50

56 С\ТтопУ2\ТХТ\С_Ргод>а«Р4м_Д»т(*тсрП|| Nip7/xio«ttUimfitc«m/c^WtfK>Me«4pUn 2 4 1855 14« 85 15 75

57 С \Tm«A2\TXT\C_Progiain riei_£er«aci> flti wsp /?*conJzf MihM** рМл 1 4 1855 146 80 16 68

58 C\Tmcn\2\TXTSC„PiofliaitFies_JleT«ao(>nfl Нф/Awww Jar/ebwrillorglu^afevh/PifBtvft 80 83 18155 2009 1656 123 1633

J J

ПрСММИОфОМнО 0 К«умСИ1О0. Злгр^**«fcj'i ДСУИОП: http://**i.wwlrurt)d»**i/aWfw*Mro

Рисунок 4 - Экранная форма системы «Детектор плагиата»

Рисунок 5 - Экранная форма системы «Антиплагиат»

Системы обнаружения заимствований используют различные математические методы поиска - численные, статистические и пр.

Методы обнаружение плагиата.

Метод накопительных сумм [3]. Метод кумулятивных сумм для отслеживания изменения отклонений стилометрических характеристик текста основан на выполнении следующих этапов:

1. Выбор пары характеристик (функций предложения).

2. Подсчет предложений для каждой пары-функции.

3. Вычисление средних значений характеристик для каждой пары-функции.

4. Для каждого предложения вычисление отклонения значений характеристик от средних значений - начиная с нуля, (с прибавлением отклонения остальных предложений) строится накопительная сумма отклонений.

5. На основании расчетов построение масштабированного графика (по оси абсцисс рассматриваются текущие предложения, по оси ординат -значения кумулятивных сумм для каждой характеристики).

6. Сопоставление текстов на однородность по виду графиков (в случае однородности графики практически совпадают).

Преимущества данного метода заключаются в хронологическом отклонении (отображении накопительной суммы) и возможном использовании для

определения плагиата в текстах небольших объемов. Главный недостаток метода - интерпретация графиков использование регрессионного анализа и машинного обучения.

Модифицированный метод накопительных сумм

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[3]. Рассмотрим шаги модифицированного метода:

1. Деление текста на фрагменты (предложения, наборы слов, ограниченные знаками препинания, либо фрагменты определенной длины)

5 = {ад,...,^} (1)

2. Перед определением характеристик текста (2), сравнение попарно признаков текста и их комбинаций

И = {И,, И2,.., Нн} (2)

3. Расчет матрицы накопительных сумм

е={ад,..,е^} (3)

N / —ч

а, J=Ш J - ъ) 1=1

где - значение накопительной суммы ^го фрагмента 5 и j-ой характеристики Hj ;

^ - численное значение характеристики фрагмента 5 ;

hj - среднее значение j-ой характеристики Hj в тексте;

N - количество фрагментов в тексте.

Труды Международного симпозиума «Надежность и качество», 2017, том 1

4. Регрессионный анализ - нахождение для каждой пары повторений матрицы Q уравнения регрессии (общее количество уравнений M = K!(2(K -2)1)

5. Выделение потенциально неоднородных фрагментов - формирование матрицы

G = {GU,..., Gn

где

принимает значения ноль или единица

(в случае единицы фрагменты текста S потенциально неоднородные).

6. Голосование - векторы, полученные в пункте 5, подаются на вход классификаций по каждой паре признаков, получается вектор оценок (5). Если

значение итоговой оценки V превышает итоговое

пороговое значение T , фрагмент классифицируется

как неоднородный (иногда при принятии решения учитывается вес (6)).

V = {VI,...,Vn } (5)

W = {Wi,...,Wm } (6)

7. Удаление неоднородных фрагментов и повторение всех шагов, пока текст не классифицируется как однородный.

Метод «шинглов» [4]. Этапы сравнения «подозрительного» текста:

1. Канонизация текста - приведение текста к единой нормальной форме (очищение от предлогов, союзов, знаков препинания, тегов HTML и прочего). Разрешается приведение существительных к именительному падежу, а также в большинстве случаев предлагается удаление прилагательных (т.к. они не несут смысловую нагрузку).

2. Разбиение на шинглы - выделение в тексте последовательности слов, идущих друг за другом по несколько слов (длина шингла). Выборка происходит внахлест.

3. Вычисление хэш-значений шинглов.

4. Случайная выборка восьмидесяти четырех значений контрольных сумм.

5. Сравнение и определение результатов.

Преимущества данного метода - алгоритм дает

полную и исчерпывающую информацию о схожести текстов [5]. Основной недостаток заключается в том, что алгоритм рассматривает набор слов с равномерным распределением, а большинство текстов имеет тематическую направленность, т.е. в данных текстах присутствуют ключевые слова и словосочетания i,j .

Метод «мегашинглов» (быстрого сравнения). Модификация метода «шинглов» представляет документ в виде сигнатуры-вектора фиксированной длины, не зависящей от длины (количества слов) документа [6]. В этом случае сравнение слов сведено к сравнению координат соответствующих векторов. Методы «шинглов» и «мегашинглов» для вычисления контрольных сумм используют алгоритм Карпа-Рабина; сравнение множества шинглов может производиться двумя способами:

1. Сходство между документами Tj ,T2

res(T T ) = ST) "

( 15 2) |S(Ti) иS(T2) '

(7)

где S (Т) - множество шинглов документа Т.

2. Степень вхождения одного документа в другой

cont(T j ,T2 )■■

\S (T) n S (T2) ' \S(Ti)\

(8)

Метод корреляций [7]. Метод применяется для обнаружения автоматически сгенерированных или написанных человеком текстов с помощью выявления корреляций соседних слов. Функция корреляции измеряет «сочетаемость» слов и вычисляется следующим образом:

А , А,.,

(9)

cor(i, j) = Л——

A A

где А1 ] - матрица, в которой на пересечении ^ ой строки и j-ого столбца стоит частота встречаемости пары слов с номерами I,] ; А - суммы по строке;

Л,

суммы по столбцу.

I-Match метод

_ Метод основан на лексических

основная идея - вычисление дак-

Модифицированный метод «шинглов» с использованием обратно индексированных файлов. В данном алгоритме происходит анализ текста как набора нормально распределенных слов относительно тематического ядра. Основное преимущество - вычисление схожести относительно основной тематики текста.

принципах [8] тилограммы представления результатов исходного документа. Данный метод реализует следующие этапы поиска плагиата:

1. Построение словаря L (включает слова со средними значениями IDF , то есть содержит все слова за исключением слов с большими и маленькими значениями).

2. Создание множества U различных слов.

3. Вычисление пересечения UnL .

4. Вычисление минимального порога - если размер пересечения превышает этот порог, то упорядочивание списка слов UnL .

5. Вычисление сигнатуры I-Match - хеш-функции SHA1. Два документа считаются одинаковыми, если сигнатуры I-Match совпадают.

Преимущество данного алгоритма - он имеет хорошую вычислительную способность. Недостаток -является неустойчивым к изменению содержания.

Модификация I-Match метода. Чтобы устранить недостаток (неустойчивость) была добавлена техника многократного случайного перемешивания основного словаря [9]:

1. Вместе с основным словарем L происходит создание словарей L¡ ,...,LK - словари, образованные из словаря L путем случайного удаления закрепленной части p слов (закрепленная часть составляет 30-35% исходного объема L ).

2. Вычисление (K+1) I-Match сигнатуры для каждого документа - построение вектора размерности (K+1). Если совпадает хотя бы одна из его координат, то документы считаются одинаковыми.

Базы данных как средство реализации поиска плагиата

Некоторые методы обнаружения плагиата (в частности метод «шинглов») основаны на создании «отпечатка» документа, с помощью которого возможна быстрая идентификация совпадающей части попарно сравниваемых документов [10]. К данным алгоритмам относят алгоритм Карпа-Рабина, алгоритм Винновинг и другие.

Рассмотрим алгоритм поиска на примере модуля обнаружения плагиата CROT системы Moodle с использованием базы данных (БД):

1. Текст очищается от знаков препинания и преобразуется в одну строку.

2. Выбираются шинглы методом бегущего окна -для ускорения индексирования рассчитываются хеш-функции.

3. Выбранный шингл помещается в БД (хеш-документ - позиция хеша в документе). Одинаковые шинглы будут генерировать одинаковые триады в БД.

Поиск по большому объему триад в БД является достаточно затруднительным, поэтому рекомендуется использовать адаптированные алгоритмы, а также применять горизонтальное масштабирование -возможность распределения узлов по разным вычислительным узлам.

Таким образом, структура проверки на плагиат без проверки по сети Интернет выглядит следующим образом:

1. Выбор документа.

2. Подготовка документа к проверке.

3. Проверка текста с использований образцов во внутренней базе образцов и источников.

4. Выдача отчет о проверке

Заключение. В данной работе рассмотрены некоторые алгоритмы поиска заимствования, а также возможность работы с базой данных для быстрой идентификации совпадающих значений. Несмотря на

наличие как платных, так и бесплатных систем поиска плагиата, решение проблемы «нечеткого дубликата», который мы понимаем как частично или полностью заимствованный документ, является актуальной задачей на сегодняшней день.

В дальнейшем предполагается провести сравнение алгоритмов поиска заимствований, выбрать наиболее оптимальные из них, и провести вычислительные эксперименты с использованием автоматизированной системы.

ЛИТЕРАТУРА

1. Толково-энциклопедический словарь русского языка [Электронный ресурс] // Slovar.cc. 2012. URL: https://slovar.cc/rus/tolk-enc/14 624 80.html (дата обращения 23.12.2016).

2. Альгирдас Аушра. Научная электронная библиотека как средство борьбы с плагиатом // Образовательные технологии и общество. 2006. Том 9. №2. С. 270-276.

3. Романов, А.С.. Модификация метода накопительных сумм для проверки однородности текста и выявления плагиата // А.С. Романов, Электронные средства и системы управления. 2013. № 2. С. 30-38.

4. Алгоритм шинглов [Электронный ресурс] // Википедия. Свободная энциклопедия. URL: https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_%D1%88%D0%B8%D0%BD%D0%B3 %D0%BB%D0%BE%D0%B2 (дата обращения 23.12.2016).

5. Модифицированный алгоритм шинглов // OrionXL. URL: http://orionxl.ru/modificirovannyj-algoritm-shinglov.html (дата обращения 19.12.2016).

6. Загорулько, Ю. А. Выявление нечетких дубликатов при автоматическом формировании тематических коллекций документов на основе web-публикаций // Ю.А, Загорулько, Н. В. Саломатина, А. С. Серый Е. А. Сидорова, В. К. Шестаков. Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2013. Том 11. № 4. С. 59-70.

7. Береснева, Д.Д. Краткий обзор методов выявления искусственных текстов [Электронный ресурс] // URL: http://conf58.mipt.ru/static/reports_pdf/1020.pdf (дата обращения 24.12.2016).

8. Астапова, О.П. Исследование и разработка методов поиска плагиата в многоязычных корпусах текстов [Электронный ресурс] // URL: http://seminar.at.ispras.ru/wp-content/uploads/2012/07/Astapova-thesis1.pdf (дата обращения 24.12.2016).

9. Васин А.Д. Разработка системы анализа текста на наличие заимствований [Электронный ресурс] // А.Д. Васин, Д.С.Бургонский, URL: http://36.msiu.ru/files/203-xioamehtvkgs.pdf (дата обращения 23.12.2016).

10. Цхай, А.А. Обнаружение плагиата с использованием нереляционных баз данных // А.А.Цхай, С.В.Будаков, С.В.Мурзинцев, Л.С.Ким, Вестник алтайской науки. 2015. №1. С. 280-285.

УДК 615.035.4

Кудрина М.А., Дулимова И.Е.

ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П.Королева», Самара, Россия

СКРЫТИЕ ИНФОРМАЦИИ В АУДИОФАЙЛАХ МЕТОДАМИ СТЕГАНОГРАФИИ

Разработана автоматизированная система встраивания данных, позволяющая осуществлять встраивание информации в файл-контейнер и извлечение встроенной информации. Исследована эффективность методов стеганографии при встраивании текстовой информации в аудиофайлы и проведен сравнительный анализ с помощью разработанной системы. Для сравнения эффективности методов при встраивании разных объемов данных в качестве характеристики использовалось количество информации и степень отклонения от исходного сигнала. В системе реализованы следующие методы стеганографии: метод наименее значащих битов, метод фазового кодирования. В системе реализовано встраивание текстовой информации в аудиофайлы, также визуализирован механизм извлечения встроенного сообщения. Определены оптимальный объем данных, встраиваемых в аудиофайл, и степень отклонения от исходного файла для решения задачи эффективного встраивания.

Ключевые слова:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

стеганография, аудиофайл, метод наименее значащих битов, метод фазового кодирования.

В настоящее время как никогда существует острая необходимость защиты информации от несанкционированного доступа. Существует два основных решения этой задачи: криптография и стеганография. В криптографии основной целью является скрытие содержимого сообщений за счет шифрования данных. В то время как в стеганографии скрывается сам факт существования тайного сообщения.

Общей чертой различных способов стеганографии является то, что скрываемое сообщение встраивается в обычный, не вызывающий подозрение объект. После чего данный объект открыто доставляется адресату. В криптографии наличие шифрованного сообщения само по себе создает угрозу целостности информации, при стеганографии наличие скрытого сообщения остается незаметным.

Стеганография - это метод организации связи, который скрывает само наличие связи. Общей чертой различных способов стеганографии является то, что скрываемое сообщение встраивается в обычный, не вызывающий подозрение объект. После чего данный объект открыто доставляется адресату. В криптографии наличие шифрованного сообщения само по себе создает угрозу целостности информации, при стеганографии наличие скрытого сообщения остается незаметным [1].

Сообщение, факт передачи которого хотят скрыть, называют секретным сообщением. Файл, не

содержащий секретного сообщения, называется пустым контейнером, а файл с включенным сообщением - заполненным контейнером. Стеганографический канал (стегоканал) - канал передачи стегоконтей-нера. Ключ (стегоключ) - секретный ключ, нужный для сокрытия стегоконтейнера.

Предполагается, что при помощи стеганографи-ческого алгоритма секретное сообщение встраивается в контейнер так, чтобы не было заметных изменений этого файла. Контейнер пересылается по открытому каналу связи, не вызывая подозрений. Секретное сообщение извлекается получателем при помощи специального алгоритма. В качестве контейнеров могут быть использованы любые файлы, для которых придуманы такие алгоритмы. Наибольший интерес для использования в качестве контейнеров представляют файлы распространенного типа содержимого, например, фотографии или

аудиофайлы.

Звуковые и видеофайлы, как правило, довольно избыточны, поэтому незначительное изменение потока данных не приводит к заметным искажениям. Так как необходимость передачи аудиофайлов через сеть в последнее время очень возросла, можно сделать вывод о том, что звуковые файлы можно успешно использовать в качестве стегоконтейнера.

Тема сокрытия информации методами стеганографии является актуальной, так как необходимость

i Надоели баннеры? Вы всегда можете отключить рекламу.