Научная статья на тему 'ИССЛЕДОВАНИЕ И РАЗРАБОТКА АЛГОРИТМОВ АНАЛИЗА НЕСТРУКТУРИРОВАННОЙ И СЛАБОСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ'

ИССЛЕДОВАНИЕ И РАЗРАБОТКА АЛГОРИТМОВ АНАЛИЗА НЕСТРУКТУРИРОВАННОЙ И СЛАБОСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
49
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕСТРУКТУРИРОВАННАЯ ИНФОРМАЦИЯ / СЛАБОСТРУКТУРИРОВАННАЯ ИНФОРМАЦИЯ / МЕТОД СААТИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рыбанов А.А., Гнатюк Е.С.

В статье рассмотрены понятия и представлены результаты сравнительного анализа по методу Саати алгоритмов анализа неструктурированной и слабоструктурированной информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STUDY AND DEVELOPMENT OF ALGORITHMS ANALYZING UNSTRUCTURED AND SEMISTRUCTURED INFORMATION

The article deals with the concepts of unstructured and weakly structured information. The results of a comparative analysis using the Saati method for analyzing unstructured and weakly structured information are presented.

Текст научной работы на тему «ИССЛЕДОВАНИЕ И РАЗРАБОТКА АЛГОРИТМОВ АНАЛИЗА НЕСТРУКТУРИРОВАННОЙ И СЛАБОСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ»

http://www.sberbank.com/ru/investor-relations/reports-and-publications/ifrs

4. Наумова М.Я., Путятинская Ю.В. Роль коммерческого банка в проектном финансировании. [электронный ресурс]. Режим доступа URL: http: //novainfo .ru/articl e/2724

5. Перечень россисйких кредитных организаций и международных финансовых организаций, отобранных для участия в Программе поддержки инвестиционных проектов, реализуемых на территории Российской Федерации на основе проектного финансирования. Министерство экономического развития РФ. [электронный ресурс]. Режим доступа URL: http://economy.gov.ru/minec/activity/sections/CorpManagment/investprojectprogr amme/banks/

6. Родионов Е.Б., Исламова Э.И. Проектное финансирование в российских условиях. [электронный ресурс]. Режим доступа URL: https://nauchforum.ru/studconf/social/iii/795

7. Россия атакует ЕБРР. РБК. [электронный ресурс]. Режим доступа URL: http: //www.rbc.ru/newspaper/2016/11/18/582dea9d9a7947b30e45a311

8. Сотрудничество России с Группой Всемирного банка. Министерство иностранных дел России. [электронный ресурс]. Режим доступа URL: http://www.mid.ru/rossia-v-gruppe-20-rossia-i-specializirovannye-mezdunarodnye-ekonomiceskie-organizacii-mvf-vto-oesr-fseg-opek-i-dr-/-

/ asset_publisher/uFvfWV mCb4Rl/ content/id/2149294

9. Статья «ЕБРР отвернулся от России». Официальный сайт портала о банковском бизнесе [электронный ресурс]. Режим доступа URL: www.bankir.ru

10. Участие банков в проектном финансировании. Иностранные инвестиции. [электронный ресурс]. Режим доступа URL: http: //polbu.ru/igonina_investments/ch3 0_all. html

УДК 004

Рыбанов А.А., к техн. н. доцент, заведующий кафедрой кафедра «Информатика и технология программирования»

Гнатюк Е. С. студент 4 курса

факультет «Инженерно-экономический факультет» Волжский политехнический институт

Россия, г. Волжский ИССЛЕДОВАНИЕ И РАЗРАБОТКА АЛГОРИТМОВ АНАЛИЗА НЕСТРУКТУРИРОВАННОЙ И СЛАБОСТРУКТУРИРОВАННОЙ

ИНФОРМАЦИИ В статье рассмотрены понятия и представлены результаты сравнительного анализа по методу Саати алгоритмов анализа неструктурированной и слабоструктурированной информации.

Ключевые слова: неструктурированная информация,

слабоструктурированная информация, метод Саати.

Rybanov AA, Ph.D., Associate Professor, Head of Department Head of the Department "Computer technology and programming"

Volzhsky Polytechnical Institute Russia, Volzhsky Gnatyuk E. S. student

4 year, the faculty of "Engineering and the Faculty of Economics"

Volzhsky Polytechnical Institute Russia, Volzhsky

STUDY AND DEVELOPMENT OF ALGORITHMS ANALYZING

UNSTRUCTURED AND SEMISTRUCTURED INFORMATION.

The article deals with the concepts of unstructured and weakly structured information. The results of a comparative analysis using the Saati method for analyzing unstructured and weakly structured information are presented.

Keywords: unstructured information, semistructured information, Saati method.

Неэффективное управление информацией ведёт к увеличению рисков для различных форм бизнеса: хранение персональных данных и прочей конфиденциальной информации на общедоступных информационных ресурсах, появление подозрительных пользовательских зашифрованных архивов, нарушения политик доступа к важной информации и т.д.

В этих обстоятельствах умение качественно анализировать информацию и оперативно реагировать на любые несоответствия её хранения политикам и требованиям бизнеса является ключевым показателем зрелости информационной стратегии организации.

Слабоструктурированная информация (ССИ) — это данные, для которых определены некоторые правила и форматы, но в самом общем виде. Например, строка с адресом, строка в прайс-листе, ФИО и т. п. В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа.

К неструктурированной информации (НИ) относятся данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио). Эта форма представления данных широко используется, например, в Интернете, а сами данные предоставляются пользователю в виде отклика поисковыми системами.

Проведем сравнение алгоритмов анализа неструктурированной и слабоструктурированной информации. К таким алгоритмам относятся следующие:

- алгоритмы поиска ассоциативных правил;

- алгоритмы кластеризации (методом агломерации, деления);

- алгоритмы задач классификации и регрессии (в т.ч. прогнозирование временных рядов);

- алгоритмы построения нейросетей и генетические алгоритмы.

В качестве критериев для сравнительного анализа выберем следующие:

1)А1 - точность разбиения на группы;

2)А2 - точность прогноза;

3)А3 - точность нахождения закономерностей;

4)А4 - анализ плохоформализуемых данных;

5)А5 - нахождение скрытых закономерностей данных.

Для определения весов критериев воспользуемся аналитической иерархической процедурой Саати[4]. Правила заполнения матрицы парных сравнений представлены в таблице 1.

Таблица 1. Значения коэффициентов матрицы парных сравнений

Ху Значение

1 /-ый иу-ый критерий примерно равноценны

3 /-ый критерий немного предпочтительнееу-го

5 /-ый критерий предпочтительнееу-го

7 /-ый критерий значительно предпочтительнее у-го

9 /-ый критерий явно предпочтительнее у-го

Матрица парных сравнений, средние геометрические и веса критериев представлены в таблице 2.

Таблица 2. Матрица парных сравнений, средние геометрические и веса

А1 А2 А3 А4 А5 Среднее геометрическое Веса критериев

А1 1 1/3 3 7 5 0,93 0,14

А2 3 1 5 9 7 3,94 0,40

А3 1/3 1/5 1 5 7 1,18 0,18

А4 1/7 1/9 1/5 1 5 0,44 0,06

А5 1/5 1/7 1/7 1/5 1 0,24 0,04

Сумма 6,73 1,00

Диаграмма весовых коэффициентов для критериев А1, А2, А3, А4, А5 представлена на рис. 1.

Рис. 1. Весовые коэффициенты критериев качества

Проведем проверку матрицы попарных сравнений на непротиворечивость^, 5].

Суммы столбцов матрицы парных сравнений:

R1=4,68; R2=1,79; R3=9,34; R4=15,34; R5=25.

Путем суммирования произведений сумм столбцов матрицы на весовые коэффициенты альтернатив рассчитывается вспомогательная величина L = 5,23. Индексом согласованности (CI - Consistency Index)

L- N

CI = TT-'Г= 0.2 N - 1

Величина случайной согласованности (RI - Random Index) для размерности матрицы парных сравнений: RI = 1.12.

Отношение согласованности (CR - Consistency Ratio)

CI

CR = — = 0.18

0.18 не превышает 0.2, поэтому уточнение матрицы парных сравнений не требуется[3].

Используя полученные коэффициенты определим интегральный

показатель качества для алгоритмов:

1. Алгоритмы поиска ассоциативных правил.

2. Алгоритмы кластеризации (методом агломерации, деления).

3. Алгоритмы задач классификации и регрессии (в т.ч. прогнозирование временных рядов).

4. Алгоритмы построения нейросетей и генетические алгоритмы. Выберем категориальную шкалу от 0 до 7 (где 0 - качество не

удовлетворительно, 7 - предельно достижимый уровень качества на современном этапе) для функциональных возможностей программных продуктов.

Значения весовых коэффициентов ш соответствующие

функциональным возможностям продуктов:

1. анализ слабоструктурированной информации: а2 = 0.4;

2. анализ неструктурированной информации: а1 = 0.36;

3. классификация документов по представленным категориям: а3 =

0.15;

4. генерация тематической структуры исследуемого текста: а4 = 0.06;

5. извлечение информации по конкретным объектам: а5 = 0.03. Определим (по введенной шкале) количественные значения

функциональных возможностей XI] (таблица 3). Вычислим интегральный

показатель качества для каждого программного продукта[3]. _Таблица 3. Интегральные показатели качества_

Критерии Веса Алгори тмы поиска ассоци ативны х правил Алгорит мы кластери зации Алгоритмы задач классификаци и и регрессии Алгоритмы построения нейросетей и генетически е алгоритмы Базовые значения

Точность

разбиения на 0,14 6 6 4 6 4,4

группы

Точность прогноза 0,58 0 0 0 0 0

Точность

нахождения закономерно 0,18 3 3 5 7 3,6

стеи

Анализ

плохоформа лизуемых 0,06 0 0 0 7 1,4

данных

Нахождение

скрытых закономерно 0,04 5 3 7 7 4,4

стей данных

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Интегральный 1,54 1,47 1,69 2,77 1,49

показатель качества Q

где интегральный показатель качества дляу-го

программного средства[4].

Построим лепестковую диаграмму интегрального показателя качества каждого программного продукта (рис. 2).

Алгоритмы построения

нейросетей и генетические алгоритмы

Алгоритмы поиска ассоциативных правил 3,00

Алгоритмы кластеризации

Алгоритмы задач классификации и регрессии

Рис. 2. Лепестковая диаграмма интегральных показателей качества алгоритмов

Лепестковая диаграмма значений характеристик качества функциональных возможностей (критериев) представлена на рисунке 3.

Рис. 3. характеристик

■Алгоритмы поиска ассоциативных правил ■Алгоритмы кластеризации Алгоритмы задач классификации и регрессии ■Алгоритмы построения нейросетей и генетические алгоритмы

Лепестковая диаграмма значений функциональных

Сравнительный анализ алгоритмов анализа неструктурированной и слабоструктурированной информации показал, что три из четырех рассмотренных алгоритмов имеют значения интегрального показателя качества, превышающего базовое значение, - алгоритмы поиска ассоциативных правил, алгоритмы кластеризации, алгоритмы построения нейросетей и генетические алгоритмы. Из расчетов и графика интегральных показателей качества программных продуктов видно, что наибольший интегральный показатель качества имеет группа алгоритмов построения нейросетей и генетических алгоритмов.

Использованные источники:

1. Лакаев А.С. Разработка интеллектуальных технологий и методов обработки неструктурированной информации // NovaInfo.Ru. 2013. Т. 1. № 27. С. 18-19.

2. Макаров И.Е. Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах // Интеллектуальные системы. 2013. № 12. С. 48-49.

3. Макаров И.Е. Автоматизация анализа проектных решений с применением методов интеллектуальной обработки информации // Интеллектуальные системы. 2014. № 10. С. 26-27.

4. Рыбанов А. Определение весовых коэффициентов сложности учебного

курса на основе алгоритма Саати // Педагогические измерения. 2014. № 4. С. 21-28.

5. Средства анализа структурированной и неструктурированной информации [Электронный ресурс] - Режим доступа : http://www.mlg.ru/company/pr/1132/

6. Двенадцать шагов к анализу неструктурированных данных [Электронный ресурс] - Режим доступа : https: //www.pcweek.ru/idea/article/detail .php?ID=170744

7. Кондрацкий Д.Е., Рыбанов А.А. Исследование методов и алгоритмов автоматизированной системы оценки альтернативных вариантов методом Т.Саати//Ы^аШо^и. 2016. Т. 3. № 46. С. 107-116.

8. Морозов А.О., Рыбанов А.А. Экспертная оценка программных продуктов для расчета метрических характеристик физической схемы базы данных//Современные научные исследования и инновации. 2015. № 1-1 (45). С. 97-102.

9. Rybanov A.A. Educational information quantization for improving content quality in learning management systems//Turkish Online Journal of Distance Education. 2014. Т. 15. № 4. С. 303-321.

10. Рыбанов А.А., Усмонов М.С.О., Попов Ф.А., Ануфриева Н.Ю., Бубарева О.А. Информационные системы и технологии/Научный ред. И. А. Рудакова/Центр научной мысли (г. Таганрог). Москва, 2013. Том Часть 4. -90 с.

11. Рыбанов А.А. Моделирование динамики процесса формирования ответов на тестовые задания закрытой формы при дистанционном тестировании знаний//Открытое образование. 2006. № 6. С. 43-50.

12. Рыбанов А.А. Количественные оценки эффективности процесса формирования ответов на тестовые задания при дистанционном тестировании знаний//Качество. Инновации. Образование. 2006. №5. С. 4452.

УДК 004

Рыбанов А.А., к техн. н. доцент, заведующий кафедрой кафедра «Информатика и технология программирования»

Гнатюк Е. С. студент 4 курса

факультет «Инженерно-экономический факультет» Волжский политехнический институт

Россия, г. Волжский ПРОЕКТИРОВАНИЕ ИНФОРМАЦИОННОЙ СТРУКТУРЫ НАВИГАЦИОННОГО МЕНЮ ДЛЯ САЙТА ТРУБНОГО ЗАВОДА МЕТОДОМ ОТКРЫТОЙ СОРТИРОВКИ В статье рассматривает результат метода сортировки карточек для структурирования контента навигационного меню сайта трубного завода.

i Надоели баннеры? Вы всегда можете отключить рекламу.