Научная статья на тему 'ПРИМЕНЕНИЕ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА ДЛЯ АНАЛИЗА БАЗЫ ПАТЕНТОВ'

ПРИМЕНЕНИЕ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА ДЛЯ АНАЛИЗА БАЗЫ ПАТЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
55
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ПРИМЕНЕНИЕ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА ДЛЯ АНАЛИЗА БАЗЫ ПАТЕНТОВ»

Коротковолновая фоточувствительность

поверхностно-барьерных структур: влияние промежуточного диэлектрического слоя // ФТП. -1991. - Т.25. - Вып.8. - С.1419-1422.

62. White H.G., Logan R.A. GaP Surface-Barrier Diodes // J. Appl. Phys. - 1963. - Vol.34. - No.7. -P.1990-1997.

63. Царенков Б.В., Гольдберг Ю.А., Гусев Г.В., Огурцов В.И. Фотоэлектрические свойства поверхностно-барьерных структур Au-n-GaP в ультрафиолетовой области спектра // ФТП. - 1974. -№ 2. - С.410-413.

64. Гуткин А.А., Дмитриев М.В., Наследов Д.Н. Фоточувствительность поверхностно-барьерных диодов Au-n-GaP в области спектра 1,45,2 эВ // ФТП. - 1972. - Т.6. - Вып.3. - С. 502-508.

65. Добровольский Ю.Г. Фотодиод на основе GaP с повышенной фоточувствительностью в коротковолновой области УФ-спектра // Технология и конструирование в электронной аппаратуре. - 2012. - № 5. - С.31-34.

66. Cowley M., Heffner H. Gallium Phosphide-Gold Surface Barrier // J. Appl. Phys. - 1964. - V. 35. -No.1. - P. 255-256.

67. Жиляев Ю.В., Мелебаев Д., Полетаев Н.К., Сергеев Д.В., Федоров Л.М. Ультрафиолетовый поверхностно-барьерный фотоприёмник на основе

n-n+GaP эпитаксиальных структур // Тр. I Всес. конф. по физ. осн. твёрдотел. электрон. - Том А. -Л. - 1989. - С. 190-191.

68. Андреев В.М., Долгинов Л.М., Третьяков Жидкостная эпитаксия в технологии полупроводниковых приборов / Под. ред. Алфёрова Ж.И. М.: «Сов. радио», 1975. - 328 с.

69. Беркелиев А., Гольдберг Ю.А., Именков А.Н., Мелебаев Д., Розыева М.Х. Фотоэлектрический метод определения параметров варизонных полупроводников // Изв. АН. ТССР. -Сер. ФТХ и ГН. - 1986. - Вып.1. - С.8-14.

70. Конников С. Г., Мелебаев Д., Рудь В. Ю. Исследование зонной структуры полупроводниковых твердых растворов GaPxAsl-x фотоэлектрическим методом // Письма в ЖТФ. -1993. - Т.19. - Вып.13. - С.47-54.

71. Конников С.Г., Мелебаев Д., Рудь В.Ю. Поляриметрический эффект в GaPxAsl-x поверхностно-барьерных структурах // ФТП. -1993. - Т.27. - Вып.4. - С.57-64.

72. Ташлиева А.М. Фоточувствительность барьеров Шоттки Au-p-GaP // Тез. докл. Российской конф. и школы по акт. пробл. полупр. нанофотоэлектрон. (Ф0Т0НИКА-2011). - г. Новосибирск. - 2011. - С.119.

УДК 378.146

ПРИМЕНЕНИЕ САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА ДЛЯ АНАЛИЗА БАЗЫ ПАТЕНТОВ

РР!: 10.31618^.2413-5291.2021.2.65.392 Пастухова Галина Витальевна

Академическая школа информационных технологий при ПГНИУ, 614003, Россия, г. Пермь, улица Чернышевского, д. 28

Рассматривается одна из технологий кластеризации - самоорганизующиеся сети Кохонена, проанализированы узкие места для анализа данных подобными алгоритмами. Затронуты общие проблемы адаптации математических моделей и применимости самих алгоритмов кластеризации.

Задача классификации - одна из древнейших задач, суть которой в разбиение множества исследуемых объектов на однородные в некотором смысле группы. Основание для классификации диктуется природой того, что классифицируем, хотя порой необходимо за основание брать такие метрики, для которых существуют объективные способы их измерения.

Также надо четко различать классификацию от типологии, последнее значительно шире. Под типологией понимается метод научного познания, в основе которого расчленение объектов и их группировка с помощью обобщенной, идеализированной модели или типа.

Типология может либо непосредственно основываться на понятии типа как основной логической единице расчленения изучаемой реальности, либо использовать иные логические формы, такие как:

- классификация, цель которой сводится к построению иерархических систем классов и их подклассов на основе некоторых признаков, не свойственных самим объектам (название, число) или присущих им;

- систематика, предполагающая максимально полную и расчлененную классификацию данного множества объектов с фиксированной иерархией единиц описания;

- таксономия, в рамках которой специально исследуются и обосновываются принципы рациональной классификации и систематики [5, С. 563-564].

Один из способов решения задачи автоматической классификации - это технология кластерного анализа, группы однородности в нем называются кластерами. Алгоритмы кластеризации очень похожи на алгоритмы классификации, но есть и принципиальные различия.

Так, например, алгоритмы классификации позволяют отнести в определенный класс каждый объект с заранее известными параметрами, полученными на этапе обучения и каждый объект может принадлежать только одной группе разбиения, что зачастую создает довольно таки жесткую модель, по ряду признаков «оторванную»

от реальных объектов, чья сущность двулика, а порой и п-лика.

В кластеризации же разбиваются множества объектов на кластеры, параметры которых заранее неизвестны. В классификации количество классов строго ограничено, а в кластеризации число кластеров може быть как произвольным, так и фиксированным. Таким образом, отличием кластерного анализа от других методов классификации является отсутствие обучающей выборки (классификация без обучения), а его достоинством - возможность производить разбиение объектов не по одному параметру, а по ряду признаков, что формально трактует задачу кластеризации как способ нахождения такого основания классификации, который оптимален и адекватен к измерению исходя из поставленной задачи.

Или иначе: кластерный анализ как таковой является не автоматической задачей, а итеративным процессом обнаружения знаний или интерактивной многоцелевой оптимизацией, которая включает в себя пробные и неудачные попытки.

Общепринятой классификации алгоритмов кластеризации не существует, но выделяют две группы по способу внутренних связей создаваемых кластеров: неиерархические и иерархические. Разница состоит в выдаваемых данных на выход. Алгоритмы иерархии на выходе дают некую иерархию кластеров, с системой как внутренней, так и внешних связей кластеров. Неиерархические - все алгоритмы, которые на выходе иерархию не выдают (или выбор интерпретации происходит не по уровню иерархии).

В свою очередь иерархические методы подразделяются на агломеративные и итеративные дивизимные процедуры.

Агломеративные (соединяющие) процедуры начинают свое выполнение с того, что каждый объект заносят в свой собственный кластер и по мере выполнения объединяют кластеры до тех пор, пока в конце не получается один кластер,

Итеративные дивизимные (разъединяющие) процедуры, напротив, сначала относят все объекты в один кластер и затем разделяют этот кластер до тех пор, пока каждый объект не окажется в своем собственном кластере, исходя из данных ранее условий разбиения, которые могут быть изменены для достижения желаемого качества.

Основными методами иерархического кластерного анализа являются метод ближнего соседа, методы средней и полной связи, а также метод Варда.

Неиерархических методов больше, хотя работают они на одних и тех же принципах. По сути, они представляют собой итеративные методы дробления исходной совокупности. В процессе деления формируются новые кластеры, и так до тех пор, пока не будет выполнено правило остановки. Между собой методы различаются выбором начальной точки, правилом формирования новых кластеров и правилом остановки. Чаще всего

используется алгоритм К-средних, который подразумевает, что аналитик заранее фиксирует количество кластеров в результирующем разбиении [3, С. 927-930].

Необходимо понимать, что кластерных анализ суть многомерный статистический метод и исходные его данные могут быть значительного объема, т.е. существенно большим может быть, как количество объектов исследования (наблюдений), так и признаков, характеризующих эти объекты. Помимо объёмности, эти данные зачастую являются «плохими», то есть природа их разнородности, слабоструктурируемости кроется не в невозможности или возможности разложения на кластеры, а в поиске основания для формирования (или нахождении) кластера или кластеров, ведь не секрет, что кластеризация данных необходима для решения некой задачи, где природа данных порой вторична, а в первую очередь важны способы объективной оценки этих самых данных. Иначе говоря, это разложение кубиков по цвету, при решении задачи классификации по весу при отсутствии весов.

Чаще всего вышеуказанные ошибки (неудачное основание для классификации, и, как следствие, для кластеризации, «жесткая» модель интерпретации данных) типичны при реализации метода кластерного анализа технологиями нейронных сетей, которые решаются ручным подбором как функции активации, выбором меры расстояний, нормализация данных и тп.

Объекты кластеризации представляются точками в n-мерном пространстве признаков (n -количество признаков, характеризующих объекты) и сходство между объектами определяется через понятие расстояния между точками, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи.

Реализация кластерного анализа возможна посредством сетей (карт) Кохонена или самоорганизующихся карт признаков (Self-Organizing Maps или SOM), являющихся семейством соревновательных нейронных сетей без учителя, предложенных финским исследователем Теуво Кохоненом в начале 1980-х годов. Сущностно является методом проецирования многомерного пространства в пространство с более низкой размерностью.

Искусственная нейронная сеть Кохонена [9, С. 12-17] представляет собой двухслойную сеть. Каждый нейрон первого (распределительного) слоя соединен со всеми нейронами второго (выходного) слоя, которые расположены в виде двумерной решетки.

Нейроны выходного слоя называются кластерными элементами, их количество определят максимальное количество групп, на которые система может разделить входные данные. Увеличивая количество нейронов второго слоя можно увеличивать детализацию результатов процесса кластеризации.

Для обучения сети Кохонена используется соревновательный метод, где на каждом шаге

обучения из исходного набора данных случайно выбирается один вектор. Далее производится поиск нейрона выходного слоя, для которого расстояние между его вектором весов и входным вектором — минимально.

По определённому правилу производится корректировка весов для нейрона-победителя и нейронов из его окрестности, которая задаётся соответствующей функцией окрестности. Чаще всего в качестве функцией окрестности используется функция Гаусса

где u - номер нейрона в двумерной решетке второго слоя сети, для которого вычисляем значение h, c — номер нейрона-победителя в двумерной решетке второго слоя сети, t — параметр времени.

Радиус окрестности h должен уменьшаться с увеличением параметра времени:

Алгоритм обучения сети Кохонена выглядит следующим образом:

1. Случайными значениями инициировать матрицу весов малыми (на отрезке [-1,1]);

2. Из элементов входного множества построить очередь, разместив их в случайном порядке, пометив всех как необработанные;

3. Первый необработанный элемент х выбрать из очереди;

4. Вычислить расстояние dj для каждого выхода j между его вектором весов Wj и входным вектором х:

5. Найти номер выходного нейрона jm с минимальным расстоянием dj:

jm := arg min (г/,-)

6. Вычислить изменение весов AW = {Awu} для всех нейронов u выходного слоя:

где c — номер (пара индексов) нейрона победителя jm в двумерной решетке второго слоя; u — номер (пара индексов) нейрона с вектором весов wu в двумерной решетке второго слоя; wu — вектор весовых коэффициентов связи входного слоя и выходного нейрона номер u; х — текущий вектор входов сети;

h(u,c,t) — значение функции окрестности для

нейрона номер и в момент времени ^ ц — коэффициент скорости обучения;

7. скорректировать матрицу весов

8. пометить элемент входной очереди х как обработанный;

9. если в очереди остаются не обработанные точки, то переход на п.3.

10. если критерий остановки обучения не достигнут, то переход на п.2

11. Конец.

В качестве критериев останова процесса обучения можно использовать следующие:

• Количество полных циклов обучения ограничено константой, например, количество циклов равно количеству элементов во входном множестве.

• Выход сети стабилизируется, т.е. входные вектора не переходят между кластерными элементами.

• Изменения весов становятся незначительными [1, С. 13-14]

Для анализа базы патентов (база ФИПС) советского периода метод кластерного анализа посредством карт Кохонена был доработан, а именно, было введено понятие соседства не столько по метрике расстояния, а по ранжированию проекций векторов при уменьшении размерности. Иначе говоря, была доработана функция активации нейронов на базе двойной или двухстадийной нормализации, для последующего применения метода многослойной кластеризации.

Задача, решаемая автором следующая: из формулы изобретения того или иного патента, составляется вектор, где упомянутые физические величины того или иного изобретения «улучшаются» за счет других, базисом такого пространства является расширенная система СИ. Пространств формируется два: по числу вхождений тех или иных физических величин, выраженных через базис, и по степеням вхождения этих физических величин. Таким образом, каждый объект изобретения имеет матрицу принадлежности к тому или иному разделу физики, на основе которых формируется последовательность изменений объектов, принадлежащих одному подпространству и, как следствие, при измерении размерности пространства - эволюционная динамика объекта исследования.

Функция активации нейронов Ь(Ки(с)) на базе к-мерной нормализации - это функция, принимающая вектор из п элементов и возвращающая вектор из п нормализованных элементов как результат:

Ьк(Ки(с):[си С2, ..., Сп] ^ [Ьк-1(Ки(с1), Ь(Ки(с2), ..., Ь(Яи(сп)], где Ьк(Яи(с,) вычисляются по выражениям для линейной нормализации и нормализации по диапазону. Оценка точности результатов, выдаваемых нейронной сетью, по сравнению с известным правильным ответом в ходе обучения

выполняется с использованием кросс-энтропии. Получены выражения для определения значений ее частных производных:

cE(W)/ dWj = Xj /(maxs (ls> - min (ls})Icz, (1)

где j - индекс, нумерующий столбец матрицы весов (совпадает с индексом, нумерующим элемент входного сигнала); i — индекс, нумерующий строку матрицы весов; n — число компонент в векторе возвращаемом функциями L(с), Ru(c) и g(W); z — индекс элемента в векторе, который соответствует известному результату, который в обучающем нейронную сеть примере отмечен как верный (ожидаемый) результат; c — аргумент функции линейной нормализации; l — аргумент функции нормализации по диапазону, mins и maxs — минимальное и максимальное значения в s-ной выборке. Анализируя (1) получаем, что значения, которые позволяют корректировать веса сети, отличны от нуля не только для нейрона, соответствующего результату, отмеченному в обучении как верный результат, что обеспечивает корректировку всех весов в процессе обучения, а не отдельно взятых, как это имеет место при нормализации только по диапазону, что при реализации послойной кластеризации особо эффективно для решаемой задачи.

Список литературы

1. Анисимова Э.С., Самоорганизующиеся карты Кохонена в задачах кластеризации//

Актуальные проблемы гуманитарных и естественных наук. - 2014. - № 9. - С.13 -16.

2. Гирин Р.В. Двухстадийная нормализация выходных сигналов искусственных нейронных сетей/Р.В. Гирин, С.П. Орлов// Вестник Самарского гос. тех. ун-та. Серия «Технические науки». - 2017. - № 4(56). - С.7-16.

3. Кондаков Н.И. Логический словарь-справочник. 2-е испр. и доп. изд. М.: Наука, 1975. 717 с.

4. Костенко С.А. ТЕХНОЛОГИЯ ПРИМЕНЕНИЯ МНОГОМЕРНОГО ШКАЛИРОВАНИЯ И КЛАСТЕРНОГО АНАЛИЗА // Фундаментальные исследования. - 2012. - № 11 -4. - С. 927-930; URL: http://www.fundamental-research.ru/ru/article/view?id=30685 (дата обращения: 30.01.2021).

5. Кочин Н.Е. Векторное исчисление и начала тензорного исчисления. 9-е изд. М.: Наука, 1965.

6. Огурцов А.П., Юдин Б.Г. Типология // БСЭ. 3-е изд. Т. 25. — М.: Сов. энцикл., 1969 - 1978.

7. Сагатовский В.Н. Основы систематизации всеобщих категорий. Томск, 1973. 431 с.

8. Типология и классификация в социологических исследованиях. М.: Наука, 1982. 295 с.

9. Энциклопедия информациологии: учеб. пособие /авт. и сост. И.И. Юзвишин; под ред. А.М. Прохорова. М.: Информациология, 2000.

10. Kohonen Т., Self-Organizing Maps Springer, 1995.

i Надоели баннеры? Вы всегда можете отключить рекламу.