Обучаемые функциональные семантические сети для моделирования технических объектов

Пашкевич Виктор Михайлович

УДК 621.81 В. М. Пашкевич

ОБУЧАЕМЫЕ ФУНКЦИОНАЛЬНЫЕ СЕМАНТИЧЕСКИЕ СЕТИ ДЛЯ МОДЕЛИРОВАНИЯ ТЕХНИЧЕСКИХ ОБЪЕКТОВ

UDC 621.81 V. M. Pashkevich

TRAINED FUNCTIONAL SEMANTIC NETWORKS FOR MODELING TECHNOLOGICAL OBJECTS

Аннотация

Рассмотрены методологические принципы построения функциональных семантических сетей, обучаемых по результатам экспериментальных исследований технологических объектов. Предложены два варианта обучения - запоминанием и обобщением. Описывается возможность преобразования функциональных семантических сетей к нейронным сетям с архитектурой «многослойный персептрон».

Ключевые слова:

функциональные семантические сети; нейронные сети; метод группового учета аргументов; отношения; обучение; базисные функции.

Abstract

The paper considers methodological principles of constructing functional semantic networks trained according to the results of experimental studies of technological objects. Two training options are offered, which are based on memorization and generalization. The possibility of converting functional semantic networks to neural networks with the «multi-layer perceptron» architecture is described.

Keywords:

functional semantic networks; neural networks; group method of data handling; relations; training; basic functions.

Введение

Использование функциональных семантических сетей (ФСС) является одним из эффективных способов моделирования сложных машиностроительных объектов. Как правило, форма связи между параметрами и элементами таких объектов носит характер нелинейных функциональных зависимостей, а взаимосвязь между элементами объектов описывается сложной сетевой структурой [1].

Представление объектов машиностроения в форме ФСС позволяет обеспечить решение многих задач оптимизационного содержания, среди кото© Пашкевич 1В. М., 2019

рых - задачи управления точностью технологических процессов, а также оптимизации массогабаритных характеристик механизмов [2]. Однако реализуется такой подход успешно лишь тогда, когда отношения, описывающие ФСС, уже были построены ранее и статично представлены в базе знаний математического процессора, ответственного за механизм вывода (поиска решения) семантической сетью.

В то же время зависимости между параметрами отношений ФСС часто носят статистический характер, а определяться и корректироваться они должны в процессе функционирования механизма вывода, т. е. на основе нерегу-

лярно поступающих эмпирических данных. Таким образом, обучаемый тип ФСС должен обладать способностью к обобщению эмпирических данных и построению соответствующей зависимости. При этом эмпирические данные могут быть расцениваемы в качестве обучающего множества для механизма вывода, а процедура автоматического формирования отношений ФСС - как процедура ее обучения.

Описываются методологические принципы построения обучающихся ФСС, которые не требуют использования априорной информации о структуре их отношений, а также обеспечивают минимизацию и упрощение структуры аппроксимирующих зависимостей.

Основная часть

Принципиально могут быть предложены два варианта обучения ФСС по предъявляемым образцам, классифицируемые литературой как обучение запоминанием и обучение обобщением [3].

Преимуществом обучения запоминанием является отсутствие необходимости использования априорной информации о форме зависимости. Построение зависимости в этом случае ведется в неявном виде путем решения задачи о многомерной интерполяции, или триангуляции данных, размещенных в факторном пространстве задачи.

Очевидно, что для таких наблюдений, являющихся многомерными точками (х1; х2; х3 ... хп; у) факторного

пространства, может быть использована сложная аппроксимирующая функция

у = I(х1; х2; хз... хпX (1)

выступающая композицией функций вида у = а0 + а1 х1 + а2 х2 +... + апхп. (2)

При этом зависимости (2) могут быть построены для каждой области аргументов х1; х2; х3 ... хп, в которой с

заранее выбранной погрешностью выражение (1) может быть приближено линейной зависимостью (2). Следовательно, предлагаемый алгоритм представляет собой кусочно-линейную аппроксимацию нелинейной зависимости в многомерном пространстве.

Теорема Колмогорова об аппроксимации доказывает возможность такого приближения [4]. В соответствии с этой теоремой функция нескольких аргументов может быть приближена суммой, произведением или суперпозицией функций одного аргумента. Отметим также, что этот же принцип лежит в основе функционирования нейронных сетей, построенных по архитектуре «многослойный персептрон», и в основе аппроксимации сложных зависимостей на базе метода группового учета аргументов (МГУА) [5].

Для реализации обучения запоминанием может быть предложен следующий алгоритм. Набор приближающих функций (2) строится последовательно, образуя при этом в многомерном пространстве набор выпуклых базовых элементов - гипертреугольников, построенных по п экспериментальным точкам, принадлежащим п-мерному факторному пространству. Указанный набор функций с поступлением новых наблюдений корректируется с целью создания набора гиперплоскостей, кусочно (в форме нерегулярной «черепицы») покрывающих нелинейную поверхность (1). При добавлении новых наблюдений обеспечивается построение «покрытия» поверхности (1) без каких-либо пропусков, если новый образец существенно отклоняется от уже построенных ранее базовых элементов.

Таким образом, алгоритм может быть описан следующей последовательностью действий, которые легко реализуются методами вычислительной геометрии:

1) провести серию наблюдений для построения первого базового элемента в факторном пространстве обучающих данных и включить соответ-

ствующие ему точки в базу обучающих образцов;

2) провести новое наблюдение;

3) проверить условие попадания нового наблюдения в область, ограниченную набором базовых элементов;

4) если наблюдение выходит за пределы области набора базовых элементов, добавить его в базу обучающих образцов и сформировать новую совокупность базовых элементов, расширяя, таким образом, область покрытия функции (1);

5) перейти к п. 2 алгоритма;

6) если наблюдение попадает в область набора базовых элементов, провести оценку адекватности базы обучающих образцов новому наблюдению;

7) если база обучающих образцов адекватна новому наблюдению, исключить его из рассмотрения;

8) перейти к п. 2 алгоритма;

9) если база обучающих образцов неадекватна новому наблюдению, включить его в базу и провести ее локальное разбиение на новые базовые элементы с учетом этого наблюдения;

10) перейти к п. 2 алгоритма и т. д. до обработки всей совокупности поступающих данных.

Описанный алгоритм не предъявляет каких-либо специфических требований к виду модели (1), размеру области ее построения, количеству ее аргументов, т. е. характеризуется определенной универсальностью.

Несмотря на свою внешнюю трудоемкость, алгоритм работает с линейными зависимостями и поэтому обеспечивает достаточно высокую скорость работы. При корректировке «покрытия» поверхности отклика на каждом этапе корректируется всего лишь один ее базовый элемент, остальные при этом остаются неизменными. Таким образом, при поступлении новых наблюдений глобальный пересчет модели не требуется, а реализуется только локальная процедура ее уточнения.

Недостатком метода может стать

его относительно низкая точность, особенно при малом объеме обучающих данных (когда факторное пространство слабо заполнено множеством обучающих образов). Однако подобный же недостаток присущ любым методам аппроксимации многомерных данных.

Другим недостатком может стать относительно слабая экстраполяцион-ная способность метода. Это связано с тем, что решение задач экстраполяции проводится только с учетом локальной геометрии аппроксимирующих функций (2), приближенных линейными гиперплоскостями.

Обучение обобщением имеет лучшие показатели в части экстраполяции обучающих данных за пределы их множества. Однако, как правило, в большинстве известных методов вид обобщающей зависимости должен быть определен исследователем заранее.

В то же время следует отметить, что даже при построении аппроксимирующей зависимости в неявном виде, например при использовании нейросе-тевой модели, структура обучаемой системы должна быть также определена заранее. Так, например, у многослойных персептронов должны быть определены количества нейронов в каждом слое, а также количество слоев нейронной сети, что может приводить к избыточному усложнению ее архитектуры применительно к решению поставленной задачи.

Указанного ограничения лишена адаптивная процедура построения моделей на основе алгоритма, имеющего определенное родство с МГУА [5]. Метод базируется на адаптивном подборе аппроксимирующей зависимости.

Предлагаемая реализация метода сводит задачу аппроксимации сложной функции к ее построению с использованием набора базисных функций (отношений). Для большинства задач технологического содержания, например, опирающихся на применение эмпирических формул теории резания, чаще все-

го достаточно использования отношений в полиномиальной форме

$=ъ

(5)

п =к

у -Х а0х = 0

(3)

п=0

или показательной

п=к

у - А0 П

0 П хп

п=1

= 0.

(4)

На основе указанных базисных функций последовательно рассматриваются варианты моделей - сначала с участием отдельных переменных отношений, а затем и с их парами, тройками и т. д. В качестве критерия качества модели может использоваться величина остаточной суммы квадратов или, например, величина коэффициента детерминации. Полученные на первом этапе модели могут использоваться как аргументы для второго этапа и т. д.

Значения коэффициентов ап или Ап

для любого из строящихся отношений в общем случае могут быть найдены на основе решения соответствующих уравнений, например, с применением метода наименьших квадратов.

Очевидно, что описанный способ обеспечивает эффективное обучение только в части выбранного отношения, не обеспечивая при этом построение всей системы отношений в целом. Поэтому использование метода наименьших квадратов применительно к построению всей совокупности отношений ФСС оказывается невозможным.

Алгоритм, базирующийся на процедуре обучения ФСС, может быть использован в качестве альтернативного описанному. При этом начальные значения коэффициентов ап и Ап инициируются в пределах малых (близких к нулю) случайных знакопеременных чисел. На первом этапе подсчитывается общая невязка выходов сети по формуле

,=1

где Е, - невязка 1-го отношения, ь = у,-1 (х1; х2; хз .. хп).

Для линейных базисных функций вида (2) процесс обучения значения коэффициентов ап и Ап может быть основан на использовании дельта-правила Видроу - Хоффа [7]:

Ак 1 = Ак + П • 8, ,

(6)

где Апк - значение коэффициента Ап на к-м шаге обучения; п - небольшое положительное число (норма обучения).

Остановка обучения производится при стабилизации величины общей невязки сети $. Для оценки качества обучения ФСС может, как и при обучении нейронных сетей, использоваться кросс-проверка (процессы обучения и проверки ведутся на различных множествах образцов из исходного обучающего множества примеров).

На практике выбор одного из двух описанных вариантов обучения в значительной мере зависит как от размерности отношения ФСС (количества его переменных), так и объема обучающих данных. Очевидно, что при большой размерности отношений алгоритм, базирующийся на запоминании образцов и интерполяции данных, будет эффективнее метода построения аппроксимирующей зависимости, так как количество возможных комбинаций переменных этой зависимости будет велико и для выбора подходящей комбинации может потребоваться значительное время обучения. При небольшой размерности отношения более эффективным может оказаться, например, построение аппроксимирующей зависимости на основе метода наименьших квадратов, который не потребует хранения в базе знаний системы большого набора обучаю-

2

}

щих данных, т. е. будет менее расточителен в части ее памяти.

С учетом вышепредставленных особенностей обучения ФСС следует отметить также ряд признаков, свидетельствующих о принципиальном родстве методов и принципов, лежащих в основе функционирования обучающихся ФСС и нейронных сетей.

Функционирование нейрона может быть упрощенно сведено к преобразованию сигналов на его входах в сигнал на выходе. Так, например, в случае использования модели нейрона Мак-Каллока - Питтса, его выходной сигнал образуется путем применения сжимающего преобразования (например, с помощью сигмоидальной пороговой функции или функции гиперболического тангенса) взвешенной суммы входов нейрона [7].

В то же время любая функция или, соответственно, ориентированный граф, описывающий произвольное отношение ФСС, также осуществляют указанное преобразование входных сигналов в выходные. Однако в случае ФСС ее отношения имеют, как правило, более сложный вид, чем линейное суммирование входов сети и его преобразование с помощью пороговой функции активации. В этой связи ФСС, представленная ориентированным графом (т. е. «настроенная» на решение конкретной задачи), может быть в этом смысле интерпретирована как нейронная сеть, имеющая нерегулярную архитектуру, т. е. как сеть, состоящая из набора нейронов, каждый из которых имеет произвольное число входов и обладает также произвольной функцией его активации.

Для нейронных сетей подобной структуры, не имеющих такого послойного построения, как, например, у сетей архитектуры «многослойный персеп-трон», в настоящее время отсутствуют эффективные алгоритмы обучения. Популярный алгоритм обратного распространения ошибки требует именно ука-

занной архитектуры, а также использования сигмоидальной функции активации, а не, например, пороговой функции.

Теоретически, если ограничиться набором ортогональных функций активации, линейных по параметрам (например, в форме взвешенных линейных сумм входов, полиномов п-й степени или степенных зависимостей), то с помощью преобразования переменных такие функции могут быть сведены к линейным и, следовательно, ФСС может быть редуцирована до нейронной сети архитектуры «многослойный пер-септрон».

Ввиду этого перспективным подходом к решению задачи обучения ФСС является снижение их сложности за счет процедуры декомпозиции отдельных отношений. Такой подход может быть связан с линеаризацией зависимости, лежащей в основе отношения, что позволяет для его построения применять аналитические методы, например, базирующиеся на использовании классического метода наименьших квадратов.

Пусть, например, необходимо построить отношение сети, соответствующее эмпирической модели допускаемой скорости резания фрезы V, м/мин, при постоянной стойкости и различных значениях подачи s, мм/мин, и глубины резания г, мм, в показательной форме

V = а 0 г"15а 2. (7)

На рис. 1 отображен фрагмент семантической сети с отношением

V - а0га1 sa2 = 0, (8)

соответствующим эмпиричес-

кой модели (1).

Приведем ее к линейному виду путем логарифмирования:

1п У = 1п а0 + аг1п г + а21п 5. (9)

Рис. 1. Фрагмент семантической сети, соответствующий эмпирической показательной модели

Эта модель соответствует линейному выражению

¥ = А0 + Ах X + А2 X 2, (10)

где ¥ = 1пУ; Х1 = 1пХ2 = 1пл;

А0 = 1п а0; А1 = а1; А2 = а2.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Очевидно, что таким образом

ФСС, представленная на рис. 1, может быть декомпозирована на набор отношений (рис. 2), содержащих элементарные или линейные функции, эмпирические коэффициенты для которых могут быть легко найдены аналитически, например, на основе того же метода наименьших квадратов.

Рис. 2. Результат декомпозиции сложного отношения сети на набор элементарных отношений

Описанный подход расширяет возможности моделей, базирующихся на обучаемых ФСС, позволяет применять для их построения методы, разработанные для технологий нейронных сетей.

Заключение

Рассмотренные принципы обучения ФСС позволяют сформулировать ряд выводов, полезных для практики моделирования технологических систем.

1. Для обучения ФСС могут быть использованы два принципиально различных подхода - на основе алгоритмов обучения запоминанием и обучения обобщением. Алгоритмы обладают специфическими достоинствами и недостатками, поэтому их применение должно учитывать два основных свойства данных - их размерность и объем.

2. Эффективным способом обучения компьютерных систем на основе ФСС является алгоритм обучения, использующий для построения модели поверхности отклика МГУА. При этом

для построения таких моделей следует рекомендовать набор базисных линейных или показательных функций. Это позволяет затем линеаризовать отношения ФСС (провести их декомпозицию), что открывает возможность упрощения процедуры обучения.

3. ФСС, ориентированные на решение конкретных задач, с точки зрения их архитектуры могут быть преобразованы в форму нейронных сетей, имеющих нерегулярную структуру и произвольные функции активации нейронов. При использовании для построения отношений ФСС линейных или показательных базисных функций такие нейронные сети могут быть преобразованы к линейному виду (архитектурам, сходным с многослойными персептронами).

Данное обстоятельство позволяет использовать для работы с ФСС методы, применяемые при работе с нейронными сетями, - например, алгоритм обучения на основе обратного распространения ошибки, дельта-правила Видроу - Хоффа и т. п.

СПИСОК ЛИТЕРАТУРЫ

1. Пашкевич, В. М. Функциональные семантические сети для обеспечения точности механической обработки : монография / В. М. Пашкевич, М. Н. Миронова. - Могилев : Белорус.-Рос. ун-т, 2015. - 210 с.

2. Pashkevich, V. M. Solution of optimization problems in mechanical engineering based on use of functional semantic networks [Electronic resource] / V. M. Pashkevich // Advances in Engineering Research, volume 158. International Conference on Aviamechanical Engineering and Transport (AviaENT 2018). - Atlantis Press Publishing, 2018. - Р. 319-322. - Режим доступа: https://download.atlantis-press.com/article/25901650.pdf. -Дата доступа: 19.12.2018.

3. Таундсенд, К. Проектирование и программная реализация экспертных систем на персональных ЭВМ / К. Таундсенд, Д. Фохт. - Москва : Финансы и статистика, 1990. - 320 с.

4. Рассел, С. Искусственный интеллект. Современный подход : пер. с англ. / С. Рассел, П. Нор-виг. - Москва : Вильямс, 2006. - 1408 с.

5. Ивахненко, А. Г. Помехоустойчивость моделирования / А. Г. Ивахненко, В. С. Степашко. -Киев : Наукова думка, 1985. - 216 с.

6. Пашкевич, В. М. Концепция обучающихся функциональных семантических сетей / В. М. Пашкевич // Материалы, оборудование и ресурсосберегающие технологии : материалы Междунар. науч.-техн. конф. - Могилев : Белорус.-Рос. ун-т, 2018. - С. 48-49.

7. Осовский, С. Нейронные сети для обработки информации / С. Осовский. - Москва : Финансы и статистика, 2004. - 344 с.

Статья сдана в редакцию 20 декабря 2018 года

Виктор Михайлович Пашкевич, д-р техн. наук, доц., Белорусско-Российский университет. E-mail: [email protected].

Viktor Mikhailovich Pashkevich, DSc (Engineering), Associate Prof., Belarusian-Russian University. E-mail: [email protected].

Обучаемые функциональные семантические сети для моделирования технических объектов Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пашкевич Виктор Михайлович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пашкевич Виктор Михайлович

TRAINED FUNCTIONAL SEMANTIC NETWORKS FOR MODELING TECHNOLOGICAL OBJECTS

Текст научной работы на тему «Обучаемые функциональные семантические сети для моделирования технических объектов»