УДК 621.372.2
Р.И. Аширбакиев, А.О. Мелкозеров, Ег.В. Лежнин
Алгоритм аппроксимации набора данных в применении к параметрам трасс печатных плат
Предложен алгоритм аппроксимации большого набора данных. Выполнено сравнение предложенного алгоритма и полиномиального приближения для случая аппроксимации погонной задержки линий передачи в широком диапазоне параметров основных структур печатных плат. Показана работоспособность предложенного алгоритма и описаны возможности его совершенствования.
Ключевые слова: аппроксимация данных, печатная плата, аналитические модели, полиномиальное приближение.
Для решения задачи аппроксимации больших наборов данных аналитическими моделями применяют различные методы. Широко используются: метод группового учета аргументов [1], алгоритм Лассо [2], метод наименьших углов LARS [3], генетическое программирование [4], регрессионный анализ [5]. Они обладают различными достоинствами и недостатками, поэтому целесообразно исследовать их для решения конкретных задач, а также рассмотреть возможность создания новых методов или алгоритмов. Для случая аппроксимации погонной задержки линий передачи в широком диапазоне параметров основных структур печатных плат все методы, перечисленные выше, показали неудовлетворительные результаты: относительная погрешность полученных моделей по отношению к расчетным данным составила 50% и более [6].
Цель работы - разработать новый алгоритм для аппроксимации большого набора данных.
Предложенный алгоритм. Набор данных состоит из числовых значений, которые были получены в результате длительных вычислений. Рассмотрим предложенный алгоритм аппроксимации на примере четырех независимых параметров. Пусть дан набор данных из n строк:
xi1 xi2 xi3 xi4 Уъ xn1 xn2 xn3 xn4 yn,
4
где n — количество строк, которое можно определить как n = П Cntk , где Cntk - количество значе-
k=1
ний k-го независимого x параметра. В данной задаче значения независимых x параметров заданы в определенном диапазоне небольшим количеством различных значений с заданным шагом, так что xik = tk + skdtk, где tk - начальное значение, dtk - шаг, sk = 0,1, ..., Cntk. Набор данных представляет все комбинации значений независимых переменных, где каждой комбинации соответствует одно значение у, которое зависит от каждого значения этой комбинации.
Необходимо синтезировать функцию f (x1, x2, x3, x4) = у, с помощью которой можно будет вычислить приближенное значение У для заданных x1, x2, x3, x4.
4 3 n
Шаг 1. Пусть 1 < i < n, где n = П Cntk , и 1 < j < m, где m = П Cntk =- - количество раз-
k=1 k=1 Cnt4
личных комбинаций без последнего параметра xi4. Сформируем m блоков, в которых xi1 = x;i, xi2 = xj2, xi3 = xj3 ,xi4 yh т.е. значения повторяются в первых трех столбцах, но не в последнем.
Шаг 2. Необходимо выполнить аппроксимацию каждого из m блоков по четвертому параметру. Применим простейшую линейную регрессию. Для x = xi4 в каждом блоке необходимо найти аппроксимирующую функцию f(x) = у = a1x + Ъ1. Таким образом, получаем два коэффициента a1 и Ъ1. После этого необходимо построить новый набор данных x^ xj2 xj3 а;1 Ъ;1, где 1 < j < m, а а;1 и Ъ}1 - коэффициенты для j-го блока. (Отметим, что с помощью коэффициентов а;1 и Ъ}1 можно обратно восстановить yi = a^x^^'n.) После выполнения аппроксимации по xi4 формируется новый набор данных x;1 xj2 xj3 aj1 Ъ'1, в котором отсутствуют yi и xi4, и который в Cnt4 раз меньше.
Шаг 3. Далее необходимо заменить таким же образом данные по xj3, т.е. выделить все блоки данных, в которых xi1 = x^, xl2 = xj2, xi3 ai1, Ъ-1. Однако теперь нужно получить четыре коэффициента
Р.И. Аширбакиев, А. О. Мелкозеров, Ег.В. Лежнин. Алгоритм аппроксимации набора данных
101
для/\(хг3) = ац и/2 (хг3) = Ъц. В итоге объем данных сократится еще в СШ3 раз, а коэффициентов станет в два раза больше.
Шаги 4, 5. Далее остальные переменные хг1 и х,2 заменяются по схеме, аналогичной описанной выше. После замены хг2 останутся коэффициенты и одна переменная хца4гЪ4гаф5га6гЪ6га-цЪ-ц. После замены хг1 остаются только 16 коэффициентов, по которым можно восстановить все данные:
а8Ъ8а9Ъ9а1оЪ1оа11Ъ11а12Ъ12а1зЪ1за14Ъ14а15Ъ15.
Конец.
Коэффициенты используются для формирования аппроксимирующей функции / (хьх2,хз,х4) = (((а8х1+Ъ8)х2+а9х1+Ъ9))хз + ((а1ох1+Ъ1о)х2+апх1+Ъи)))х4 + + (((а12х1+Ъ12)х2+(а1зх1+Ъ1з))хз + ((а^+Ъм) х2 + (а^+Ъ^))).
Полиномиальное приближение. Рассмотрим аппроксимацию с помощью полинома второй степени для погонной задержки линий передачи в широком диапазоне параметров основных структур печатных плат. Аппроксимирующая функция имеет вид /(х\,х2,...,хп) = ао + ^^.^а^х^ +
П-^х! П-{+1сгухгху , где п — количество независимых параметров; хг - значения пара-
метров структур (например, м>, t и т.д.), а, Ъ, и с^ - коэффициенты.
Сравнение аппроксимации с помощью полиномиального приближения и предложенного алгоритма. Полный набор параметров структур ПП принят следующим.
&г диэлектриков:
• препрег и подложка: 3,8; 3,9; 4,0; 4,1; 4,2; 4,3; 4,4; 4,5 (8 значений);
• паяльная маска: 3,0; 3,1; 3,2; 3,3; 3,4; 3,5; 3,6; 3,7; 3,8; 3,9; 4,0 (11 значений);
• влагозащитное покрытие: 2,2; 2,5; 2,6; 3,3; 3,4; 3,5; 3,6; 3,7; 3,8; 3,9; 4,0; 4,2; 4,3; 4,4; 4,5; 4,6; 4,7; 4,8; 4,9; 5,0; 5,1; 5,2 (22 значения).
Толщина диэлектриков:
• влагозащитное покрытие: 8; 12; 15; 18; 22; 25; 30; 35; 40; 45; 50; 55; 60; 65; 70; 75; 150; 155; 160; 165; 170; 175; 180; 185; 190; 195; 200; 205; 210; 215; 220; 225; 230; 235; 240; 245; 250; 255; 260; 265;270;275;280; 285; 290; 295; 300 мкм (47 значений);
• паяльная маска: 20, 40, 80, 100 мкм (4 значения);
• препрег: 50, 66, 100, 105, 132, 150, 180, 198, 200, 210, 250, 264, 315, 330, 360, 420, 525, 540, 720, 900 мкм (20 значений);
• подложка: 50, 75, 100, 150, 200, 250, 300, 350, 400, 450, 710, 930, 1000, 1500, 2000 мкм (15 значений).
Параметры проводников:
• толщина: 5, 18, 35 мкм (3 значения);
• ширина: 0,05; 0,075; 0,1; 0,125; 0,15; 0,175; 0,2; 0,25; 0,3 мм (9 значений);
• расстояние между краями: 0,05-1,2 мм (2 значения);
Для каждого исходного набора значений (использованного для аппроксимации) параметров каждой структуры вычислены значения относительной погрешности по формуле Дт-((тм—тг)/тг)' 100%,
где Тт - табличное (истинное) значение и тм - значение, вычисленное по модели. В таблице приведены средние и максимальные значения для разных структур.
Предложенный алгоритм протестирован на различных наборах данных, в которых количество независимых переменных изменяется от 4 до 11. В таблице представлены результаты практической аппроксимации данных с помощью предложенного метода. Например, набор данных для одной из структур состоит из 3428985 строк вида: ЬРгер БгРгер ЬСоге БгСоге t м> т, где первые 6 параметров являются независимыми. Объем данных в распакованном виде составляет 208 Мб.
Для понижения размерности в предложенном методе используется функция ро1уЙ (из МЛТЬЛБ), которая позволяет получить коэффициенты для /(х) — ^П-0агхг , где п - степень полиномов, а, - коэффициенты полинома. Из таблицы видно, что структуры 4, 5 и 8 аппроксимируются с приемлемой точностью, тогда как на остальных максимальная ошибка достигает больших значений. Однако средняя ошибка для всех структур меньше 12%. Точность аппроксимации можно повышать за счет увеличения степени аппроксимирующих полиномов. При этом количество коэффициентов будет равно (р+1)5, где р - степень аппроксимирующих полиномов (в примере р = 1, что соответствует линейной регрессии), 5 - количество независимых параметров (в примере 5 = 4). Степень для каждого шага можно делать различную, в зависимости от данных на каждом из шагов.
Сравнение предложенного и полиномиального методов аппроксимации
Номер структуры Степень полиномов Максимальная относительная ошибка, % Средняя относительная ошибка, % Объем коэффициентов, Кбайт
Предл. Полин. Предл. Полин. Предл. Полин. Предл. Полин.
4 5 4 2,0 5,5 0,2 1,0 5 3,8
5 4 4 6,0 6,1 1,0 0,5 61 3,8
6 4 4 521,0 5,5 11,2 0,9 61 3,8
7 4 7 78,0 6,0 1,2 0,4 61 93,8
8 5 4 12,3 6,2 0,9 1,0 185 3,8
Таким образом, разработан новый метод аппроксимации набора данных, у которого средняя ошибка для структур 4 и 8 меньше, чем во втором методе. Однако для данной задачи метод аппроксимации с помощью полиномиального приближения второй степени оказался более приемлем, поскольку позволил с ошибкой не более 6,1% выполнять аппроксимацию значений погонных задержек основных видов линий передачи в широком диапазоне параметров печатных плат.
Исследование выполнено за счет гранта Российского научного фонда (проект №14-19-01232) в ТУСУРе.
Литература
1. Ивахненко А.Г. Помехоустойчивость моделирования / А.Г. Ивахненко, В.С. Степашко. - Киев: Наукова думка, 1985. - 206 с.
2. Tibshirani R. Regression shrinkage and selection via the lasso / R. Tibshirani // Journal of the Royal Statistical Society. - 1996. - Vol. 32. - P. 267-288.
3. Efron B. Least angle regression / B. Efron, T. Hastie, I. Johnstone, R.Tibshirani // The Annals of Statistics. Journal of the Royal Statistical Society. - 2004. - Vol. 32. - P. 407-499.
4. Koza J.R. Genetic Programming: On the Programming of Computers by Means of Natrual Selection. - Oxford, USA: MIT Press, 2012. - 609 p.
5. Стрижневой В.В. Методы выбора регрессионных моделей / В.В. Стрижневой, E.A. Крымова. -М.: Вычислительный центр РАН, 2010. - 60 с.
6. Разработка математических моделей меандровых линий задержки с оптимальными параметрами: отчет о НИР / рук. Т.Р. Газизов; исполн. Р.И. Аширбакиев и др. - СПб.: ООО «Эремекс», 2013. -46 c. - №. Р-2013011.
Аширбакиев Ренат Ихсанович
МНС каф. телевидения и управления ТУСУРа
Тел.: 8 (923) 419-40-29
Эл. почта: [email protected]
Мелкозеров Александр Олегович
НС каф. телевидения и управления ТУСУРа
Тел.: 8 (913) 855-42-48
Эл. почта: [email protected]
Лежнин Егор Владимирович
Лаборант каф. телевидения и управления ТУСУРа
Тел.: 8 (962) 777-00-93
Эл. почта: [email protected]
Ashirbakiev R.I., Melkozerov A.O., Lejnin Eg.V. An algorithm for data set approximation using coefficients
Ап algorithm for approximation of a large data set has been proposed. A comparison of the new algorithm and the polynomial approximation for the case of the approximation of the delay per unit length of transmission lines in a wide range of parameters of the basic structures of printed circuit boards has been performed. The performance of the proposed algorithm and the possibilities of its improvement have been described. Keywords: data approximation, printed circuit board, analytical models, polynomial approximation.