Научная статья на тему 'Статистический метод двумерного распределения и его компьютерная реализация при обработке данных технологического процесса'

Статистический метод двумерного распределения и его компьютерная реализация при обработке данных технологического процесса Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
103
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД ДВУМЕРНОГО РАСПРЕДЕЛЕНИЯ / СТАТИСТИЧЕСКАЯ ОБРАБОТКА / МОДЕЛИРОВАНИЕ ТЕХНОЛОГИЧЕСКОГО ПРОЦЕССА / ПАКЕТ ПРОГРАММ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шестопал Оксана Викторовна, Рощин Денис Олегович

В статье описывается статистический метод двумерного распределения для приведения исходных показателей технологического процесса выплавки стали к виду, пригодному для построения математической модели с целью прогнозирования, внедрения новых видов стали и создания основы для разработки системы автомати-зированного управления качеством продукции. Описан соответствующий пакет прикладных программ для компьютерной реализации рассматриваемого метода. На практике, увеличение числа повторных измерений часто приводит к появлению в результатах ошибочных значений, резко отличающихся от остальных измерений. Главным образом это вызвано антропогенным фактором, устранение которого по тем или иным причинам невозможно. Рассматриваемая проблема возникла при применении статистических методов обработки пассивных данных технологического процесса выплавки стали на Молдавском металлургическом заводе (г. Рыбница, Молдова). Применяемая таблица двумерного распределения дает дополнительную возможность избавиться от грубых промахов, которые невозможно выявить в одномерных выборках. Ее удобно применять для исследования распределения парной выборки двух случайных величин. Стандартные статистические пакеты не позволяют реализовать данный метод. Применение других методов отсева промахов требует соблюдения нормального закона распределения, что невозможно гарантировать в исследуемых данных. Применение пакета MathModel (разработчики НИЛ "Математическое моделирование", г. Тирасполь, Молдова) позволяет провести всю цепочку работ над экспериментальными данными, начиная от очистки данных от грубых промахов, отбора информативных параметров, до получения различных статистических математических моделей и оценки качества путем сравнения их информационных емкостей. Серверная часть работает под управлением СУБД Oracle 10g и представляет собой набор таблиц и хранимых подпрограмм, выполняющих хранение и обработку исходных данных соответственно. При проектировании комплекса предусматривадось, что большая часть вычислений будет выполняться средствами СУБД Oracle, так как данный подход позволяет сократить расходы системных ресурсов, необходимых для передачи данных клиенту и их возврату в измененном виде. Данный программный продукт является средством реализации процедуры отсева грубых промахов. Это позволило исключить из исходной таблицы данных плавки, несоответствующие стандартам. В дальнейшем на основании этих данных возможно построение математические модели с целью прогнозирования, внедрения новых видов стали, и создания основы для разработки системы автоматизированного управления качеством продукции. Полученные результаты позволяют оптимизировать процесс построения модели многофакторного процесса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Статистический метод двумерного распределения и его компьютерная реализация при обработке данных технологического процесса»

т

STATISTICAL METHOD OF TWO-DIMENSIONAL DISTRIBUTION AND ITS COMPUTER IMPLEMENTATION IN PROCESSING TECHNOLOGICAL PROCESS DATA

Oksana V. Shestopal, DOI 10.24411/2072-8735-2018-10091

South-Russian State Polytechnical University (NPI), Novocherkassk, Russia, npi _ pm@mail .ru

Denis O. Roshchin,

Moscow State University of Management of the Moscow Keywords: method of two-dimensional distribution,

Government (MSUU), Moscow, Russia statistical processing, models of a process,

software package

The article describes a statistical method of two-dimensional distribution for adjusting the initial parameters of the technological process of steel smelting to a form suitable for constructing a mathematical models for the purpose of forecasting, the introduction of new types of steel and the creation of the basis for the development of an automated product quality management system. A corresponding package of applied programs for computer implementation of the method in question. In practice, increasing the number of repeated measurements often leads to the appearance in the results of erroneous values, which differ sharply from the remaining measurements. This is mainly caused by anthropogenic factor, the elimination of which, for one reason or another, is not possible. This problem arose when applying statistical methods for processing passive data technological process of steel smelting at the Moldovan Metallurgical Plant (Rybnitsa, Moldova). The applied two-dimensional distribution table provides an additional opportunity to get rid of gross mistakes that can not be detected in one-dimensional samples. It is convenient to apply for research distribution of a pair sample of two random variables.

Standard statistical packages do not allow this method to be implemented. The use of other methods of omission of misses requires compliance with the normal distribution law, which is impossible guarantee in the data under study. The application of the MathModel package (the developers of the Mathematical Modeling Laboratory, Tiraspol, Moldova) allows the entire experimental data, ranging from data cleaning from gross blunders, selection of informative parameters, to obtaining various statistical mathematical models and estimating quality by comparing their information capacities. The server part is running Oracle 10g and is a set of tables and stored routines that perform storage and processing initial data, respectively. In the design of the complex, it is envisaged that most of the calculations will be performed by the Oracle DBMS, since this approach can reduce the cost of system resources needed to transfer data to the client and return them in a modified form. This software product is a means of implementing the procedure for eliminating gross mistakes. This made it possible to exclude fusions that do not correspond to the standards from the original data table. Further on the basis of these data it is possible to build mathematical models for the purpose of forecasting, introducing new types of steel, and creating the basis for the development of an automated product quality management. The results obtained make it possible to optimize the process of constructing a multifactor process model.

Information about authors:

Oksana V. Shestopal, postgraduate student, Department of Applied Mathematics of the South-Russian State Polytechnical University (NPI), Novocherkassk, Russia

Denis O. Roshchin, Moscow State University of Management of the Moscow Government (MSUU), Moscow, Russia

Для цитирования:

Шестопал О.В., Рощин Д.О. Статистический метод двумерного распределения и его компьютерная реализация при обработке данных технологического процесса // T-Comm: Телекоммуникации и транспорт. 2018. Том 12. №5. С. 82-85.

For citation:

Shestopal O.V., Roshchin D.O. (2018). Statistical method of two-dimensional distribution and its computer implementation in processing technological process data. T-Comm, vol. 12, no.5, pр. 82-85.

T-Comm ^м 12. #5-2018

T

Introduction

[n practice, increasing llic number of repeated measurements often leads to the appearance in the results of erroneous values, which differ sharply from the remaining measurements [1-11]. Mostly it is caused by anthropogenic factor, the elimination of which for one reason or another is not possible. Such errors should and can be eliminated al the stage of primary data processing, for this different methods of eliminating gross errors are used. This problem arose with the use and statistical methods of processing passive data of the technological process of steel smellineal the Moldovan Steel Works (St. Rybnitsa, Moldova) [6-11]/

1. Application of the two-dimensional distribution method

The dimensionality of the initial data table is about 500 000 values. Such a long table with many numbers may contain erroneous data, therefore before further work all values should be checked for gross mistakes of the known methods, the detected misses are removed, otherwise statistical analysis can give wrong conclusions.

The two-dimensional distribution table provides an additional opportunity to get rid of gross blunders that cannot be detected in one-dimensional samples.

It is convenient to use it to study the distribution of the pair sample (X„ Yj) of two random variables.

For this, both samples are ordered and divided into k intervals. Thereafter, the table is constructed with a number of internal cells of A' x k, where the rows correspond to the sampling intervals Xand columns - Y sampling intervals. Next, from the two original (unordered) samples pairs (X„ }',) are successively selected and the interval numbers /„ /, are determined, in which the values A", and }'', fall.

At the intersection of the line Ix and column /,. an entry mark is placed (the counter is incremented).

Having exhausted both samples, the number offalls is calculated for each cell. Thus, the resulting table will contain the discrete frequencies of the appearance of pairs (X, Y).

Table I

The two-dimension a) distribution tabic

X ! Y, 4 l-l Yi

52,7 56,2 59,7 63,2 66,7 70,2 73,7 77,2 80,7

140 5 1 6 58,8

164 6 4 2 2 14 59,7

188 4 5 7 5 2 23 59,1

212 2 8 11 1Q 5 1 37 60,7

236 3 4 9 4 4 2 26 60,8

260 1 2 3 5 7 4 3 1 26 65,6

286 4 5 3 4 I I 21 69,5

308 6 5 5 13 74,9

332 4 6 10 79,3

* H 10 30 35 30 25 16 12 11 7 176 -

For convenience, this table is expanded by adding a column on the left, into which the average value Xj of interval lj of

sampled; line from above, containing the average value Yi of interval of sample Y; two columns on the right and one more row from the bottom, in the penultimate and last columns for each row, the sum of the frequencies by rows and the average value Y¡, the last line contains the sum of the frequencies in

columns. Thus, the penultimate column of the last line will contain the total number of elements of the two-dimensional sample.

For a two-dimensional table, a rough miss is considered to be pairs falling into a cell separated from the main data array simultaneously by at least one empty cell horizontally and vertically. In other words, if there is a lonely standing filled cell in the two-dimensional distribution table, around which there is at least one empty cell, then this is a two-dimensional outstanding value.

Standard statistical packages do not allow this method to be implemented. The use of other methods of omission of misses requires compliance with the normal distribution law, which can not be guaranteed in the data under study.

Application of the MathModel package (developers of the Mathematical Modeling Research Laboratory, Tiraspol, Moldova) allows for the entire chain of work on the experimental data stalling from clearing data from gross misses, selecting informative parameters, obtaining various statistical mathematical models and assessing quality by comparing their information capacities.

Measurement data can be written to a file on disk in any of three formats: binary {*.prq), text (*,txt) or database file (*.dbf).

In the first two binary tile number for purposes of the first type and must contain the number of rows and columns of data in the table of measurements.

The program implements a sufficient number of methods of statistical modeling on passive data, but there are a number of shortcomings:

1. When creating a new project, you can not manually enter values for calculations.

2. The number of parameters for calculations, which should not exceed 50, is limited.

3. The program does not allow saving intermediate data, since databases are not used.

4. There is no network version of the software product.

2. Means of implementing the method

The software package developed by us allows to eliminate these shortcomings.

The program consists of the server and client parts.

The server part is running Oracle 1 Og (this DBMS is installed in the factory) and is a set of tables and stored routines that perform the storage and processing of raw data, respectively.

When designing the complex, it was decided that most of the calculations would be performed by means of the Oracle DBMS, since this approach allows to reduce the costs of system resources necessary to transfer data to the client and return them in a modified form.

The client part is represented by a set of functionally separated modules. Borland C ++ Builder version 6.0 was used as a development environment.

7T\

T

The result of the project assembly is an executable application that provides a user interface for performing computational tasks assigned to the software package.

The interaction between the application and the Oracle DBMS is carried out using the program interface for accessing ActiveX data Data Objects (abbreviated ADO), developed by Microsoft. This interface is universal and allows you to interact with various DBMS. A prerequisite tor its operation is the availability ofa data provider driver, suitable for the given DBMS.

At the moment, there are two similar drivers that implement the ADO interface for Oracle DBMS. The first of these is a data provider developed by Microsoft. The second is the driver contained in the Oracle database installation package. As a result of the tests it was found out that the driver provided by Microsoft can not perform the task, because it is unable to establish a connection with the database server and leads to disruptions in the program. In turn, the Oracle driver prov ides stable operation.

The server part is represented as a set of service and user tables, stored subroutines, constraints and sequences.

Stored procedure

o

Source Target

table table

/X

O

c <

Table Excel

ADO

Control logic

Application

Visual Components

gross blunders. This information includes: the name of the stored function (field OBJECTNAME), a short description or the name of the drop-out method <METHOD_SHORT), a detailed description of the dropout method (METI lODJDESC). The description fields contain information about the drop-out functions in the natural language for the user. The content of this table is used in the client program to automatically generate a list of available methods from-sowing gross blunders.

To automatically call a subroutine, you must store a list and its parameter types. For this purpose the tabic F1L-TERM ETI IOD_

ARGUMENTS, each record of which stores information about one parameter of the sub-program. The parameters are linked to the stored subroutine through the OBJECT_NAME field, in general, the structure of the table is described by the fields represented in Table. 2.

To avoid disruption of integrity, the appropriate restrictions on the ARGD1R and ARG_POS fields of the FILTER M ETMOD_ A R- GUMENTS table are imposed by the corresponding IN O U T_C H EC K_ CONSTRAINT and ARGI>OS_CHECK_ CONSTRAINT constraints, respectively. The possible values of the ARG DIR field are bounded by the set ('IN', 'OUT', 'INOUT'), and the values of the ARG_POS field are limited only by positive numbers.

Table 2

List of fields in table FILTER METHOD ARGUMENTS

Fig, t. Block diagram of the software package

Column name Description

OBJECT NAME the name of the stored subroutine

ARG NAME subroutine parameter name

ARG TYPE parameter type

ARG DIR direction ofargument transfer;

ARG POS parameter position in the list

ARG SHORT parameter name in natural language

ARGDESC parameter description in natural language

These objects form an integral structure that allows, to the fullest extent, to carry out the assigned tasks. In Fig. 2 shows the block diagram of the database, from which it can be seen that the work of the complex is built on three service tables: F!L-TERMETHODS. FILTERM ETHODARGUMENTS and EXPERT_FORMS.

The FILTERMET1IODS table is used to store information about stored functions that implement algorithms for clearing

The client part of the complex uses the information from the FILTERM ETH 0D ARGUMENTS table to automatically create the user interface form fields, which allows the user to execute a call to the stored subroutine with a few simple actions without worrying about the order and types of its parameters.

Conclusion

This software product is a means of implementing the procedure for eliminating gross mistakes. This made it possible to exclude fusions that did not meet the standards from the original data table. Later on, based on these data, mathematical models will be built with the aim of predicting, introducing new types of steel, and creating the basis for the development of an automated product quality management system. The results allow to optimize the process of constructing a multifactor process model.

References

1. Boswijk H.P. (1909). Asymptotic Theory for Integrated Processes. Oxford University Press.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Dogerty K. (2006). Introduction to Econometrics. The 3-th Ed. Oxford University Press.

т

3. Phillips P.C.B., Moon U.R. (1999). Linear Regression Limit Theory lor Nonstationary Panel Data. Econometrica. 1999. Vol. 67, pp. 1057-1 111.

4. Dolgov Yu.A., Kozak L.Ya., Shestopal O.V. (2010). The scheme of mathematical modeling of the technological process of melting steel. Radielectronically and computer systems, no 7, pp. 157-160.

5. Dolgov Yu.A. (2011). Statistical modeling: A textbook for high schools. 2 nd cd.. Ext. Tiraspol; Publishing house of the Trans nistria University. 349 p.

6. Stashkova O., Shestopal O. (20107). Use of artificial neural networks for restoring passes in the source of initial data, hvestiya Vysshikh Uchebnykh Zavedenii. North-Caucasian region. Series: Engineering, no. I (193), pp. 37-42.

7. Shestopal O.V, (2016). Methods of searching for significant factors at the modeling of technological processes. Bulletin of the South-

Russian State Technical University (Novocherkassk Polytechnic Institute). Series: Socio-economic sciences, no. I, pp. 84-87.

8. Kozak L.Ya., Shestopal O.V, (2013). Procedure of identification of significant factors at the modeling of technological processes. Radiotelektronnyi i komp'yuterni sistemi, no 5, p. 267.

9. Shestopal O.V. (2013). Information approach to quantitative evaluation of model. Vector of science of Togliatti State University. Series: Economics and Management, no 2 (13), pp. 61-63,

10. Kozak L.Ya., Shestopal O.V. (2012). Information technologies in modeling. Problems of information and management. Vol. 2, lío. 38, pp. 37-41.

I I. Dolgov Y U.A., Kozak L.Ya., Shestopal O.V. (2010). Scheme of mathematical modeling of technological process of sieel melting. Radiotelektronnyi i komp'yuterni sistemi, no 7, p 157.

СТАТИСТИЧЕСКИЙ МЕТОД ДВУМЕРНОГО РАСПРЕДЕЛЕНИЯ И ЕГО КОМПЬЮТЕРНАЯ РЕАЛИЗАЦИЯ ПРИ ОБРАБОТКЕ ДАННЫХ ТЕХНОЛОГИЧЕСКОГО ПРОЦЕССА

Шестопал Оксана Викторовна, Южно-Российский государственный политехнический университет (Новочеркасский политехнический институт), Новочерксск,Россия, npi_pm@mail.ru Рощин Денис Олегович, Московский государственный университет управления Правительства Москвы (МГУУ),

Москва, Россия

Дннотация

В статье описывается статистический метод двумерного распределения для приведения исходных показателей технологического процесса выплавки стали к виду, пригодному для построения математической модели с целью прогнозирования, внедрения новых видов стали и создания основы для разработки системы автомати-зированного управления качеством продукции. Описан соответствующий пакет прикладных программ для компьютерной реализации рассматриваемого метода. На практике, увеличение числа повторных измерений часто приводит к появлению в результатах ошибочных значений, резко отличающихся от остальных измерений. Главным образом это вызвано антропогенным фактором, устранение которого по тем или иным причинам невозможно. Рассматриваемая проблема возникла при применении статистических методов обработки пассивных данных технологического процесса выплавки стали на Молдавском металлургическом заводе (г. Рыбница, Молдова). Применяемая таблица двумерного распределения дает дополнительную возможность избавиться от грубых промахов, которые невозможно выявить в одномерных выборках. Ее удобно применять для исследования распределения парной выборки двух случайных величин.

Стандартные статистические пакеты не позволяют реализовать данный метод. Применение других методов отсева промахов требует соблюдения нормального закона распределения, что невозможно гарантировать в исследуемых данных. Применение пакета MathModel (разработчики НИЛ "Математическое моделирование", г. Тирасполь, Молдова) позволяет провести всю цепочку работ над экспериментальными данными, начиная от очистки данных от грубых промахов, отбора информативных параметров, до получения различных статистических математических моделей и оценки качества путем сравнения их информационных емкостей. Серверная часть работает под управлением СУБД Oracle 10g и представляет собой набор таблиц и хранимых подпрограмм, выполняющих хранение и обработку исходных данных соответственно. При проектировании комплекса предусматривадось, что большая часть вычислений будет выполняться средствами СУБД Oracle, так как данный подход позволяет сократить расходы системных ресурсов, необходимых для передачи данных клиенту и их возврату в измененном виде. Данный программный продукт является средством реализации процедуры отсева грубых промахов. Это позволило исключить из исходной таблицы данных плавки, несоответствующие стандартам. В дальнейшем на основании этих данных возможно построение математические модели с целью прогнозирования, внедрения новых видов стали, и создания основы для разработки системы автоматизированного управления качеством продукции. Полученные результаты позволяют оптимизировать процесс построения модели многофакторного процесса.

Ключевые слова: метод двумерного распределения, статистическая обработка, моделирование технологического процесса, пакет программ.

Литература

1. Boswijk H.P. Asymptotic Theory for Integrated Processes. Oxford University Press, 1999.

2. Dogerty K. Introduction to Econometrics. The 3-th Ed. Oxford University Press, 2006.

3. Phillips P.C.B., Moon H.R. Linear Regression Limit Theory for Nonstationary Panel Data // Econometrica. 1999. Vol. 67, pp.1057-1111.

4. Долгое Ю.А., Козак Л.Я., Шестопал О.В. Схема математического моделирования технологического процесса плавки стали // Радюелектронш i комп'ютерш системи. 2010, №7. С. 157-160.

5. Долгов Ю.А. Статистическое моделирование: Учебник для вузов. 2-е изд., доп. Тирасполь: Изд-во Приднестр.ун-та, 2011. 349 с.

6. Сташкова О.В., Шестопал О.В. Использование искусственных нейронных сетей для восстановления пропусков в массиве исходных данных // Известия высших учебных заведений. Северо-Кавказский регион. Серия: Технические науки. 2017, № 1 (193). С. 37-42.

7. Шестопал О.В. Методы отыскания значимых факторов при моделировании технологических процессов // Вестник Южно-Российского государственного технического университета (Новочеркасского политехнического института). Серия: Социально-экономические науки. 2016, № 1. С. 84-87.

8. Козак Л.Я., Шестопал О.В. Процедура выделения значимых факторов при моделировании технологических процессов // Радюелектронш i комп'ютерш системи. 2013, № 5. С. 267.

9. Шестопал О.В. Информационный подход к количественной оценке модели // Вектор науки Тольяттинского государственного университета. Серия: Экономика и управление. 2013, № 2 (13). С. 61-63.

10. Козак Л.Я., Шестопал О.В. Информационные технологии в моделировании // Проблемi шформатизацп та управлшня. 2012. Т. 2, № 38. С. 37-41.

11. Долгов Ю.А., Козак Л.Я., Шестопал О.В. Схема математического моделирования технологического процесса плавки стали // Радюелектронш i комп'ютерш системи. 2010, № 7. С. 157.

Информация об авторах:

Шестопал Оксана Викторовна, аспирант кафедры прикладной математики, Южно-Российский государственный политехнический университет (Новочеркасский политехнический институт), г. Новочеркасск, Россия

Рощин Денис Олегович, Московский государственный университет управления Правительства Москвы (МГУУ), Москва, Россия

T-Comm Vol.12. #5-2018

i Надоели баннеры? Вы всегда можете отключить рекламу.