Научная статья на тему 'Использование абстрактного цифрового автомата для получения универсального промежуточного представления исходного кода программ'

Использование абстрактного цифрового автомата для получения универсального промежуточного представления исходного кода программ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
519
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИЧЕСКИЙ АНАЛИЗ / ПРОМЕЖУТОЧНОЕ ПРЕДСТАВЛЕНИЕ / АБСТРАКТНЫЙ АВТОМАТ / КОНЕЧНЫЙ АВТОМАТ / ПРОГРАММИРОВАНИЕ / ИСХОДНЫЙ КОД / STATIC ANALYSIS / INTERMEDIATE REPRESENTATION / ABSTRACT MACHINE / FINITE-STATE AUTOMATON / PROGRAMMING / SOURCE CODE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зубов Максим Валерьевич, Пустыгин Алексей Николаевич

Для выполнения статического анализа предложено использовать универсальные многоуровневые промежуточные представления. Были формализованы модели следующих представлений: для анализа архитектуры проекта модель представления уровня классов, для анализа функциональных модулей потока управления. Необходимо формализовать метод получения таких представлений для соответствия предложенной модели. Это позволяет единообразно добавлять новые языки путем создания стандартного генератора универсального промежуточного представления. Предлагается использовать абстрактный цифровой автомат с магазинной памятью. В качестве базового способа преобразования текста в машинные данные используется синтаксический анализ. Такой конечный автомат обрабатывает последовательность сигналов, описывающих входное дерево разбора, и формирует последовательность сигналов, описывающих дерево промежуточного представления. Хранение в памяти предыдущих состояний автомата дает возможность анализировать произвольную вложенность входного дерева. Введение специального свойства для входных и выходных сигналов позволяет описать дерево в виде последовательности узлов в соответствии с его обходом в глубину. Для программной реализации такого подхода был выбран язык Java, промежуточное представление строилось также для Java. Каждое состояние автомата реализовано в виде активного объекта, обрабатывающего входной поток сигналов. Реализуя такие шаблоны проектирования, как «цепочка ответственности», «состояние» и «стратегия», состояния образовывали таблицу переходов автомата Мили и магазинную память. Для хранения входных и выходных данных был выбран формат XML. Тестирование путем проверки преобразования синтаксических конструкций языка в текст универсального промежуточного представления на собственном коде и проектах с открытым исходным кодом показало полное соответствие реализации предложенным моделям.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Зубов Максим Валерьевич, Пустыгин Алексей Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USE OF FINITE-STATE AUTOMATiON FOR GETTING UNIVERSAL INTERMEDIATE REPRESENTATION OF PROGRAM SOURCE CODE

Universal multilevel intermediate representations were introduced to perform static analysis. There were formalized the models of the following representations: to analyze the architecture of the project a model of class level representation and to analyze the functional modules a control-flow representation model. It is necessary to formalize a method for getting such representations, which will correspond to the current models. This could help add new language support by creating standard intermediate representation generator. It is proposed to use abstract digital machine with stack memory. Syntax analysis is used as a base transformation from text to machine data. Such finite-state automation processes series of input signals, which are nodes of syntax tree, and produces signals, which are nodes of universal intermediate representation tree. Storage of the previous states of the automation in stack memory makes it possible to analyze random nesting of the input tree. Special option in input and output signals is used to describe sequence of tree nodes according to depth-first tree search. For this program development Java language was chosen, intermediate representation is also based on Java. Each state of automation is represented as an active object that processes input signal sequence. These objects use several design patterns, such as "chain of responsibility", "state" and "strategy" to form state transition table of Mealy machine and to make stack memory. Input and output data is represented with XML documents. Testing performed by checking the result of processing language syntax constructions into text of universal intermediate representation using own source code and open-source projects showed absolute correspondence to the actualization of the proposed models.

Текст научной работы на тему «Использование абстрактного цифрового автомата для получения универсального промежуточного представления исходного кода программ»

УДК 004.41

М. В. Зубов, А. Н. Пустыгин

ИСПОЛЬЗОВАНИЕ АБСТРАКТНОГО ЦИФРОВОГО АВТОМАТА ДЛЯ ПОЛУЧЕНИЯ УНИВЕРСАЛЬНОГО ПРОМЕЖУТОЧНОГО ПРЕДСТАВЛЕНИЯ ИСХОДНОГО КОДА ПРОГРАММ

Для выполнения статического анализа предложено использовать универсальные многоуровневые промежуточные представления. Были формализованы модели следующих представлений: для анализа архитектуры проекта - модель представления уровня классов, для анализа функциональных модулей - потока управления. Необходимо формализовать метод получения таких представлений для соответствия предложенной модели. Это позволяет единообразно добавлять новые языки путем создания стандартного генератора универсального промежуточного представления. Предлагается использовать абстрактный цифровой автомат с магазинной памятью. В качестве базового способа преобразования текста в машинные данные используется синтаксический анализ. Такой конечный автомат обрабатывает последовательность сигналов, описывающих входное дерево разбора, и формирует последовательность сигналов, описывающих дерево промежуточного представления. Хранение в памяти предыдущих состояний автомата дает возможность анализировать произвольную вложенность входного дерева. Введение специального свойства для входных и выходных сигналов позволяет описать дерево в виде последовательности узлов в соответствии с его обходом в глубину. Для программной реализации такого подхода был выбран язык Java, промежуточное представление строилось также для Java. Каждое состояние автомата реализовано в виде активного объекта, обрабатывающего входной поток сигналов. Реализуя такие шаблоны проектирования, как «цепочка ответственности», «состояние» и «стратегия», состояния образовывали таблицу переходов автомата Мили и магазинную память. Для хранения входных и выходных данных был выбран формат XML. Тестирование путем проверки преобразования синтаксических конструкций языка в текст универсального промежуточного представления на собственном коде и проектах с открытым исходным кодом показало полное соответствие реализации предложенным моделям.

Ключевые слова: статический анализ, промежуточное представление, абстрактный автомат, конечный автомат, программирование, исходный код.

Введение

Статический анализ - это изучение исходного текста программ без их непосредственного выполнения. Он может использоваться для решения задач по извлечению информации из исходного кода, анализа архитектуры проекта, анализа потока управления и проведения рефакто-ринга [1]. Для выполнения статического анализа обычно используются промежуточные представления исходного кода в качестве входных данных. Достоинства применения универсальных промежуточных представлений при статическом анализе исходного кода были освещены в [2]. Универсальные промежуточные представления (УПП) - это представления, которые можно использовать более чем для одного языка. Были разработаны математические модели таких представлений [3]. Формализация позволяет строго описывать формат данных и требования к их свойствам. Так как анализ универсального представления не зависит от входного языка, то для каждого нового языка требуется только реализация генератора такого представления. Формальный метод получения представления позволит единообразно добавлять новые языки путем создания стандартного генератора УПП.

Постановка задачи

Основным способом перевода исходного кода из текстового формата в машинные данные, удобные для обработки программным образом, является синтаксический анализ [4]. Исходный код является текстом на формальном языке - языке программирования. Такой текст легко представляется в виде абстрактных синтаксических деревьев разбора (AST) согласно его формальной грамматике в виде абстрактного синтаксического дерева разбора [5]. Для получения промежуточного представления сначала нужно выполнить синтаксический анализ, а затем, на основе AST, получать необходимые данные (рис. 1).

Рис. 1. Получение промежуточного представления из исходного кода

Для получения разрабатываемого представления потока управления из абстрактного дерева разбора необходимо выполнить обход дерева AST и формирование дерева УПП. Такие деревья можно представить в виде потока его узлов и атрибутов в соответствии с алгоритмом обхода в прямом порядке в глубину. Задачи преобразования и обработки потока некоторых входных данных эффективно решаются с помощью абстрактных цифровых автоматов [6].

Ранее было предложено получение абстрактного синтаксического дерева разбора в формате XML для языка Java [7], поэтому будем рассматривать разработку генератора представлений, использующую этот функционал. Соответственно, разрабатываемый генератор представлений предназначен для языка Java.

Общая автоматная модель

Воспользуемся конечным автоматом для преобразования AST в УПП. Один узел выходного представления может соответствовать комбинации узлов входного, поэтому целесообразно воспользоваться моделью автомата Мили, в котором выходные сигналы зависят не только от состояния, но и входных данных. Степень ветвления в AST велика, а вложенность может быть произвольной, однако она соответствует контекстно-свободной грамматике входного языка. В AST могут существовать структуры произвольного уровня вложенности. Канонический автомат Мили не подходит для обработки таких структур. Либо для каждого уровня вложенности необходимо свое состояние, но тогда автомат не будет конечным, либо будет происходить потеря данных.

Для разбора последовательностей, описываемых контекстно-свободными грамматиками, используются конечные автоматы с магазинной (стековой) памятью (МП-автоматы) [8]. В отличие от классической модели, будем хранить в стеке не входные сигналы, а состояния автомата. Общую модель такого автомата для получения промежуточных представлений можно формализовать в следующем виде:

M = (S,K,X,Y,z0, 5, X, ф, j0), (1)

где S - конечное множество состояний автомата; K - алфавит стека состояний, являющийся надмножеством S , т. е. S с K (любое состояние можно поместить в стек); z0 - нулевой (начальный) символ стековой памяти состояний z0 £ K ; X - множество входных сигналов; Y - множество выходных сигналов; 8 - функция переходов; X - функция выходов; ф - функция получения следующего элемента для записи в память (функция памяти); s0 £ S - начальное

состояние. Будем пользоваться определением автомата с помощью функций, а не с помощью команд МП-автомата. Это делается для удобства, т. к. входные сигналы можно разделить на однотипные группы, что упростит формализацию таких функций [9]. Каждое состояние автомата будет соответствовать преобразованию определенного узла AST или группы узлов, которые описывают одну сущность высокоуровневого представления.

Таким образом, функция переходов в автомате (1) является отображением 8: S X X X K ^ S , а функция выходов для автомата Мили, в свою очередь, отображением X: S X X ^ Y . Функция памяти будет показывать, какой символ необходимо записать в стек в конце такта ф: S X X ^ K [10].

Обозначим символом e некоторый сигнал, обозначающий завершение обработки узла и переход к его родительскому узлу. Этот символ будет показывать, что необходимо перейти к предыдущему состоянию. Он также будет использоваться в выходных данных. Входные и выходные сигналы будут основаны на моделях AST и универсальных представлений, предложенных в [3].

На вход автомата будут поступать элементы абстрактного синтаксического дерева разбора Java, а именно поддеревья вида Ai = (o, ASi, Li), где o e O - конструкция из множества конструкций языка программирования (узел дерева разбора), являющаяся корнем поддерева A{; ASi с A - множество поддеревьев AST для текущего корня; Li с L - множество листьев текущего корня (операндов текущего оператора), L - множество всех возможных операндов для конструкций языка.

Будем считать, что входной сигнал автомата состоит из узла входного представления, множества листьев и возможного сигнала e для перехода к предыдущему состоянию. Таким образом, x = (o, Li, e), где x e X - входной сигнал; o e O ; Li - листья текущего узла, которые

можно извлечь в данный момент; e - символ перехода к родительскому узлу.

На выходе автомата будем получать поддеревья универсальных многоуровневых представлений вида Ui = (v,USi, It), где ve V - узел промежуточного представления, являющийся

корнем поддерева Ui; USi с U - множество поддеревьев представления для текущего корня;

I с I - множество атрибутов текущего узла; I - множество всех возможных атрибутов.

По аналогии с входными сигналами, на выходе будем получать сигналы, состоящие из узлов нового представления, его листьев (характеристик) и признака e. Структура выходного сигнала - y = (v, ICi, e), где y e Y - выходной сигнал; v e V ; ICi с It - некоторое подмножество листьев узла, которые можно выдать в данный момент; e - символ перехода к родительскому узлу.

Структура магазинной памяти в автомате будет такова, что в нее будет записываться обработанное состояние (в случае перехода к следующему вложенному узлу) или же будет извлекаться состояние из вершины (при окончании обработки текущего узла).

Обозначим как ae K любой символ, находящийся на вершине стека состояний в текущий момент. Таким образом, указывая в качестве состояния a, будем обращаться к текущему состоянию. Обозначим как у пустой символ для записи в стек состояний. Если верхний символ a заменяется пустой цепочкой у, то после его записи верхним символом становится некоторое k e K , записанное под верхней ячейкой. Если записывается некоторый символ kt e K , то он

помещается на вершину, а все остальные ячейки сдвигаются на одну в глубину. Таким образом, текущий символ a на момент начала такта оказывается записанным во второй ячейке. Если в качестве входного сигнала памяти указывается непосредственно сам a, тогда записи в память не происходит, считаем, что стек не меняется.

Множество входных сигналов XE с X содержит те входные сигналы, у которых присутствует e - признак того, что обработка текущего узла закончена. Таким образом, при любом значении входного сигнала из этого множества будет осуществляться переход к состоянию, находящемуся в вершине стека состояний. Следует также выделить множество входных сигналов XV с X , отвечающих за узлы, соответствующие описанию идентификаторов, обращений

к типу через точку и обращению к примитивному типу. Все эти сигналы ни при каких условиях не меняют состояние автомата, а влияют только на выходной сигнал. Все множество остальных входных сигналов, которые заставляют автомат выполнить переход по таблице, обозначим как XT . Других типов входных сигналов не будет, XE и XV и XT = X .

Разделив входные сигналы на несколько групп, можно сформировать единую функцию переходов.

5(s, a, x) =

a, Vx e XE, s, Vx e XV, sT e S, Vx e XT,

где 5Т - некоторое состояние, определяемое по таблице переходов автомата.

Таким образом, при использовании такой функции только при определенных значениях входного сигнала будет осуществляться переход по таблице переходов. При этом значение состояния, хранящееся в стеке, не влияет на переход. Получается, что таблица переходов будет более простым отображением, чем функция переходов Т: Т ^ Б , где левая часть является отношением, содержащим допустимые входные пары, приводящие к переходу Т = {(5,х)! 5е Б,хе ХТ}, где Т с БхX .

Функция памяти автомата также определяется на основе группы входных сигналов.

ф(5, x)

Y, Vx е XE, a, Vx е XV, s, Vx е XT, 3(s, x) е T, a, Vx е XT, —3(s, x) е T.

Как видно, запись нового состояния автомата, полученного из этой функции, происходит только в случае явного перехода по таблице, т. е. когда появилось новое состояние. Общая схема разработанного автомата представлена на рис. 2.

Рис. 2. Схема абстрактного цифрового автомата для генерации промежуточного представления

Использование такого автомата, разработанного через описание функций существенно сокращает его затраты на реализацию, так как не требуется явно обрабатывать все узлы входного AST с помощью канонического метода синтеза МП-автомата [9]. Кроме того, из его выходных сигналов можно напрямую получать узлы требуемого промежуточного представления.

Реализация предложенного подхода

Для реализации абстрактного автомата основным классом будет состояние автомата. В каждом таком состоянии на основе входных данных будут осуществляться переходы, полу-

чаться новые состояния и формироваться выходные данные. Состояние автомата само по себе может быть представлено активным объектом [11]. Тогда магазинную память можно реализовать с помощью шаблона проектирования «цепочка ответственности» [12]. При получении состояния по таблице переходов новое заменяет старое, а все вызовы уже идут к нему. Таким образом, ответственность за обработку входных сигналов перекладывается на полученное состояние, а сохранение предыдущего позволит перейти к нему как к расположенному глубже элементу магазинной памяти. Кроме того, при установке нового состояния будет меняться логика получения выходных данных, что соответствует шаблону проектирования «состояние». Изменение алгоритма получения выходных сигналов в зависимости от состояния, в свою очередь, соответствует шаблону «стратегия». ИМЬ-диаграмма классов для интерфейса, описывающего обработку каждого состояния абстрактного автомата, предложенного ранее, показана на рис. 3.

<<interface» IConteit

- getNextStateQ

- gaPreu ousStateQ

- processTagQ

- fimshQ

Рис. 3. иМЬ-диаграмма 1ауа-интерфейса, описывающего обработчик состояния автомата -генератора промежуточного представления

Разрабатываемое промежуточное представление должно быть экспортируемым в файл и легкодоступным для анализа и проверки вручную. Кроме того, представление должно являться деревом. Хорошим способом для хранения древовидной информации в удобном для восприятия виде является XML-формат [13]. Этот формат рекомендован Консорциумом всемирной паутины (W3C) и поддерживает возможность описания структуры документов с помощью XML-схем [14]. Кроме того, исходные данные с AST также можно получать в формате XML [7].

Входные события, возникающие при чтении исходного XML-документа, можно разделить на открывающиеся теги и закрывающиеся. Это вполне соответствует признаку e во входном сигнале автомата. Если тег открывается, значит, входной сигнал содержит некоторый набор листьев и сам узел (тег), но не содержит e . Закрывающийся тег, наоборот, говорит о том, что обработка узла (тега) завершена.

В качестве примера рассмотрим предложенное ранее универсальное представление потока управления (UCFR - universal control-flow representation) [15]. Такое представление хранит в себе в виде дерева граф потока управления по отдельности для каждой функции и метода. Само представление строится для языка Java, его генератор также написан на языке Java.

В исходном коде на языке программирования Java для удобства программирования можно не указывать полные имена используемых типов. Они могут быть получены из локальных с помощью инструкций import или взяты из текущего пакета. Это накладывает некоторые ограничения на получение представления, т. к. в исходном виде в коде нет связей с конкретными типами данных.

Для решения этой проблемы обработка представления осуществляется в 3 прохода.

1. Автоматное преобразование, получение «сырого» представления. На этом проходе в представлении типы данных находятся в том виде, в котором они хранятся в коде.

2. Генерация ID для методов и классов, формирование таблиц этих ID.

3. Поиск внутрипроектных типов данных для переменных/полей/аргументов, которые являются источниками вызовов, и самих вызовов. Расстановка связей по ID.

Поиск внутрипроектных типов данных осуществляется по такому же алгоритму, который используется при компиляции. Типы ищутся среди классов всего проекта по порядку в следующих местах:

1. В именованных вложенных классах текущего класса.

2. В именованных вложенных классах родителя текущего класса.

3. В проекте, в котором расположен текущий класс.

4. В списке проектов, подключенных к текущему с помощью import (для подключения пакетов используется инструкция со звездочкой).

5. В списке классов, подключенных к текущему с помощью import.

Если в ходе обработки по этому алгоритму подходящих классов не нашлось, искомый считается внешним (системным или библиотечным) по отношению к проекту и не рассматривается в дальнейшем, хотя и не исключается из представления. Связь с ним помечается как внешняя.

Для считывания XML используется библиотека потоковой обработки XML для языка Java -StAX (Streaming API for XML) [16]. Сам по себе StAX описывает только интерфейс и подход к потоковому вводу/выводу в XML для Java. Существует множество его реализаций. Базовая реализация StAX входит в состав стандартной поставки JavaSE начиная с 6 версии. Работа с XML в StAX основана на событиях, возникающих на входном потоке.

Для записи выходного представления в XML-формате используется технология связывания данных [17]. Связывание данных заключается в том, что на основе описания данных XML в виде схемы генерируется исходный код, описывающий в удобном объектно-ориентированном виде данные, хранимые в XML. Используя этот код, можно выполнять маршалинг (преобразование данных из XML в объекты в памяти) и демаршалинг (преобразование данных из памяти в XML). Связывание данных реализуется на основе технологии Java Architecture for XML Binding (JAXB) [18]. Эта технология включается в поставку Java EE начиная с версии 6. Кроме того, интерфейсы для работы с ней стандартизованы, имеется несколько реализаций этих интерфейсов. Для разработки использовалась базовая реализация, включаемая в пакет JDK.

Как отмечалось ранее, получить полные данные представления по коду в один проход невозможно, требуются 2 дополнительных прохода по получаемому дереву для расстановки связей внутрипроектных вызовов и разрешения идентификаторов. На первом проходе с помощью автоматной обработки генерируются базовые данные JAXB, описывающие выходное дерево, на втором проходе класс MethodRegistryltem выполняет расстановку целочисленных идентификаторов для всех методов проекта и классов, в которых они описаны. На третьем проходе класс VariableScope проходит по всем переменным проекта и непосредственным вызовам, расставляя идентификаторы целей внутрипроектных вызовов и удаляя лишние.

Полученный генератор представления UCFR на основе трех проходов, обработки XML, связывания данных и автоматного подхода может быть представлен в виде схемы (рис. 4).

XML AST Java

j eigen

StAX IStaxHandler JAXB

IConteit

Metho dRsii stry Bern

VaraibleScope

т\

UCFR

Рис. 4. Схема работы генераторов промежуточного представления UCFR для языка Java

Применение разработанного функционала показало полное соответствие предложенным моделям. Для тестирования использовался собственный код генератора представлений и генератора абстрактного дерева разбора в формате XML, а также проекты с открытым исходным кодом: javac, squirrel и log4j. Общий объем тестируемого кода превысил десятки тысяч строк. Тестирование производилось путем проверки преобразования синтаксических конструкций языка в текст универсального промежуточного представления. Результаты разработки генератора представлений зарегистрированы в государственном реестре программ для ЭВМ [19].

Заключение

Статический анализ использует в качестве входных данных промежуточные представления. Был предложен формальный метод получения УПП на основе абстрактного цифрового автомата с магазинной памятью. Он основывается на предложенных ранее математических моделях промежуточных представлений и позволяет формировать данные, соответствующие им.

Хранение в памяти предыдущих состояний автомата позволяет простым эвристическим способом описать переходы и выходы без использования синтеза команд по входной грамматике. Формализованная модель автомата была реализована в программном коде на языке Java. Разработанные программные утилиты позволяют получать XML-документы с промежуточным представлением из исходного кода. В дальнейшем эти документы используются для выполнения статического анализа. Формализация метода получения промежуточного представления позволяет использовать его для других языков с целью получения данных, описываемых той же самой моделью. Выполненная реализация на Java показывает простоту разработки генераторов представлений при наличии готовой модели.

СПИСОК ЛИТЕРА ТУРЫ

1. Зубов М. В. Численное моделирование анализа исходного кода с использованием промежуточных представлений / М. В. Зубов, А. Н. Пустыгин, Е. В. Старцев // Вестн. Астрахан. гос. техн. ун-та. Сер.: Управление, вычислительная техника и информатика. 2014. № 4. С. 55-66.

2. Зубов М. В. Применение универсальных промежуточных представлений для статического анализа исходного программного кода / М. В. Зубов, А. Н. Пустыгин, Е. В. Старцев // Докл. Томск. гос. ун-та систем управления и радиоэлектроники. 2013. Т. 27, № 1. С. 64-69.

3. Зубов М. В. Математическое моделирование универсальных многоуровневых промежуточных представлений для статического анализа исходного кода / М. В. Зубов, А. Н. Пустыгин, Е. В. Старцев // Докл. Томск. гос. ун-та систем управления и радиоэлектроники. 2014. Т. 33, № 3. С. 94-99.

4. Ахо А. Компиляторы: принципы, технологии и инструментарий / А. Ахо, М. Лам, Р. Сети, Д. Ульман. М.: Вильямс, 2010. 1184 с.

5. Серебряков В. А. Основы конструирования компиляторов / В. А. Серебряков, М. П. Галочкин. М.: Эдиториал УРСС, 2001. 224 с.

6. Хопкрофт Дж. Введение в теорию автоматов, языков и вычислений / Дж. Хопкрофт, Р. Мотвани, Дж. Ульман. М.: Вильямс, 2008. 528 с.

7. Зубов М. В. Прототипы построителей промежуточных представлений исходных текстов программ, основанные на компиляторах с открытым исходным кодом / М. В. Зубов, А. Н. Пустыгин, Е. В. Старцев // Седьмая конференция «Свободное программное обеспечение в высшей школе»: тез. докл. М.: Альт-Линукс, 2012. С. 82-86.

8. Алгоритм построения МП-автомата по КС-грамматике // URL: http://mathhelpplanet.com/static.php?p= algoritm-postroyeniya-mp-avtomata-po-ks-grammatike (дата обращения: 25.07.2015).

9. Новиков Ф. А. Автоматный метод определения проблемно-ориентированных языков / Ф. А. Новиков, У. Н. Тихонова // Информационно-управляющие системы. 2009. № 6. С. 34-40.

10.Новиков Ф. А. Дискретная математика для программистов / Ф. А. Новиков. СПб.: Питер, 2007. 386 с.

11. Schmidt D. Pattern-Oriented Software Architecture. Vol. 2: Patterns for Concurrent and Networked Objects / D. Schmidt, M. Stal, H. Rohnert. New York, USA: Wiley. 631 p.

12. Гамма Э. Приемы объектно-ориентированного проектирования. Паттерны проектирования / Э. Гамма, Р. Хелм, Р. Джонсон, Дж. Влиссидес. СПБ.: Питер, 2007. 366 с.

13. Хантер Д. XML. Работа с XML / Д. Хантер, Д. Рафтер, Д. Фаусетт, Э. ван дер Влист и др. М.: Диалектика, 2009. 1344 с.

14. XML Schema // URL: www.w3.org/XML/Schema (дата обращения: 25.07.2015).

15. Зубов М. В. Построение универсального представления графа потока управления для статического анализа исходного кода / М. В. Зубов, А. Н. Пустыгин, Е. В. Старцев // Девятая конференция «Свободное программное обеспечение в высшей школе»: тез. докл. М.: Альт-Линукс, 2014. С. 46-51.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

16. Использование StAX для обработки XML // URL: http://www.ibm.com/developerworks/ru/library/ x-stax1 (дата обращения: 25.07.2015).

17. McLaughlin B. Java and XML data binding / B. McLaughlin. CA, USA: O'Reilly, 2002. 218 p.

18. JAXB Reference Implementation // URL: https://jaxb.java.net (дата обращения: 25.07.2015).

19. Зубов М. В. Генератор универсального классового промежуточного представления в формате XML из представления AST исходного текста на языке Java / М. В. Зубов, А. Н. Пустыгин // Свид-во о гос. регистрации программ для ЭВМ № 2014663489; Заявка № 2014663489; зарегистрирована в Реестре программ для ЭВМ 24.12.2014.

Статья поступила в редакцию 20.08.2015, в окончательном варианте - 3.10.2015

ИНФОРМАЦИЯ ОБ АВТОРАХ

Зубов Максим Валерьевич - Россия, 454000, Челябинск; Челябинский государственный университет; аспирант кафедры «Компьютерная безопасность и прикладная алгебра»; zubovmv@gmail.com.

Пустыгин Алексей Николаевич - Россия, 454000, Челябинск; Челябинский государственный университет; канд. техн. наук, доцент; доцент кафедры «Компьютерная безопасность и прикладная алгебра»; p2008an@rambler.ru.

M. V. Zubov, A. N. Pustygin

USE OF FINITE-STATE AUTOMATION FOR GETTING UNIVERSAL INTERMEDIATE REPRESENTATION OF PROGRAM SOURCE CODE

Abstract. Universal multilevel intermediate representations were introduced to perform static analysis. There were formalized the models of the following representations: to analyze the architecture of the project - a model of class level representation and to analyze the functional modules -a control-flow representation model. It is necessary to formalize a method for getting such representations, which will correspond to the current models. This could help add new language support by creating standard intermediate representation generator. It is proposed to use abstract digital machine with stack memory. Syntax analysis is used as a base transformation from text to machine data. Such finite-state automation processes series of input signals, which are nodes of syntax tree, and produces signals, which are nodes of universal intermediate representation tree. Storage of the previous states of the automation in stack memory makes it possible to analyze random nesting of the input tree. Special option in input and output signals is used to describe sequence of tree nodes according to depth-first tree search. For this program development Java language was chosen, intermediate representation is also based on Java. Each state of automation is represented as an active object that processes input signal sequence. These objects use several design patterns, such as "chain of responsibility", "state" and "strategy" to form state transition table of Mealy machine and to make stack memory. Input and output data is represented with XML documents. Testing performed by checking the result of processing language syntax constructions into text of universal intermediate representation using own source code and open-source projects showed absolute correspondence to the actualization of the proposed models.

Key words: static analysis, intermediate representation, abstract machine, finite-state automaton, programming, source code.

REFERENCES

1. Zubov M. V., Pustygin A. N., Startsev E. V. Chislennoe modelirovanie analiza iskhodnogo koda s ispol'zovaniem promezhutochnykh predstavlenii [Numerical modeling of the source code analysis using intermediate representation]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Uprav-lenie, vychislitel'naia tekhnika i informatika, 2014, no. 4, pp. 55-66.

2. Zubov M. V., Pustygin A. N., Startsev E. V. Primenenie universal'nykh promezhutochnykh predstavlenii dlia staticheskogo analiza iskhodnogo programmnogo koda [Application of the universal intermediate representations for statistical analysis of the source program code]. Doklady Tomskogo gosudarstvennogo universiteta sis-tem upravleniia i radioelektroniki, 2013, vol. 27, no. 1, pp. 64-69.

3. Zubov M. V., Pustygin A. N., Startsev E. V. Matematicheskoe modelirovanie universal'nykh mnogourovnevykh promezhutochnykh predstavlenii dlia staticheskogo analiza iskhodnogo koda [Mathematical modeling of universal multilevel intermediate representations for statistical analysis of source code]. Doklady Tomskogo gosudarstvennogo universiteta sistem upravleniia i radioelektroniki, 2013, vol. 27, no. 1, pp. 64-69.

4. Aho Alfred V., Lam Monica S., Sethi Ravi, Ullman Jeffrey D. Compilers: Principles, Techniques, and Tools. Addison Wesley, 2006. 1000 p.

5. Serebriakov V. A., Galochkin M. P. Osnovy konstruirovaniia kompiliatorov [Bases of designing compilers]. Moscow, Editorial URSS Publ., 2001. 224 p.

6. Hopcroft John E., Motwani Rajeev, Ullman Jeffrey D. Introduction to Automata Theory, Languages, and Computing. Pearson; 2006. 750 p.

7. Zubov M. V., Pustygin A. N., Startsev E. V. Prototipy postroitelei promezhutochnykh predstavlenii isk-hodnykh tekstov programm, osnovannye na kompiliatorakh s otkrytym iskhodnym kodom [Prototypes of designers of the intermediate representations of source program texts based on the compilers with open source code]. Sed'maia konferentsiia «Svobodnoe programmnoe obespechenie v vysshei shkole». Tezisy dokladov. Moscow, Al't-Linuks, 2012. P. 82-86.

8. Algoritm postroeniia MP-avtomata po KS-grammatike [Algorithm of construction of stack memory automation on Context-free grammar]. Available at: http://mathhelpplanet.com/static.php?p=algoritm-postroyeniya-mp-avtomata-po-ks-grammatike (accessed: 25.07.2015).

9. Novikov F. A., Tikhonova U. N. Avtomatnyi metod opredeleniia problemno-orientirovannykh iazykov [Automated method of recognition of problem-oriented languages]. Informatsionno-upravliaiushchie sistemy, 2009, no. 6, pp. 34-40.

10. Novikov F. A. Diskretnaia matematika dlia programmistov [Discrete mathematics for programmers]. Saint-Petersburg, Piter Publ., 2007. 386 p.

11. Schmidt D., Stal M., Rohnert H. Pattern-Oriented Software Architecture. Vol. 2: Patterns for Concurrent and Networked Objects. New York, USA: Wiley. 631 p.

12. Gamma E., Helm R., Johnson R., Vlissides J. Design patterns: elements of reusable object-oriented software. Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA, 1995. 395 p.

13. Hunter D., Rafter J., Fawcett J., Vlist E. van der, Ayers D., Duckett J., Watt A., McKinnon L. Beginning XML. Indianapolis, Wrox, 2007. 1080 p.

14. XML Schema. Available at: www.w3.org/XML/Schema (accessed: 25.07.2015).

15. Zubov M. V., Pustygin A. N., Startsev E. V. Postroenie universal'nogo predstavleniia grafa potoka upravleniia dlia staticheskogo analiza iskhodnogo koda [Development of universal representation of control-flow graph for statistical analysis of source code]. Deviataia konferentsiia «Svobodnoe programmnoe obespechenie v vysshei shkole». Tezisy dokladov. Moscow, Al't-Linuks Publ., 2014. P. 46-51.

16. Ispol'zovanie StAX dlia obrabotki XML [Use of StAX for XML processing]. Available at: http://www.ibm.com/developerworks/ru/library/x-stax1 (accessed: 25.07.2015).

17. McLaughlin B. Java and XML data binding. CA, USA: O'Reilly, 2002. 218 p.

18. JAXB Reference Implementation. Available at: https://jaxb.java.net (accessed: 25.07.2015).

19. Zubov M. V., Pustygin A. N. Generator universal'nogo klassovogo promezhutochnogo predstavleniia v formate XML iz predstavleniia AST iskhodnogo teksta na iazyke Java [Generator of universal class intermediate representation in XML from AST source text in Java language]. Svidetel'stvo o gosudarstvennoi registratsii programm dlia EVM № 2014663489; zaiavka № 2014663489; zaregistrirovana v Reestre programm dlia EVM 24.12.2014.

The article submitted to the editors 20.08.2015, in the final version - 3.10.2015

INFORMATION ABOUT THE AUTHORS

Zubov Maxim Valerievich - Russia, 454000, Chelyabinsk; Chelyabinsk State University; Postgraduate Student of the Department "Computer Security and Applied Algebra"; zubovmv@gmail.com.

Pustygin Alexey Nikolaevich - Russia, 454000, Chelyabinsk; Chelyabinsk State University; Candidate of Technical Sciences, Assistant Professor; Assistant Professor of the Department "Computer Security and Applied Algebra"; p2008an@rambler.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.