МЕТОДЫ И МОДЕЛИ КЛАССИФИКАЦИИ ДЛЯ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ КОДА ТОВАРА ПО ТОВАРНОЙ НОМЕНКЛАТУРЕ ВНЕШНЕЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ

Васина Елена Николаевна; Филиппова Людмила Арнольдовна

Е. Н. Васина, Л. А. Филиппова

МЕТОДЫ И МОДЕЛИ КЛАССИФИКАЦИИ ДЛЯ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ КОДА ТОВАРА ПО ТОВАРНОЙ НОМЕНКЛАТУРЕ ВНЕШНЕЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ

В статье проанализированы методы и модели построения алгоритма автоматического определения кода товара в соответствии с решениями Евразийской экономической комиссии о классификации товаров по единой Товарной номенклатуре внешнеэкономической деятельности. Предложена обобщенная схема процесса автоматической классификации товара на основании синтаксического и лингво-статистического анализа графы 31_1 массива деклараций на товары.

Ключевые слова: таможенные информационные системы; код единой Товарной номенклатуры внешнеэкономической деятельности; товар; классификация; математическая модель; матрица близости; пространство признаков; тестовое множество.

Основной частью таможенного декларирования является достоверная классификация товара. Операции по классификации товара важны не только для принятия классификационного решения в области определения его таможенно-тарифного положения, но и для решения по определению соответствия товара установленным нетарифным ограничениям и запретам на товар, для заключительного решения по товару, а также для квалификации деяния субъекта права, перемещающего товар через таможенную границу [1].

Как правило, товар подвергается классификации не по пробе (образцу) товара, а на основании документов на товар по его наименованию, описанию и/или графическому изображению (фотографиям и т. п.). Наименование товара может иметь вид наименования продукции (продуктового наименования), коммерческого наименования и/или наименования позиции в соответствии с решениями Евразийской экономической комиссии о классификации товаров по единой Товарной номенклатуре внешнеэкономической деятельности (ТН ВЭД).

Код товара заявляет участник внешнеэкономической деятельности (ВЭД). В данной работе мы не рассматриваем случаи преднамеренного указания предпринимателем в декларации недостоверных сведений о товаре. Классифицировать товар подчас очень трудно даже эксперту с большим опытом работы. Специфика классифицирования заключается в том, что изменение одного, на первый взгляд, незначительного параметра (критерия, признака) влечет за собой изменение классификационного кода ТН ВЭД.

На современном рынке представлено достаточное количество программных средств, предназначенных для таможенного оформления товаров. При заполнении интересующей нас графы 33 таможенной декларации на товары их интерфейс в лучшем случае предлагает использовать соответствующий справочник ТН ВЭД и Пояснения к нему в той части, где они могут быть применены.

Анализ и систематизация ошибок классификации в таможенной практике показали, что одной из предпосылок их возникновения является слабая

методическая обеспеченность программными продуктами, способствующими идентификации товаров [2].

В данной статье рассматриваются методы и модели классификации, которые могут использоваться для автоматического определения кода товара по ТН ВЭД, представляющей собой иерархический классификатор кодов товаров. Код товара - это 10-значное число. Первые две цифры числа обозначают товарную группу ТН ВЭД, следующие две - товарную позицию, следующие две - субпозицию, далее следуют цифры, определяющие подсубпозицию. Авторы статьи в качестве класса рассматривают множество товаров, имеющих одинаковый код ТН

ВэД.

Математическая модель задачи классификации может быть представлена следующим образом [3]. Имеется множество объектов L, а также множество N классов К = {Кг|, где I = 1, ..., N. Каждый объект соответствует одному или нескольким классам. Каждый класс Ki представлен некоторым формализованным описанием 5^ Процедура классификации f объекта I е L заключается в выполнении преобразований над ними, на основании которых делается вывод о соответствии I одному или нескольким описаниям 5, что означает отнесение I к классу К. Тогда процесс классификации может быть представлен алгебраической системой следующего вида:

<Ь, К, 5, А (1)

где Ь - множество объектов, подлежащих классификации;

К - множество классов;

5 - множество описаний классов;

Як - отношение К х 5 имеет свойство: любому классу соответствует единственное описание, при этом обратное требование не обязательно;

/ - операция классификации вида Ь ^ К.

Отображение f не имеет никаких ограничений, так что возможны ситуации, когда некоторый объект может быть отнесен к нескольким классам одновременно.

Кроме сформулированной задачи классификации ставится задача обучения классификатора, под которой подразумевается частичное или полное формирование К, 5, Rk и f на основе некоторых априорных данных.

Для предлагаемой процедуры классификации товаров описания 5, с одной стороны, используются для представления содержания классов - множества товаров, имеющих одинаковый код ТН ВэД, а с другой стороны, характеризуют объекты - товары. Процедура классификации f использует меру близости вида Е: 5 х 5 ^ [0; 1], позволяющую количественно оценивать близость описаний 5[ е 5 и 5i е 5, где описание 5[ представляет анализируемый объект, а 5i - некоторый класс.

Действия процедуры классификации f сводятся к составлению описания анализируемого объекта I в представлении 5[ е 5, оценке близости описания 5[ с описаниями классов i (вычисление г(5, 5)) и заключению по результатам сопоставления о принадлежности объекта к одному или нескольким классам. Последнее заключение выполняется либо на основе сравнения с пороговой величиной гш;п, так что объект относится ко всем классам К, для которых г(5, 5) > гш;п , либо из всех т(5[, 5) выбирается максимальная величина, которая и указывает на результирующий класс.

В качестве меры близости можно использовать, например, косинус угла между векторами, вычисляемый через скалярное произведение:

Как следует из вышесказанного, для решения задачи автоматической классификации необходимо составить описание объектов. Обычно алгоритмы классификации имеют дело с векторами в пространстве признаков. Качество классификации в значительной мере зависит от того, как объекты будут преобразованы в векторное представление.

Подходы к формированию вектора признаков объекта могут существенно различаться. В простейшем случае каждый признак соответствует характерной черте одного из объектов в рассматриваемом наборе. Значение соответствующей координаты вектора тоже может определяться по-разному: например, значение может быть равно единице, если данный признак относится к объекту, и нулю в противоположном случае; может вычисляться по более сложным формулам. Выбор весов признаков существенно влияет на качество классифицирования объектов.

Большинство алгоритмов классификации оперирует в качестве входных данных матрицей «признак - объект», составленной из векторов признаков объектов. Эта матрица формируется для построения матрицы близости, а матрица близости используется для определения множества объектов, наиболее схожих с данным.

Существует несколько причин, по которым следует стремиться уменьшить размер пространства признаков, например:

- при классификации объектов в данной предметной области признаки, не относящиеся к этой области, могут маскировать сходство между объектами;

- высокая размерность пространства признаков снижает производительность алгоритма классификации.

Для уменьшения размерности пространства признаков могут применяться, в частности, следующие приемы:

- удаление признаков, относящихся ко всем рассматриваемым объектам классификации;

- использование методов лингвистики: группировки из словарей и тезаурусов словоформ по нормальным формам и объединение нормальных форм в синонимические группы. Развернутый вариант того же метода может базироваться на использовании семантической сети [4] и группировать термины на основе отношений более сложного типа. Некоторые алгоритмы классификации используют в качестве элементов вектора документа не отдельные термины, а выделяемые именные или глагольные группы, имена собственные, устойчивые словосочетания [5]. В качестве вспомогательных, для уточнения величин компонент вектора документа, могут применяться разнообразные методы разрешения омонимии [4; 6] и полисемии [7];

- использование лингво-статистических методов, основанных на информации об априорных вероятностях встречаемости терминов-признаков, для определения наиболее информационно значимых признаков для классов [8], которая может быть рассчитана по формуле:

MI(h,k) = I I m, K )bgPbPKk' (3)

bk е(0,1) K, е(0,1) P(bk )P(Ki )

здесь

P (bk = 1) = 1 - P (bk = 0) = f,

P( K = 1)=1 - P( K = 0)=f,

no

где fk - количество объектов, содержащих признак bk; f - количество объектов, содержащихся в классе K; n0 - количество всех объектов;

P(bk, K) - вероятность совместного распределения признака bk и класса K

Следовательно, если распределения признака bk и класса Ki статистически независимы, то MI(bk, K,) = 0. Если же между встречаемостью признака и класса наблюдается функциональная зависимость, то MI(bk, K,) максимально.

Многие оценки различительной силы (или коэффициенты значимости) основываются на так называемой мере инверсной частоты признака [9], заданной следующим выражением:

n

wt = log0 < wt < log N0, (4)

Ji

где n0 - общее число классифицируемых объектов; fi - частота i-го признака.

Такая мера разбивает все пространство признаков на [logN0] кластеров со значениями весов 0 < w, < 1, 1 < w, < 2, ..., [logN0] - 1 < w, < [logN0]. При этом признаки, у которых f = 1, попадают в последний кластер - кластер самых «тематически точных» признаков, а в первом кластере находятся признаки, наиболее общие для множества объектов.

Для оценки качества работы методов автоматической классификации существует несколько характеристик [3]. Наиболее широкое распространение получили точность (p) и полнота (г), применяемые также при оценке качества информационного поиска. Для количественной оценки полноты и точности классификатора используются следующие величины: a - число правильно классифицируемых объектов; b - число неправильно классифицируемых объектов; c - число неправильно отвергнутых объектов.

Под правильной и неправильной классификацией понимаются случаи, когда метод классификации приписывает анализируемый объект некоторому классу, что расценивается некоторым экспертом как верное или неверное решение соответственно. В случае неправильного отвержения объекта классификатор не приписывает объект классу, что, по мнению эксперта, неверно.

Исходя из этого, полнота - отношение правильно классифицируемых объектов к общему количеству объектов, относящихся к классу, а точность - отношение

правильно классифицируемых объектов к общему количеству объектов, попавших в класс. Величины обычно измеряются в процентах, следовательно, для идеального алгоритма полнота и точность равны 100%.

Для оценки качества классификации по нескольким классам применяются два метода усреднения: макроусреднение (macroaverage) и микроусреднение (microaverage) [10]:

Г = , = • (5)

/ > ? .гmacro ' > i > У^/

macro

у ' у ± macro ' > , i

n 1=Г аг + 0г n t=T аг + b

Ь а Ь а

г =-—-, Р =-—--(6)

тгсго п ' * тгсго п ' V '

Ь (а + с) Ь (а + ^)

г=1 г=1

Макроусреднение отражает эффективность метода в среднем по классам, поэтому используется чаще.

Существуют и интегральные оценки методов классификации, построенные с использованием как полноты г, так и точности р. Наиболее известная из них мера:

г = ^ . (7)

г + р

в более общей форме определяется как:

р = (в +1) рг

в в р + г

где р > 0 - параметр, устанавливающий отношение важности показателей полноты и точности.

Одной из проблем, возникающих при проведении оценки качества метода классификации объектов, является выбор тестового множества. Как правило, это множество классифицированных объектов, на котором можно провести обучение алгоритму автоматической классификации. При этом следует учитывать, что нельзя получить достоверные оценки качества, проверяя метод на том же множестве объектов, которое было использовано для обучения. Существуют различные методы формирования обучающего и тестового множеств. Для успешного обучения алгоритму необходимо, чтобы классы были представлены в обучающем множестве примерно в одинаковой пропорции. Однако, если данных недостаточно или процедура разбиения при формировании обучающего множества была осуществлена неудачно, один из классов может оказаться доминирующим. Это может вызвать «перекос» в процессе обучения, и доминирующий класс будет рассматриваться как наиболее вероятный [11]. Метод перекрестной проверки (кросс-вали-дация) позволяет избежать этого.

В основе метода лежит разделение исходного множества данных на k примерно равных блоков, например k = 5. Затем на k - 1, т. е. на четырех блоках производится обучение модели, а пятый блок используется для тестирования. Процедура

повторяется k раз, при этом на каждом проходе для проверки выбирается новый блок, а обучение производится на оставшихся.

Перекрестная проверка имеет два основных преимущества перед использованием одного множества для обучения и одного для тестирования модели. Во-первых, распределение классов оказывается более равномерным, что улучшает качество обучения. Во-вторых, если при каждом проходе оценить выходную ошибку модели и усреднить ее по всем проходам, то полученная оценка ошибки будет более достоверной. На практике чаще всего выбирается k = 10 (10-проходная перекрестная проверка), когда модель обучается на 9/10 данных и тестируется на 1/10. Исследования показали, что в этом случае получается наиболее достоверная оценка выходной ошибки модели. Кросс-валидация является стандартной методикой тестирования и сравнения алгоритмов классификации, регрессии и прогнозирования.

Предлагаемый метод использует векторное представление объекта и класса [12].

Описание объекта I представлено в следующем виде:

Л =

Ь

К"Dk у

Ь=

11 , если г-й признак принадлежит ^му объекту;

[0 , в противном случае. В качестве описаний классов рассматривается вектор - строка матрицы

(8)

( ■

с11 . . . .. ■ . S1D

5 = ■1 . . 5г, . . ^

. н . . ^ГО у

(9)

где sij - коэффициент близости признака] и класса г.

В качестве коэффициента близости предлагается использовать одну из мер подобия, которые вычисляются на основе статистических показателей. Это может быть коэффициент корреляции, Сорала, Джаккарда, Роджерса-Танимото, Дайса и прочие известные варианты мер близости векторов.

Операция классификации объектов выражается в матричном умножении:

5 х I = I,

(10)

где вектор 1 = [Ьг}, Ьг зг]Ь] характеризует исходный объект с точки зрения близости

]=1

к г-му классу: чем больше суммарный коэффициент близости, тем больше объект соответствует классу.

Определив максимальный из b, получим класс, к которому принадлежит классифицируемый объект, т. е. искомый класс r таков, что:

r: br = max Ъг. (11)

i

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для ограничения пространства признаков может быть применен один из перечисленных выше методов.

Процесс автоматической классификации представлен тремя этапами (рис.). На первом этапе изначально составляется классификатор, представляющий собой совокупность описаний для каждого класса. На основе обработки массива деклараций на товары, используя соответствие графы 33 - код ТН ВЭД декларируемого товара и графы 31_1, содержащей его подробное описание, определяются

признаки, характеризующие товары соответствующих классов ТН ВэД.

Входные данные

Декларации

Классификатор

Декларации

Матрица близости

О

Результат этапа

Этап 1 Построение классификатора

\ V 7

Этап 2 Построение матрицы

\ V 7

Этап 3 Классификация товаров

ТН ВЭД

..........

О

Описания товаров

Классификатор

Матрица близости

Классифицированные товары

Рис. Обобщенная схема процесса классификации

На следующем этапе на основе полученного классификатора строится матрица близости «признак - класс», содержащая значения статистических коэффициентов близости, которые вычисляются с использованием показателей совместной и отдельной встречаемости признака и класса.

Третий этап - это непосредственно классификация товаров. Для декларируемого товара на основе графы 31_1 таможенной декларации строится описание, которое представляется набором признаков. Далее проводится количественная оценка близости описания товара классам ТН ВэД. Для этого с помощью построенной на предыдущем этапе матрицы близости «признак - класс» вычисляется суммарный коэффициент близости признаков, входящих в описание

декларируемого товара. Выбор максимальной величины суммарной близости определяет принадлежность к одному из классов.

Как уже отмечалось ранее, эффективность автоматической классификации в значительной мере обусловлена правильностью и полнотой заполнения графы 31 таможенной декларации, описывающей товар. Неподготовленный пользователь вряд ли справится с такой задачей. Поэтому данный метод предполагает в качестве результата определить несколько наиболее соответствующих описанию кодов ТН ВЭД и предложить пользователю в дальнейшем либо самому уточнить класс принадлежности товара, либо задать уточняющие признаки, которые позволят алгоритму определить единственный подходящий код товара.

Принципиально важным фактором, определяющим направление развития современных информационных систем, в том числе и в области таможенного дела, является режим взаимодействия пользователя с информационными ресурсами напрямую, без посредников. это заставляет создателей информационных систем уделять все большее внимание средствам автоматизации при выполнении различных функций. Предлагаемый метод автоматического определения кода ТН ВЭД предназначен именно для таких целей - облегчить работу участников ВЭД по заполнению декларации на товар.

Использованные источники

1. Нестеров А. В., Андреева Е. И. О классификации товаров в таможенных целях // Юрист. 2012. № 7. C. 15-20.

2. Андреева Е. И., Кушнер Г. Ф. Выбор объектов контроля правильности классификации товаров с учетом соотношения кода ТН ВЭД и величины их таможенной стоимости // Вестник Российской таможенной академии. 2016. № 3. С. 32-38.

3. Андреев А. М, Березкин Д. В., Морозов В. В., Симаков К. В. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа [Электронный ресурс] // НПЦ «ИНТЕЛТЕК ПЛЮС». URL: http://www.inteltec.ru/ publish/articles/textan/57_simakov.pdf.

4. Bril E. A simple rule-based part of speech tagger // Proceedings of the Third Annual Conference on Applied Natural Language Processing, ACL, 1992. P. 152-155.

5. Kathleen R, McKeown R, Evans D, Hatzivassiloglou V., Klavans J., Nenkova A., Sable C, Schiff-man B, Sigelman S. Tracking and Summarizing News on a Daily Basis with Columbia's News-blaster // Proceedings of the Human Language Technology Conference, 2002.

6. Kupiec J. Robust Part-of-speech tagging using a hidden Markov model // Computer Speech and Language. 1992. № 6. P. 225-242.

7. Ravin Y., Leacock C. (editors). Polysemy: Theoretical and Computational Approaches. New York: Oxford University Press, 2000.

8. Мандель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988.

9. Salton G, Zhang Y. Enhancement of text representations using related document titles // Inf. Proc.& Manag. 1986. V. 22. № 5. P. 385-394.

10. Yang Y. An Evaluation of Statistical Approaches to Text Categorization // Journal of Information Retrieval. 1999. V. 1. P. 67-88.

11. Осовский С. Нейронные сети для обработки информации / пер. с польск. И. Д. Рудинского. М.: Финансы и статистика, 2002. 344 с.

12. Васина Е. Н., Попов И. И. Модели и методы автоматизации обработки и анализа документальной информации // Известия Российского экономического университета им. Г. В. Плеханова: электронный научный журнал. 2012. № 3. С. 44-50.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Васина Елена Николаевна, Филиппова Людмила Арнольдовна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Васина Елена Николаевна, Филиппова Людмила Арнольдовна

CLASSIFICATION METHODS AND MODELS FOR THE AUTOMATIC PRODUCT CODE IDENTIFICATION ACCORDING TO THE FOREIGN TRADE ACTIVITY COMMODITY NOMENCLATURE