Генерация правил идентификации сущностей на основе дерева принятия решений

Карпов Максим Андреевич

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

Челябинский физико-математический журнал. 2017. Т. 2, вып. 3. С. 312-311. УДК 004.89

ГЕНЕРАЦИЯ ПРАВИЛ ИДЕНТИФИКАЦИИ СУЩНОСТЕЙ НА ОСНОВЕ ДЕРЕВА ПРИНЯТИЯ РЕШЕНИЙ

М. А. Карпов

Челябинский государственный университет, Челябинск, Россия max@csu.ru

При обеспечении взаимодействия или объединении разнородных информационных систем возникает задача идентификации сущностей, обеспечивающая установление идентичности записей, описывающих один и тот же объект реального мира в разных системах. Эта задача не может быть эффективно решена детерминированными алгоритмами. Данная статья описывает подход на основе машинного обучения для получения правил идентификации сущностей на основе деревьев принятия решений.

Ключевые слова: идентификация сущностей, 'распознавание сущностей, машинное обучение, дерево принятия решений, интеграция информационных систем.

Введение

При интеграции двух или более информационных систем одни и те же сущности реального мира могут быть представлены в нескольких записях. При этом часть информации об этих сущностях может разниться. Распознавание (идентификация) сущностей — это процесс определения того, описывают две записи один и тот же объект реального мира или два разных [1; 2]. Поиск сущностей, описывающих один и тот же объект реального мира, — важная задача процесса интеграции разнородных информационных систем.

Примером практической задачи, требующей идентификации сущности, может служить «единая государственная информационная система социального обеспечения» (ЕГИССО). Эта система призвана объединить все государственные информационные системы, содержащие данные о социальных выплатах. Таким образом, в разных информационных системах может содержаться информация о выплатах одному и тому же человеку. При этом часть информации о субъекте выплат может разниться или отсутствовать. Данной системе необходимо будет находить такие сущности и соответствующим образом идентифицировать их.

Другим примером применения идентификации сущностей может быть интеграция различных социальных сетей. В данном случае задача будет состоять в том, чтобы идентифицировать страницы, относящиеся к одному и тому же человеку.

Задача идентификации сущностей заключается в присвоении каждой записи идентификатора таким образом, чтобы записи, описывающие один и тот же объект реального мира, имели одинаковый идентификатор, а записи, описывающие разные

объекты реального мира, имели разные идентификаторы [3]. Допускается пропуск значений атрибутов.

Существует два основных подхода для решения этой задачи: подход, основанный на правилах сопоставления, и подход, основанный на использовании методов машинного обучения.

При использовании первого подхода формируется набор правил, обычно представляющих собой набор атрибутов, при совпадении которых считается, что две сущности описывают один объект реального мира [4]. Например, если сливаются таблицы с описаниями людей, то логично предположить, что если у двух записей совпадает фамилия, имя и номер паспорта, то скорее всего они описывают одного и того же человека. Недостаток этого подхода в том, что создание набора правил — это непростая задача, которую приходится решать вручную.

Второй подход основывается на применении методов машинного обучения. Алгоритм классификации обучается на заданной выборке и затем для каждой пары сущностей определяет, описывают ли они один и тот же объект реального мира. Проблема второго подхода в непрозрачности алгоритма идентификации сущностей.

Данная статья описывает алгоритм, основанный на методах машинного обучения, который на основе обучающей выборки способен генерировать наборы понятных человеку правил сопоставления сущностей. Таким образом, была произведена попытка избавления от представленных недостатков описанных выше подходов.

1. Постановка задачи

Задан набор сущностей Е = {е\,...,еп} и набор их атрибутов {Л\,..., Ак}. Значение атрибута Аг, соответствующее сущности е, будем обозначать е.аг. Множество значений атрибута Аг будем обозначать Д(Аг). Каждая сущность е имеет вид {е.а\,... , е.ак}, так что при любом I € {1,..., к} е.аг € Д(Аг). Для каждого атрибута Аг задана такая функция сравнения Сг, что

(см. [5]). Задача состоит в том, чтобы сформировать набор правил К = {т\,... , тк}, таких что

Уеь е2 € Е т = {Аь ...,Ат | С^.аь е2.а:) Л С2(еьа2, е2 .а2) Л ...

... Л Ст(еьат, е2.ат) = 1 ^ е1 = е2}.

Рассмотрим пример: пусть дан набор атрибутов («Имя», «Возраст», «Номер телефона»}. Даны две сущности ((«Иван», «19», «+7-912-345-67-89»}, («Иван», 0, «89123456789»}}. В данном случае для сравнения номеров телефонов недостаточно простого строкового сравнения. Поэтому задаётся функция сравнения С3, которая приводит номера к единому формату и только затем сравнивает их. Пример правил сопоставления сущностей: ((«Имя», «Возраст»}, («Имя», «Номер телефона»}}.

2. Решение задачи с использованием дерева принятия решений

В качестве обучающей выборки будет использоваться результат попарного сравнения сущностей. Таким образом, для 1000 сущностей в результате попарного сравнения получится выборка из 499500 векторов.

1, когда значение еьаг соответствует значению е2.аг, 0, иначе,

В данной работе выбран метод машинного обучения на основе дерева принятия решений, так как полученная в результате модель может быть интерпретирована человеком [4]. В результате обучения получается дерево, в котором каждая вершина содержит условие равенства значений атрибутов и варианты дальнейшей классификации при равенстве и неравенстве. Однако если существует несколько правил сопоставления сущностей, то дерево становится сложно интерпретировать (рисунок). Поэтому был разработан алгоритм построения правил на основе дерева принятия решений.

Дерево принятия решений при четырёх правилах сопоставления сущностей

При сравнении сущностей возникает не только равенство, но и неравенство значений атрибутов. Логический анализ позволяет выдвинуть следующую гипотезу: неравенство атрибутов не может быть необходимым или достаточным условием для установления факта соответствия двух сущностей одному объекту реального мира. Основываясь на описанной выше гипотезе, можно сделать вывод, что роль играют только атрибуты, значения которых были признаны равными. Таким образом, алгоритм состоит в следующем:

1. Для каждого листа с положительным результатом пройти до него от корня и сформировать множество атрибутов, которые должны быть равны. (Атрибуты, которые не равны, отбрасываются по приведённой выше гипотезе.)

2. Из полученного набора множеств выбрать только те, которые не содержат другие множества полученного набора.

На выходе получается минимальный набор уникальных правил для идентификации сущностей.

3. Эксперимент

Для генерации обучающей выборки была случайным образом сгенерирована 1000 сущностей, содержащих набор атрибутов: {firstName, lastName, address.city, address.index, address.street, address.house, address.flat, age, sex}. Для каждого атрибута был задан ограниченный набор возможных значений. Значения атрибутов для каждой сущности выбирались случайно.

Также было задано 4 правила сопоставления сущностей:

Правило 1: {sex, lastName, firstName, age}.

Правило 2: {lastName, address.city, address.street, address.house, address.flat, sex}.

Правило 3: {sex, lastName, address.index}.

Правило 4: {sex, address.street, age}.

Затем все сущности попарно сравнивались. Таким образом была получена выборка из 49500 векторов. В соответствие каждому вектору ставился ожидаемый результат: для каждого правила, если все указанные в нём атрибуты у двух сущностей равны, ожидаемый результат равен 1, т. е. описывается один объект реального мира. Если ни одно правило не подошло — ожидаемый результат равен 0, т. е. описываются разные объекты реального мира.

При отсутствии ошибок алгоритм полностью восстанавливает исходные правила.

С целью приблизить обучающую выборку к реальной в следующем эксперименте в ожидаемый результат с вероятностью 0.002 вносились ошибки.

При обучении с использованием такой выборки необходимо задать ограничение роста дерева принятия решений, чтобы избежать переобучения. В данном случае этому параметру было присвоено значение 0.01. Это значит, что если соотношение количества положительных и отрицательных результатов не превышает указанного значения, этот узел считается листом и не продолжает дробиться.

При указанных параметрах исходные правила удалось в точности восстановить. Значение меры F = 0.979.

В заключение была сформирована выборка с вероятностью ошибочного результата 0.01. Параметру ограничения роста было задано значение 0.05. В результате удалось восстановить только 3 из 4 правил. Второе правило не было восстановлено вследствие того, что количество положительных примеров, удовлетворяющих ему, составляло лишь 0.03 % от общего числа примеров. Таким образом, устанавливая параметр ограничения роста в 0.05, мы исключили эти примеры из рассмотрения. Мера F для этого случая оказалась равна 0.92.

Заключение

В результате проделанной работы был предложен алгоритм восстановления правил сопоставления сущностей на основе обучающей выборки, устойчивый к ошибкам в обучающей выборке. Этот алгоритм может компенсировать некоторые проблемы основных подходов к идентификации сущностей. Несомненным плюсом предложенного алгоритма служит тот факт, что атрибуты могут быть не формализованы. Для произвольного набора атрибутов алгоритм позволяет построить правила сопоставления сущностей. Следующим шагом исследования должно стать испытание данного алгоритма на реальном наборе данных.

Список литературы

1. Talburt, J. R. Entity resolution and information quality / J. R. Talburt. — Amsterdam : Morgan Kaufmann, 2011. — 256 p.

2. Elmagarmid, A. K. Duplicate record detection: A survey / A. K. Elmagarmid, P. G. Ipeirotis, V. S. Verykios // IEEE Transactions of Knowledge Data Engineering. — 2007. — Vol. 19, iss. 1. — P. 1-16.

3. Lim, E. P. Entity identification in database integration / E. P. Lim, J. Srivastava, S. Prabhakar, J. Richardson // Ninth International Conference on Data Engineering: Proceedings. — April 19-23, 1993, Vienna, Austria/92-75329. — P. 294-301.

4. Li, L. Rule-based method for entity resolution / L. Li, J. Li, H. Gao // IEEE Transactions of Knowledge Data Engineering. — 2015. — Vol. 27, no. 1. — P. 250-263.

5. Ganesh, M. Mining entity identification rules for database integration / M. Ganesh, J. Srivastava, T. Richardson // KDD'96 Proceedings of the Second International Conference on Knowledge Discovery and Data Mining. — August 2-4, Portland, Oregon, 1996. — P. 291-294.

6. Wang, Y. R. The inter-database instance identification problem in integrating autonomous systems / Y. R. Wang, S. E. Madnick // Proceedings. Fifth International Conference on Data Engineering. — February 06-10, Los Angeles, USA, 1989. — P. 46-55.

Поступила в редакцию 31.08.2017 После переработки 12.10.2017

Сведения об авторe

Карпов Максим Андреевич, аспирант Института информационных технологий, Челябинский государственный университет, Челябинск, Россия; e-mail: max@csu.ru.

Chelyabinsk Physical and Mathematical Journal. 2017. Vol. 2, iss. 3. P. 312-311.

MINING ENTITY IDENTIFICATION RULES BASED ON DECISION TREE M.A. Karpov

Chelyabinsk State University, Chelyabinsk, Russia max@csu.ru

During the integration or unification of heterogeneous information systems it is required to identify entities which describe the same real world entity in different information systems. This problem cannot be effectively solved by deterministic algorithms. This paper describes a machine learning based approach for obtaining entity identification rules based on decision trees.

Keywords: entity identification, entity resolution, matching, machine learning, decision tree, information systems integration.

References

1. Talburt J.R. Entity Resolution and Information Quality. Amsterdamn, Morgan Kaufmann Publ., 2011. 256 p.

2. Elmagarmid A.K., Ipeirotis P.G., Verykios V.S. Duplicate record detection: A survey. IEEE Transactions of Knowledge Data Engineering, 2007, vol. 19, iss. 1, pp. 116.

3. Lim E.P., Srivastava J., Prabhakar S., Richardson J. Entity identification in

database integration. Ninth International Conference on Data Engineering: Proceedings, April 19-23, 1993, Vienna, Austria/92-75329. Pp. 294-301.

4. Li L., Li J., Gao H. Rule-based method for entity resolution. IEEE Transactions of Knowledge Data Engineering, 2015, vol. 27, no. 1, pp. 250-263.

5. Ganesh M., Srivastava J., Richardson T. Mining entity identification rules for database integration. KDD'96 Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, August 2-4, Portland, Oregon, 1996. Pp. 291294.

6. Wang Y.R., Madnick S.E. The inter-database instance identification problem in integrating autonomous systems. Proceedings. Fifth International Conference on Data Engineering, February 06-10, Los Angeles, USA, 1989. Pp. 46-55.

Accepted article received 31.08.2017 Corrections received 12.10.2017

Генерация правил идентификации сущностей на основе дерева принятия решений Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карпов Максим Андреевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карпов Максим Андреевич

Mining entity identification rules based on decision tree

Текст научной работы на тему «Генерация правил идентификации сущностей на основе дерева принятия решений»