Научная статья на тему 'НОРМАЛИЗАЦИЯ СТРУКТУР ДАННЫХ'

НОРМАЛИЗАЦИЯ СТРУКТУР ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
36
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕМАНТИЧЕСКИЙ АНАЛИЗ / ФОРМАЛЬНЫЕ СИСТЕМЫ / СТРУКТУРЫ ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шустов Д.А.

В статье рассматриваются подходы к решению проблемы автоматизированной обработки данных с нерегулярной структурой. Для получения возможности формальной обработки данных необходимо их преобразование в регулярную структуру (в простейшем случае - таблицу). Предлагается на основе семантического анализа определение символов, пригодных для логического исчисление элементов регулярной структуры. Приведены примеры из области контроля качества.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шустов Д.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NORMALIZATION OF DATA STRUCTURES

The article discusses approaches to solving the problem of automated processing of data with irregular structure. To be able to formal processing it is necessary to convert them to a regular structure (in the simplest case, the table). Is proposed on the basis of the semantic analysis definition of symbols suitable for a logical calculus of the elements of the regular structure. Examples from the field of quality control.

Текст научной работы на тему «НОРМАЛИЗАЦИЯ СТРУКТУР ДАННЫХ»

t-pci

Basic Confïg Command MCPacket UdpPacket Console

Welcome to lise PC Simulator 1

POping 192.163 . 10 .3

Ping 192 .168.10 .3: 32 data byte3. Press Ctrl С to break

From 192 .163.10 .3: bytes=32 seq=l ttl=128 time =47 ms

From 192 .163.10 .3: bytes=32 seq=2 ttl=128 time =47 ms

From 192 .lea.io .3: bytes=32 seq=3 tt1=128 time =31 ms

From 192 .163.10 .3: bytes=32 seq=4 ttl=128 time =31 ms

From 192 .163.10 .3: bytes=32 seq=5 ttl=128 time =47 ms

---192. 163.10. 3 ping statistics - ---

5 packet(s) transmitted

5 packet(s) received

0.00% packet loss

round- trip mi n/avg/max — 31/40/47 тз

PC>|

Рис. 5 - Проверка работы сети Как видно из рисунка выше, что второй узел достижим, соответственно настройка произведена корректно.

Использованные источники: 1. Huawei. Product Support [Электронный ресурс]. - Режим доступа: http://support.huawei.com, свободный. - Загл. с экрана.

УДК 004.023

Шустов Д.А., к.техн.н.

доцент

кафедра «Прикладная информатика и моделирование экономических процессов» Международный банковский институт Россия, г. Санкт-Петербург НОРМАЛИЗАЦИЯ СТРУКТУР ДАННЫХ

Shustov, D. A., candidate of technical Sciences., associate Professor Associate Professor of the Department "Applied Informatics and

simulation of economic processes" International banking Institut Russia, Saint-Petersburg NORMALIZATION OF DATA STRUCTURES.

Аннотация.:

В статье рассматриваются подходы к решению проблемы автоматизированной обработки данных с нерегулярной структурой.

Для получения возможности формальной обработки данных необходимо их преобразование в регулярную структуру (в простейшем случае - таблицу). Предлагается на основе семантического анализа определение символов, пригодных для логического исчисление элементов регулярной структуры.

Приведены примеры из области контроля качества.

Ключевые слова: семантический анализ, формальные системы, структуры данных.

Abstract.:

The article discusses approaches to solving the problem of automated processing of data with irregular structure.

To be able to formal processing it is necessary to convert them to a regular structure (in the simplest case, the table). Is proposed on the basis of the semantic analysis definition of symbols suitable for a logical calculus of the elements of the regular structure.

Examples from the field of quality control.

Key words: semantic analysis, formal system, data structures.

Достаточно распространенной проблемой исследования и анализа данных является необходимость использования наборов, первоначально не предназначенных для целей исследования. Как правило, структура хранения информационных признаков не соответствует регулярной, используемой при обработке и анализе данных. Классическим примеров является форма выгрузки данных по операциям по складу, формируемых системой 1С. Пример подобной структуры приведен в таблице 1, откуда явно следует, что в одной колонке могут находиться разные по смыслу и типу данные, причем порядок строк с одинаковыми данными (атрибутами) не является регулярным (чередующимся), например, название товара через каждые 4 строки.

Таблица 1.

Номенклатура\Серия\Контрагент\ДатаДок\ ДокументПоставки\ Ед. Изм. Кол-во Цена Сумма

5-Фторурацил-Эбеве конц. д/инф. 50мг/мл фл. 5мл №1 шт 60 4140.00

Серия № 409310 ( Эбеве Фарма ГмбХ Нфг.КГ А ) 60 69.00 4140.00

Филиал ЗАО фирмы ЦВ 60 4140.00

12.07.05 60 4140.00

Поступление ТМЦ (купля-продажа) вх. № 1420690/6 от 12.07.05 60 69.00 4140.00

Актовегин р-р д/ин. 40мг/мл амп. 2мл №25 шт 85 63903.85

Серия № 10243032 (Никомед Австрия ГмбХ Авст ) 85 751.81 63903.85

Филиал ЗАО фирмы ЦВ "Протек" "Протек-3" 85 63903.85

12.07.05 85 63903.85

Поступление ТМЦ (купля-продажа) вх. № 1414112/8 от 12.07.05 67 751.81 50371.27

Поступление ТМЦ (купля-продажа) вх. № 1415372/8 от 12.07.05 18 751.81 13532.58

Актрапид НМ Пенфилл р-р д/ин. 100МЕ/мл картриджи 3мл №5 шт 50 65435.50

Серия № РТ60739 (Ново Нордиск А/С Дания ) 30 1308.71 39261.30

Филиал ЗАО фирмы ЦВ 30 39261.30

12.07.05 30 39261.30

Поступление ТМЦ (купля-продажа) вх. № 1420690/5 от 12.07.05 30 1308.71 39261.30

Серия № RT60120 (Ново Нордиск А/С Дания) 20 1308.71 26174.20

Филиал ЗАО фирмы ЦВ 20 26174.20

12.07.05 20 26174.20

Поступление ТМЦ (купля-продажа) вх. № 1420690/5 от 12.07.05 20 1308.71 26174.20

Амоксициллин таб. 500мг №20 шт. 63 2027.97

Серия № 070205 () 63 32.19 2027.97

В приведенном фрагменте видно, что группа строк по каждому товару (названию лекарственного средства) различна.

Результатом нормализации структуры должны быть данные, приведенные в таблице 2.

Таблица 2

Товар Ед. изм. Колюч Серия Сумма

5-Фторурацил-Эбеве конц. д/инф. 50мг/мл фл. 5мл №1 шт 60 409310 4140

Актовегин р-р д/ин. 40мг/мл амп. 2мл №25 шт 67 10243032 50371.27

Актовегин р-р д/ин. 40мг/мл амп. 5мл №5 шт 18 10243032 13532.58

Актрапид НМ Пенфилл р-р д/ин. 100МЕ/мл картриджи 3 мл №5 шт 30 PT60739 39261.30

Очевидно, что для заполнения второй таблицы необходимо пользоваться определенным набором правил, позволяющим в исходных данных определять те фрагменты, которые позволяют однозначно отнести содержание анализируемой ячейка к названию, серии, количеству, цене.

Создание необходимого набора правил, позволяющих на основе анализа смысла (трактовки) символов, входящих в слова и фразы, относится к вопросам семантического анализа, а формализация этих правил требует привлечения теорий формализации мышления, формальных систем, а также методов инженерии знаний, используемых в экспертных системах.

Формализацию человеческого мышления и представление знаний рассматривают математическая логика и теория формальных систем, основывающиеся на аксиоматических методах [59]. Наиболее известным является развитие аксиоматических методов в работах Д. Гильберта и его школ, называемое формализмом - научной программы по обоснованию непротиворечивости математики точным математическим способом. В

рамках этого направления возникло понятие формальной системы и представления не полностью формализованные математические теории как точные математические объекты, и строить теорию таких объектов (например, теория нечеткой логики).

К сожалению, работы А. Тарковского (начало ХХ века) по математической логике показали, что грамматика естественных языков не обладает необходимой степенью однозначности для обеспечения необходимой строгости доказательств, однако анализ семантических конструкций, используемых в ограниченных предметных областях знаний и экономики, позволяет, в принципе, описать формальную систему и определить для нее правила вывода. Именно по этой причине на сегодняшний день не представляется возможным создание универсальной экспертной системы, позволяющей на основе накопления фактов и правил формальной интерпретации этих фактов получать новые факты и выводить новые правила.

Любая формальная теория строится как определенный класс выражений, формул, в котором некоторым точным способом выделяется подкласс теорем данной формальной системы, причем формулы формальной системы не несут в себе никакого содержательного смыла. Общая схема построения формальной системы (теории) Т содержит 3 основных понятия:

• Язык системы: Т

■ Алфавит как перечень элементарных символов системы

■ Синтаксис как набор правил для построения формул из алфавита

• Аксиомы системы Т

Выделяется конечное или перечислимое множество формул, которые называются аксиомами системы

• Правила вывода системы Т

Фиксируется множество индикаторов правил вывода Ш, 1>0 на

множестве всех формул Р1. Если для формул И, Р2,____Рп+1 утверждение

Ш(Р1,.Рп,Рп+1) истинно, то говорят, что формула Рп+1 непосредственно выводима из Р1,...Рп по правилу Ш

Задание языка, аксиом и правил вывода исчерпывает задание формальной системы как точного математического объекта. Формула системы называется теоремой этой системы, если существует вывод Ш этой формулой.

Исчисления высказываний на естественном языке может быть сведено к формальной теории. При этом следует ограничиться высказываниями, являющимися фактической истиной (в отличие от истины языка, например, «тигр - хищник» и «после дождя асфальт мокрый», значит, если асфальт мокрый- то обязательно был дождь, но хищник - не обязательно тигр).

Таки образом, исходная задача может быть сведена к формальной теории с высказывании, являющимися фактической истиной (наименования товаров, поставщиков, значения серий, количеств, цен), для которой можно

создать набор аксиом и правил вывода.

Следует отметить, что в случае изменения аксиом (например, появления нового признака, игнорирование которого может привести к ошибочному выводу).

Для рассматриваемого примера аксиомами является потенциальный набор (список) возможных наименований товара, слова или символы, используемые в обозначении серии, отделения в строке символов серии от символов - наименования производителя.

В правилах вывода содержится проверка нахождения в содержании первой колонки последовательности символов 'г_' или 'л_' с обязательным содержанием для этой строки во второй колонке любых символов , например, 'шт'. Символом '_' обозначен пробел после указания в названии дозировки в граммах или миллилитрах).

На формальном языке описания правил (для среды реализации VFoxPro) запись аксиомы ( наименование 1 колонки NAZW, 2 колонки ED_IZM) будет выглядеть : ('г_'$ NAZW .OR. 'л_'$ NAZW) .AND .NOT. EMPTY(ED_IZM)

На естественном языке это выражение трактуется как «в поле NAZW содержатся символы "г пробел" или" м пробел" и одновременно поле ED IZM не пустое.

Использование этой аксиомы в выводе «ЕСЛИ ИНДИКАТОР ВЫРАЖЕНИЯ ЯВЛЯЕТСЯ ИСТИНОЙ, ТО ЭТО СТРОКА С НАИМЕНОВАНИЕМ ТОВАРА, В ПРОТИВНОМ СЛУЧАЕ ЭТО СТРОКА С СЕРИЕЙ ИЛИ ДАТОЙ ИЛИ НОМЕРОМ НАКЛАДНОЙ».

Формальной применение этого правила при переборе всех строк исходных данных позволит сформировать новую таблицу, в которую попадут только наименования товара.

По аналогии можно сформулировать аксиомы и правила вывода для определения серий, изготовителей и цен для формирования нормализованных данных.

Изложенный подход позволяет, с использованием Булевой алгебры, увеличивать количество признаков.

Так, например, в рассматриваемом примере в указании дозировки может использоваться общепринятое сокращение 'г._', тогда условия на формальном языке будут выглядеть:

('г_'$ NAZW .OR. 'г._'$ NAZW .OR. 'л_'$ NAZW) .AND .NOT. EMPTY(ED_IZM) - жирным шрифтом выделено дополнительное условие

Возможным направление реализации такого подхода является создание «библиотеки признаков», позволяющей автоматизировать формирование необходимых правил.

Использованные источники: 1. Нильсон Н. Искусственный интеллект. Методы поиска решений. - М.: Мир, 1973

2. Новиков П. С. Элементы математической логики. М.: Наука, 1973

3. Построение экспертных систем. - Под ред. Ф. Хейес-Рота, Д. Уотермана, Д. Лената. - М.: Мир, 1987.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.