Научная статья на тему 'Основные этапы построения лингвистической модели'

Основные этапы построения лингвистической модели Текст научной статьи по специальности «Математика»

CC BY
80
27
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Баклан И. В.

В статье рассматриваются основные этапы построения лингвистической модели на основе исходных данных о динамическом процессе.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The main stages of building a linguistic model

In this article we discussed the basic steps in the construction of the linguistic model based on the original data on the dynamic process.

Текст научной работы на тему «Основные этапы построения лингвистической модели»

УДК 506:510

1.В. Баклан

ОСНОВН1 ЕТАПИ ПОБУДОВИ Л1НГВ1С ТИЧНО1 МОДЕЛ1

Постановка проблеми. Саме перетворення чисельних образiв до символьного вигляду, який можна використовувати для вирiшення певного кола складних задач, й е основною метою лiнгвiстичного моделювання.

Аналiз публiкацiй за темою досл1дження. Проблема ефективного перетворення чисельних образiв (даних) до символьного вигляду використовувався на протязi багатьох сторiч. Якщо звертатися до юторичних витокiв лiнгвiстичного моделювання, то вони ведуть в середньовiччя, коли лiтерам стали ставити у ввдповщшсть числа й навпаки. Мабуть першими фахiвцями у лiнгвiстичному моделюванш були етруски, як1 ввели спещальну систему символiв для позначення певних чисельних образiв. На сьогоднi ця система мае назви римських цифр.

Завдяки роботi арабського науковця Мухамеда iбн Муси аль-Хорезмi «Краткая книга восполнения и противопоставления» ("Китаб аль-Джебр ва-ль-Мукабаля") стае поширеною iндiйська система ствставлення символ1в чисельним образам, яка нам бшьш вiдома, як арабсьш цифри.

Серед сучасних розробок, яш в певнiй мiрi можна розглядати як тi, що стосуються саме лшгвютичного моделювання, слiд зазначити роботи Фу К.С.[1], Пригожина I. [2], Соколова О.А.[3], Сенкевича Ю.1.[4], Дрождша [5], Моттля В.В., Мучнiка 1.Б. та Сулiмовоl [6]..

Мета статть Стогть задача визначення основних еташв побудови лшгвютично! модел1 на основi вхiдних динамiчних рядiв. Для розв'язання ще! задачi пропонуеться використання штервально! математики, теорп розподiлiв ймовiрностей, теори математично! лiнгвiстики, математичного апарату прихованих Марковських моделей.

Основна частина. Дамо визначення лшгвютичного моделювання та лжвютично! моделi [7].

Лiнгвiсmичне моделювання — комплекс методiв, методик та алгоршшв, як1 використовують процес перетворення числових масивiв шформацп до лшгвютичних послвдовностей, на основi яких вщновлюеться формальна граматика.

Лiнгвiстична модель — побудована на основi лiнгвiстичного моделювання сукупнють символьних (лiнгвiстичних) послiдовностей за обраними параметрами лшгвютизацп та ввдновлена на И основi формальна граматика.

Лшгвютичне моделювання треба розглядати як специфiчний вид математичного моделювання для обробки даних у символьному (нечисельному) виглядi.

У першу чергу дамо визначення лшгвютично! моделi. Лiнгвiстична модель е формальною системою, яка складаеться з чотирьох елементiв - I, L, G>, де D - набiр вх1дних даних (наприклад, часових рядiв динамiчного процесу); I - правила розбиття множини значень вхвдних даних; L -iзоморфiзм iз заданого iнтервалу до набору символiв (алфавiт); G - формальна граматика, ввдновлена на основi лшгвютичних ланцюпв на заданому наборi вхщних даних.

Етапи побудови лшгвктичноТ модель

Процес побудови лшгвютично! моделi включае наступнi етапи:

1. Попередня обробка вхщних даних та отримання рiзницевих масивiв.

2. Iнтервалiзацiя (квантування) - розбиття множини значень рiзницевих вхщних даних.

3. Лiнгвiстизацiя - перетворення рiзницевих вхвдних даних до лшгвютичних ланпюжюв.

4. Вiдновлення формально! граматики.

Звичайно для побудови моделi треба спочатку провести ретельний аналiз вхвдних даних. Перший етап включае два тдетапи. Перший пiдетап - це очистка даних, а другий - на основi вх1дних даних (часових рядiв) отримання рiзницевих масивiв рiзного порядку.

Очистка даних передбачае використання наступних методiв:

• Редагування аномалш

• Звiльнення вiд шумiв

• Згладжування

• Усереднення

• Виявлення протирiч

• Виявлення дублшапв

Осторонь стойъ отримання рпницсвих масив1в р1зного порядку. Якщо у якосп вхвдних даних е

ряди дина\пки змши процесу з р1вноввддаленими вим1рами а = {ж^.....х^-}- ^ = '" = 11 н • то у якосп

ряд ¡в р1зниць першого порядку будемо мати ряд швидкостей змши нашого дина\пчного процесу:

Тепер звернемося до етапу - ¡нтервалпацп (спещальний вид квантування), тобто розбиття множини значень S(Xj рпницевого ряду динам1ки на штервали [8].

Яюцо а,Ь ё S(Xj та а < Ь. то множину Ка.. bj = . a. b] = {я Е X, а < < Ь} , будемо називати штервалом на S(X], Множину ycix ¡нтсрвал1в на структур! S(X] будемо позначати Js(X)- При цьому, яюцо X = R1 - множина дшсних чисел, то Jr1 е множина закритих ¡нтсрвал1в на прямш дшсних чисел. В такому випадку Jp.1 називають штервальних числом.

3 основ штервалыки математики нам вио\п сшввцщошення X Е Е В( та

Яюцо шдмножина A Ç X - обмежена, то штервал ICA). якии визначаеться за правилом [(А) = [ -nfsi;;.;] A, supsf^, а], будемо називати поданням зовшшнього штервалу множини А.

Яюцо наша множина X утворюе поле, то в Jp,-^ можна ввести штервальш арифметику: .a.b] * [с. d] = ix * у а < х < Ь, с < у < d}, де *е {+. — ,х, :}. Для колони з приведених операцш маемо наступш сшввцщошення:

л.Ъ] + [c.d] = ~л+ с.Ы- d],

[a,b] х !c,d] = !tr_in(a x c,a x d,b x c,b x dj ,max(a xc,ax d,b x c.bx d)], [a,b]: :ad] = Ub] X [^J 0 £ kdl

KpiM цих операцiй для виршення наших задач буде мати зиск операщя «конкатенащя», яка визначаеться для су\пжни\ ¡нтсрвал ¡в. Су\пжними штервалами будемо називати ¡нтсрвали вигляду [a,b], [<мД е; X, Ъ = с, а< Ь, с <d.

Операщею конкатенацп двох сумЪкних ¡нтсрвал¡в будемо називати штервал Нагадаемо про деяю сшввцщошення, яю вводять для ¡нтсрвал1в [9].

Шириною штервалу I [ 3j, bj ] будемо називати величину ы , bj J = bj — а^. Серединою штервалу l.aj.bj] е полу сума меж штервалу таСа,., bjl = ' _Мед1ана штервалу розраховуеться за формулою rtiedCaj.bj) = aj + mCaj.bj).

Абсолютна величина ¡нтсрвалу 1 [э^, bj ] знаходиться за вцщошенням I[a,b] = maxil^L lbj|}

KpiM того, |1([кЫ) = шт[\щ1 Ibj }, -сгО-а.Ь]> = lli-bij. В ¡дета н ню м ¡ж штервалами [[э^ bj ] та 1 [aj, bj] називаеться величина

Повертаючись до процедури iнтервалiзацiï, зауважимо, що в основному ми будемо розглядати iнтервали, яю не е виродженими. При цьому у найпростшому методу лiнгвiстизацiï можна було б звести усе до того, що ус значення часового ряду (або його рiзниць) е виродженими штервалами та шших iнтервалiв немае.

Нас будуть цiкавити певш випадки, як1 вщображують наступнi типи iнтервалiзацiï:

1) коли iнтервали рiвнозначнi;

2) логарифмiчнi iнтервали;

3) коли штервали рiвноймовiрнiснi;

4) iнтервали за певним розподшом ймовiрностей (нормальним, бета-розподшом, Пуасона, Дирихле та ш.).

При р1внозначшй ¡нтервалпацп N-того р1вня множини X маемо:

При р1вноймов1рн1Й (або р1вночастотшй) штервал1зацп маемо

dirai] [a;.b1]} = ¿1та{1[аг,Ъг]} = ■■■ = dim{] [aj,bj]] = ■■■ = diir_i].aN, Ь^]}.

1нтервал1защя дае множину штервал1в l[aD, а:]. ] ,а:.а:],..., ].а7, аЕ]. За вюсю абсцис розташоваш впорядкованi значення часового ряду та iнтервали. За вюсю ординат ранжуеться к1льк1сть значень часового ряду, що потрапили до вцщовцщого штервалу. Кшьюсть елеменпв, яю потрапляють до певного штервалу (значення часового ряду можуть повторюватися) будемо позначати через Юльюсть ¡нтсрвал1в - M < N. Легко бачити, що сума

Тепер ми можемо ввести поняття частотносп ¡нтсрвалу l[aj,aj+1] на часовому ряду потужносп

N:

П DM 1\А\+1

^id + i = vl + =---.

Легко довести, що = 1, а враховуючи, що для ycix i vj j+1 > 0 будемо мати аналопю

аксюматики теорiï ймовiрностей.

Зауважимо, що для р1вноймов1рнюного випадку будемо мати

Шд лiнгвiсmизацieю ми розумiемо перетворення вхiдного набору даних до лшгвютичного ланцюжку.

Маемо алфави Л = тобто множину символ1в (ттер) на якш задано вцщошення

е^ « ег « — « ен. яке будемо називати лскспадгр;н|нчни\1 порядком для алфавпу Л. Маемо динам1чний ряд (р1зниць) X = Ьс1,12,...,хм] значения якого входять до множини штервал1в 1, отримано! на попередньому еташ побудови л1 нгвютично! модслк тобто уел значения розташоваш \пж та :

Тепер будуемо вадображення £:1->сЯ, морфпм. яшй сшвставляе кожному е ] лидеру з алфавпу Л.

Таким чином процес лшгвютизацп чисельного динам1чного ряду рпниць полягае в замш значень ряду на ввдповвдш елементи алфавпу: а* до е^Я^), яюцо х1 ё 1,.

В результата лшгвютизацп отримуемо послщовнють лшгвютичних елеменпв з алфавпу Л\ = .£() = аг,.,,, им], тобто а, = .£(['], \ = 1,2,.,,., М. Отримаш таким чином лшгвютичш ланцюжки на наступному етапi побудови лшгвютично! моделi використовуються для вщновлення формально! граматики.

Четвертий етап побудови лшгвютично! моделi - ввдновлення формально! граматики - можна умовно представити у виглядi чотирьох послвдовних процеав:

• фонетичний аналiз,

• синтаксичний аналiз,

• семантичний аналiз,

• побудова ймовiрнiсно! граматики.

Пiд фонетичним моделюванням будемо розумiти виявлення стшких фрагментiв лiнгвiстичних ланцюжк1в та виявлення тим самим гiперсимволiв або ^в, формуючи тим самим словник формально! мови.

Синтаксичний аналiз в нашому випадку - це пошук набору правил, яш ввдображують стiйкi зв'язки в отриманих лiнгвiстичних ланцюжках.

Семантичний аналiз дозволить оцiнити стан динамiчних процеав на основi отриманих лiнгвiстичних конструкщях (алфавiт, граматичнi правила).

На останньому етапi будуемо ймовiрнiсну формальну граматику iз застосуванням апарату прихованих Марковських моделей [9].

Висновки та перспективи подальших досл1джень. Були розглянута етапи побудови лiнгвiстично! моделi на основi вхвдних даних динамiчного ряду. Отримаш в результата лiнгвiстичнi моделi можуть стати в нагодi при виргшент багатьох складних задач: прогнозування динамiчних рядiв, розпiзнавання рiзноманiтних образiв, дiагностики та автентифiкацi!.

ЛИТЕРАТУРА:

1. Фу К. Структурные методы в распознавании образов / К.Фу. - М.: Мир, 1977. - 319с.

2. Николис Г. Синергетика. Познание сложного/ Г.Николис, И. Пригожин. Пер. с анг. -М.: Изд.УРСС, 2003. - С.212-223.

3. Соколов О.Ю. Алгебра!чнi моделi та методи аналiзу i синтезу систем керування слабо формалiзованими процесами [Текст] : дис. доктора техн.. наук : 05.13.03 / Соколов Олександр Юршович. - Харшв, 2001.

4. Сенкевич Ю.И. Теоретические основы разработки автоматизированных инструментальных средств для телемедицинских систем полярных зон [Текст] : дис. доктора техн.. наук : 01.05.04 / Сенкевич Юрий Игоревич. - Санкт-Петербург., 2008. - 344 с.

5. Дрождин В.В. Операции преобразования грамматик / Дрождин В.В., Тобольченко В.М. // Программные продукты и системы. - №1. - 2010. С.42-46.

6. Сулимова В.В. Множественное выравнивание совокупности аминокислотных последовательностей на основе вероятностной эволюции / Сулимова В.В., Разин Н.А., Моттль В.В., Мучник И.Б. // Таврический вестник математики и информатики N 2, 2008, рр. 202-210.

7. Баклан 1.В. Лшгвютичне моделювання: основи, методи, деяш прикладш аспекти. [Текст] / 1.В. Баклан // Системные технологи. Региональный межвузовский сборник научных трудов. -Выпуск 3(74) - 2011, с.10-19.

8. Баклан I. В. 1нтервальний шдхвд до побудови лшгвютично! моделi [Текст] / 1.В. Баклан // Системш технологи. Репональний мiжвузiвський збiрник наукових праць. - Випуск 3 (86). -Дншропетровськ, 2013. - С. 3 - 8.

9. Баклан 1.В. Класифжащя моделей марковського типу [Текст] Наукова монографiя/ Баклан 1.В., Степанкова Г. А. - К.: НАУ, 2012. - 84 с.

БАКЛАН 1гор Всеволодович - к.т.н., заыдувач кафедри штелектуальних систем Нацюнально1 академi! управлiння.

Науковi iнтереси: - лiнгвiстичне моделювання, приховаш марковськ1 моделi.

i Надоели баннеры? Вы всегда можете отключить рекламу.