Научная статья на тему 'Процедур а построения частотного словаря на основе лексически связанных компонентов'

Процедур а построения частотного словаря на основе лексически связанных компонентов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
254
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МУЛЬТИЛИНГВИСТИЧЕСКАЯ АДАПТИВНО-ОБУЧАЮЩАЯ ТЕХНОЛОГИЯ / ЛЕКСИЧЕСКИ СВЯЗАННЫЙ КОМПОНЕНТ / ИНФОРМАЦИОННО-ТЕРМИНОЛОГИЧЕСКИЙ БАЗИС / ЛСК-МЕТОДИКА / LRC-METHODIС / MULTILINGUISTIC ADAPTIVE TRAINING TECHNOLOGY / LEXICALLY RELATED COMPONENT / INFORMATION-TERMINOLOGICAL BASIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ковалев Игорь Владимирович, Лесков Виталий Олегович, Шукшина Екатерина Евгеньевна

Рассмотрена процедура построения частотного словаря на основе лексически связанных компонентов и практические аспекты ее применения. Сформулирована задача о перестройке частотного мультилингвистического словаря для информационного обеспечения методики обучения иностранной лексике на основе лексически связанных компонентов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ковалев Игорь Владимирович, Лесков Виталий Олегович, Шукшина Екатерина Евгеньевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE PROCESS OF FREQUENCY DICTIONARY BUILDING ON THE BASE OF LEXICAL RELATED COMPONETS

The procedure of frequency dictionary building on the base of lexical related components and its practical use is considered. The task of frequency multilinguistic dictionary rebuilding for dataware of foreign vocabulary training technique on the basis of lexical related components is defined.

Текст научной работы на тему «Процедур а построения частотного словаря на основе лексически связанных компонентов»

УДК 004.021

И. В. Ковалев, В. О. Лесков, Е. Е. Шукшина

ПРОЦЕДУРА ПОСТРОЕНИЯ ЧАСТОТНОГО СЛОВАРЯ НА ОСНОВЕ ЛЕКСИЧЕСКИ СВЯЗАННЫХ КОМПОНЕНТОВ

Рассмотрена процедура построения частотного словаря на основе лексически связанных компонентов и практические аспекты ее применения. Сформулирована задача о перестройке частотного мультилингвистического словаря для информационного обеспечения методики обучения иностранной лексике на основе лексически связанных компонентов.

Ключевые слова: мультилингвистическая адаптивно-обучающая технология, лексически связанный компонент, информационно-терминологический базис, ЛСК-методика.

Как бы стремительно ни развивалась наука и техника, основу обучения иностранной терминологии всегда будут составлять словари. Они видоизменяются, перекладываются на компьютерные системы, делятся по тематикам, но по-прежнему представляют собой не что иное, как совокупность терминов и их языковых аналогов. Что касается специализированных словарей, таких, например, как словарь по медицине или математическому моделированию, то они могут быть построены с помощью программных систем, анализирующих тексты. В основе алгоритмизации этих систем, как правило, лежит частотный анализ терминов.

Словарь, полученный таким образом, перед выходом в печать проходит контроль со стороны лингвистов и специалистов конкретных предметных областей, и чем более качественно реализована программная часть, тем более поверхностный характер имеет их работа. Одним из таких словарей является изданный в 2004 г. англо-немецко-русский частотный словарь по системному анализу [1]. Этот словарь стал одним из результатов развития мультилингвистической адаптивно-обучающей технологии (МЛ-технологии) [2], а если говорить точнее, то он является одной из форм ее информационно-терминологического базиса (ИТБ).

Мультилингвистичность словаря делает возможным в процессе его использования построение однозначных ассоциативных связей между языковыми аналогами английского, немецкого и русского языка при условии, что обучаемый или уже знает один из иностранных языков, или изучает два иностранных языка одновременно. Здесь и далее русский язык рассматривается в качестве оригинального.

Дальнейшее развитие МЛ-технологии привело к созданию методики обучения иностранной лексике на основе лексически связанных компонентов (ЛСК-методи-ке) [3], которая позволяет искусственно формировать строго организованные системы внутриязыковых ассоциативных связей непосредственно в процессе обучения иностранной лексике. Эта методика также учитывает языковые аналоги лексем на всем множестве языков, с которыми она работает.

ЛСК-методика использует специально организованные ИТБ. Их формирование осуществляется посредством анализа текстов на предмет устойчивых лексических сочетаний.

Согласно ЛСК-методике, ИТБ представляет собой совокупность лексически связанных компонентов (ЛС-ком -

понентов). Лексема, связанная со всеми без исключения лексемами ЛС-компонента ИТБ, называется основной лексемой, а лексемы, имеющие только одну связь, - связанными лексемами.

В данной статье речь пойдет о решении реальной задачи перестройки частотного мультилингвистического словаря для использования ЛСК-методики. Решение этой задачи целесообразно разделить на следующие этапы:

- подготовка необходимых данных для применения алгоритмов формирования ЛС-компонентов;

- выбор и применение алгоритма формирования ЛС-компонентов;

- корректировка результатов.

Остановимся на каждом этапе более подробно.

Получение необходимых данных для применения

алгоритмов формирования ЛС-компонентов. Для использования этих алгоритмов необходимы следующие данные: абсолютные и относительные частоты лексем, данные о лексических связях, в том числе их частотные характеристики.

До обработки словарь представляет собой таблицу, состоящую из терминов английского, немецкого и русского языков, в которой также определены частоты терминов (рис. 1).

Применение алгоритмов формирования ЛС-компо-нентов основано на том, что каждый элемент словаря должен содержать полную информацию о лексических связях в виде ссылки на связанные лексемы и частоты лексических сочетаний. Иначе говоря, информационный базисный компонент словаря необходимо привести к следующему виду:

ОМЛ-компонент = {термин яз_1, термин яз_2, ..., термин яз_Ж, частота яз_1, частота яз_2, ..., частота яз_Ж, сочетание 1_яз_1, сочетание 1_яз_2, ..., сочетание

2_яз_1, сочетание 2_яз_2, ..., сочетание К_яз_Ы,

частота 1_яз_1, частота 1_яз_2, ., частота 2_яз_1, частота 2_яз_2, ., частота К_яз_Ж}.

Это возможно путем прогона использованных при формировании словаря текстов через новые алгоритмы обработки. Но поскольку результаты программной обработки текстов при формировании первой версии словаря корректировались специалистами, то такой подход не даст точных результатов, а повторная экспертиза иностранной терминологии - задача достаточно трудоемкая и дорогостоящая и также не может гарантировать необ-

ходимой точности, если речь не идет о формировании словаря заново.

Вместе с тем необходимые данные можно получить без дополнительных затрат, проанализировав терминологический состав словаря. Здесь следует пояснить, что устойчивые лексические сочетания, которые мы ищем, отражают отдельные понятия языка и наиболее востребованные из них вошли в состав словаря как отдельные элементы со своими частотами. Узкое место такого подхода состоит в том, что далеко не все термины, составляющие лексические сочетания, присутствуют в словаре. Однако частота употребления этих терминов равна или, скорее всего, превосходит частоту сочетаний, в которых они употребляются. Это дает нам возможность пополнить словарь недостающими терминами и их языковыми аналогами.

В рассматриваемом нами случае за основу взяты английские термины, затем был выполнен их адекватный перевод на другие языки и определены соответствующие частоты (рис. 2).

Выбор и применение алгоритма формирования ЛС-компонентов. Поскольку объем базиса невелик, а требования к количеству ЛС-компонентов отсутствуют, то целесообразно применить восходящий алгоритм формирования ЛС-компонентов (В-алгоритм) [3]. В нем можно выделить следующие фазы.

1. Подготовка ИТБ.

1.1. Для каждой лексемы ИТБ вычисляется значение

Ь, I = 1, ..., п:

0,7

Li = e

— о k

2 qk Vk +1

qi =

qi

V

(2)

здесь qmsx = max q{qa, qa, ..., q n} - абсолютная частота появления лексической единицы в тексте, q , q , ..., q.n-частоты из мультилингвистического словаря, если речь идет о МЛ-технологии.

1.2. ИТБ упорядочивается по убыванию значения L. таким образом, что чем меньше будет порядковый номер лексемы, тем выше вероятность образования на ее основе ЛС-компонента.

2. Поиск оптимального количества основных лексем.

2.1. Осуществляется перебор возможного количества основных лексем к от 1 до объема ИТБ (возможно сужение разработчиком интервала поиска).

2.2. Для текущего значения к определяются основные лексемы (к первых лексем ИТБ).

2.3. Осуществляется перебор неосновных (потенциально связанных) лексем и для каждой неосновной лексемы из множества, сформированного в п. 2.2, выбирается наиболее подходящая основная лексема согласно критерию

0,7

(2 qk Vik +1)+qjV ij DL. = qe k - L ® max. (3)

Таким образом вычисляется максимальный прирост L(n), который обеспечивается вхождением текущей неосновной j-й лексемы как связанной в ЛС-компонент, образованный i-й лексемой (как правило, задается максимум количества связанных лексем).

2.4. Подсчитывается значение функции качества:

(l)

G,7

где - относительная частота сочетания г-й и к-й лек-

сем, отражающая силу ассоциативной связи; qj - относительная частота, выражающая долю лексической единицы в тексте, подвергшемся статистической обработке при составлении частотного словаря, 0 < qi < 1:

(4)

которая показывает сумму взвешенных вероятностей знания лексем по всему базису. Чем больше эта сумма, тем более удачно построен базис.

«В Вне шним отчетно й работкп.| - K:WiiJrtWin£\^nseslCnnBO|iMi\ljdri>rmsVLjTOiapHE_erl

■J^Llfbys- A і

1 і -> 1 і 1 +

і 1 aL'jiM jI'j, S L-JI-'JUI-I'JII І . JllfJf J^-1 IL-, 1 1

? ■ь £. atoreviato a litition і с e Bezeichu-j ;bku7»i. 1 ;очогідтьсСо;і-ачеі-іе 5

3 І til hi- 4 1 triLl-frl., 41 ■- fJL'L':JHL". t, 'i

4 Z- atov; 12 ut or ':o ul ±c cili±o,

£ 5 iiLz.it^jjn 7 i- -«..ЮІ 1 2 1 І[;іІШИ>-,

R j ULLLjL, i.- -t£L fjL L J, ' L.' 'JHIIHMJ

I 7 acceptance. і Апаїиге If "pnev.il

Б 4t' ум 1, £2 rri ■. i‘T і, , ut f.K' jmj i,t - - -i!

П и direct с;; ом ± С ГС'-ЇІ'1 ZuJl't і ПГі - or vofi і on^.; jc£стзс ..їй ;"yn

1> 10 in hri-'L ieh-,5

11 1 1 r r.UHL-' Jll'll tll'L'V'.'J, 2 UlUjI jlllJL jl.ljllll A III :irjr. c-.i jl jivjiu 1

1 * 12 psalle cccijfss і p. ага ele' Z^aiiif. і ті ■ар.аппе."=.на= =ы;юр^.Е.2

1Ї Гэ . ЇІІІ i. 2 Jilltr Jll 1, 1 4 jtiift ьнеі^ tbii"j|.'-'L, і

11 К nncom Z.'c Isz.jnl іо;. ™тгс' c Zu; T.i 4 m ■ос-'осоль j

|Е 15 iillUljJI^OUz: 4 l eiJ ;нні j»ei Iul' Ґ : in tbiC(.'px, 2 iit .

11 VI '-L'.'r jfj jf.'f.'iijj. S. UH.t tJI JL у 11 1, 1 JL JL JU J -■ J J.-l It.lh' *■ JIL ц: 1 J jl. 1 [JL

1Т 17 access me:hcJ С f

11 1 S ІГІИг.2 .Z. bit I, 'j 1 JI-'ЇН^ i,LV. ly tl 1

1» I т JCOO =CI t.| 1 A Jt r:;T;™io;TL, ;■ |v

< tl

~\ Нлтії J* "rw.ll-h і. A*!Tn [t п н I Lfi ^ A" ~ тґі-н і/ 1 V. ИTrLiix I.v' ■^1_ч k \

Рис. l. Частотный словарь до обработки

l20

2.5. Если перебор окончен, то выполняется п. 2.6, если иначе, то возврат к п. 2.1.

2.6. Определяется максимум функции качества - оптимальное число основных лексем к .

max

3. Формирование ИТБ как совокупности ЛС-компо-нентов. Искомый ИТБ получается при прохождении пп. 2.2 и 2.3 для к основных лексем.

max

С помощью В-алгоритма было выявлено и сформировано 70 ЛС-компонентов (рис. 3).

Корректировка результатов и оформление словаря. Таким образом, мы получили двухблочный словарь: первый блок состоит из ЛС-компонентов, второй - из элементов, которые не вошли в первый блок. Для удобства использования словаря следует выполнить сортировку блоков по алфавиту (ЛС-компоненты упорядочиваются по основным лексемам) и добавить соответствующие литеры.

Если словарь разработан для печати, то рационально добавить во второй блок терминологию первого блока со ссылками-номерами на соответствующие ЛС-компо-ненты. В таком случае по второму блоку пользователь может производить поиск всей интересующей его терминологии, а по первому обучаться согласно процедурам ЛСК-методики.

Также рекомендуется провести корректировку терминологии в ручном режиме.

Таким образом, рассмотрена процедура построения частотного словаря на основе лексически связанных ком -понентов и практические аспекты ее применения. В качестве основы взята реальная задача о перестройке частотного мультилингвистического словаря для информационного обеспечения ЛСК-методики. Даны рекоменда-

1 — <шіпрмі1ІіІ ha irnsU ji unaji n .сі 1 m

1 '.пн-г :t-

' \ 1 I ' 1 E •' 11 1 *

J ac:co: 4:j 2.i:ir Л1 д:і:т;г,^ 3^fx 4j n ■:: :c::c. ^i :р із^с. с пґ. J m : 1 :і.іjj зі и з і : лисі ггас

к 01 ac;cc:t~c 2 3 f 3

р Г. ac :co:il:i b:. A їді this:: 2 ■ д :і:г:г юс-.. S -i

11 1C ac-:es=cr; "■ Hilfe? nnh.nj, 2 3;П ^ЧО"£ТЄП=.-Си ' 3

■ 1 11 ЛГ.;.ГИ'.. U І'І-.І.'.Ґ'.Г'П, 4 '.'“.'Л к jnr ...Г r ■ j-

1 ? 12 '.Л'иіІ.Ї. 2 =ьги"Н' (ыгьи> -UJKiJI .IK =!Ы э.4 il

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11 ]?. Ak-.l. Ї1.ІЯІІ.'. 1 няцпг ійн.1*- и-ф: • ? .~o r r>f -i:s. ir’ii А<1*. .т іі-тіі..п=і..игі ~і.чк-~і н-і^:і-пз-нч. п.і?

14 1-І s-n :::и ги.інісг h і. 11.1 s-11 ■:і Ъ? i іїІКа М .11 н| |--J<-J У/.-* : «-г -j її-*! ці ::i. ii .1 :i4'-jHr-- м.\: лі. 11.1? імі'мм ІНМ-.-МК :■}

11 1* -1"? .1^ ■ .W и:І^:| .*1^ л» ::i.\ : ін і «і: |wi ґ7мі іч .it « чч-і і "■ чи

1І It dL'VU't :■*," і 4 J 1,1 L 111 V,; V-ll-= H, ll'jsl^ibl ' і

1/ 1.' Л-^.ІЯІП^ л ГЛЯЧІ.1.] ':-'t *Гм^р * птл йспі.і=іггіг .й'^'АГТйЯРІГй..-. *г..-.рлйЧИ-:-Г :j

11 1J Jl-. l'II. It'^ I л Л LT l- :J'J I Д'-Vl' J-Il- 1 ^ ' ■' ^ СС l-l' Il'I і. і t:t: _l" l~ L^'uil-L j' .iuiи-ґ ґ.і -j-j jl'A-i ! LH'j.

1 Е IS ac: -.'ate, 9 3 4V аоіві-=ирйвать 25

£1 ac: ■/o " J-lV.L' ЛГ-IDI . H, * j

У1 Jl ac: ■.if:. 10 Al - vitct. 4 ■ д^т^июсті. 1; '02 occt'jr actw ^'оЗ'апгсЬІаі'а- ;;5э-а "p-: с

22 acect. 12 і ■ 4 -lAjTUjjjjT-.,'' ■ 7

?] "5 accptaci :y 7 Ar;a^;jr^^kli jl ІірИ'ВД-ХТЬ При з

24 '•a nr.fif.rr ПН, J i'.r:. d',!' ir.j, 4 f VI VTEI y\~l. £ Pi

>S 26 U'J^UL^-d, 5 U' 5 -■ІД J ІШНзіІ 7

it 2Q fir.f.Г.К-*. ' '1 -■dapliv 7 -ii-vttr-hi' . л

з, ~ J m i І-ГІІІІ^ІНІІ '■? "І-Ч - II -.1-ї- i- l1l.

<

Jdr-ca* Jut:»* } l-Stf'HJ i ; ^ІзС'иіаІ } 1 tf-HJi. у Й1 nfliiHi-B'J / У %си: l :■ У i,l-Lfi4

Рис. 2. Словарь после этапа подготовки данных

1 1 J | I S 1 E

1 Л A

2 f I a::_-3CY,4: Scrajc-ґзі: тзчм:і:г_. 1:Ї0

S i. еле. b ‘ ас ас. at,"; tU,e-:Eamb л У1

A id.'.о:, і ii го г:i .li'ii'.'.;' Л'"."'". '.Іі", т. і.тЧП "І ІІ лі-.r t, ■ f Т.1Г. .T,VJ V if TO 1 .'"'.Tl ,, "N

К L 6ГЛ Шї. '3 ■■erlujtJar. 2 JJtl/ -эИ. 1Є

С Islll^i -Іг.г.игй.Л', .- vRlflJ.ll'j^Itt .ir.lvti r_; .^.И'.т^"-^=то- -лг.ть, 1 Г:

7 (JhHytf; ±'i JitJ 1У rri 'ЛеїІЇНЬ, Ї/, ' 1

и 7 (it ~ 'т^гя j i^ -'РґЯі'гж, й m CTSnSHh TCi' ІНГКІТІ-.

Є еЛїіміг, 1L' iil trr, о K'jt Vnh'i 1J

1k Q ^гґіігя^' f. ’f Пр^ЛРПІ--ЯРТі')- -ГііїП-.. 1Г

I I "J їм i.i.ii ji1 L'il" uni'. 2Ї ill .JliifJ 2<

1? ■1 o'c^rof гс';игг;у, 16 jsrajs -:si:s';rdnj'g Sf степень reihoctv,2'I

її n::|jt ■;1г:і'.-, 21 cm книг зли ьл2і

1 4 ■ j relat № ас;_'Э';у, 4 -s-ltrks Зегаи A1, 'Этнссигелы-а= тс -і-О'ЛЬ

її f ■ ї. 1Й4 —iidlun-, CO - дзйстпиз ' 12

lb ■ 5 e sme'X'y, Z1 elcrenra', 56 ЧЄ-TSpHfclfl f'

і: ■ о .imr.-i= vivi.in 14 .ik.r-onm .i - inr.liinr., ГІ1 f япг. уо тгЕрі іг.о д.-.інг.тил,

її ' і v .ели.І2 rlsg'bl 2 її HHie L't. . %

і* • і _тн лгл 7. ,_ґ о ‘, ,'Г: rfsi'j ^Ihs _dl j ■ л 'f ИКШ“Л^ “hH.'.e ^Hitir.TRHHi,

л ' J OJ. ' і ^Ui'Jilll'J, "i III t:=.l40J, 'Ii

VI г_ 7- ~\ Л Г 'if V-ГІҐІІ ІГ1 Э||«5Г “^ТГ Г' Tl U£ ГЧГ-|ГЯ^_ 1"

< ї

Ч U-1 ■ lLr| /л-. л —'■ ’• Т -н:. -.і • '■ к"- T -£~ . '■ '• / i.'lM,,. w-

Рис. 3. Словарь после обработки В-алгоритмом (основные лексемы отмечены знаком плюс)

ции по использованию и получению начальных данных, применению алгоритмов и оформлению результатов.

Библиографический список

1. Ковалев, И. В. Англо-немецко-русский частотный словарь по системному анализу / И. В. Ковалев, М. В. Карасева ; Сиб. гос. аэрокосмич. ун-т. Красноярск, 2004.

2. Ковалев, И. В. Адаптивный алгоритм обучения иностранной лексике на основе лексически связанных компонентов / И. В. Ковалев, В. О. Лесков, М. В. Карасева // Системы упр. и информ. технологии. 2008. N° 4 (34). С. 78-82.

3. Ковалев, И. В. Внутриязыковые ассоциативные поля в мультилингвистической адаптивно-обучающей технологии / И. В. Ковалев, В. О. Лесков, М. В. Карасева // Системы упр. и информ. технологии. 2008. № 3.1 (33). С. 157-160.

I. V. Kovalev, V O. Leskov, E. E. Shukshina

THE PROCESS OF FREQUENCY DICTIONARY BUILDING ON THE BASE OF LEXICAL RELATED COMPONETS

The procedure of frequency dictionary building on the base of lexical related components and its practical use is considered. The task of frequency multilinguistic dictionary rebuilding for dataware of foreign vocabulary training technique on the basis of lexical related components is defined.

Keywords: multilinguistic adaptive training technology, lexically related component, information-terminological basis, LRC-methodiс.

УДК 539.3

Ю. В. Захаров, В. В. Исакова, К. Г. Охоткин

АНАЛОГИЯ ПЕРЕМАГНИЧИВАНИЯ ОБМЕННО-СВЯЗАННОЙ МАГНИТНОЙ СТРУКТУРЫ И ИЗГИБА УПРУГОГО СТЕРЖНЯ СО СЖАТИЕМ1

Рассмотрено точное аналитическое решение задачи о перемагничивании магнитной структуры с учетом одноосной анизотропии. Получена зависимость средней по толщине слоя намагниченности от постоянного поля. Найдено точное пороговое значение параметра одноосной анизотропии, при котором начинается раскрытие петли гистерезиса. Перемагничивание магнитной структуры аналогично изгибу со сжатием упругого стержня.

Ключевые слова: гистерезис, магнитная структура, нелинейный изгиб.

Задачи о перемагничивании магнитомягкого слоя на магнитожесткой подложке с закрепленным и свободным магнитным моментом на поверхностях в постоянном магнитном поле, параллельном плоскости слоя, решались на основе аналогии с потерей устойчивости эйлерова гибкого стержня под действием продольной силы постоянного направления [1]. Уравнение Ландау-Лифшица в статическом случае сводилось к уравнению типа нелинейного маятника и решалось с указанными граничными условиями. В [1] также были найдены распределения магнитного момента и пороги перехода магнитомягкого слоя в веерное состояние в зависимости от магнитного поля, приложенного антипараллельно направлению закрепления.

В работе [2] рассматривалось перемагничивание такого слоя с учетом одноосной анизотропии в плоскости слоя, что привело к уравнению типа нелинейного маятника с дополнительным членом:

( A

+ h sin ф - в sin ф cos ф = 0,

d ф

dz

где j - угол, зависящий от координаты z по толщине слоя в плоскости этого слоя между вектором намагниченности и осью x, совпадающей с осью легкого намагничивания; a - постоянная обмена ферромагнетика; h = const -внешнее поле; b - константа одноосной анизотропии, b < 4л.

В [2] было найдено точное решение уравнения (1) в виде дробно-нелинейных комбинаций эллиптических функций, зависящих от одного параметра, определяемого величиной внешнего поля. Эти дробные выражения затем были приближенно представлены в виде полиномов, что позволило найти среднюю по толщине слоя намагниченность и показать наличие гистерезиса при пе-ремагничивании. Порог перемагничивания был найден в виде hu + b, где hu = (p/2)2a/d2, здесь d - толщина слоя.

Рассмотрим точное решение этой задачи в виде дробно-нелинейных комбинаций эллиптических функций

(1)

cos ф = -

-1 + 2 k2s2 - ^2s 2

7ч2?

(2)

1 Работа поддержана программой Минобрнауки Российской Федерации «Развитие научного потенциала высшей школы»,

(проект 2.1.1/735).

i Надоели баннеры? Вы всегда можете отключить рекламу.