Научная статья на тему 'Автоматизация формирования информационной базы мультилингвистической адаптивно-обучающей технологии'

Автоматизация формирования информационной базы мультилингвистической адаптивно-обучающей технологии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
116
43
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карасева Маргарита Владимировна, Лесков Виталий Олегович

Рассмотрены системные аспекты формирования информационной базы мультилингвистической адаптивно-обучающей технологии, такие как сбор информации о скрытых лексических связях, и применение ее в формировании информационно-терминологического базиса. Предложена система первичной обработки текстов, приведен алгоритм ее работы, а также структура выходных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карасева Маргарита Владимировна, Лесков Виталий Олегович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automation of the informational basis formation of the multilingual adaptive technology

The system aspects of information basis generating multilingual adaptive-training technology are exact the information gathering about hidden lexical relations and use of this information in forming of information-technology basis are considered. The texts system preprocessing is connected with its algorithm of work and output data structure.

Текст научной работы на тему «Автоматизация формирования информационной базы мультилингвистической адаптивно-обучающей технологии»

информации. Следует отметить также, что основными достоинствами предложенного метода являются линейная зависимость сложности расчетов от масштаба сети, возможность оценки характеристик сетей при обслуживании разнородных информационных потоков, возможность решения мультикритериальной задачи при оценке параметров телекоммуникационных сетей, а также простота программной реализации [5].

Библиографический список

1. Крон, Г. Тензорный анализ сетей / Г. Крон. М., 1978.

2. Петров, М. Н. Вероятностно-временные характеристики в сетях и системах передачи интегральной инфор-

мации / М. Н. Петров ; Красн. гос. техн. ун-т. Красноярск, 1997. 270 с.

3. Петров, М. Н. Тензорная методология в информационных сетях / М. Н. Петров, Е. В. Веревкина, М. О. Захарченко. Красноярск : НИИ СУВПТ, 2001. 225 с.

4. Пономарев, Д. Ю. Тензорный метод для телекоммуникационных сетей / Д. Ю. Пономарев // Труды Красн. гос. техн. ун-т. 2006. № 2-3. С. 49-56.

5. Пономарев, Д. Ю. Исследование вероятностно-временных характеристик информационных сетей тензорным методом / Д.Ю. Пономарев // Компьютерные учебные программы и инновации. 2007. N° 7. С. 160-161.

M. N. Petrov, D. U. Ponomarev

ABOUT INFORMATION NETWORKS PROBABILITY AND TIME CHARACTERISTICS ESTIMATION METHOD

Information systems modelling often reduce to investigation of different parameters and characteristics of queuing systems and networks. Queuing theory proposed many capabilities for probability and time characteristics estimation for different queuing systems. However, queuing systems connection in queuing network gives difficulty to systems characteristics analysis, especially at investigation of large dimension networks. It is presented information networks probability and time characteristics estimation method with tensor methodology that let provide more simple solution this task.

ХЦК 62-506.1

М. В. Карасева, В. О. Лесков

АВТОМАТИЗАЦИЯ ФОРМИРОВАНИЯ ИНФОРМАЦИОННОЙ БАЗЫ МУЛЬТИЛИНГВИСТИЧЕСКОЙ АДАПТИВНО-ОБУЧАЮЩЕЙ ТЕХНОЛОГИИ

Рассмотрены системные аспекты формирования информационной базы мультилингвистической адаптивнообучающей технологии, такие как сбор информации о скрытых лексических связях, и применение ее в формировании информационно-терминологического базиса. Предложена система первичной обработки текстов, приведен алгоритм ее работы, а также структура выходных данных.

Проблема эффективного обучения иностранным языкам всегда была актуальна для человечества. Создаются различные методики обучения, а вместе с ними множество учебников, словарей (в том числе электронных), предпринимались попытки создания унифицированных языков достаточно простой и логичной структуры. Результаты этих попыток весьма спорны, но одно можно сказать наверняка: все это было вызвано необходимостью понимания иностранной речи, умения высказаться в рамках специальной области. Кроме того возникла острая необходимость в квалифицированных переводчиках. Но какой бы квалификацией не обладал переводчик, он не в силах постичь все многообразие сфер человеческой деятельности, изобилующее своими специальными терминами, не говоря уже о том, что значения одних и тех же, казалось бы, терминов в разных сферах бывают очень различны. Как показывает практика, контактировать с представителями других языковых групп приходится если не во всех сферах человеческой

деятельности, то в большинстве из них, и часто не прибегая к услугам переводчика.

Резюмируя все вышесказанное, можно утверждать, что на сегодняшний день предпочтительно, чтобы специалист самолично мог общаться на иностранных языках с зарубежными коллегами или партнерами, хотя бы в рамках своей рабочей области. В российской практике, к сожалению, данная тенденция развивается медленно. А значит, ярко выражена необходимость в создании эффективных методов обучения специальной лексике.

На сегодняшний день все более часто используют специальные компьютерные программы, обучающие иностранной лексике. Они относительно дешевы и просты при создании по сравнению с бумажными аналогами и не менее эффективны. Такие программы обычно обладают достаточно гибкой структурой, позволяющей обновлять (актуализировать) свои БД, а также заменять их для обучения лексике иных специальных областей.

Примечательно, что процесс обучения с помощью таких программ становиться индивидуальным, и обучаемый способен прервать или возобновить процесс обучения в любое удобное для него время. Не маловажно, что подобные обучающие программы, как правило, имеют ряд дополнительных функций при обучении, в том числе средства мультимедиа. Это также заметно повышает эффективность таких программ.

Единственный минус подобных средств обучения по сравнению с бумажными аналогами состоит в том, что некоторые люди принципиально не приемлют компьютерное обучение как таковое. Причины этого тривиальны: дело в том, что обучение посредством компьютера требует определенной усидчивости и терпения от обучаемого, что не каждый может себе позволить. Естественно, что помимо этого от пользователя требуется умение пользоваться компьютером хотя бы на начальном уровне.

Но, тем не менее, основная часть специалистов, на которых нацелены подобные обучающие программы, не должна испытать никаких затруднений в их освоении, поскольку к современным специалистам предъявляется более высокий уровень требований . А это означает, что подобные обучающие программы еще долго будут востребованы на рынке средств обучения иностранным языкам.

Последнее время очень часто перед современным специалистом ставится требование знать лексику нескольких иностранных языков.

Решение этой задачи посредством описанных выше программных продуктов имеет побочные эффекты. Нередко возникает несоответствие языковых аналогов. Одни аналоги забываются быстрее - другие нет. И это усугубляет процесс обучения.

Конечно, это происходит в первую очередь из-за того, что сам процесс обучения происходит поэтапно. Муль-тилингвистическая адаптивно-обучающая технология (МЛ-технология) [1] предлагает иной подход к изучению нескольких иностранных языков последовательно, а именно изучение иностранного языка с учетом и при помощи знания другого ранее изученного иностранного языка. МЛ-технология основана на механизмах восприятия и памяти человека и предусматривает адаптацию системы к конкретному пользователю.

В настоящее время в рамках МЛ-технологии проводится ряд исследований, и она как ядро обучающей системы обрастает новыми методами и системами их реализующими.

Построение компьютерной системы, обучающей иностранной лексике (в частности, на основе МЛ-техно-логии), можно представить в виде ряда последовательных этапов.

Формирование программной оболочки и механизма, обеспечивающего прохождение системы, включает различные механизмы адаптации и дополнительные функции.

Формирование терминологического базиса происходит в несколько этапов:

1) построение лексической базы, адекватно и достаточно полно отражающей специфику некоторой области какого-либо иностранного языка (нескольких иностранных языков, в контексте МЛ-технологии):

- поиск текстов, принадлежащих данной специальной области,

- обработка текстов и сбор мусора,

- построение лексической базы в виде частотного словаря;

2) формирование мультилингвистического информационного терминологического базиса посредством ряда методов, в том числе методов оптимизации структуры базиса.

Цостаточно часто для описания технологических процессов и управления ими используется теория Марковских процессов.

Марковский процесс - это процесс, когда для каждого момента времени вероятность любого состояния объекта в будущем обусловлено только состоянием объекта в данный момент и не зависит от того, каким образом объект пришел в это состояние. Говорят еще, что такой процесс обладает Марковским свойством.

Цепочкой Маркова называется Марковский процесс с дискретным временем, заданный в измеримом пространстве.

Цля описания Марковских процессов используются модели Маркова, которые включают в себя множество состояний, множество переходов между этими состояниями и вероятностные характеристики этих переходов (переходная вероятность или вероятность перехода). Цля удобного использования переходных вероятностей, они часто записываются в матрицу (матрицу переходных вероятностей).

Пример Марковской цепочки - произношение слова «корова» в двух различных вариантах (рис. 1). Согласно этому рисунку слово «корова» с вероятностью 0,7 будет произнесено как [карова], с вероятностью 0,3 как [корова].

©ЧЕНЭ

Рис. 1. Пример цепочки Маркова

Все приведенные состояния, кроме начального, являются функциями предыдущего состояния. Совокупность состояний, приведенную в данном примере, логично рассматривать как совокупность биграммам (последовательностей из двух слов), так как каждое состояние (кроме начального) является функцией только от одного предыдущего состояния.

Когда некоторое состояние зависит сразу от нескольких предыдущих, тогда совокупность этих состояний логично рассматривать как совокупность триграмм, тетраграмм и т. д. (последние не часто используются в решении технологических задач, так как построение системы, основанной на них, достаточно ресурсоемко). Здесь уместно говорить о расширении понятия Марковского процесса.

Если цепочка Маркова включает в себя хотя бы одно состояние, которое может быть достигнуто одиночными переходами из нескольких предыдущих (состояние 3,

рис. 1), то такая цепочка называется скрытой Марковской цепочкой (обладает скрытым Марковским свойством).

Условимся называть связи (отражающие возможность перехода в скрытой Марковской цепи) скрытыми Марковскими зависимостями (связями), а в контексте данной статьи, с учетом ее тематики - скрытыми лексическими связями.

Теперь следует заметить, что представленная структура построения компьютерной системы обучения иностранной лексике не учитывает скрытые Марковские зависимости между лексемами (далее - скрытые лексические связи).

Однако очевидно, что такие зависимости (в первую очередь связи между понятиями, а не лексемами) могут служить достаточно сильным ассоциативным механизмом при запоминании некоторого набора лексем языка (языков). А значит, изучение этого механизма и возможностей манипулировать им полностью соответствует целям обучающей системы.

Предположим что, существует механизм использования данных о скрытых лексических связях в построении информационного терминологического базиса.

Тогда необходимо построить систему, которая бы позволяла находить и представлять данные о скрытых лексических связях таким образом, чтобы они могли быть использованы упомянутым ранее механизмом. К такой системе предъявляется два основных требования:

- органично вписываться в общую структуру компьютерной системы обучения (наименьшая ресурсоем-кость, синхронизация с отдельными подсистемами);

- универсальность и простота представления данных (механизмы использования могут быть различны, как и требования к представлению их входных данных).

Естественно было бы отнести интегрируемую систему ко второму этапу в построении системы обучения иностранной лексике (предварительная обработка текстов, построение лексической базы).

Также естественно было бы расположить ее в данной структуре либо до применения подсистемы генерации частотного словаря, либо после.

Но если рассмотреть ближе структуру обоих упомянутых систем, то становится очевидным, что они основаны на одном и том же алгоритме обработки текстов - алгоритме «Поиска образа в строке». И поскольку ресурсо-емкость задач с применением такого алгоритма прямо пропорционально зависит от объема обрабатываемого текста, встает вопрос о слиянии этих двух систем.

Удачное решение этого вопроса намного сократит ресурсоемкость этапа формирования лексической базы по сравнению с последовательным применением этих двух систем.

Цля того чтобы понять как эффективнее и проще организовать представление выходных данных системы, необходимо знать, что эти данные из себя представляют.

Все скрытые лексические связи в тексте могут быть представлены в виде ориентированного взвешенного графа, вершины которого соответствуют отдельным лексемам, ориентированные дуги - самой скрытой лексической связи, а веса - вероятностям перехода между лексемами (рис. 2).

Трактовать такой граф, применительно к приведенному примеру, следует таким образом (табл. 1): Вершина 1:

Лексема: Computer.

За лексемой «Computer» следуют лексемы:

- «System» с вероятностью 0,7,

- «Design» с вероятностью 0,3.

Аналогично относительно вершин 2, 3, 4, 5.

Рис. 2. Пример части орграфа, отражающего скрытые лексические зависимости текста некоторой предметной области

Таблица 1

Частотные характеристики лексем

Вершина Лексемы Данные ЧС

1 Computer о,оо7

2 System о,оо2

З Design о,ооо 6

4 Architecture о,ооо 1

5 Method о,ооЗ

Чаще всего орграфы, да и любые другие графы, имеют машинное представление в виде совокупности матрицы смежности и инцидентности. Такие матрицы для орграфа, приведенного на рис. 1, будут иметь следующий вид (табл. 2 и 3).

Таблица 2

Матрица смежности

№ 1 2 З 4 5

1 о 1 1 о о

2 1 о 1 1 1

З 1 1 о о о

4 о 1 о о о

5 о 1 о о о

Таблица 3

Матрица инцидентности с весами ребер

№ 12 1З 2З 24 25

1 -о,7 -о,З о о о

2 о,7 о -о,З -о,5 -о,2

З о о,З о,З о о

4 о о о о,5 о

5 о о о о о,2

Цля удобства хранения и наименьшей ресурсоемкос-ти данных о скрытых лексических связях предлагается сле-

ЗЗ

дующая модификация матриц смежности и инцидентно- тодов. Автором статьи на основании результатов соб-сти, которая представляет собой только одну таблицу и ственного небольшого исследования области решения эквивалентна матрице переходных вероятностей, обыч- подобных задач рекомендуется метод «Быстрого поис-но используемой в контексте Марковских цепей (табл. 4). ка», имеющий минимальную ресурсоемкость.

Таблица 4

Матрица переходных вероятностей

№ 1 2 З 4 5

1 0 0,7 0,З 0 0

2 0 0 0,З 0,5 0,2

З 0 0 0 0 0

4 0 0 0 0 0

5 0 0 0 0 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Такую матрицу следует читать относительно строк, где, например, запись в ячейке М [1, 2] - «0,7» означает, что связь весом 0,7 входит в точку 2 из точки 1, иными словами «0,7» - значение вероятности перехода от лексемы 1 к лексеме 2.

Возможность объединить матрицу смежности и инцидентности появилась благодаря тому, что две вершины орграфа скрытых лексических связей соединяет одно и только одно ребро, что позволяет не индексировать ребра; а о наличии-отсутствии ребра однозначно говорит ненулевое значение соответствующей ячейки матрицы переходных вероятностей.

Выход системы образования частотного словаря может быть представлен, например, в виде небольшой БЦ (табл. 5):

Это удобно в первую очередь благодаря гибкости и надежности структуры хранения данных, где гибкость заключается в том, что в зависимости от выбранных методов формирования терминологического базиса и методик обучения, можно модифицировать БЦ, добавив, например, атрибут «транскрипция для каждого языкового аналога». Надежность же обеспечивается самой структурой БЦ.

Матрица переходных вероятностей и частотные характеристики лексем должны быть синхронизированы, для этого предлагается представить матрицу переходных вероятностей в виде БЦ и объединить с БЦ частотного словаря по ГО (уникальный номер) (табл. 6).

Таким образом, представление выходных данных системы поиска скрытых лексических связей в виде матрицы переходных вероятностей будет синхронизировано с выходом частотного словаря и наименее ресурсоемко.

Алгоритм представлен на определенном уровне абстракции, поэтому не включает детального описания некоторых пунктов. Поиск образа в строке здесь может быть произведен любым из существующих специальных ме-

Таблица 6

Скрытые лексические связи

ID 1 2 З 4 5

1 0 0,007 0,02З 0 0

2 0 0 0,0З 0,07 0,08

З 0 0 0 0 0

4 0 0 0 0 0

5 0 0 0 0 0

Вход: текст, прошедший предварительную обработку (сбор мусора ит. д.):

1. Выделяется лексема, начиная с первой позиции текста. Назовем ее основной, так как она представляет собой состояние процесса в настоящий момент времени и именно по ней ведется учет частоты для ЧС. Лексема записывается в БЦ: в ЧС и в матрицу переходных вероятностей в качестве элемента и в качестве нового атрибута (если еще не встречалась как атрибут) с названием идентичным собственному ГО основной лексемы, значение атрибута временно приравнивается нулю.

2. Изменяем текущее значение частоты для основной лексемы. Производится соответствующая запись в БЦ: ЧС.

3. Выделяется лексема, следующая за основной. Назовем ее связанной лексемой. Она являет собой состояние процесса в будущий момент времени и отражает скрытую лексическую связь. Если связанная лексема еще не встречалась в текущей паре, то она записывается в БЦ: в ЧС как новый элемент со своим ГО и матрицу переходных вероятностей как новый атрибут.

4. Изменяем значение частоты для текущей пары лексем. Производится соответствующая запись в БЦ (матрице переходных вероятностей).

5. Производится поиск (любым из методов поиска образа в строке) лексемы в тексте, идентичной основной лексеме.

6. Если поиск увенчался успехом и искомая лексема найдена, алгоритм переходит в пункт 2 и продолжает работу.

7. Если просмотр текста закончен, и искомая лексема не найдена, то алгоритм переходит в пункт 1, присвоив лексеме, следующей за первым вхождением в текст основной лексемы статус основной. Алгоритм начинает работу уже относительно нее. И работает до тех пор, пока весь текст не будет пройден таким образом до конца.

Выход: БЦ.

Использование подсистемы обработки текстов, полученной в результате объединения подсистемы генерации

Таблица 5

Частотный словарь

ID Частота Английский Немецкий Русский

1 0,007 Computer Computer Компьютер

2 0,002 System System Система

З 0,000 6 Design Design Дизайн

4 0,000 1 Architecture Architektur Архитектура

5 0,00З Method Methode Метод

частотного словаря и подсистемы поиска скрытых лексических связей является очень удачным решением в построении информационно-терминологического базиса. С одной стороны, появляется возможность задействовать у обучаемого сильные, ранее не доступные, ассоциативные механизмы восприятия памяти, а с другой - ре-сурсоемкость построения базиса будет значительно ниже, чем при предварительном использовании двух ранее упомянутых подсистем.

Таким образом, за счет использования скрытых лексических связей повышается эффективность системы обучения иностранной лексике в целом. При этом разработаны такие структура и алгоритм работы подсистемы предварительной обработки текстов, при которых использование данной подсистемы при формировании инфор-

мационно-терминологического базиса будет наименее ресурсоемко.

Разработанная структура выходных данных подсистемы предварительной обработки текстов обеспечивает гибкость и целостность информации.

А в эффективном использовании данных о скрытых лексических связях непосредственно в процессе обучения отрывает возможность для новых исследований в данной области.

Библиографический список

1. Александров, Г. Н. Программированное обучение и новые информационные технологии обучения / Г. Н. Александров // Информатика и образование. 1993. № 5. С. 7-19.

M. V. Karaseva, V. O. Leskov

AUTOMATION OF THE INFORMATIONAL BASIS FORMATION OF THE MULTILINGUAL ADAPTIVE TECHNOLOGY

The system aspects of information basis generating multilingual adaptive-training technology are exact the information gathering about hidden lexical relations and use of this information in forming of information-technology basis are considered. The texts system preprocessing is connected with its algorithm of work and output data structure.

УДК 519.2

Н. В. Степанова, А. Ф. Терпугов

ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ЦЕНОЙ ПРИ ПРОДАЖЕ СКОРОПОРТЯЩЕГОСЯ ТОВАРА

Находится оптимальный закон управления продажной ценой партии скоропортящегося товара, обеспечивающий получение максимальной прибыли.

Перед любой фирмой, производящей какой-либо товар, всегда встает проблема его сбыта. Эта проблема особенно важна для фирм, производящих товары, не подлежащие длительному хранению, так как перепроизводство товара может привести к потери им товарных качеств в течение торговой сессии, и товар будет снят с реализации или уценен. Недостаточное производство товара приведет к тому, что часть возможной прибыли будет недополучена, т. е. к упущенной выгоде.

Эти проблемы возникают при поставке товара в торговые точки, принадлежащие фирме-производителю, а также у розничных торговцев, покупающих у оптового поставщика партию скоропортящегося товара для его реализации. Во всех этих ситуациях очень большое значение имеют ответы на следующие вопросы:

- какой должен быть объем партии, поставляемой или покупаемой для реализации?;

- по какой розничной цене должен продаваться этот товар?;

- как должна меняться розничная цена в зависимости от остатка непроданного товара?;

- как управлять ценой продажи продукции, чтобы к кон-

цу торговой сессии она была полностью реализована?;

- все эти задачи надо решать при вполне естественном критерии оптимальности - максимизации прибыли, получаемой от реализации продукции.

Постановка проблемы. Пусть имеется некоторая скоропортящаяся продукция (например, молоко, сметана, свежая рыба, овощи и т. д.), которая должна быть продана в течение торговой сессии (например, дня). В противном случае товар снимается с реализации и пропадает.

Продавец покупает партию товара объема Q0 по оптовой цене d и продает ее по розничной цене с. Ставится задача нахождения значений Q0 и с, при которых средняя прибыль продавца будет максимальной.

Цостаточно неприятно, если к концу торговой сессии остается непроданный товар. Выбрасывать его жалко, пускать на переработку в продукцию низкого качества тоже. Поэтому продавцы применяют разнообразные приемы, чтобы реализовать товар до конца торговой сессии, например, в ее конце устраивают распродажу остатков товара по низкой цене. Однако, это не единственная и, по-видимому, не самая лучшая стратегия. Здесь имеется обширное поле для теоретического исследования. В дан-

i Надоели баннеры? Вы всегда можете отключить рекламу.