Научная статья на тему 'Применение современных технологий при формировании баз данных коммуникативных систем'

Применение современных технологий при формировании баз данных коммуникативных систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
174
96
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение современных технологий при формировании баз данных коммуникативных систем»

УДК 681.3(075)

А.М. ХАРИТОНОВА

ПРИМЕНЕНИЕ СОВРЕМЕННЫХ ТЕХНОЛОГИЙ ПРИ ФОРМИРОВАНИИ БАЗ ДАННЫХ КОММУНИКАТИВНЫХ СИСТЕМ

В настоящее время актуальны проблемы, связанные с коммуникативными процессами. Коммуникативные процессы можно рассматривать, во-первых, в значении коммуникативных актов между членами общества, во-вторых, в значении процессов, происходящих в системах передачи и приема информации. Слово коммуникация означает связывать, общаться и, как принято считать, - это обмен информацией между индивидами с помощью общей системы знаков. В коммуникативных системах проблемными структурами являются тезаурусные составляющие [7].Тезаурус в наиболее общем определении - это словарь с семантическими связями между словарными единицами. Тезаурусные модели основаны на принципе организации словарей и являются системами опосредованной коммуникации, например, системы компьютерного перевода, в частности, письменного перевода информационных сообщений, передаваемых с использованием средств компьютерных коммуникаций, системы броузерного обеспечения, системы кодирования и декодирования и т.п.

Тезаурусная составляющая коммуникативной системы должна представлять собой программно-доступную информационную структуру, позволяющую осуществлять поиск и толкование в алфавитном и концептуальном пространстве и должна поддерживаться мощными базами данных и системами управления ими. Тезаурусные системы становятся важными компонентами инфраструктуры каждого субъекта общества. Актуально создание систем такого типа и для чувашского языка. Для этого имеется богатый фонд словарно-тезаурусных ресурсов чувашского языка в бумажном варианте. Есть необходимость в сохранении, использовании и представлении их в мировое информационное пространство. Необходимость в базах данных электронного тезаурусного фонда чувашского языка наблюдается при наборе и редактировании текстов на чувашском языке с проверкой орфографии, при распознавании «бумажного» варианта того или иного материала для получения его компьютерной версии. Из-за того, что отсутствуют электронные базы на чувашском языке, в стандартных текстовых процессорах, в частности в Microsoft Word, проверка орфографии еще невозможна. Они необходимы также студентам факультетов чувашского языка и чувашской филологии для изучения тезаурусного фонда чувашского языка, который пока представлен в основном в «бумажном» варианте.

В статье рассматриваются результаты исследований, полученные при создании системы обработки данных тезаурусного типа (СОДТТ) и результаты разработки методов и средств повышения эффективности процесса формирования баз данных, использованные для обработки словарно-тезаурусной базы чувашского языка.

Разработка СОДТТ включает в себя следующие этапы: создание и корректировка структуры базы данных, сканирование фрагментов словарей, распознавание сканированных копий словарей, разработка алгоритмической модели СОДТТ и ее компонентов, реализация алгоритмов, наполнение базы данных, навигация по БД и ее исследование.

Анализ структур и компонентов существующих тезаурусных систем показал, что системы тезаурусного типа имеют 3 основных составляющих: лексикографический ресурс, средства и методы его обработки и сформированную на основе этих составляющих базу данных. Эти составляющие и выбраны основными аспектами исследований достижения эффективности формирования электронного тезаурусного фонда чувашского языка.

Лексикографический аспект исследований показал, что лексикографические файлы являются продуктом детального анализа отношений лексической семантики: разнообразие лексических и семантических отношений используется для представления организации лексических значений. Исходные тексты для этих файлов для солидных технологий пишутся лексикографами. При создании русских технологий применяются русские лингвистические ресурсы, в частности программное обеспечение ЗАО "Руссикон"», основные компоненты которого -толковый словарь «Руссикон» и грамматический словарь «Руссикон». В качестве основного материала для разработки систем обработки данных тезаурусного типа для чувашского языка рассматривались чувашско-русские, русско-чувашские словари. В результате их изучения были отобраны для использования в дальнейших исследованиях словари Н.И. Ашмарина и М.И. и А.В. Скворцовых [3, 4]. Выбор первого из источников диктуется его уникальностью, а выбор второго из множества источников объясняется тем, что этот словарь, во-первых, наиболее компактный, что немаловажно для проведения исследований экспериментального характера, во-вторых, более современный - имеется его электронная версия, в-третьих, статьи словаря имеют много разного рода помет, которые можно использовать при анализе статей в системах их обработки и исследования. Сравнительный структурный анализ основных лексикографических источников, использованных при разработке русских версий проекта WordNet и исследованных экземпляров словарей чувашского языка, подтвердил возможность эффективности применения последних в качестве входного материала при создании электронной тезаурусной базы чувашского языка. Словарь состоит из словарных статей, включающих характерные для лексикографических файлов пометы и условные обозначения, поэтому эти фрагменты можно считать лексикографическими файлами. Файл может быть любой длины - от 1 столбика страницы словаря до нескольких страниц и даже всей книги. При таком подходе к этому аспекту исследований основными объектами предметной области можно считать поля словарных статей названных источников. Хотя словарные статьи этих словарей и имеют неодинаковые структуры, наполнение ими таблиц базы данных происходит с помощью одного и того же управляющего кода, реализующего фрагмент алгоритма работы СОДТТ. На рис. 1 представлен алгоритм разложения полей всех статей словаря по таблицам базы данных СОДТТ.

Открытие лексикографического файла

Чтение количества символов

Иницилизаци5 ц переменных

-►

Чтение словарной статьи и занесение в базу данных

А. Разбор словарной статьи и занесение ее полей в базу данных

символы р :е азобрали? нет

Задание условия перехода на другую статью

Рис.1. Блок-схема фрагмента алгоритма работы СОДТТ

Входными объектами для данного алгоритма являются word-документы фрагментов словарей. Это общий алгоритм для разбора статей обоих словарей. Разница в алгоритме при анализе разных словарей в том, что блоки разбора словарной статьи словаря у них разные. На рис. 2 приводится алгоритм выделения чувашского слова или словосочетания из статей словаря Скворцовых.

При разработке СОДТТ применялись методы и средства таких технологий, как ABBYY FineReader, визуальная среда программирования Delphi, СУБД Microsoft Access, ADO- и OLE DB-технологии, провайдер Microsoft Jet OLE DB Provider.

Проектирование базы данных проводилось в СУБД Microsoft Access традиционно: определение объектов, таблиц и связей между ними. В начале проекти-

рования создаются только таблицы и связи, а наполнение их происходит в режимах эксплуатации БД. База данных проектируется из 2 таблиц с соответствующими структурами таблиц и схемой связи между ними и завершается созданием файла с расширением .шёЬ. Вся информация о структуре БД и о связях между таблицами содержится в этом файле. Такие базы данных, организованные в виде связанных между собой таблиц, являются реляционными.

^ Конец ^

Рис.2. Алгоритм выделения слова из статьи «Словаря чувашско-русского и русско-чувашского» М.И. и А.В. Скворцовых

В приложениях современных Delphi можно использовать технологию Microsoft ActiveX Data Objects (ADO). В палитре компонентов Delphi имеется страница ADO, содержащая набор компонентов, позволяющих создавать полноценные приложения БД, обращающиеся к данным через ADO. Механизм доступа к данным через ADO и многочисленные объекты и интерфейсы реализованы в VCL Delphi в виде набора компонентов, расположенных на странице ADO. Особенности взаимодействия этих компонентов между собой в аспекте форми-

рования базы данных в СУБД Microsoft Access и применения провайдеров при работе с OLE DB-технологией приведены в [1].

Интерфейсы OLE DB ориентированы на процедурную модель программирования. ADO же представляет собой объектную настройку этих интерфейсов, которая скрывает от разработчика технические подробности их использования и предлагает ему взамен удобную модель для объектноориентированного программирования доступа к данным. Когда приложение обращается к данным через OLE DB, запрос последовательно передается через ADO к средству доступа OLE DB, а от него - к источнику данных. Другими словами, технология ADO и интерфейсы OLE DB обеспечивают для приложений единый способ доступа к источникам данных различных типов. OLE DB представляет собой набор специализированных объектов COM (инкапсулирующих стандартные функции обработки данных и специализированные функции конкретных источников данных) и интерфейсов (обеспечивающих передачу данных между объектами). В результате приложение обращается не непосредственно к источнику данных, а к объекту OLE DB.

Управление системой баз данных производится обычно с помощью нескольких сервисных программ - отдельных приложений, выполняемых в среде операционной системы. Например, SQL Server является сервером реляционных баз данных.

Технология ADO в целом включает в себя не только сами объекты OLE DB, но и механизмы, обеспечивающие взаимодействие объектов с данными и приложениями. Важнейшую роль здесь играют провайдеры ADO, координирующие работу приложений с источниками данных различных типов. При установке версии ADO в ОС устанавливается несколько провайдеров: для соединения с данными СУБД Access при посредстве технологии DAO, для доступа к данным, которые уже «прописаны при помощи драйверов ODBC», для соединения с сервером Oracle, для соединения с сервером MS SQL Server. Набор объектов и соответствующий провайдер может быть создан для любого хранилища данных без внесения изменений в исходную структуру ADO. Провайдеры обеспечивают соединение приложения, использующего данные через ADO, с источником данных (сервером SQL, локальной СУБД, файловой системой и т.д.). Для каждого типа хранилища должен существовать провайдер ADO. Провайдер «знает» о местонахождении хранилища данных и его содержании, умеет обращаться к данным с запросами и интерпретировать возвращаемую служебную информацию и результаты запросов с целью их передачи приложению. Приложения, обращающиеся к данным через ADO, независимы от процессора БД Borland Database Engine.

Компоненты доступа к данным ADO могут использовать два варианта подключения к хранилищу данных: стандартный метод ADO и стандартный метод Delphi. В первом случае используют свойство ConnectionString для прямого обращения к хранилищу данных, во втором случае - специальный компонент TA-DOConnection, который обеспечивает расширенное управление соединением и позволяет обращаться к данным нескольких компонентов одновременно. Свойство ConnectionString предназначено для хранения информации о соединении с объектом ADO. В нем через точку с запятой перечисляются все необходимые

параметры. Как минимум, это должны быть имена провайдера соединения или удаленного сервера. Каждый компонент, обращающийся к хранилищу данных самостоятельно, задавая параметры соединения в свойстве ConnectionString, открывает собственное соединение. Чем больше компонентов ADO содержит приложение, тем больше соединений может быть открыто одновременно.

При реализации модели СОДТТ использован второй вариант - механизм соединения ADO через специальный компонент - TADOConnection. Этот компонент открывает соединение, также заданное свойством ConnectionString и предоставляет разработчику дополнительные средства управления соединением. Компонент TADOConnection обеспечивает выполнение команд ADO. Набор свойств и методов компонентов ADO обеспечивает реализацию всех необходимых приложению БД функций. Способы использования компонентов ADO немногим отличаются от стандартных.

Список установленных в данной операционной системе провайдеров доступен для выбора при установке соединения через компонент TADOConnection.

Компонент TADOTable обеспечивает использование в приложениях Delphi таблицы БД, подключенной через ADO. Имя таблицы БД задается свойством TableName. Другие свойства и методы компонента обеспечивают применение индексов. Этой возможности лишен любой компонент запроса.

Алгоритм, приведенный на рис. 1, реализован с применением вышеназванных механизмов взаимодействия компонентов. На рис. 3 он представлен с учетом реализации его с использованием системы программирования Delphi и ADO-компонентов. Код реализации зарегистрирован [8].

Использование технологии ADO обеспечивает простой и универсальный способ доступа к гетерогенным источникам данных, приложению, для доступа к данным не требуется дополнительных библиотек, кроме инсталлированного ADO. Благодаря использованию такого механизма взаимодействия компонентов реализация СОДТТ становится намного проще, так как при нем упрощается процедура разработки информационных систем, включающих множество других технологий.

Преимущества методов и средств, используемых при разработке модели СОДТТ для формирования тезаурусной составляющей коммуникативной системы, оценивались сравнением трудоемкости получения, обработки и использования 50 страниц лексикографического материала в формате word-документа в двух режимах: ручного ввода с клавиатуры и с использованием методов модели СОДТТ.

В результате эксперимента получилось, что на обработку и получение 50 страниц методом СОДТТ требуется 1/6 часть от времени, необходимого для ручного ввода в базу данных с клавиатуры.

При анализе эффективности применения СОДТТ исследовалось повышение уровня компетентности и навыков у студентов исследуемой группы студентов в заданной предметной области в результате использования СОДТТ. Предполагалось, что использование СОДТТ позволяет совершенствовать процесс изучения предметной области и повышать уровень компетентности, умений и навыков ее пользователя. Для проверки предположения о повышении этого уровня был проведен эксперимент. Студенты двух факультетов выполняли контрольные задания, направленные на проверку знаний и навыков, приобретаемых в процессе

-^Конец (start

WordDocument1.Range(a,b).Text=#13? '^^--ДКонец словарной

|да

wend = а

WordDocument1.Range(vstart, vend). Copy ADOTablelEdit; ADOTablel.Insert DBRichEditl PasteFromClipboard

CopyWord (vstart, vend)

Запись первого слова в таблицуТаЬІеІ)

ADOTable.Post

CopySting (vstart, vend)

(Запись значения слова в таблицуТаЫе2)

vstart = j + 1

j=j + 1

Рис.3. Блок-схема алгоритма работы процедуры Start интерфейса СОДТТ

занятий с использованием СОДТТ. Двадцать студентов, отобранных методом случайного отбора из числа студентов двух факультетов, двукратно выполняли работу, состоящую из 4 заданий. Задания были составлены по согласованию экспертов. В первый раз работа выполнялась с использованием только традиционных методов и средств, а во второй раз - с использованием СОДТТ. Работа оценивалась по 5-балльной системе. Расчеты и доказательства выводов по эксперименту проводились с использованием критериев математической статистики. Для

решения подобных задач можно использовать ряд критериев различия. Наиболее часто используемыми непараметрическими критериями являются критерий знаков и критерий хи-квадрат. В данном исследовании использован первый из них. Критерий знаков (G-критерий) предназначен для сравнения состояния некоторого свойства у членов двух зависимых выборок на основе измерений, сделанных по шкале не ниже ранговой [2]. По результатам эксперимента в соответствии с правилами принятия решения [5] принята гипотеза, позволяющая сделать вывод об улучшении знаний и навыков студентов при использовании СОДТТ.

В результате экспериментов, проведённых с использованием СОДТТ, продемонстрированы эффективность разработки и целесообразность использования СОДТТ, предложен и скорректирован ряд рекомендаций по формированию тезаурусной составляющей коммуникативной модели. Получен дополнительный опыт, необходимый для формирования тезаурусных составляющих коммуникативных моделей. Результат систематизации и согласования полученного в результате экспериментов опыта позволяет убедиться в правильности многих использованных принципов при исследовании и анализе процесса формирования тезаурусной базы. На основе этой совокупности принципов можно предложить конкретный перечень рекомендаций по формированию электронной тезаурусной базы чувашского языка.

Эти рекомендации должны способствовать разработке более совершенных технологий и информационной продукции с использованием базы данных чувашского языка или СУБД для них, что позволит включать дополнительные режимы или возможность использования их в таких стандартных информационных продуктах, как Microsoft Word, системы распознавания, системы перевода, броузеры глобальных сетей, форумы и конференции.

Литература

1. Гетц К. Access 2000. Руководство разработчика. Т. 1. Настольные приложения: пер. с англ. / К. Гетц, ПЛитвин., М. Гилберт. К.: Издательская группа BHV, 2000. 1264 с.

2. Грабарь М.И. Применение математической статистики в педагогических исследованиях. Непараметрические методы / М.И. Грабарь, К.А. Краснянская. М.: Педагогика, 1977. 136 с.

3. Скворцов М.И. Словарь чувашско-русский и русско-чувашский / М.И. Скворцов, А.В. Скворцова. Чебоксары: Чуваш. кн. изд-во, 2006. 432 с.

4. Словарь чувашского языка Н.И. Ашмарина. Чебоксары: Чувашская книга, 1929-1950.

5. Справочник по вычислительным методам статистики / Дж. Поллард. М.: Финансы и статистика, 1982.

6. Харитонова А.М. Использование компьютерных технологий для обработки и исследования словарно-тезаурусного фонда Чувашии / А.М. Харитонова // Вариативность в языках народов Поволжья: материалы VI Международного симпозиума. Чебоксары, 2006.

7. Харитонова А.М. Использование современных информационных технологий для обработки лексикографических ресурсов / А.М. Харитонова, В.П. Желтов; Чуваш. гос. ун-т. Чебоксары, 2006. Деп. в ВИНИТИ.

8. Харитонова А.М. Компьютерная система для создания тезаурусной составляющей проекта WordNet для чувашского языка. Свидетельство об официальной регистрации программы для ЭВМ. №2007610296.

ХАРИТОНОВА АЛЕВТИНА МИХАЙЛОВНА родилась в 1950 г. Окончила Чувашский государственный университет. Старший преподаватель кафедры компьютерных технологий Чувашского университета. Область научных интересов - создание и внедрение новых технологий в системы коммуникации. Автор более 16 научных статей.

i Надоели баннеры? Вы всегда можете отключить рекламу.