Научная статья на тему 'Організація даних та функціональна структура лексикографічної системи «Український національний лінгвістичний корпус»'

Організація даних та функціональна структура лексикографічної системи «Український національний лінгвістичний корпус» Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
526
77
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛЕКСИКОГРАФИЧЕСКАЯ СИСТЕМА / ЛИНГВИСТИЧЕСКИЕ ТЕХНОЛОГИИ / ФУНКЦИОНАЛЬНАЯ СТРУКТУРА / ОРГАНИЗАЦИЯ ДАННЫХ

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Сидорчук Н. М.

В работе очерчен круг проблемных задач, возникших во время разработки лексикографической системы «Украинский национальный лингвистический корпус» (УНЛК) и рассмотрены методы их решения. Рассмотрены особенности организации сохранения метаданных подсистемы «Электронная библиотека», и представлен обзор конкретных структур данных, определённых для построения модуля доступа к объектам хранения УНЛК. Обоснован выбор многоуровневой архитектуры программной системы. Представлена функциональная декомпозиция уровня логики приложения и особенности организации уровня представления данных

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Організація даних та функціональна структура лексикографічної системи «Український національний лінгвістичний корпус»»

УДК 658.012.011.56

H.М. СИДОРЧУК

ОРГАНІЗАЦІЯ ДАНИХ ТА ФУНКЦІОНАЛЬНА СТРУКТУРА ЛЕКСИКОГРАФІЧНОЇ СИСТЕМИ «УКРАЇНСЬКИЙ НАЦІОНАЛЬНИЙ ЛІНГВІСТИЧНИЙ КОРПУС»__________________________________________

Abstract: The paper deals with the problems which have emerged in the course of development of the lexicographical system “Ukrainian National Linguistic Corpus” (UNLC). Peculiarities of the metadata storage organization in the subsystem “Digital library” are discussed. An overview of concrete data structures defined for building an access unit to storage objects is presented. The choice of multilevel architecture of the software is substantiated. Functional decomposition of the application level and distinctive features of the data presentation level organization are described.

Key words: lexicographical system, linguistic technologies, functional structure, data organization.

Аннотация: В работе очерчен круг проблемных задач, возникших во время разработки

лексикографической системы ««Украинский национальный лингвистический корпус» (УНЛК) и рассмотрены методы их решения. Рассмотрены особенности организации сохранения метаданных подсистемы «Электронная библиотека», и представлен обзор конкретных структур данных, определённых для построения модуля доступа к объектам хранения УНЛК. Обоснован выбор многоуровневой архитектуры программной системы. Представлена функциональная декомпозиция уровня логики приложения и особенности организации уровня представления данных.

Ключевые слова: лексикографическая система, лингвистические технологии, функциональная

структура, организация данных.

Анотація: У роботі окреслено коло проблемних задач, які постали під час розробки лексикографічної системи «Український національний лінгвістичний корпус» (УНЛК) та розглянуто методи їх вирішення. Звернено увагу на особливості організації збереження метаданих підсистеми ««Електронна бібліотека» та представлено огляд конкретних структур даних, визначених для побудови модуля доступу до об'єктів збереження УНЛК. Обґрунтовано вибір багаторівневої архітектури програмної системи. Представлено функціональну декомпозицію рівня логіки застосувань та особливості організації рівня представлення даних.

Ключові слова: лексикографічна система, лінгвістичні технології, функціональна структура, організація даних.

I. Вступ

В Українському мовно-інформаційному фонді НАН України ведуться роботи з розробки фундаментальної лексикографічної системи «Український національний лінгвістичний корпус» (УНЛК) [1]. При проектуванні та розробці цієї лексикографічної системи стало очевидно, що, за своєю природою, вона повинна стати інформаційною системою четвертого покоління [2] - мовно-інформаційною системою, яка є інтелектуально орієнтованою і базується на використанні механізмів природної мови.

Застосування новітніх лінгвістичних технологій, ефективне опрацювання великих текстових масивів, паралельне обслуговування великої кількості клієнтів, розподілення функцій системи за різними групами користувачів, забезпечення масштабованості системи, досягнення високого рівня відмовостійкості застосувань, забезпечення надійності збереження та обміну даними, проведення ресурсоємних обчислень та обробки даних, ефективне функціонування розподілених застосувань у глобальній мережі в онлайновому режимі - це далеко не повний перелік тих завдань, що постав при розробці зазначеної системи.

2. Декомпозиція програмного комплексу

В інформаційних проектах такого масштабу вибір генеральної лінії є одним із основних питань, що визначає успіх впровадження та ефективність використання системи. Найпершим аспектом, який слід проаналізувати на предмет адекватності забезпечення якісних властивостей інформаційної

системи, виступає її архітектура. При аналізі поставлених вимог до системи вибір розподіленої архітектури стає очевидним. Така технологія забезпечує централізоване збереження та обробку даних, надає можливість розподіленого введення даних, вирішує проблему обмеження доступу до ресурсів, забезпечує можливість використання потужних обчислювальних можливостей сервера. Програмний комплекс УНЛК реалізовано за трирівневою схемою, у складі якої виділяють рівень даних, логіки застосування та рівень представлення даних [3]. При такій архітектурі програмної системи проміжний рівень (логіки застосувань) перевіряє правильність даних, що передаються від клієнта, та обробляє їх у відповідності з певними правилами. Ця обробка може включати взаємодію з рівнем даних або ж виконувати локальні обчислення чи перетворення, результати яких передаються на рівень даних для збереження, або ж на рівень представлення (клієнтський). Використання такої архітектури дає можливість логічного розподілення функцій системи, що, у свою чергу, забезпечує можливість розподілення роботи між різними розробниками, можливість розробляти окремо кожний рівень, переносити на інші сервери в залежності від вимог масштабованості. Зосередження логіки застосування на проміжному рівні дозволяє модифікувати її, не змінюючи клієнтські системи та інформаційні масиви. І навпаки, з'являється можливість розробки різних клієнтських програм, що використовують один і той же рівень логіки застосувань.

3. Організація збереження метаданих

Основою для розробки будь-якого корпусу повинна бути, перш за все, колекція електронних ресурсів. Метою розробки електронної бібліотеки як компонента УНЛК стало створення спеціального середовища для збору, збереження, моделювання і використання природомовної інформації в цифровому вигляді. Принципи організації даного програмного комплексу повинні були, за задумом розробників, представити можливість створення вхідних потоків лінгвістичної інформації для різноманітних дослідницьких систем, а також забезпечити їх інтеграцію до складу інструментальних засобів електронної бібліотеки. Отже, електронна бібліотека є невід'ємною частиною УНЛК - вона виконує роль багатофункціональної інформаційної системи, яка акумулює інформацію різних видів. У свою чергу, систему „Електронної бібліотеки” можна представити у вигляді декомпозиції на такі елементи: підсистеми збереження об'єктів, підсистеми збереження метаданих та модуля доступу до об'єктів через метадані. За функціональним призначенням система „Електронна бібліотека” покликана забезпечувати реалізацію двох основних завдань: по-перше, інтеграцію в єдиному середовищі інформаційних ресурсів різних типів та видів, а по-друге, забезпечення можливості виокремлення масивів необхідної інформації за заданими критеріями. На наш погляд, ефективність використання електронної бібліотеки можлива лише за умови використання чіткої та прозорої схеми представлення метаданих об'єктів збереження. Питання стандартизації опису даних розглядається як в середині кожної організації, так і на державному і міжнародному рівні. Ми не виключаємо необхідність та актуальність дотримання відповідності установленим стандартам. Та, як переконує практика, при створенні колекцій об'єктів різнорідної природи для різних масивів об'єктів використовується різна підмножина відповідного стандарту -формат опису даних. Звичайно, можна визначити єдиний формат опису всіх об'єктів, але це одразу знизить інтероперабельність системи. Наведемо приклад, що ілюструє цю різнорідність.

В електронній бібліотеці УМІФ НАН України зберігаються як електронні тексти художньої літератури, так і тексти законодавчих актів України. Для опису перших використовуються такі поля, як жанр, стиль, УДК, автор, видавництво, місце видання, ІБВИ, рік видання і т.д. Для забезпечення зручної пошукової системи відносно текстів законодавчих актів необхідно зберігати таку інформацію, як реєстраційний номер документа, відповідний орган державної влади, дату прийняття документа, стан законодавчого документа. Отже, навіть відносно подібним за природою інформаційним ресурсам (в одному і другому випадку - це текст), відповідає різний формат опису метаданих.

Розглянемо це питання з точки зору системотехніки організації електронної бібліотеки. У випадку, коли внутрішня структура збереження метаданих тісно пов’язана зі встановленим форматом опису даних, ми наштовхуємося на проблему масштабованості системи. Будь-яка зміна формату (навіть незначна) викликає лавиноподібну зміну всього програмного комплексу, що, в свою чергу, призводить до необхідності розробки окремих програмних систем для різних колекцій або

зумовлює неперервний процес

розробки та супроводження програмної системи. Вирішенням

таких питань стала відмова від прив’язки структури бази даних збереження метаданих об’єктів електронної бібліотеки до конкретних даних. Оперуючи поняттями архітектури системи, відповідність

даних до сутностей переноситься з рівня логіки роботи з даними на рівень логіки застосувань (рис. 1). Подібний підхід дозволив спроектувати базу даних таким чином, щоб вона слугувала універсальним сховищем збереження метаданих різної природи, а її структура не залежала від формату опису об’єктів збереження.

Перш ніж перейти до розгляду структури бази даних, узгодимо деякі поняття:

Об’єкт збереження - це електронний ресурс, який внесений до електронної бібліотеки як цілісна одиниця.

Характеристика - це одиниця опису об’єкта збереження, яка забезпечує можливість його ідентифікації та може використовуватися для пошукових цілей.

Профіль - множина характеристик, якими описуються об’єкти збереження спорідненої

природи.

4. Структура бази даних

Зупинимось на розгляді взаємозв’язків між таблицями та структурі кожної з них.

Рівень бізнес-логіки

Рівень логіки роботи з даними

Жанр -> значення Прізвище -> Номер документам значення______________________________значення

Таблиці бази даних

Рис. 1. Зміна підходу організації збереження метаданих

Словники

Поля таблиці:

■ Ідентифікатор словника - унікальний в межах системи код.

■ Назва словника.

■ Опис словника - додаткова інформація про словник (обсяг, призначення, джерело даних і т.д.)

■ Закритий чи відкритий. Ознака, яка визначає можливість зміни наповнення даного словника.

True - множина значень словника може бути змінена користувачем з відповідними правами доступу, false - множина значень ініціюється при розробці системи і не може бути змінена.

Словник значень

Поля таблиці:

■ Ідентифікатор словника - зовнішній ключ, який реалізує зв'язок з таблицею „Словники”.

■ Ідентифікатор в середині словника - для кожного з елементів множини значень словника визначається унікальний ідентифікатор.

■ Значення - елемент множини значень словника.

■ Опис значення - додаткова інформація до значення зі словника.

Словник характеристик

Поля таблиці:

■ Ідентифікатор характеристики.

■ Назва характеристики.

■ Тип даних. В межах даної системи було визначено п'ять типів даних для характеристики: числовий, символьний, дата та час, шлях до файлу, BLOB.

■ Опис характеристики - додаткова інформація про характеристику, яка пояснює специфіку використання даної характеристики, містить посилання на відповідний стандарт.

■ Ідентифікатор словника для характеристики. Якщо для характеристики визначений словник значень, то це означає, що дана характеристика може приймати лише значення зі словника.

■ Можливість повторення - поле, яке може приймати одне з булівських значень: true - для одиниці збереження дана характеристика не може повторюватися; false - характеристика може повторюватися.

■ Група характеристик (обов'язкова) - одне й те ж значення для декількох характеристик визначає неможливість використання однієї з цих характеристик окремо. Наприклад, об'єкт “художній текст” може бути описаний з використанням таких двох характеристик: мова видання і тип мови видання, об'єднаних в одну групу. Це означає, що внесення до метаданих значення однієї з характеристик вимагає зазначення і другої характеристики. Аналогічно, вилучення з опису однієї з характеристик групи призводить до вилучення всіх інших значень характеристик цієї групи.

■ Група характеристик (логічна) дозволяє об'єднати декілька характеристик в логічні групи. На відміну від попереднього поля, характеристики, що об'єднані в логічні групи, можуть існувати окремо одна від одної. Та якщо при описі об'єкта використовуються декілька характеристик з однієї логічної групи, їх послідовність повинна бути чітко визначена.

Користувачі

Таблиця для збереження реєстраційних даних та прав доступу користувачів системи.

Поля таблиці:

■ Ідентифікатор користувача - унікальний код користувача в межах системи.

■ ПІБ - Прізвище, ім'я та по-батькові користувача системи.

■ Псевдонім - ім'я користувача, яке використовується для доступу в комп'ютерну систему (login).

■ Тип доступу - ідентифікатор рівня доступу, що визначає привілеї користувача.

■ Хеш-функція паролю - поле для збереження закодованого паролю користувача.

■ Синхропосилка - значення синхропосилки для проведення поцедури аутентифікації

користувача.

Словник профілів

Поля таблиці:

■ Ідентифікатор профілю - унікальний код у межах системи.

■ Назва профілю.

■ Опис профілю - додаткова інформація, що може містити відомості про призначення профілю, дату створення і т.п.

Профілі

Поля таблиці:

■ Ідентифікатор профілю - зовнішній ключ, що реалізує зв'язок з таблицею „Словник профілів”.

■ Ідентифікатор характеристики - зовнішній ключ, який визначає код характеристики в межах таблиці „Словник характеристик”.

■ Упорядкування - визначає порядок слідування характеристик у профілі.

Метадані об’єктів

Поля таблиці:

■ Ідентифікатор запису - зовнішній ключ, що реалізує зв'язок з таблицею „Об'єкти ЕлБіб”.

■ Ідентифікатор характеристики - зовнішній ключ, що реалізує зв'язок з таблицею „Словник

характеристик”.

■ Порядок у групі - упорядкування для метаданих одного об'єкта збереження.

■ Значення числове - поле, де зберігаються дані для характеристик, в яких визначений тип даних „числовий”.

■ Значення символьне - поле, де зберігаються дані для характеристик, в яких визначений тип даних „символьний”.

■ Значення дати - дані типу „дата”.

■ Значення blob - дані типу „blob”.

Об’єкти збереження

Поля таблиці:

■ Ідентифікатор об'єкта збереження - унікальний код об'єкта в межах системи.

■ Дата створення.

■ Ідентифікатор користувача - зовнішній ключ, що реалізує зв'язок з таблицею „Користувачі” та

слугує для збереження інформації про користувача, який відповідає за створений об'єкт.

■ Статус об'єкта - ідентифікатор поточного стану об'єкта („новий”, „редагується”, „редагування

закінчено”).

■ Короткий бібліографічний опис об'єкта - загальні відомості про об'єкт, які формуються на

основі метаданих про об'єкт за певними правилами в залежності від природи об'єкта.

■ Текст для індексування - поле містить ідентифікатор blob-об'єкта, в якому збережено текст,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

спецільно підготовлений для проведення індексації.

На рівні логіки роботи з даними реалізовані деякі функції та процедури, що забезпечують коректну роботу з даними та служать для збереження їх цілісності. Так, наприклад, при вилученні характеристики з таблиці „Словник характеристик” постала необхідність реалізації каскадного вилучення всіх записів з таблиць „Профілі” та „Метадані об'єктів”, які посилаються на цю характеристику. З використанням засобів мови програмування PL/pgSQL була написана відповідна функція, що виконує вищезазначену процедуру при кожному застосуванні операції вилучення для таблиці „Словник характеристик”.

5. Програмна платформа розробки системи

Розробка системи УНЛК проводиться на базі платформи .NET [4]. Наявність ієрархічної множини уніфікованих бібліотек класів, потужна та надійна технологія доступу до різних сховищ даних, наявність засобів створення багаторівневих застосувань, забезпечення можливості взаємодії об'єктів, що знаходяться в різних процесах чи доменах застосувань, можливості використання будь-яких мов програмування, які відповідають специфікації CLS, можливості розробки розподілених застосувань для глобальної мережі стали вагомими аргументами при виборі платформи для розробки. За рахунок підтримки таких стандартів, як HTTP, SOAP, WSDL та XML, платформа .Net Remoting дозволяє досягнути максимальної відкритості системи. Для забезпечення максимальної ефективності інфраструктури .NET Remoting у розробників є можливість проводити передачу даних за протоколом TCP.

6. Рівень логіки застосувань

Рівень логіки застосувань становить ядро всього програмного комплексу та реалізує основні серверні функції. На сьогодні в Українському мовно-інформаційному фонді НАН України сервер функціонує під управлінням операційної системи Windows Server 2003 у вигляді сервісу.

Зазначимо, що основні лінгвістичні функції, завдання обробки тексту, підготовка даних до збереження в структурах бази даних, функції моніторингу та адміністрування виконуються на зазначеному рівні. В узагальненому плані їх можна класифікувати на функції електронної бібліотеки та лінгвістичної підсистеми.

Функції електронної бібліотеки:

- формування короткого бібліографічного опису за правилами бібліографування на основі занесених в базу даних елементів метаданих об'єкта збереження;

- формування розгорнутого бібліографічного опису об'єкта збереження;

- редагування множини метаданих бібліографічного опису у відповідності до змін, внесених бібліографом;

- проведення аналізу внесених змін до бібліографічного запису;

- робота з об'єктами файлової системи;

- редагування, вставка, вилучення профілів, характеристик, словників та їх елементів. Функції лінгвістичної підсистеми:

- створення індексних структур;

- очищення індексних структур;

- індексування об'єктів;

- видалення проіндексованого об'єкта з бази даних повнотекстового індексу;

- повнотекстовий пошук слів та словосполучень у всіх книгах або у книгах, відібраних за бібліографічним описом, з можливістю задавати відстань між пошуковими словами;

- визначення граматичних параметрів слова;

- функції роботи з лексикографічними системами граматичного словника (лематизація, вибір граматичних параметрів, автоматична побудова словозміни і т.п.), словником синонімів (побудова синонімічних рядів, вибір тлумачень) та лексикографічною системою тлумачного словника (побудова розгорнутої структури словникової статті, вибір структурних елементів і т.п.);

- підготовка статистичних даних;

- підготовка мікроконтекстів.

7. Рівень представлення даних

Незважаючи на те, що кожен рівень програмної системи несе своє функціональне навантаження, виконує процедури обміну, обробки та збереження даних і т.п., для кінцевого користувача залишається відкритим лише представницький рівень, і тому питання організації інтерфейсу користувача залишається завжди одним із важливих питань при розробці програмної системи. Інтерфейс користувача реалізовано з підтримкою трьох рівнів доступу:

- користувач (вхід до системи без реєстрації);

- редактор;

- адміністратор системи.

Для роботи з можливістю редактора чи адміністратора проводиться аутентифікація.

Кінцевому користувачеві надаються такі можливості:

- перегляд бібліографічних описів об'єктів, представлених в алфавітному порядку;

- ознайомлення з детальним бібліографічним описом;

- отримання доступу до відповідного об'єкта (тексту, архіву та ін.)

Для зручності користування реалізована пошукова система. Пошук може бути виконаний за такими параметрами: назва видання; прізвище автора (редактора, укладача, колективного автора); стиль; серія; жанр; рік видання (або проміжок часу); анотація; примітки; відомості про видання; місце видання; видавництво; відомості про відповідальність; відомості, що відносяться до назви; ІБВИ чи ІвБМ. При чому параметри пошуку можуть бути задані в довільному поєднанні без дотримання відповідності регістру.

Для зручності заповнення бібліографічних реквізитів стосовно видання всю вхідну інформацію було розбито на групи та представлено у вигляді ієрархічного дерева зі зручним

доступом до будь-якого елемента структури. Зауважимо, що реалізовано всі можливі перевірки на коректність заповнюваної інформації:

- виключення дублювання даних;

- можливість вибору із затвердженого переліку;

- відповідність шляху знаходження об'єкта до його опису;

- узгодженість типів;

- правильність написання ІБВИ (ІБвМ).

Бібліограф при заповненні інформації у змозі одночасно спостерігати динамічно

сформований бібліографічний опис у тому вигляді, в якому він буде доступний безпосередньому

користувачеві.

Будучи невід'ємною частиною УНЛК, об'єкт електронної бібліотеки постачає інформацію для лінгвістичної підсистеми. Завдяки інтеграції таких компонентів УНЛК, як електронна бібліотека та

лінгвістична підсистема, відпадає необхідність зберігати мікроконтексти (аналоги колишніх лексичних карток) у явному вигляді - для будь-якого слова з реєстру нового словника вони є віртуальними об'єктами і генеруються автоматично на час їх необхідності.

Лінгвістична підсистема надає такі функції користувачу:

- створення бази даних повнотекстового індексу;

- очищення бази даних повнотекстового індексу;

- створення черги об'єктів на індексування;

- запуск індексування об'єктів (рис. 5);

- видалення проіндексованого об'єкта з бази даних повнотекстового

індексу;

- повнотекстовий пошук слів та словосполучень за варіативними схемами (рис. 6);

- перегляд статистики;

- вибір параметрів створення мікроконтекстів;

- перегляд мікроконтекстів;

- запис мікроконтекстів слів та словосполучень у файл;

- сервісні функції обслуговування.

► Сп со 0 Барієві .Соціальні проблеми та соціальні трансформації в сучасній Україні = Лютий-квітень 2001 : Журнал випускників

392 Авксентьєв Ю.А. Економіко-організаційний механізм створення громадсько-державної системи підтримки підприємництва в

263 Аврамчук Л.А. Проблемність навчання як засіб формування продуктивної діяльності студентів аграрного навчального

2009 Агапід : Журнал. - інтернет, 1999. ¥

792 Аділь Ібрагім Мохамед Ель-Хаг Атіг. Дорожні асфальтополімерсіркобетони для регіональних умов Республіки

1957 Анисимов А. Компьютерная лингвистика для всех: Мифы.Алгоритмы.Язык : Пособие. - *

97 Антоненко-Давидович Б.Д. Твори :; - К.: Наук, думка, 1999. -13ВЫ 966-00-0515-6.

34 Антоненко-Давидович Б. Д. Твори :;.-У 2Т.-К., 1991.- ¡БВЫ 5-308-00989-9.

1209 Апанович О. Світова велич і фатальна помилка Богдана Хмельницького : Огляд. - Інтернет www.ukrexlibris.cjb.net - К.: ¥

1211 Апанович О. Українсько-російський договір 1651 року.Міфи і реальність : Монографія. - www.ukrcenter.com/read.азр?і(і=із9 -

425 Архипова В.М. Оптимізація основних характеристик кондуктометричних біосенсорів для аналізу реальних зразків :

270 Асєєв Ю.С. та ін. Історія української культури. В 5-ти т.: Наукове видання / Баран Б.Д.; Баранов І.А.; ред. Патон Б.Є. - К.: Наук.

923 Афанасьев А.О. Психологічні основи становлення військово-професійної відповідальності у курсантів НАПВУ : ¥

960 Ахтирська Н.М. Криміналістичеа тактика ¡принципи і функції: Автореф. дис... канд. юрид. наук. - http://www.nbuv.gov.ua -

434 Бабко І.А. Диференціація рослинного покриву степів південної тт.нтг.гиті ПІЕІ-Ір.йгіц^цг.гм ТТ н г- т д тт т т \ Г хг Т-. =. ї и т.т ■ и ЕТ-іГій.^і п т.т

■ ■■■■ Проіндексовано 3 з 15

Рис. 2. Створення повнотекстового індексу для обраних об'єктів

Щ Тексти для індексування

1 Український національний лінгвістичний корпус - [Повнотекстовий пошук] JDjXj

Пошук Адміністрування Вікна Допомога - в X

1

{відкрита система Пошук

Відстань між пошуковими словами 1 2І

1*7 Пошук за всіма текстами

Сторінка № 1 (1-20 - ^ 011 j(j| _J

2178 Агапіт : Наукове видання; Український історико-медичний журнал / гол. ред. Грандо 0.; Національний музей медицини України -http://www2.hist0med.kiev.ua/agapit/index_u.php - К., 1999-2001. $ -

1537 Бібліотека і час:Ювілейний збірник,присвячений юо-річчю з часу заснування Хмельницької ОУНБ ім.М.Островського / Хмельницька ОУНБ - http://ounb.km.ua/ioo/vidan/bit/index.htm 2002 - Хмельницький, 2001. - 118 с. ÈK

1499 Біотехнології та біобезпека в контексті сталого розвитку України : Наукове видання; Засідання Наукової Ради Всеукраїнської екологічної Ліги. 31 жовтня 2001 року / Бібліотека Всеукраїнської екологічної Ліги - http://ecolg.ms.km.ua/lib/lib.html - К., 2001. &

1193 Вісник Національної Академії наук України : Журнал / ред. Патон Б.Є.. - www.visnyk-nanu.kiev.ua/2002-4/1.htm - 26k - К., 2001. &

2195 Гладилін В. та ін. Давня історія України : Підручник; Том і: Первісне суспільство / Березанська С.; Гладких М.; Інститут археології НАН України - К. : Наук, думка, 1997- - ISBN 966-00-0009-Х $

2006 День : Газета; Щоденна всеукраїнська газета. - http://www.dayJciev.ua - К., 2001-2003. &

218 Дергач М.А. Дидактичні умови застосування гіпертекстових програм у процесі вивчення гуманітарних дисциплін : Автореф. дис... канд. пед. наук. - http://www.nbuv.gov.ua - К., 1998. &

605 Зверева І.Д. Теорія і практика соціально-педагогічної роботи з дітьми та молоддю в Україні. : Автореф. дис... канд. соц. наук. -http://www.nbuv.gov.ua - К., 1999. &

946 Інститут літератури ім.Т.Г.Шевченка НАН України. 1926-2001.Сторінки історії,75 : Науково-популярне видання / ред. Мищакич 0.; НАН України;Ін-т літератури ім.Т.Г.Шевченка - К. : Наук, думка, 2002. - 589 с.. : іл.. - ISBN 966-00-0813-9 &

1187 Комп'ютерна лінгвістика : Журнал. - Інтернет www.franko.lviv.ua/ujcl - Л., 1996-2001. &

Знайдено: 25

Тип підключення:Redactor

Рис. 3. Інтерфейс повнотекстового пошуку

8. Висновки

Зазначимо, що система, технічні аспекти функціонування якої розкриті в даній статті, функціонує у промисловому режимі в Українському мовно-інформаційному фонді НАН України. Під час експериментальної експлуатації та роботи системи «Українського національного лінгвістичного корпусу» стало очевидно, що питання організації даних, ефективного вибору програмних і технічних засобів, виважений функціональний розподіл за рівнями програмного комплексу має базовий характер при розробці будь-якого мовно-інформаційного проекту великого масштабу. На базі розробленої системи виконуються різноманітні лінгвістичні дослідження, програмний комплекс використовується як додатковий інструмент при розробці нових лексикографічних систем. У подальшому розвиток даного програмного комплексу ми бачимо за такими напрямками:

- розширення та удосконалення лінгвістичного наповнення лексикографічної бази та наповнення електронної бібліотеки;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- інтеграція з іншими лексикографічними системами, зокрема, з тлумачним, етимологічним, термінологічними та іншими словниками української мови;

- реалізація додаткових функціональних можливостей;

- удосконалення інтерактивного спілкування з користувачами;

- можливість використання варіативних інтерфейсних схем та ін.

СПИСОК ЛІТЕРАТУРИ

1. Корпусна лінгвістика / Широков В.А., Бугаков О.В., Грязнухіна Т.О., Костишин О.М., Кригін М.Ю., Любченко Т.П., Рабулець О.Г., Сидоренко О.О., Сидорчук Н.М., Шевченко І.В., Шипнівська О.О., Якименко К.М. - К.: Довіра, 2005. - 471 с.

2. Широков В.А. Елементи лексикографії. - К.: Довіра, 2005. - 304 с.

3. Басс Л., Клементс П., Кайман Р. Архитектура программного обеспечения на практике. - 2-е изд. - СПб.: Питер, 2006. - 575 с.

4. Маклин С. и др. Microsoft. NET Remoting: Пер. с англ. Нафтел Дж., Уильмс К. - М.: Русская редакция, 2003. -384 с.

5. Широков В.А. Інформаційна теорія лексикографічних систем. - К.: Довіра, 1998. - 331 с.

6. Широков В.А.Феноменологія лексикографічних систем. - К.: Наукова. думка, 2004. - 327 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.