Научная статья на тему 'Обзор современных лингвистических технологий и систем'

Обзор современных лингвистических технологий и систем Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
2055
525
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ТЕКСТА / ГРАФЕМАТИЧЕСКИЙ АНАЛИЗ / МОРФОЛОГИЧЕСКИЙ АНАЛИЗ / СИНТАКСИЧЕСКИЙ АНАЛИЗ / СЕМАНТИЧЕСКИЙ АНАЛИЗ / RUSSIAN MORPHOLOGICAL DICTIONARY / MYSTEM / РАБОЧЕЕ МЕСТО ЛИНГВИСТА / МОРФОЛОГИЧЕСКИЙ АНАЛИЗАТОР / TEXTANALYST 2.0 / СИСТЕМА ПРОПИСЬ 4.0 / СВЕЖИЙ ВЗГЛЯД / ТЕХНОЛОГИИ ПОИСКА И АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ / ANALYSIS OF THE TEXT / GRAFEMATICHESKY ANALYSIS / MORPHOLOGICAL ANALYSIS / PARSE / SEMANTIC ANALYSIS / WORKPLACE OF THE LINGUIST / MORPHOLOGICAL ANALYZER / SYSTEM COPY-BOOK 4.0 / NEW VIEW / TECHNOLOGIES OF SEARCH AND ANALYSIS OF TEXT INFORMATION

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Якубовский К. И., Якубовская К. А.

В работе рассмотрены уровни представления анализа текста. Проведена сравнительная характеристика программ для автоматизации обработки текста, выявлены основные группы программ: компьютерные программы для синтаксического и морфологического анализа русскоязычных текстов; компьютерные программы для представления о частоте выявленных лексических единиц; системы, позволяющие собирать данные для определения стиля и степени оригинальности текстов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Якубовский К. И., Якубовская К. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Review of the modern linguistic technologies and systems

The presentation layers of the analysis of the text are examined in this work. The comparative characteristic of programs for text processing automation is carried out, the main program groups are revealed: computer programs for the syntax and morphological analysis of Russian-language texts; computer programs for the general concept about the frequency of the revealed lexical units; the systems allowing to collect data for determination of style accessory and a level of originality of texts.

Текст научной работы на тему «Обзор современных лингвистических технологий и систем»

УДК 004.023

Обзор современных лингвистических технологий и систем

К.И. Якубовский, К.А. Якубовская

Московский государственный университет печати имени Ивана Федорова 127550, Москва, ул. Прянишникова, 2А e-mail: [email protected]

В работе рассмотрены уровни представления анализа текста. Проведена сравнительная характеристика программ для автоматизации обработки текста, выявлены основные группы программ: компьютерные программы для синтаксического и морфологического анализа русскоязычных текстов; компьютерные программы для представления о частоте выявленных лексических единиц; системы, позволяющие собирать данные для определения стиля и степени оригинальности текстов.

Ключевые слова: анализ текста, графематический анализ, морфологический анализ, синтаксический анализ, семантический анализ, «Russian Morphological Dictionary», «Mystem», «Рабочее Место Лингвиста», «Морфологический анализатор», «TextAnalyst 2.0», «Система Пропись 4.0», «Свежий взгляд», «Технологии поиска и анализа текстовой информации».

Автоматизированная обработка текста обычно включает проведение анализа текста на нескольких уровнях.

Уровни представления анализа текста:

1. Морфологический - выделение грамматической основы слова, определение частей речи, приведение слова к словарной форме.

2. Графематический - выделение токенов из массива

данных.

3. Синтаксический - выявление синтаксических связей между словами в предложении, определение синтаксической структуры предложения.

315

4. Семантический - нахождение семантических связей между словами и семантических отношений [1].

Группы компьютерных программ, которые используются для автоматической обработки текста

1. Используется для синтаксического и морфологического анализа русскоязычных текстов.

«Russian Morphological Dictionary». В этой программе используется словарь А. Зализняка, который включает более 100000 слов. Программа позволяет определить грамматические признаки слов. При обращении к текстам социальной принадлежности эта возможность обеспечивает доказательную атрибуцию морфов, используемых пользователями социальных сетей. Но существует проблема ограниченности слов словаря А.Зализняка — отсутствуют имена собственные, некоторые неологизмы последнего времени, сравнительные формы (например, «постарше«), наречия (например, «по-детски«), сложные слова, которые пишутся через дефис, наречия на о и е (это не исправляется введением синкретического класса «наречие/краткая форма прил.«) [7].

«Mystem» — это компактный, быстрый, бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря А.Зализняка. Работает как консольное приложение и имеет различные режимы представления результатов. Программа Mystem производит морфологический анализ литературного нормативного русскоязычного текста. Для слов, отсутствующих в словаре, порождаются гипотезы на основании частотности суффиксов — > неологизмы и окказионализмы, появление которых можно спрогнозировать в социолекте, не получат достаточного аргументированного распознавания, однако существует факт наличия гипотезы, сформированной на основе имеющихся в программе сведений о функционировании литературного языка [7].

«Рабочее Место Лингвиста» — предлагает анализ текстов для построения систем автоматического перевода с русского на английский язык (и наоборот). Включает ряд компонентов:

• синтаксический анализатор русскоязычных текстов;

• морфологический анализатор текстов на русском и английском языках;

• построение конкордансов для заданной совокупности текстов [6].

«Морфологический анализатор» — это интернет-версия программы морфологического анализа слов русского и английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию на основе словарей В. Мюллера и А. Зализняка. В «Морфологический анализатор» может быть введено

316

русское или английское слово в любой грамматической форме. Программой анализа выдаются следующие сведения для русского слова:

a) исходная слоформа (по Зализняку);

b) словарная информация;

c) перевод;

d) морфологическая характеристика введенного русского

слова.

В случае наличия нескольких значений формы выводятся все варианты анализа. Именно возможность получить варианты анализа введенной в программу формы представляется наиболее важной, потому что эти варианты дадут почву для объективного определения места морфа в системе языка.

2. Используются для обобщенного представления о частоте выявленных лексических единиц, об их группировке в текстах и для исследования семантических процессов в изучаемых речевых продуктах.

«TextAnalyst 2.0». Основные возможности программы:

• используется для анализа символьных текстов, позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст;

• реферирование текста;

• смысловой поиск фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса;

• анализ текста путем построения иерархии тем и подтем, затрагиваемых в тексте;

• анализ содержания текста с автоматическим формированием семантической сети с гиперссылками - получение смыслового портрета текста в терминах основных понятий и их смысловых связей;

• анализ содержания текста с автоматическим формированием тематического древа с гиперссылками - выявление семантической структуры текста в виде иерархии тем и подтем;

• смысловой поиск с учетом скрытых смысловых связей слов запроса со словами текста;

• автоматическое реферирование текста - формирование его смыслового портрета в терминах наиболее информативных фраз;

• кластеризация информации - анализ распределения материала текстов по тематическим классам;

• автоматическая индексация текста с преобразованием в гипертекст;

• ранжирование всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;

• автоматическое формирование полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.

317

Компоненты

1. «TextAnalyst Lib» - используется для построения гипертекстовых электронных книг

2. «TextAnalyst SDK» - используется для лемматизации и построения частотных списков понятий.

«Система Пропись 4.0» - используется для лингвистической обработки русскоязычных текстов. Основные возможности:

• расстановка переносов;

• поиск слов в тексте с учетом их форм;

• замена слов в тексте;

• проверка орфографии;

• построение списка антонимов и синонимов слова;

• грамматическая проверка текста;

• толкование слова с использованием словаря.

Благодаря своим возможностям эта система подходит для

обучения.[7]

3. Программы, позволяющие собирать данные, необходимые для определения принадлежности текста определенному стилю и степени оригинальности текстов.

«Технологии поиска и анализа текстовой информации» - это интернет-сайт, на котором представлены разработки компании «Гарант-Парк-Интернет».

Основные технологии:

• классификация текстов;

• создание реферата;

• поиск текста;

• анализ текста (синтаксический, морфологический, семантический);

• средства поиска в больших массивах текста [7].

«Свежий взгляд» - это продукт, который реализует стилистическую проверку текстов на русском языке - он находит в тексте места, где схожие слова расположены в непосредственной близости друг от друга, что порождает паронимию [7].

Рассматривая программы для автоматической обработки текстов, можно сделать вывод, что анализ, который может осуществить человек-эксперт в различных областях, вряд ли с большой степенью правильности сможет заменить программная обработка текста. Но эти программы могут позволить человеку прийти к заключениям, потратив на проведение исследования меньшее количество времени. Также эти программы позволяют опробовать гипотезы на гораздо большем объеме материала и с большей долей уверенности в объективности полученных данных.

318

Библиографический список

1. Ильвовский Д, Черняк Е. Системы автоматической обработки текстов // Открытые системы. - 2014 - № 1.

2. Селезнев К., Владимиров А. Лингвистика и обработка текстов // Открытые системы. - 2013. - № 04. - C. 46-49.

3. S.O. Kuznetsov. Fitting Pattern Structures to Knowledge Discovery in Big Data. ICFCA 2013. - P. 254-266.

4. C Manning, H. Schuetze. Foundations of Statistical Natural Processing. MIT Press, 1999.

5. B. Mirkin. Core Concepts in Data Analysis: Summarization, Correlation and Visualisation, DOI 10.1007/978-0-85729-287-2. Springer,

2011.

6. Автоматическая Обработка Текста: [Электронный ресурс]. URL http://www.aot.ru (Дата обращения: 15.04.2015).

7. Компьютерные программы обработки русскоязычных текстов: [Электронный ресурс]. URL: http://www.zlat.spb.ru/

CatalogImages/File/pdf/comp_progr.pdf (Дата обращения: 15.04.2015).

319

i Надоели баннеры? Вы всегда можете отключить рекламу.