Научная статья на тему 'N-граммы в лингвистике'

N-граммы в лингвистике Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
5055
653
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
N-ГРАММА / ПОРОЖДАЮЩАЯ ГРАММАТИКА ХОМСКОГО / ВЕРОЯТНОСТНАЯ МОДЕЛЬ РЕЧИ / АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гудков Владимир Юльевич, Гудкова Елена Федоровна

В статье анализируется содержание и применение N-грамм как средства фиксации языковых реалий. Показывается отношение моделей N-грамм к формальной грамматике, предлагается рассматривать их как инструмент автоматического анализа печатных текстов и непрерывной речи человека.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Гудков Владимир Юльевич, Гудкова Елена Федоровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «N-граммы в лингвистике»

7. Ревзин, И. И. Основы общего и машинного перевода / И. И. Ревзин, В. Ю. Розенцвейг. М. : Высш. шк., 1964.

8. Сепир, Э. Градуирование // Новое в зарубежной лингвистике. М. : Прогресс, 1985. Вып. XVI. С. 43-78.

9. Федоров, А. В. Основы общей теории перевода. М.: Высш. шк., 1968.

10. Швейцер, А. Д. Теория перевода: Статус, проблемы, аспекты. М. : Наука, 1988.

11. Levy, J. Umern prekladu. Praha : Panorama, 1983.

Вестник Челябинского государственного университета. 2011. № 24 (239). Филология. Искусствоведение. Вып. 57. С. 69-71.

В. Ю. Гудков, Е. Ф. Гудкова ДИГРАММЫ В ЛИНГВИСТИКЕ

В статье анализируется содержание и применение Ж-грамм как средства фиксации языковых реалий. Показывается отношение моделей Ж-грамм к формальной грамматике, предлагается рассматривать их как инструмент автоматического анализа печатных текстов и непрерывной речи человека.

Ключевые слова: Ж-грамма, порождающая грамматика Хомского, вероятностная модель речи,

автоматический анализ текстов.

Модель ^граммы в лингвистике. Пусть задан некоторый конечный алфавит V = [м> где w — символ. Языком Ь(У) называют множество цепочек конечной длины из символов w .. Высказыванием называют цепочку из языка. Ж-граммой на алфавите V называют произвольную цепочку длиной Ж, например последовательность из Ж букв русского языка одного слова, одной фразы, одного текста или, в более интересном случае, последовательность из грамматически допустимых описаний Ж подряд стоящих слов [1]. Грамматически корректные Ж-граммы могут нести разную смысловую нагрузку — во фразах «Она разинула пасть» и «Она решила пасть» слово «пасть» имеет разные значения.

Ж-граммы для понимания естественного языка стали применять сравнительно недавно. Предложена вероятностная модель речи на основе теории цепей Маркова, различающая разных авторов и даже фольклор. Значение Ж-грамм исчерпывается их прикладной направленностью: они являются эффективным инструментом решения важной задачи — отбраковки вариантов, а их использование сводится к наложению допустимых Ж-грамм на имеющиеся данные [1; 2].

Пусть С V | V = ^1, w2, ..., wи) — число вхождений строки w в генеральную совокупность О текстов языка. Вероятность р(w) появления Ж-граммы w находят в виде

С (М)

P(w) =

Подобно определяют вероятность р(м) униграммы как вырожденного случая Ж-граммы [3]. Если вероятности появления символов в любой позиции цепочки независимы и одинаково распределены, то

п

р( =П р(т) ■

І =1

Таким образом, перестановки символов wj єw имеют одну и ту же вероятность. Например, в языке вероятность встретить выражения «красно-коричневый» та же, что и выражение «к-рснкрчнваооиеый». Для разрешения указанного недоразумения вводят условные вероятности [3]. Тогда вероятность очередного символа строки задается в зависимости от предшествующих ему символов в виде

р(м>) = р{мп | -1),^2-^п-1),

а модель Ж-граммы — марковской цепью (Ж—1)-го порядка. Задача оценивания статистических параметров Ж-граммы сводится к задачам по марковским цепям, а оценкой вероятности Ж-граммы служит частота ее встречаемости:

р(м) = /(М | =

_ СММ2. Мп 1Г)

С(wi, w2- wn-i 1 L)'

(1)

IС (x)

xeQ

Формула (1) для условных вероятностей триграмм использовалась в системе распознавания речи, разработанной 1ВМ. Эксперименты пока-

зали, что в обучающей выборке отсутствовало значительное число триграмм, обнаруженное при проверке системы. Вероятность таких триграмм по (1) равна нулю, поэтому расчет р(м!)

модифицируют [4].

Формальные грамматики. Порождающей грамматикой О согласно [3] называется четверка G = (Ы, Т, Р, S), где Т — алфавит терминальных, а Ж — нетерминальных символов; S е N — начальный символ; Р — набор правил порождения (подстановки), имеющих вид а ^ в, где а — строка, содержащая хотя бы один нетерминальный символ, в — строка, включающая символы из объединенного алфавита V = N ^ Т. Правила подстановки также называют продукциями, а выражения в их левых частях — посылками. Говорят, что строка у = w1вw2 выводится из ф = w1аw2, если существует правило а ^ в (здесь w1 и w2 — строки символов из V, возможно, пустые). Запись ф ^ у означает, что существует цепочка выводов, преобразующих строку ф в строку у. Языком Ь(О), порождаемым грамматикой О, называют множество всех конечных строк из символов Т, выводимых в грамматике

О. Множество всех непустых строк из символов алфавита Я обозначают Я+. Очевидно, что ДО) с Т+.

Наиболее исследован класс контекстно-свободных грамматик (КСГ), в которых правила подстановки имеют вид А ^ в, где Л( е Ы, а строка в е V*. В частном случае КСГ — автоматные грамматики (АГ) — правила подстановки ограничивают двумя типами: А ^ аВ и А ^ а, где А е N и а е Т.

Определение стохастической грамматики Ох совпадает с приведенной с той лишь разницей, что все правила Р = {а . ^ аД снабжают вероятностями ру при ^ р- = 1. Несущей называют ]

грамматику О, получаемую из Ох выбрасыванием вероятностей. Грамматику Ох называют согласованной, если в процессе вывода Пт P(wk =

| е Т, i е 1. п}) ^ 1. Рассмотрим стохастическую КСГ (СКСГ) с посылками {А} = Ж. Для каждого А . математическое ожидание Е у числа порождаемых нетерминалов (по всем продукциям А(^АУ) рассчитывают в виде

Ец = Е(л1\л1) = X Р*Х(], Ос), к (О

где суммирование производится по всем к продукциям с посылкой А.; р й — вероятность продукции А( ^ А^ Ж(/ к) — число вхождений не-

терминала А. в правую часть продукции А( ^ Ак. Для СКСГ выполняется Нш Е* — 0 [Мь

* —— ^

пек 1991, Stolcke 1994].

Например, пусть S ^ А1А2 с вероятностью 1, А1 ^ вА2 с вероятностью р1, А1 ^ п с вероятностью 1 — р1, А2 ^ А1уА1А1 с вероятностью р2, А2 с вероятностью 1 — р2. Здесь {А} = N = {А0 = 5”, А1, А2}. Тогда матрица Е имеет вид

"0 1 1

Е = 0 0 Рі

0 3 р2 0

^-граммы и формальные грамматики.

Ж-граммы как объект теоретического анализа недостаточно изучены. Модель Ж-грамм не является объяснительной и не входит ни в какую другую объяснительную модель. В качестве носителя для модели Ж-граммы выступает формальная грамматика. Задача заключается в том, чтобы для формальной грамматики О определить все Ж-граммы, допустимые в порождаемом ею языке. В вероятностной формулировке задача заключается в том, чтобы для стохастической грамматики Ох определить вероятность каждой Ж-граммы.

Нормальной формой Хомского (НФХ) называется такая грамматика, в которой правила подстановки имеют вид X ^ УХ, X ^ t, где X, У, Х є Ы, а t є Т. К НФХ приводится любая бесконтекстная грамматика [1]. Следуя [4], через Е(м\Х) с подстроками д и г обозначим сумму р(Х ^ м>) и сумму по всем подстановкам в виде

Е(^ | X) = р(X ^ w) + £ р(Х ^ УХ) х

X ^УХ

/ \ Е(ю | У)+Е(ю | Х) +£ р(У ^ да)р(Х ^ Ьг) . V аЬ=™ )

Алгоритм вычисления вероятностей префиксных подстрок для СКСГ приведен в ^оіске 1994]. Операция, состоящая в замене подстановки X ^ УХ на X ^ ХУ, не выводит грамматику из класса НФХ. Известны методы, приводящие КСГ к НФХ в виде инвертированной грамматики. Применив тот же алгоритм, получим вероятности появления хвостовых подстрок для исходной грамматики.

Таким образом, Ж-граммы есть средство фиксации языковой реальности и модель, основанная на грамматике Хомского. Связь модельных Ж-грамм и формальных грамматик дает эффективный инструмент автоматического анализа

печатных текстов и слитной речи человека независимо от принадлежности языка к языковой группе.

Список литературы

1. Бузикашвили, Н. Е. Задача поиска в неструктурированном тексте и лингвистический анализ / Н. Е. Бузикашвили, Д. В. Самойлов, Л. И. Бродский, А. В. Усков // Интеллектуальные технологии ввода и обработки информации : Труды ИСА РАН. М., 1998. С. 129-141.

2. Звегинцев, В. А. Теоретическая и прикладная лингвистика / В. А. Звегинцев. 2-е изд. М., 2007. 336 с.

3. Jelinek, F. Computation of the probability of initial substring generation by stochastic context free-grammar / F. Jelinek, J. Lafferty // Computational Linguistics. Vol. 17, № 3. 1991. P. 315-323.

4. Stolcke, A. Precise n-gram probabilities from stochastic context-free grammars / A. Stolcke, J. Segal // Proceedings of the 32th Annual Meeting of ACL, 1994. P. 74-79.

Вестник Челябинского государственного университета. 2011. № 24 (239).

Филология. Искусствоведение. Вып. 57. С. 71-73.

Е. И. Гуреева

РАЗНОВИДНОСТИ СПЕЦИАЛЬНЫХ ОБОЗНАЧЕНИЙ В СОВРЕМЕННОЙ СПОРТИВНОЙ ТЕРМИНОЛОГИИ

В статье рассматриваются разновидности специальных обозначений в спортивной терминологии современного русского языка. Выделяются собственно термины, номены, термины-эпонимы, а также судейские термины контроля над состязаниями.

Ключевые слова: спортивная терминология, термин, номен, эпоним, судейские термины контро-ля над состязаниями.

Спортивная терминология является одной из самых активно развивающихся терминологий современного русского языка. Однако системность спортивной терминологии оформилась лишь в последние десятилетия, что связано с осознанием спорта как разновидности профессиональной деятельности (ср. профессиональный бокс, профессиональный хоккей), а также с появлением спортивной науки. Как пишет Р. А. Пилоян, «в научной литературе не раз поднимался вопрос о необходимости завершить оформление науки о спорте как самостоятельной системы знаний» [2].

Сегодня к спортивной терминологии применяется научный подход, т. е. признается ее способность концентрировать научное знание. В подтверждение этому приведем несколько цитат из аннотации и предисловия к словарю «Терминология спорта. Толковый словарь-справочник» 2010 года издания (авторы-составители А. Н. Блеер, Ф. П. Суслов, Д. А. Тышлер): «раскрыты < . > более 10 000 терминов, употребляемых в разных видах спорта и спортивной науке [здесь и далее выделено нами.—Е. /7]», «спортивные термины выходят далеко за рамки понятий,

относящихся только к данной отрасли научных и прикладных знаний», «в современную научную литературу по физической культуре и спорту все шире проникают англоязычные термины <...>» и т. д.

Термин служит обозначением некоего ментального объекта, отражающего реальный объект, с которым сталкивается человек в процессе материальной или духовной деятельности. Это слово либо словосочетание, которое выражает специальное понятие, входящее в систему понятий определенной области знания/деятельности. Соответственно, терминология - это система терминов, выражающая систему понятий какой-либо области знания и/или деятельности.

В современной спортивной терминологии русского языка можно выделить несколько разновидностей специальных обозначений.

Прежде всего, это собственно термины, единицы, выражающие специальные (общие) понятия в области спорта. Сюда следует отнести: 1) термины с прозрачной внутренней формой (слова, которые могут быть понятны простому обывателю без специального словаря; заметим, что таких терминов в спортивной терминоло-

i Надоели баннеры? Вы всегда можете отключить рекламу.