Об одном подходе к автоматизированному созданию словарей статистически значимой лексики естественных языков

Тлюстен Валерий Шахмболетович

УДК 800 : 002 ББК 81.1 Т 49

В.Ш. Тлюстен

Об одном подходе к автоматизированному созданию словарей статистически значимой лексики естественных языков

Аннотация:

В работе предлагается формальный подход к моделированию процесса отбора статистически значимой лексики естественных языков из представляющих эти языки репрезентативных текстуальных баз. Обсуждаются факторы, влияющие на эффективность такого подхода, и формулируется ряд задач, которые могли бы быть решены на его основе. Устанавливается факт применимости метода к решению некоторых из указанных задач для адыгейского языка.

Ключевые слова:

Еестественные языки, лексика, адыгейский язык, лингвистика.

Пусть задан кортеж Т=<аі, а2, а„> словоформ,

представляющий объединённое множество образцов литературных текстов в некотором естественном языке (ЕЯ). Назовём этот кортеж текстуальной базой рассматриваемого языка. Элементы а! (і=1,п), некоторые из которых, возможно, совпадают, будем называть вхождениями слов в Т, а их множество 8 =и{аі} -словарём текстуальной базы Т.

Зафиксируем некоторую грамматическую категорию К (например, категорию глагола), задающую на 8 унарное отношение К8(х) принадлежности произвольного элемента хє 8 выбранной категории К.

Обозначим в={х | К8 (х)}. Это множество составлено из всех словоформ выбранной текстуальной базы Т, относящихся к данной категории К.

Пусть f - функция такая, что Ухє в: :(х)=г, где г -основа (неизменяемая часть) словоформы х.

Обозначим Я={г | Зхє в :(х)=г)} и назовём Я полным множеством основ или лексиконом текстуальной базы Т.

Лексикон Я определяет на множестве словоформ в отношение эквивалентности такое, что Уху є в: х~у

0(ЗгєЯ, ВХК(у)=г).

Другими словами, классов эквивалентности в в столько, сколько основ в Я и каждый из классов составляют все равноосновные лексемы данной грамматической категории.

Например, сэк1о, тык1ощт, к1огъагъэх входят в класс эквивалентности адыгейского глагола с основой кіо (идти).

Элементы одного и того же класса эквивалентности различаются входящими в них, помимо основы, словоизменительными аффиксами (префиксами и суффиксами).

При этом, в данном контексте, префиксом мы называем предосновную, а суффиксом - постосновную часть слова (нами не выделяются особо, например, окончания).

Таким образом, словоформа в выбранной нами лингвистической модели имеет, в общем случае, структуру: аРу, где а - префикс, р - основа, у- суффикс.

репрезентативные текстуальные базы, компьютерная

Причём, р всегда не пусто, а а и у, возможно, одновременно, могут быть пустыми.

Вводя такую структуризацию словоформ, мы умышленно (для простоты последующей компьютерной обработки) несколько огрубляем ситуацию, не принимая во внимание возможности видоизменений самой основы, в зависимости от окружающего её префикс-суффиксного контекста.

Одни и те же внутрисловные сочетания аффиксов <а-у>, обрамляя различные основы, могут многократно повторяться в словоформах различных классов эквивалентности, являясь характерными не для самих этих классов, а для выбранной грамматической категории.

Любое такое сочетание <а-у> словоизменительных аффиксов, характерное для той или иной формы фиксированной грамматической категории (глагола, существительного, прилагательного и др.) назовём элементом основного обрамления или сигнатурным элементом этой категории в данном языке.

Элементами основного обрамления английского глагола, например, являются <-1щ> <-е^, а адыгейского

— <сы-щтыгьэ> < -гъагъэх>.

В общем случае, с каждой грамматической категорией К в данном язьгке Ь связано некоторое множество элементов основного обрамления 2(К,Ь)={стьст2, ...,стт}, которое мы назовём сигнатурой данной грамматической категории.

Так, ранее приведённый пример показывает, что при рассмотрении текстуальной базы адыгейского языка, содержащей, среди прочих, словоформы: сэк1о, тык1ощт, к1огъагъэх, в сигнатуру глагола в этом языке следовало бы включить элементы: <сэ->, <ты — щт>, < — гъагъэх>.

В терминах введённых выше понятий, сформулируем теперь несколько, имеющих как теоретическое, так и прикладное значение задач.

Пусть задана текстуальная база Т некоторого ЕЯ Ь, фиксирована грамматическая категория К и задана связанная с К в языке Ь сигнатура 2(К,Ь)={стьст2, .. .,ат}.

Пусть, кроме того, задана эффективно вычисляемая булевская функция ф(аьст^, для любой пары < а,,^ > (а! е Т,

Oj є Z, i=1,n; j=1,m) истинная тогда и только тогда, когда словоформа ai включает в себя сигнатуру Oj .

Требуется предложить эффективные процедуры:

- построения множества G всех содержащихся в Т словоформ категории К;

- воссоздания неявно представленного в текстуальной базе T лексикона R, отвечающего категории К в данном языке L;

- Vr є R, построения системы классов эквивалентности E(r)={x | (x є G) & (x~r)}.

Успех решения поставленных выше задач в основном определяется, на наш взгляд, двумя факторами.

1. Внешним фактором - объёмом (влияющим на репрезентативность) используемой текстуальной базы.

2. Внутренним фактором - степенью специфичности выражаемых в соответствующем сигнатурном наборе словоизменительных парадигм для лексических единиц данной грамматической категории.

Оба этих фактора достаточно взаимосвязаны и могут обеспечить успех только при определённом их балансе.

Рассмотрим, например, задачу выявления из некоторой текстуальной базы английского языка множества G всех представленных в ней глагольных словообразований.

Кажется правдоподобным предположение, состоящее в том, что при сканировании очень большой базы англоязычных текстов, каждый глагол, в каждой, возможной для него глагольной словоформе, рано или поздно, обязательно встретится. Поэтому, для отбора всех (в данном случае, точнее сказать, правильных) глаголов английского языка, казалось бы, достаточно сделать запрос к базе, используя в качестве поискового признака отбираемой лексики сигнатурный элемент < - ed>. В этом случае мы, по-видимому, действительно можем рассчитывать на полноту ответа на наш запрос.

Но при этом, будет наблюдаться и удручающая избыточность в массиве найденных лексем, т.е. наличие очень большого числа отобранных наряду с глаголами также и нерелевантных запросу (шумовых) слов. Так, например, вполне имеет шанс оказаться в числе идентифицированных нами «глаголов» прилагательное red и существительное seed.

Ясно, что второй из двух выше указанных факторов, как раз и влияет на степень избыточности ожидаемого отклика на запрос - чем специфичней (и, возможно, длиннее, чтобы уменьшить вероятность случайных совпадений) поисковый сигнатурный элемент, тем меньше “шум”, а значит, выше надёжность отбора словоформ именно требуемой категории.

Вместе с тем, если максимально специфичные и потому предельно информативные сигнатурные элементы относительно редко встречаются в тексте, то возникает опасность существенного “недобора” в общем массиве выявленных из данной текстуальной базы представителей различных классов эквивалентности (т.е. в результирующем списке лексем найдут отражение далеко не все представленные в базе глагольные основы).

И этот негативный эффект будет тем ниже, чем более обширная текстуальная база будет использована.

Отсюда можно сделать общий вывод: для

наилучшего (наиболее полного и наименее избыточного) отбора лексем требуемой грамматической категории, эффективней всего использовать максимально специфичные сигнатурные элементы и как можно более обширную текстуальную базу.

Перейдём теперь к вопросу о возможности автоматизированного создания, на базе рассматриваемого сигнатурного подхода, словарей, охватывающих язык в целом.

Хотя все предыдущие рассуждения строятся относительно фиксированной, а следовательно, ограниченной текстуальной базы Т, при достаточном объёме последней, они могут стать вполне надёжным фундаментом получения объективных суждений о языке Ь в целом.

Действительно, при постепенном пополнении текстуальной базы Т, по мере её расширения, в некоторый момент, как нам кажется, должно произойти статистически значимое насыщение представленной в Т лексики так, что с дальнейшим увеличением п - числа вхождений слов в Т, словарь 8 практически перестанет расширяться.

Минимальное значение п=пэ при котором это произойдёт, назовём лексически репрезентативным текстуальным объёмом, а соответствующую текстуальную базу Т0 — лексически репрезентативной текстуальной базой выбранного языка.

Конечно, величина п0, если она существует, определяет не точное значение, а лишь порядок статистически значимого для данного языка и данной грамматической категории объёма текстуальной базы.

Кроме того, п0 определяется не только объёмом, но и структурой Т0. По разному формируя текстуальную базу (даже, в различной последовательности сочетая составляющие её тексты), можно получать различные значения п0. Отсюда возникает вопрос о нахождении наименьшего в данном языке (или, возможно, у данного автора) нетривиального значения п0 и соответствующей текстуальной базы.

Можно поставить вопрос о степени эффективности использования метода сигнатур при решении выше перечисленных задач для различных языков. Скорее всего, окажется, что разброс здесь достаточно большой.

Например, для глагола адыгейского языка, обладающего, как известно, чрезвычайно развитой системой словоизменительных парадигм, этот метод вполне мог бы оказаться успешным.

Для проверки этой гипотезы, в лаборатории компьютерных технологий АГУ, создана экспериментальная текстуальная база адыгейского языка и разработан комплекс реализующих выше указанный подход компьютерных программ.

Результаты соответствующих экспериментальных исследований предполагается опубликовать в отдельной работе.

Примечания:

1. Рогава Г.В., Керашева З.И. Грамматика адыгейского языка. — Краснодар-Майкоп: Краснодарское книжное издательство, 1966.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Тлюстен Валерий Шахмболетович

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Тлюстен Валерий Шахмболетович

Текст научной работы на тему «Об одном подходе к автоматизированному созданию словарей статистически значимой лексики естественных языков»