Научная статья на тему 'Преобразование метрик, используемых в методах кластеризации для построения филогенетических деревьев языков'

Преобразование метрик, используемых в методах кластеризации для построения филогенетических деревьев языков Текст научной статьи по специальности «Математика»

CC BY
282
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНГВИСТИЧЕСКИЕ БАЗЫ ДАННЫХ / МЕТРИКИ / ФИЛОГЕНЕТИЧЕСКИЕ АЛГОРИТМЫ / LINGUISTIC DATABASE / METRICS / PHYLOGENETIC ALGORITHMS

Аннотация научной статьи по математике, автор научной работы — Соловьев Валерий Дмитриевич, Фасхутдинов Ренат Фархутдинович

С появлением несколько лет назад больших типологических баз данных возникла проблема выбора математических средств извлечения из них знаний (в форме кластеризации языков). Обычно для этих целей используются филогенетические алгоритмы, основанные на метрике Хемминга. Однако в кластерном анализе было показано, что некоторые другие метрики дают лучшие результаты. В статье введены две новые метрики и на большом числе реальных лингвистических примерах продемонстрировано, что филогенетические алгоритмы, основанные на этих метриках, дают лучшие результаты.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

As large typological databases appeared a few years ago, the problem of data mining (as clusterization of languages) arose. Usually phylogenetic algorithms based on Hamming-distance are used for these purposes. But it was found out in cluster analysis that some other metrics give better results. In the paper two new metrics are proposed and it is shown on a great number of linguistic examples that phylogenetic algorithms based on these metrics give better results.

Текст научной работы на тему «Преобразование метрик, используемых в методах кластеризации для построения филогенетических деревьев языков»

УЧЕНЫЕ ЗАПИСКИ КАЗАНСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

Том 151, кн. 3

Физико-математические пауки

2009

УДК 81:004.9

ПРЕОБРАЗОВАНИЕ МЕТРИК,

ИСПОЛЬЗУЕМЫХ В МЕТОДАХ КЛАСТЕРИЗАЦИИ ДЛЯ ПОСТРОЕНИЯ ФИЛОГЕНЕТИЧЕСКИХ ДЕРЕВЬЕВ ЯЗЫКОВ

В.Д. Соловьев, Р. Ф. Фасхутдипов

Аннотация

С появлением несколько лет назад больших типологических баз даппых возникла проблема выбора математических средств извлечения из mix знаний (в форме кластеризации языков). Обычно для этих целей используются филогенетические алгоритмы, основанные па метрике Хеммипга. Однако в кластерном анализе было показано, что некоторые другие метрики дают лучшие результаты. В статье введены две новые метрики и па большом числе реальных лингвистических примерах продемонстрировано, что филогенетические алгоритмы, основанные па этих метриках, дают лучшие результаты.

Ключевые слова: лингвистические базы даппых. метрики, филогенетические алгоритмы.

Введение

В последние годы для исследователей стали доступны две большие типологические базы данных: «Языки мира» и WALS (World Atlas of Linguistic Structures Всемирный атлас языковой структуры). На сегодняшний день они являются крупнейшими из лингвистических баз данных, описывающих грамматические свойства языков.

В базе «Языки мира» [1] содержится 315 языков Евразии, каждый из которых описан 3821 признаком. Все признаки представлены в бинарном виде и относятся к одной из трех сфер описания языка: фонетика, морфология, синтаксис. Всего в базе данных представлено одиннадцать языковых семей.

В WALS [2] содержится 2559 языков из всех языковых семей мира. Описание языков в ней менее детализировано: количество признаков менее 1500 (при переводе их в бинарный формат ). а для многих языков указаны значения лишь немногих признаков.

С появлением этих баз данных стало возможным применение новых для лингвистики методов, которые могут помочь в решении ряда проблем, оставшихся нерешенными ранее, таких, например, как построение дерева эволюции языков па глубину более 10 тысяч лет. Среди таких методов наиболее популярными являются методы кластеризации, а также разработанные в рамках эволюционной биологии специальные методы реконструкции эволюционных деревьев максимальной бережливости [3]. максимального правдоподобия [3] и байесовский анализ [4]. Каждый из этих методов реконструирует филогенетическое дерево граф. являющийся деревом, листья которого помечены названиями существующих языков, а внутренние вершины соответствуют протоязыкам. Самыми широко используемыми методами последовательной кластеризации являются метод иевзвешениого парного арифметического среднего (unweighted pair-group method using arithmetic

ауга^оБ. сокращенно, ирцта [3]) и метод ближнего соседа (пс^Ыюг-ртп^, гу [3]). Они. как и все методы последовательной кластеризации, основаны на вычислении расстояний между сравниваемыми объектами, то есть для их применения необходимо задать матрицу расстояний между объектами. Для этого чаще всего используют метрику Хемминга. В работе [5] введена А-метрика (основанная на гипотезе А-компактности), которая во многих случаях дает лучшие результаты. В целом следует отметить, что все используемые в настоящее время методы не дают достаточно точных и надежных результатов, что заставляет искать новые подходы. В настоящей статье приведены результаты кластеризации с использованием новых матриц расстояний, полученных трансформацией расстояния Хемминга и А

Общая идея исследования состоит в том. чтобы взять некоторое множество языков (с одной стороны, достаточно представительное, а. с другой для него имеется общепринятое дерево эволюции (эталонное)), построить для него деревья с помощью различных алгоритмов и метрик и. сравнивая их с эталонным, выявить наиболее перспективные методы. В дальнейшем эти методы могут быть применены в менее ясных ситуациях с неустановленным родством языков.

1. Исследуемые языки

В работе изучается группа из 42 языков, принадлежащих различным языковым семьям: индоевропейской, северокавказской, чукотско-корякской, уральской, алтайской. Один язык (бирманский) принадлежит сино-тибетской семье. Нивхский язык является изолятом не относится ни к одной семье. Языки выбирались из тех соображений, чтобы они были полно описаны и представляли все основные семьи, содержащиеся в базе данных. Кроме того, описания этих языков были подвергнуты дополнительной экспертизе.

Как принято в исторической лингвистике, семьи делятся на ветви, далее по мере дробления выделяют группы и подгруппы языков. Эволюционное дерево показано на рис. 1. Здесь использована классификация, приведенная в [6] и являющаяся практически общепринятой.

2. Алгоритмы и метрики

Тестировались два наиболее популярных филогенетических алгоритма ирцта

А

АА

определено как не метрическое (в нем но выполняется неравенство треугольника.

А

вого с примененном специального преобразования, обеспечивающего выполнение всех аксиом метрики. В дальнейшем в статье будет идти речь только о неметриче-

АА

с ее использованием, будут иметь маркер Ь), так как ее применение оказалось более эффективным, в том смысле, что позволяет строить деревья, более близкие к эталонному.

Определим новые псевдометрики, получаемые с помощью преобразования метрики Хемминга и А-псевдометрики. Пусть П(г,]) - расстояние между объектами г и ] (по Хеммингу, либо А-псевдометрике, такие расстояния в дальнейшем будут называться обычными, матрицы расстояний обычными матрицами расстояний, а деревья, построенные при их использовании, обычными деревьями).

-Nivkh

-Burmese

I-Abkhaz

4j— Bagvalal ц~ Aghul T- Lezgi Georgian

I— Turkmen jj— Azerbaijani Turkish

__i- Bashkir

L Tatar

-Mogholi

_-Mongolian

_i- Buriat

L Kalmyk

-Armenian

_i- English

L- German

_i- Icelandic

L- Norwegian

— Assamese

— Dari

- Persian

- Tajiki

- Belarusan

- Polish

_i- Bulgarian

L- Macedonian

- Romanian

- Galician

- Spanish

- Italy

- Portuguese _j- Hungary

<- Khanty

— Veps

- Finnish

- Estonian

■ Itelmen

- Koryak

■ Chukot

Рис. 1. Общепринятая генеалогическая классификация рассматриваемых языков

Определение 1. Для каждого объекта г найдем максимально удаленный от него объект. Пусть это будет объект к. Далее расстояние Б'(г,]) определим как Б(г, ])/Б(г, к). Чтобы матрица расстояний была симметричной, элементы новой матрицы (назовем ее матрицей по максимуму) будем вычислять по формуле М(г,]) = (Б'(г,]) + Б/(], г))/2. Полученная псевдометрика (в пей не выполняется аксиома треугольника) будет называться псевдометрикой по максимуму.

г

остальных объектов, пусть это будет число в(г). Расстояние Б'(г,]) определим как П(г,])/в(г). Чтобы матрица расстояний была симметричной, элементы новой матрицы (матрицы по среднему) будем вычислять по формуле М(г,]) = (Б'(г,]) + + Б'(], г))/22. Псевдометрика, рассчитанная таким образом (в ней также не выполняется неравенство треугольника), будет называться псевдометрикой по среднему.

В дальнейшем метод с применением псевдометрики по максимуму, а также полученное по нему дерево будет иметь маркер т, а псевдометрики по среднему - в.

-Burmese

-Koryak

-Nivkh

CAbkhaz Chukot

-Polish

-Itelmen

I— Bagvalal L- Aghul — T- Lezgi

_r Armenian

Georgian

-Khanty

-Assamese

I— Turkish I |_i- Azerbaijani U Bashkir |_i- Tatar

L Turkmen

|-Hungary

_ _i- Buriat

y-1- Kalmyk

|_i- Moghoii

Mongolian I— Finnish |r Veps

Estonian I— Tajiki L- Dari Persian English Macedonian Portuguese Italy Galician Spanish

I-Romanian

j |— Norwegian |j- Icelandic German

_i- Belarusan

ri

4

HE

L-c

[t L-c

- Bulgarian

Koryak

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Abkhaz

Burmese

Nivkh

Bagvalal

Aghul

Lezgi

Armenian

Georgian

Assamese

Turkish

Azerbaijani

Bashkir

Tatar

Turkmen

Buriat

Kalmyk

Moghoii

Mongolian

Hungary

Khanty

Estonian

Veps

Finnish

Itelmen

Chukot

Tajiki

Persian

English

Dari

Romanian Norwegian Icelandic German

Macedonian

Portuguese

Italy

Gali cian

Spanish

Polish

Belarusan

Bulgahan

Рис. 2. Филогенетическое дерево, построенное по методу upgrna с метрикой Хем-минга

Рис. 3. Филогенетическое дерево, построенное по методу ир§та с т -псевдометрикой Хемминга

Целью исследования является сравнение деревьев, построенных по обычным метрикам и псевдометрикам. Деревья сравнивались как на основе правильной классификации языков по семьям и ветвям, так и путем применения двух метрик на деревьях. Это следующие метрики:

1) метрика Робинсона - Фоулдса [7];

2) метрика, основанная на количестве квартетов, имеющих одинаковую топологию у двух деревьев - эталонного и исследуемого [8].

3. Филогенетические деревья по разным метрикам

Для каждого метода (upgma и щ) были построены деревья по двум расстояниям (Хемминга и А-псевдометрики), а также путем преобразования этих расстояний двумя вышеописанными способами (т- и 5-преобразования). Таким образом, всего было построено 12 деревьев. Рассмотрим результаты отдельно по каждому методу.

3.1. Метод upgma, метрика Хемминга. В дереве, построенном с использованием метрики Хемминга (рис. 2), уральская семья разделена на три части (в одной оказались финский, вепсский и эстонский языки, в двух других - хантыйский и венгерский соответственно). При применении т- и 5-псевдометрик уральская семья была классифицирована в отдельное поддерево. Метод с метрикой Хемминга выделил в одно поддерево с алтайскими языками два языка из других семей: монгольская ветвь объединяется с венгерским языком, а тюркская - с ассамским. При использовании 5-псевдометрики получилась аналогичная картина, но вместо

Табл. 1

Количество языков, верно классифицированных методом ир§та по разным матрицам расстояний для семей

Семья Общее число языков ир§та ир§та-1п щ^ша-в

Уральская 5 3 5 5

Алтайская 9 9 (с ассамским и венгерским) 9 9 (с ассамским и ительменским)

Индоевропей- 18 12 16 16

ская

Чукотско- 3 2

камчатская

Северокавказ- 3 3 3 3

ская

Табл. 2

Количество языков, верно классифицированных методом ир§та по разным матрицам расстояний для ветвей

Ветвь Общее число языков ир§та ир§та-1п щ^ша-в

Тюркская 5 5 5 5

Монгольская 4 4 4 4

Иранская 3 3 2 (с английским) 3

Германская 4 3 3 3

Романская 5 4 (с македонским и английским) 3 3

Славянская 4 2 3 3

венгерского языка монгольская ветвь объединена в общее поддерево с ительменским языком. В ш-дереве (рис. 3) алтайская семья классифицируется верно.

В целом наилучшие результаты получились с применением ш-псевдометрнкп. Однако в таком дереве лишь два из трех иранских языка оказались родственными. Дари и персидский языки образуют поддерево с английским языком, а третий (таджикский язык) расположен отдельно. В двух других деревьях иранские языки классифицированы верно. Дерево, построенное по метрике Хемминга, было наименее точное. Это демонстрируют табл. 1 и 2. в которых приведены результаты по всем трем способам отдельно по семьям и ветвям.

Сравнение деревьев с эталонным путем использования метрик на деревьях дало следующие результаты:

расстояние Робинсона Фоулдса между деревом по метрике Хемминга и эталонным получилось равным 53. по обоим псевдометрикам 49:

число одинаковых квартетов с эталонным деревом для дерева, построенного по метрике Хемминга, - 63713, ш-псевдометрике - 70514, в-псевдометрике - 69506. Отметим, что в этом методе чем больше одинаковых квартетов, тем деревья ближе.

Таким образом, результаты при сравнении деревьев по точности классификации языковых семей и ветвей и значениям метрик на деревьях показали, что наиболее

ш

Табл. 3

Количество языков, верно классифицированных методом ир§та-Ь по разным матрицам расстояний для семей

Семья Общее число языков ир§та-Ь ир§та-Ь-1п щ^ша-Ь-в

Уральская 5 4 5 5

Алтайская 9 9 (с агульским и лезгинским) 9 9

Индоевропей- 18 13 13 13

ская

Чукотско-камчатская 3 2 (с абхазским) 2 (с абхазским) 2 (с абхазским, бирманским и пивхским)

Северокавказ- 3 2 3 3

ская

Табл. 4

Количество языков, верно классифицированных методом ир§та-Ь по разным матрицам расстояний для ветвей

Ветвь Общее число языков ир§та-Ь ир§та-Ь-1п щ^ша-Ь-в

Тюркская 5 5 5 5

Монгольская 4 4 4 4

Иранская 3 3 3 3

Германская 4 3 3 3

Романская 5 3 3 3

Славянская 4 3 3 3

дометрике. В целом любое из двух деревьев, построенных по псевдометрикам, было более точно реконструировано, чем дерево, построенное по метрике Хемминга.

3.2. Метод upgma, А-псевдометрика. В данном случае результаты по ш-и в-псевдометрикам вновь оказались лучше (в сравнении с обычной А-псевдомет-

А

из 5 уральских языков (отдельно стоял хантыйский язык вместе с армянским и грузинским). Вместе с алтайскими языками в одном поддереве оказались два северокавказских языка — агульский и лезгинский, ш- и в-псевдометрики данные

А

два из трех северокавказских языков (багвалинский язык оказался в одном поддереве с ассамским, а агульский и лезгинский с монгольскими языками).

Расстояние Робинсона Фоулдса между эталонным деревом и деревом, полу-А

63392. Для ш- и в-деревьев расстояние Робинсона-Фоулда равно 49; число одинаковых квартетов 68446 и 68797 соответственно. Таким образом, преобразованные шв

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

вые результаты.

Полученные деревья, построенные по методу ирцта с разными матрицами расстояний. свидетельствуют об эффективности применения псевдометрик. Деревья по ним получились более точными (см. табл. 3 и 4). что и подтвердили метрики на деревьях.

Abkhaz Burmese Nivkh Itelmen

I— Bagvalal |_r- Aghul Lezgi

_i- Mogholi

L- Mongolian Turkish |_i- Azerbaijani Bashkir

Turkmen _i— Buriat

I Kalmyk

I-Khanty

1— |-Hungary

Hi—Veps | r Finnish Estonian Assamese

I-English

Italy Galician Spanish Macedonian Romanian Portuguese Norwegian Icelandic German Polish ■Jj- Belarusan

Bulgarian Dari "Jj- Persian i- Tajiki Armenian

Georgian

С Koryak Chukot

Abkhaz Burmese Assamese Bagvalal Aghul Lezgi

_j- Armenian

| Georgian jj— Koryak |j- Itelmen Chukot I— Turkish I |j- Azerbaijani

- Bashkir

|_i- Tatar

L- Turkmen

_r- Hungary

| Khanty Veps Finnish Estonian Nivkh Mogholi Mongolian Buriat Kalmyk

I-English

— I-Romanian

M |-Portuguese

H |— Norwegian V Icelandic German

_|— Italy

|j- Galician Spanish

I-Polish

-Ij— Belarusan

|j- Bulgarian Macedonian

_I— Tajiki

|_r- Dari

Persian

Рис. 4. Филогенетическое дерево, построенное по методу nj с метрикой Хеммипга

Рис. 5. Филогенетическое дерево, построенное по методу nj с s -псевдометрикой Хеммипга

3.3. Метод гу, метрика Хемминга. В этом случае результаты с использованием метрики Хемминга (рис. 4) и т-псевдометрики были схожими, а дерево, построенное по в-матрнце (рис. 5), было наиболее точным, что подтвердило как сравнение по правильности классификации языковых семей и ветвей (табл. 5, 6), так и метрики па деревьях.

Стоит отметить, что в методе гу с преобразованной метрикой Хемминга по среднему все четыре славянских языка были объединены в одно поддерево. В двух других деревьях был «потерян» македонский язык. В дереве, построенном по в-псевдометрике, все три чукотско-камчатских языка также образовали поддерево, что было только в данном дереве среди всех 12 построенных.

Метрики на деревьях показали, что, как и раньше, т- и в-матрицы расстояний дают наиболее точные результаты. Расстояние Робинсона Фоулдса между эталонным и деревом с метрикой Хеммипга получилось равным 50, число оди-

т

соответственно. Для б-дерева расстояние Робинсона Фоулдса равняется 42 (абсолютно лучший результат по данной метрике среди всех 12 деревьев), число одинаковых кластеров 73253. Результаты двух метрик на деревьях для псевдометрик получились противоположными. Если по метрике Робинсона Фоулдса наилучшим деревом считается в-дерево, то то количеству одинаковых кластеров - т-дерево (правда, разница здесь очень мала).

3.4. Метод гу, А-псевдометрика. В данном случае дерево, построенное с применением А-псевдометрики (рис. 6), было одним из самых точных среди

Табл. 5

Количество языков, верно классифицированных методом 1у по разным матрицам расстояний для семей

Семья Общее число языков 1Ц 1Ц-1Г1 1Ц-в

Уральская 5 5 5 5

Алтайская 9 3 отдельные 3 отдельные 2 отдельные

группы группы группы

Индоевропей- 18 17 17 16

ская

Чукотско- 3 2 2 3

камчатская

Северокавказ- 3 3 3 3

ская

Табл. 6

Количество языков, верно классифицированных методом 1у по разным матрицам расстояний для ветвей

Ветвь Общее число языков 1Ц 1Ц-1Г1 1Ц-в

Тюркская 5 5 5 5

Монгольская 4 2 2 4

Иранская 3 3 3 3

Германская 4 3 3 3

Романская 5 3 4 (с английским) 3

Славянская 4 3 3 4

т

паковых квартетов с эталонным деревом немного лучше. Дерево, построенное по в-псевдометрике (рис. 7), было худшим (что подтвердили обе метрики па деревьях, а также классификация языков по семьям и ветвям (табл. 7,8)).

Расстояние Робинсона - Фоулдса между эталонным деревом и построенным с А-псевдометрпкой получилось равным 46, число одинаковых квартетов 76398, для т

единственный случай из всех рассмотренных, когда применение псевдометрики привело к худшему результату.

В заключение приведем данные (табл. 9), полученные при применении к псевдометрикам алгоритма метризации, описанного в [5]. Практически во всех случаях использование метрик вместо псевдометрнк приводит к ухудшению результатов.

Заключение

При использовании введенных т- и в-псевдометрик в трех из четырех случаях (методы ирцта, щ^та-Ь, гу) получались более точно реконструированные филогенетические деревья. Это подтвердили как содержательная лингвистическая классификация языков по семьям и ветвям, так и формальные метрики на деревьях. Лишь в методе Щ-Ъ использование в-псевдометрики привело к ухудшению результата.

По метрике Робинсона Фоулдса наилучшее дерево получается при использовании преобразованной по среднему метрики Хемминга для метода гу. Далее следуют

-i

AbKhaz

Georgian

Itelmen

Assamese

Bagvalal

Aghul

Lezgi

Turkmen

Tatar

Turkish

Azerbaijani

Bashkir

Mogholi

Mongolian

Buriat

Kalmyk

Khanty

H ungary

Veps

Finnish

Estonian

Armenian

English

Italy

Galician

Spanish

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Romanian

Portuguese

Norwegian

Icelandic

German

Macedonian

Bulgarian

Belarusan

Polish

Dari

Persian

Tajiki

Chukot

Nivkh

Burmese

Koryak

4

-e

ri

ri I—с

Abkhaz Burmese

Nivkh

Georgian

Itelmen

Armenian

Bagvalal

Aghul

Lezgi

Turkish

Azerbaijani

Bashkir

Tatar

Turkmen

Assamese

Khanty

Hungary

Estonian

Veps

Finnish Buriat Kalmyk Mogholi

Mongolian

Macedonian

English

Italy

Galician

Spanish

Norwegian

Portuguese

Icelandic

German

Romanian

Polish

Belarusan

Bulgarian

Dari

Persian

Tajiki

Koryak

Chukot

Рис. 6. Филогенетическое дерево, построенное по методу гу с Л-псевдометрикой

Рис. 7. Филогенетическое дерево, постро-Л

преобразованной по среднему

Табл. 7

Количество языков, верно классифицированных методом гу-Ь по разным матрицам расстояний для семей

Семья Общее число языков nj-L iij-L-m nj-L-s

Уральская 5 5 5 5

Алтайская 9 9 9 9 (с уральскими и ассамским)

Индоевропей- 18 17 17 16

ская (с грузинским)

Чукотско- 3 2 (с нивх- 2 (с нивх- 2

камчатская ским и бирманским) ским и бирманским)

Северокавказ- 3 3 3 3

ская

деревья, полученные методом п]-Ь (с А-псевдометрикой) и т-псевдометрикой расстояний, эти же деревья содержали наибольшее число одинаковых квартетов с квартетами из истинного дерева.

В целом при применении т- и 5-псевдометрик деревья получались более точными. Среднее значение расстояния Робинсона Фоулдса у метрики Хеммин-А

Табл. 8

Количество языков, верно классифицированных методом 1Ц-1 по разным матрицам расстояний для ветвей

Ветвь Общее число языков nj-L nj-L-m nj-L-s

Тюркская 5 5 5 5

Монгольская 4 4 4 4

Иранская 3 3 3 3

Германская 4 3 3 2 (с румынским)

Романская 5 3 3 4 (с норвежским)

Славянская 4 4 4 3

Табл. 9

Объединенные результаты по метрикам па деревьях

Метрика Расстояние Робипсопа Фоулдса Количество одинаковых кластеров

Вез метризации С метризацией Вез метризации С метризацией

upgma 53* 63713*

upgma-m 49 55 70514 60471

upgma-s 49 57 69506 66136

upgma-L 55 51 63392 63179

upgma-L-m 49 57 68446 64087

upgma-L-s 49 57 68797 62247

uj 50* 72943*

nj-m 48 60 73412 62635

nj-s 42 64 73253 60954

nj-L 46 54 76398 72945

nj-L-m 46 62 77803 51337

nj-L-s 50 62 70601 52874

* В этих случаях использовалась метрика Хоммыига, то ость метризация но требовалась.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

у то-псевдометрики эти показатели составляют 48 и 72544 соответственно, у s-псевдометрики 47.5 и 70539.

Можно заметить также, что во всех метриках использование метода nj является более эффективным, чем использование метода upgma.

Полученные результаты указывают, что имеет смысл производить поиск новых расстояний, а также модифицировать имеющиеся, для получения более точных филогенетических деревьев.

Работа выполнена при финансовой поддержке ФАО РФ (проект Х- 2.2.1.1/6944 «Развитие Российского научно-образовательного центра по лингвистике им. II.А. Бодуэна де Куртенэ»).

Summary

V.D. Solovyev, R.F. Fashutdinuv. Transformation of Metrics Used in Clusterization Methods for Building the Phylogenet.ic Language Trees.

As large typological databases appeared a few years ago. the problem of data mining (as clusterization of languages) arose. Usually pliylogenetic algorithms based on Hamming-distance are used for these purposes. But it was found out in cluster analysis that some other metrics give better results. In the paper two new metrics are proposed and it is shown on a great

number of linguistic examples that, pliylogenet.ic algorithms based on these metrics give better

results.

Key words: linguistic database, metrics, pliylogenet.ic algorithms.

Литература

1. Поляков B.H., Соловьев В.Д. Компьютерные модели и методы в типологии и компаративистике. Казань: Казап. гос. уп-т, 2006. 208 с.

2. Haspelmath М., Dryer M.S., Gil D., Comrie В. (erf«.). The World Atlas of Language Structures. Oxford: Oxford Univ. Press, 2005. 712 p.

3. Semple Ch., Steel M. Phylogenet.ics. Oxford: Oxford Univ. Press, 2003. 239 p.

4. Holder M., Lewis P.O. Phytogeny Estimation: Traditional and Bayesian Approaches // Nature Rev. Genet.. 2003. No 4. P. 275 284.

5. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Ип-т матем. СО РАН, 1999. 270 с.

6. Бурлак С.А., Старостин С.А. Введение в лингвистическую компаративистику. М.: Эдиториал УРСС, 2001. 272 с.

7. Pattengale N.D., Gottlieb E.J., Moret В.М.Е. Efficiently Computing the Robinson-Foulds Metric // J. Comput.. Biol. 2007. V. 14, No 6. P. 724 735.

8. Estabrook G.F., McM orris F.R., Meacham C.A. Comparison of Undirected Phylogenet.ic Trees Based on Subtrees of Four Evolutionary Units // System. Zool. 1985. V. 34, No 2. P. 193 200.

Поступила в редакцию 12.05.09

Соловьев Валерий Дмитриевич доктор физико-математических паук, профессор кафедры теоретической кибернетики Казанского государственного университета. E-mail: maki, solovyev Qmail. ru

Фасхутдинов Ренат Фархутдинович аспирант Института проблем информатики АН Республики Татарстан, г. Казань. E-mail: jvenaMîmail. ru

i Надоели баннеры? Вы всегда можете отключить рекламу.