Об ассоциативных бинарных мерах близости документов: классификация и приложение к
кластеризации
Волкова Л. Л.
Московский институт электроники и математики Научно-исследовательского университета «Высшая школа экономики» 1Шуауо1коуа @ т1ет. ес1и. ги
Строганов Ю. В.
Московский государственный технический университет им. Н.Э. Баумана
икипип @ gm.aU. сот
Аннотация. Рассмотрены проблемы работы с мерами близости документов в компьютерной лингвистике. В связи с наличием большого количества мер существующая путаница в их названиях из разных источников сведена к минимуму. Проведено исследование ассоциативных бинарных мер близости применительно к задаче кластеризации, в том числе на основании экспериментальных данных на материале размеченного корпуса текстов с экспертными оценками по разным критериям. Даны рекомендации о применимости мер для задач машинной лингвистики.
Ключевые слова: машинная лингвистика, меры близости, кластеризация.
1. Введение
В связи с увеличением объёмов баз документов, в которых необходимо быстро ориентироваться, возникла задача кластеризации документов. При пополнении кластеров, как правило, требуется определение оригинальности добавляемого текста (поиск нечётких дубликатов) и принадлежности текста кластеру или классу, т.е. необходимо решить задачу поиска релевантных запросу документов. Задачи классификации и кластеризации решались задолго до появления этой проблемы в компьютерной лингвистике в таксономии, откуда перешли в географию, медицину, ботанику, геологию, социологию и другие науки. Ввиду наличия большого количества мер, пришедших из разных областей, присутствует путаница в их названиях в разных источниках, что и послужило импульсом к написанию данной работы.
При большом количестве и большом объёме кластеров и проверяемых документов возникла необходимость в автоматизации решения задач классификации, кластеризации и поиска нечётких дубликатов. С этой целью тексты переводят в многомерное пространство признаков, где каждый из них представляется вектором признаков (подробнее в разделе «Векторный подход»).
Об ассоциативных бинарных мерах близости документов: _классификация и приложение к кластеризации
В зависимости от предметной области и характера признаков объекта, рассматриваемый признак может быть описан разными шкалами (подробнее в разделе «Классификация шкал параметров»). Меры, позволяющие получить количественную оценку сходства двух векторов, называют бинарными мерами близости. На основе бинарных мер создаются многомерные (к примеру, Коха, Пирсона, Гудмана), являющиеся композицией бинарных мер. Меры близости применяются в широком спектре задач и разделяются на несколько классов (подробнее в разделе «Классификация мер близости»).
В данной статье рассмотрены ассоциативные меры близости и исследована их применимость в задачах компьютерной лингвистики. Проведена оценка применимости по материалам анализа и экспериментов на материале синтаксически размеченного корпуса с экспертной оценки близости документов по тематической и стилевой близости.
2. Векторный подход к представлению документов
В данном разделе затрагивается теоретическая сторона представления текста в удобной для количественных и качественных оценок форме. В подразделе «Многомерное пространство текста» представлены основы формирования вектора текста и объясняет возможность количественной оценки. В подразделе «Методы создания векторов текстов» представлены основные методы формирования вектора текста.
2.1. Многомерное пространство признаков текста
Векторная модель основана на гипотезе о статистической семантике (statistical semantics hypothesis): статистические зависимости употребления слов человеком могут быть использованы для нахождения заложенного в них смысла [Губин, 2005]. Отображение информации в многомерное пространство признаков, как указано в [Кушнир, Харламов, 2005], является плодотворной идеей при обработке данных, в том числе, при анализе текстов. В рамках векторного пространства текст описывается вектором в евклидовом пространстве. Осями координат для этого пространства являются термы, выделяемые из документа или из коллекции рассматриваемых документов, а координата по оси определяется по статистической информации о появлении терма в документе или в указанной выборке [Ландэ и др., 2009]. В основу смысловой близости текстов положено предположение, что похожие мысли при большом объёме текста выражаются одними и теми же словами. Истинность этого предположения гарантирует геометрическую близость векторов документов в евклидовом пространстве [Пескова, 2008; Маннинг и др., 2011]. Некоторые исследования указывают на то, что учёт синонимов не даёт ощутимых изменений [Антонова, Клышинский, 2011].
2.2. Методы создания векторов текстов
В зависимости от особенностей текстов выбираются следующие единицы анализа [Пивоварова, Ягунова, 2010; Моченов и др., 2006]:
1) лексема и/или словоформа либо n-грамма (единицами которых могут быть лексемы и словоформы);
2) терм - единица, функционирующая как слово (состоящее из одного или более орфографических слов) или соответствующая устойчивым конструкциям (в том числе и предикативным), вплоть до высказывания.
Для оценки классифицирующей силы термов используются классические частотные оценки: tf (Term Frequency), df (Document Frequency), tf-idf [Губин, 2005; Антонова, Клышинский, 2011; Зеленков, Сегалович, 2007], закон Ципфа (Zipfs law) [Борисюк, Швецов, 2009]. Основными методами отбора неслучайных последовательностей слов для формирования координат по статистическим данным являются MI, t-score, log-score [Saltón, Buckley, 1988; Большакова и др., 2011; Петровский, 2005; Пивоварова, Ягунова, 2010; Моченов и др., 2006].
Такими методами формируется пространство признаков, в котором решаются задачи компьютерной лингвистики, но размер этого пространства получается большим [Киселёв, 2011]. В работе [Загоруйко и др., 2005] выделяют несколько причин, по которым целесообразно уменьшать размерность признакового пространства, в частности, удаление «шумящих» (неинформативных) признаков повышает надёжность распознавания, а также сокращает объёмы вычислений. Для этой задачи используются алгоритмы Ad, Del, AdDel, GRAD, метод главных компонент и их модификации [Загоруйко и др., 2005; Леванов, 2010].
3. Меры близости и их классификация
Чтобы определять количественную оценку близости документов по выделенным параметрам, то есть значения мер, нужно определить шкалы, в которых будет вестись работа. На этих шкалах базируются
3.1. Шкалы параметров
Перед тем, как рассказать о существующих мерах, стоит рассмотреть типы признаков [Давыдов, Чураков, 1996].
1) Номинальные признаки (nominal data, иногда называемые признаками с неупорядоченными состояниями, классификационными признаками, качественными признаками) определяются рядом состояний, так что, хотя состояния могут быть перенумерованы, номер состояния не несет смысловой нагрузки. Обычно любой отдельный элемент может находиться только в одном из состояний данного признака. Частным случаем являются бинарные (или дихотомические) признаки, представляющие собой номинальные признаки только с двумя состояниями (присутствие или отсутствие, да или нет).
Об ассоциативных бинарных мерах близости документов: _классификация и приложение к кластеризации
2) Порядковые признаки (ordinal data, иногда называемые признаками с упорядоченными состояниями) определяются упорядоченным набором состояний. Порядок состояний важен, однако расстояния между состояниями не определены.
3) Численные признаки (numerical data, иногда называемые метрическими или количественными) представляют собой измеримые или исчислимые количества. Частным случаем являются дискретные данные (discrete data). Также выделяют непрерывные данные (continuous data, называемые измеряемые в интервальной шкале).
В данной работе используются численные признаки.
3.2. Классификация мер близости
На текущий момент существует большое количество классификаций, классы которых пересекаются между собой.
1) Классификация Сниита и Сокала [Сниит, Сокал 1973; Ким Дж.-О. и др., 1989; Шитиков и др., 2003].
a. Меры расстояния (меры несходства). Реализуют геометрический подход к задаче определения близости: координатная сетка с количеством координатных осей, совпадающим с количеством параметров вектора признаков документа.
Меры корреляции (угловые меры). Значение мер изменяются от -1 до +1, а 0 обозначает отсутствие связи. Не зависит от различий между переменными из-за рассеяния и сдвига.
b. Меры ассоциативности. Выражают различные отношения числа совпадающих признаков к общему их числу.
c. Вероятностные меры сходства. Существует функция, определяющая "полезность" вектора, и множество способов формирования этих функций. Данный тип мер близости объединяет два документа (кластера), высчитывает "полезность" полученного объекта, наиболее близкими считаются те вектора, чья "совместная полезность" менее всего отличается от "полезности" одного вектора.
2) Классификация Гайдышева [Шитиков и др., 2003].
a. Меры ассоциации. Меры ассоциативности объединены с мерами корреляции.
b. Меры расстояния. Повторяет классификацию Сниита-Сокала за вычетом вероятностных коэффициентов.
3) Классификация по происхождению формул [Акимов, 2014].
a. Меры корреляции.
b. Меры, основанные на евклидовой метрике.
c. Меры, основанные на манхэттенской мере.
d. Информационные статистики.
Согласно классификации Сниита-Сокала, меры расстояния акцентируют геометрический аспект близости, ассоциативные меры -
наличие или отсутствие признаков, меры же корреляции расширяют ассоциативные, учитывая распределение (поэтому в классификации Гайдышева эти два класса объединены в один). В данной статье рассматриваются ассоциативные меры близости в классификации Сниита-Сокала.
3.3. Бинарные ассоциативные меры
Введём следующие обозначения:
А, В - сравниваемые векторы (объекты), их длины одинаковы; m - длина вектора (значения отсутствующих параметров считаются нулевыми в результате нормировки);
A¡, B¡ - i-e элементы объектов А и В соответственно; w¡ - вес i-ro признака;
А, В - средние значения A¡ и B¡ соответственно; С, Н - число совпадений и число несовпадений знаков отклонений от соответствующих средних;
сг - среднеквадратичное отклонение А, от B¡; функция Цвектор) возвращает количество ненулевых параметров; функция и(вектор1, вектор2) возвращает количество общих для двух векторов ненулевых параметров;
функция К(вектор1, вектор2) возвращает количество общих нулевых параметров.
Для мер ассоциативности вектора рассматриваются как множества и строятся пересечения последних. Существует три наиболее распространённых обозначения при работе со множествами [Розенберг, 2012; Морозова, 2012; Миркин и др., 1970]. Исходными данными для мер ассоциативности служат результаты сравнения двух векторов, описываемых четырёхпольной таблицей или диаграммой Венна. Используем следующее обозначение четырёх групп признаков, к которому приведены все формулы в табл. 1:
а= L(A), b = L(B), с = U(A;B), d = R(A;B);
ti = max(c; b - c) + max(b - c; d) + max(c; b - c) + max(a - c; d);
t2 = max(b; a + d - c) + max(a; b + d - c).
Таблица 1. Меры близости
№ Формула Название
1 с d Мера Половинкина
2 с Жаккара [Губин, 2005; Большакова и др., 2011] Танимото Райского Роджерса и Танимото [Шитиков и др., 2003] Нордхагена [Шитиков и др., 2003] Игральной кости [SPSS, 2013]
a + b-c
Об ассоциативных бинарных мерах близости документов: _классификация и приложение к кластеризации
3 с а + Ь Чекановского-Сёренсена [Шитиков и др., 2003] Мера сходства Сёренсена [Сёмкин, 2009] Дайса Дейка [Шитиков и др., 2003] Гауэра и Лежандра (1) [31] Дайса-Брэя
4 с - min(a - с, b - с) с + min(a - с, b - с) Трансформированная Дайса [Шитиков и др., 2003]
5 с а + b - 2с Кульчинского (3) [SPSS, 2013; Шитиков и др., 2003]
6 а + b - 2с с Экмана [Шитиков и др., 2003]
7 с 2а + 2Ь-Зс Сокала-Сниита (1) [Everitt et al., 2011] Сокала-Сниита (3) [SPSS, 2013]
8 с a+b+d-c Рао-Расселла [SPSS, 2013, Шитиков и др., 2003]
9 c + d a+b+d-c Коэффициент встречаемости [Гайдышев, 2001] Коэффициент совстречаемости Показатель подобия Сокала и Миченера [Гайдышев, 2001] Простое согласование [SPSS, 2013]
10 c + d a + b - 2c Роджерса и Танимото (2) [SPSS, 2013]
11 c + d a + b - 2c Сокала-Сниита (4) [SPSS, 2013]
12 2(c + d) 2(c + d) + a + b - 2c Сокала-Сниита (2) [SPSS, 2013] Gower and Legendre (2) [Everitt et al., 2011]
13 a + b - xc a + b-c Процент несогласия [Шитиков и др., 2003]
14 a + b-c a + b + c Стугрена-Радулеску [Шмидт, 1984]
15 2c Маунтфорда [Шитиков и др., 2003] Маунтсена [Шитиков и др., 2003]
a(a - c)(b - c) - (a - c)c - (b - c)c
16 c-d c + d Хаманна [SPSS, 2013]
17 ti-t2 2(a + b + d - c) -12 X [SPSS, 2013]
18 tj —12 2(a + b + d-c)2 Андерберга [SPSS, 2013]
19 F Vab Охаи[Розенберг, 2012] Очиаи [SPSS, 2013; Сёмкин, 2009]
20 a + b - 2c 2(a - c)(b - c) Кульчинского (1) [Шитиков и др., 2003]
21 с(а + Ь) 2аЪ Кульчинского (2) [Шитиков и др., 2003]
22 с с + тах(а - с, b - с) Симпсона [Азовский, 2014]
23 2с .с с. , , u , = тах( .,) a + b-la-bl ab Шимкевича-Симпсона [Белов, 2007] Гудолла [Goodall, 1966] Коэффициент перекрытия Квазисходства Симпсона [Сёмкин, 2009]
24 2с . .с с. -= min(-, —) a+b+la-bl a b Брауна-Бланке [Сёмкин, 2009]
25 cd ^/ab(a + d - c)(b + d - c) Сокала-Сниита (5) [SPSS, 2013]
26 4cd - yj(a - c)(b - c) •v/cd+^a-cXb-c) YABi [?]
27 c + Vcd a + b-c + Vcd Барони-Урбани [Азовский, 2014] Бюссе [Азовский, 2014]
28 4c a + b + xc Андреева [Андрейчиков, Андрейчикова, 2004]
29 a + b - 2c+1 a - b 1 a+b+la-bl Юрцева [Сёмкин, 2007]
Вектора, шкалы и меры - эти три понятия подвели нас к применению описанного аппарата в экспериментах по сравнению объектов. Применение различных мер близости к парам документов или кластеров (классов) позволит на практике наблюдать их характер и определить их качество для тех или иных задач компьютерной лингвистики.
4. Эксперименты
Для сравнения документов в качестве признаков были взяты термы -начальные формы слов, т.е. результаты морфологического и синтаксического анализа. В данном исследовании использован синтаксически размеченный корпус СинТагРус, созданный учёными из ИППИ РАН [Богуславский и др., 2009; №уге ег а1., 2008]. Для части корпуса была проведена экспертная оценка сходства документов по двум критериям: тематическое сходство и стилистическое сходство.
При выполнении операции сравнения два вектора документов переносились в пространство с большей размерностью, иными словами, дополнялись отсутствующими друг в друге признаками, и значение последних полагалось равным нулю. Дополнение размерности привело к тому, что при сравнении двух документов или кластеров не существует параметров, которые бы не принадлежали ни одному из сравниваемых векторов, то есть параметр (1 оказался равным нулю. По этой причине ряд мер свёлся, как указано в табл. 2, к другим мерам или константам, а также
Об ассоциативных бинарных мерах близости документов:
_классификация и приложение к кластеризации
это привело к делению на ноль в мере Половинкина. Мера же Шимкевича-Симпсона исходно выдаёт идентичные мере Симпсона результаты.
Таблица 2. А меры-то схлопываются!
Эквивалентная мера Заменяемые меры
-1 ТОВ;
1 Хаманна
0 Сокала-Сниита (5)
Жаккара Рао-Расселла, Сокала и Миченера, Барони-Урбани
Чекановского-Сёренсена Сокал-Сниит (2), Трансформированная Дайса
Купьчинский (3) Сокал-Сниит (4)
Симпсон Шимкевич-Симпсон
Сокал-Сниит (1) Роджерс и Танимото (2)
Для проверки работы мер близости была проведена серия экспериментов, результатом которой стали таблицы 3 и 4, содержащие оценки мер сходства документов. В столбцах приведены экспертные оценки сравниваемых текстов: 0.1, 0.3, 0.5, 0.7, 0.9 и 1*, полученная при сравнении идентичных текстов. В зависимости от оценки сравнения можно судить о близости текстов. Для применения меры при сравнении пары текстов по тематическому или стилевому сходству желательно, чтобы результаты оценки мерами совпадали с экспертной оценкой, учитывая тип шкалы и характер поведения меры (возрастающий или убывающий на интервале), т.е. должна просматриваться закономерность в оценках.
Таблица 3. Значения мер при сравнении документов по тематическому сходству
Мера од 0,3 0,5 0,7 1*
Жаккар 0,114 0,118 0,130 0,157 1
Чекановский-Сёренсен 0,206 0,210 0,227 0,272 1
Экман 7,780 7,598 7,464 5,447 0
Сокал-Сниит (1) 0,061 0,062 0,069 0,087 1
Стугрен-Радупеску 0,813 0,809 0,798 0,762 0,33
Маунтфорд 1,383 1,036 1,266 1,860 0
X 0,613 0,657 0,558 0,595 0
Андерберг 30,094 26,837 13,147 28,240 0
Охай 0,223 0,221 0,244 0,277 1
Кульчинский (1) 3,459 2,639 2,475 3,055 0
Купьчинский (2) 0,241 0,231 0,267 0,280 1
Кульчинский (3) 0,130 0,133 0,150 0,187 0
Симпсон 0,319 0,285 0,359 0,323 1
Браун-Бланке 0,163 0,147 0,173 0,237 1
Андреев 0,341 0,348 0,365 0,427 1
Юрцев 0,837 0,823 0,827 0,763 0
Новые информационные технологии в автоматизированных системах 2014
Таблица 4. Значения мер при сравнении документов по стилю
Мера 0,3 0,5 0,7 0,9
Жаккар 0,109 0,106 0,130 0,125
Чекановский-Сёренсен 0,196 0,193 0,230 0,216
Экман 8,399 8,538 6,600 5,073
Сокал-Сниит (1) 0,058 0,056 0,070 0,068
Стугрен-Радулеску 0,821 0,825 0,790 0,655
Маунтфорд 0,955 1,114 1,493 1,399
X 0,645 0,569 0,637 0,502
Андерберг 23,290 16,050 30,596 20,140
Охай 0,210 0,219 0,240 0,223
Купьчинский (1) 2,639 2,883 3,183 2,349
Купьчинский (2) 0,227 0,245 0,250 0,232
Купьчинский (3) 0,123 0,120 0,150 0,148
Симпсон 0,297 0,350 0,297 0,279
Браун-Бланке 0,156 0,140 0,200 0,182
Андреев 0,327 0,323 0,380 0,344
Юрцев 0,844 0,860 0,800 0,665
Выделим две группы мер.
1) Слабодисперсные и смешанные. Меры этой группы практически не различают сильно и слабо схожие тексты.
2) Сильнодисперсные. Наглядно различают степени схожести текстов.
В случае оценки тематического сходства сильнодисперсная группа будет наполнена следующим образом: Экмана, Стугрена-Радулеску, Юрцева (убывающие), Андреева, Чекановского-Сёренсена, Жаккара, Кульчинского (3), Сокала-Сниита (1) и Охай (возрастающие).
При оценке по стилю граница между двумя группами несколько размыта, в особенности с учётом нерезкого отличия между группами с оценкой 0.7 и 0.9. Однако к сильнодисперсным отнесём меры Стугрена-Радулеску, Маунтфорда, Кульчинского (1), Кульчинского (2), Кульчинского (3), а также X и Охай.
5. Заключение
Проведена классификация ассоциативных мер близости документов, выявлена их пригодность к использованию в задачах компьютерной лингвистики. Качество меры для конкретной задачи является вопросом для дальнейшего подробного изучения, поскольку при разных критериях экспертной оценки данные варьируются. Для углублённого изучения применимости мер полезным представляется провести сравнение на материале экспертных оценок по другим критериям: эмоциональная окраска текстов, жанровая принадлежность и пр.
Стоит отметить, что многие ассоциативные меры при сравнении двух документов или кластеров требуют учёта того факта, что ассоциативные меры основываются на словарном запасе автора текста, что при
Об ассоциативных бинарных мерах близости документов:
_классификация и приложение к кластеризации
достаточно большом объёме текста оказывается не слишком важным критерием (хотя в задаче сравнения словарей данные меры были бы удобны), многие меры учитывают некий глобальный запас слов, высчитывая, если можно так сказать, своеобразный авторский процент для каждого документа от глобального запаса, и на основе этого процента выносится суждение о похожести, поэтому объём словарного запаса следует учитывать при сравнении документов и кластеров.
Список литературы
[Азовский, 2014] Азовский А.И. Структура сообществ: введение в методы анализа. URL: http://soizoology.narf.ru/ (дата обращения: 20.01.2014).
[Акимов, 2014] Акимов В.П. Курс лекций по математике. URL: http://www.limm.mgimo.ru/LIMM/math/polit.html (дата обращения: 10.02.2014).
[Андрейчиков, Андрейчикова, 2004] Андрейчиков A.B., Андрейчикова О.Н. Анализ, синтез, планирование решений в экономике. М.: "Финансы и статистика-2000", 2004.
[Антонова, Клышинский, 2011] Антонова А.Ю., Клышинский Э.С. Об использовании мер сходства при анализе документации. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL'2011): Труды ХШ Всеросс. науч. конф. (Воронеж, 19-22 октября 2011). Воронеж: ВГУ, 2011. С. 246-250.
[Белов, 2007] Белов Д.А. Показатели оценки биологического разнообразия растительноядных членистоногих на урбанизированных территориях и методы их определения. URL: http://belovy-da-i-nk.narod.ru/publik/2010/2010-5.htm (дата обращения: 01.04.2014).
[Богуславский и др., 2009] Богуславский И.М., Иомдин Л.Л., Тимошенко С.П., Фролова Т.И. Development of the Russian Tagged Corpus with Lexical and Functional Annotation // Metalanguage and Encoding Scheme Design for Digital Lexicography. MONDILEX Third Open Workshop. Proceedings. Bratislava, Slovakia. April 15-16, 2009. Bratislava, 2009, pp. 83-90.
[Большакова и др., 2011] Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков A.A., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. Учебное пособие. М.: МИЭМ, 2011.
[Борисюк, Швецов, 2009] Борисюк Ф.В., Швецов В.И. Новый метод поиска на основе иерархической кластеризации по областям текстовых документов. // Вестник Нижегородского университета им. Н.И.Лобачевского, 2009, № 4. Н.Новгород. Изд-во ННГУ. С. 165-171.
[Гайдышев, 2001] Гайдышев И. Анализ и обработка данных: специальный справочник. СПб: Питер, 2001.
[Губин, 2005] Губин М.В. Модели и методы представления текстового документа в системах информационного поиска: Диссертация к.ф.-м.н. СПб.: 2005. 95 с.
[Давыдов, Чураков, 1996] Давыдов A.A., Чураков А.Н. Измерение идентичности социальных систем // Социологические исследования. 1996. - № 11. - С. 85-90.
[Загоруйко и др., 2005] Загоруйко Н.Г., Кутненко O.A., Борисова И.А. Выбор информативного подпространства признаков (Алгоритм GRAD) // Математические
методы распознавания образов. Доклады 12-ой Всероссийской конференции, Москва, 2005. - М., 2005. - С. 106-109.
[Загоруйко и др., 2009] Загоруйко Н.Г., Борисова И.А., Дюбанов В.В., Кутненко O.A. Меры сходства, компактности, информативности и однородности обучающей выборки. // Труды Всероссийской Конференции "Знания-Онтологии-Теории" (30HT-09), Новосибирск, 2009, том I. Новосибирск: Институт математики им. C.JI. Соболева. С. 93-102.
[Зеленков, Сегалович, 2007] Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечётких дубликатов для Web-документов. // Сборник трудов Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции-2007", том 1. Переславль-Залесский: Университет города Переславль, 2007. С. 166-174.
[Ким Дж.-0. и др., 1989] Ким Дж.-О., Мькотлер Ч.У., Клекка У.Р., Олдендерфер М.С., Блэшфилд Р.К. Факторный, дискриминантный и кластерный анализ. Под редакцией И.С. Енюкова. М.: Финансы и статистика, 1989.
[Киселёв, 2011] Киселёв В.В. Иерархическая классификация многомерных данных на основе эквивалентных мер близости // Университетские чтения - 2011. Материалы научно-методических чтений ПГЛУ. Часть ХУП. Пятигорск: ПГЛУ, 2011. С. 25-28.
[Кушнир, Харламов, 2005] Кушнир Д.А., Харламов A.A. Распознавание речи в базисе многомерного сигнального пространства. // Информационные технологии, № 5, 2005. М.: Новые технологии, 2005. С. 30-36.
[Ландэ и др., 2009] Ландэ Д.В., Снарски A.A., Безсуднов И.В. Интернетика: навигация в сложных сетях. Модели и алгоритмы. М.: Книжный дом "ЛИБРОКОМ", 2009.
[Леванов, 2010] Леванов Д.А. Алгоритм и параллельная программа выбора информативных признаков: Выпускная работа бакалавра. Новосибирск, 2010. 26 с.
[Маннинг и др., 2011] Маннинг К.Д., Рагхаван П., ИЬотце X. Введение в информационный поиск. М.: ООО "И.Д. Вильяме", 2011.
[Миркин, Черный, 1970] Миркин Б.Г., Черный Л.Б. Об измерении близости между различными разбиениями конечного множества объектов. // Автоматика и телемеханика, 1970, № 5. М.: Наука, 1970. С. 120-127.
[Морозова, 2012] Морозова Ю.И. Построение семантических векторных пространств различных предметных областей. // Третья школа молодых учёных ИЛИ РАН. Сборник докладов. М.: ИЛИ РАН, 2012. С. 4-11.
[Моченов и др., 2006] Моченов C.B., Бледнов A.M., Луговских Ю.А. Векторная модель представления текстовой информации // Современные информационные технологии и письменное наследие от древних рукописей к электронным текстам. Материалы междунар науч конф. (Ижевск, 13-17 июля 2006 г) / отв. ред. В.А. Баранов. - Ижевск: Изд-во ИжГТУ, 2006. - С. 136-145.
[Пескова, 2008] Пескова О.В. Разработка метода автоматического формирования рубрикатора полнотекстовых документов: Автореф. дис. к.т.н. Москва, 2008.16 с.
[Петровский, 2005] Петровский А.Б. Новые классы метрических пространств измеримых множеств и мультимножеств в кластерном анализе. // Методы поддержки принятия решений. Труды Института системного анализа РАН. Т. 12. / Под ред. С.В.Емельянова, А.Б.Петровского. М.: Едиториал УРСС, 2005. С. 54-67.
Об ассоциативных бинарных мерах близости документов:
_классификация и приложение к кластеризации
[Пивоварова, Ягунова, 2010] Пивоварова JI.M., Ягунова Е.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстов // Материалы Симпозиума "Терминология и знание" (Москва, 21-22 мая 2010 г.). М.: Изд-во РГГУ, 2010.
[Розенберг, 2012] Розенберг Г.С. Поль Жаккар и сходство экологических объектов. // Самарская Лука: проблемы региональной и глобальной экологии, 2012, Т.21, № 1. Самара: Изд-во Самарского НЦ РАН, 2012. С. 190-202.
[Сёмкин, 2007] Сёмкин Б.И. Количественные показатели для оценки односторонних флористических связей, предложенных Б.А. Юрцевым // Бот. ж. - 2007. - Т. 92. № 4. -С. 114-127.
[Сёмкин, 2009] Сёмкин Б.И. О связи между средними значениями двух мер включения и мерами сходства. // Бюллетень Ботанического сада-института ДВО РАН, 2009. - Вып. 3.-С. 91-101.
[Шитиков и др., 2003] Шитиков В.К., Розенберг Г.С., Зинченко Т.Д. Количественная гидроэкология: методы системной идентификации. Тольятти: ИЭВБ РАН, 2003.
[Шмидт, 1984] Шмидт В.М. Математические методы в ботанике. Учеб. пособие. Л.: Изд-во Ленингр. ун-та, 1984.
[Bray, Curtis, 1957] Bray, J. R., Curtis J.T. An ordination of upland forest communities of southern Wisconsin. Ecological Monographs (27), 1957, pp. 325-349.
[Everitt et al., 2011] Everitt B.S., Landau S., Leese M., Stahl D. Cluster Analysis. 5th Edition. Chichester: Wiley, 2011.
[Goodall, 1966] Goodall D.W. A new similarity index based on probability. Biometrics, 22(4). Chichester: Wiley, 1966, pp. 882-907.
[IBM, 2014] IBM SPSS Statistics 21.0.0. URL: http://www-01.ibm.com/support/knowledgecenter/SSLVMB_21.0.0/com.ibm.spss.statistics.help/cmd_pro ximities_sim_measure_binary.htm?lang=ru (дата обращения: 10.02.2014).
[Nivre et al., 2008] Joakim Nivre, Igor M. Boguslavsky, Leonid L. Iomdin. Parsing the SynTagRus treebank of russian. // Proceedings of the 22nd International Conference on Computational Linguistics (COLING 2008), 18-22 August 2008, Manchester, UK. 2008, pp. 641-648.
[Saltón, Buckley, 1988] Saltón G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 1988, pp. 513—523.
[Sneath, Sokal, 1973] Sneath P.H.A., Sokal R.R. Numerical Taxonomy. San Francisco: W.H. Freeman, 1973.
[SPSS, 2013] Иллюстрированный самоучитель no SPSS. URL: http://www.hr-portal.ru/spss/Glaval5/Index5.php (дата обращения: 20.12.2013).