Научная статья на тему 'Анализ методов поиска подобных документов'

Анализ методов поиска подобных документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
229
68
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Садретдинов Е.Р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ методов поиска подобных документов»

Международный научный журнал «ИННОВАЦИОННАЯ НАУКА»_ISSN 2410-6070_№ 4/2015

массовой долей жира 3,2 %. Кроме того, обогащенная молочная основа содержит ß-ситостерин (0,005 %), фосфолипиды (0,134 %), на 30 % меньшее содержание холестерина в сравнении с контрольным образцом (табл. 1), витамины Е, А и ß-каротин (0,345 мг/100 г, 0,7 мкг/100 г и 0,012 мг/100 г обогащенной молочной основы, соответственно).

Поэтому для производства молочных продуктов для детского питания, частично адаптированных по белковому и жирнокислотному составу к женскому молоку, целесообразно использовать обогащенную молочную основу, составленную из козьего молока обезжиренного, молока коровьего цельного (при соотношении 1 : 1 или 3 : 2) и кукурузного масла, полученной из проросших зерен (при 30 %-ной замене молочного жира растительным).

Список использованной литературы:

1. Кузнецов, В.В. Технология детских молочных продуктов: Справочник [Текст] / В.В. Кузнецов, Н.Н. Липатова. - Санкт - Петербург: ГИОРД, 2005. - 176 с.

2. Просеков, А.Ю. Технология молочных продуктов детского питания: Учебное пособие [Текст] / А.Ю. Просеков, С.Ю. Юрьева. - Кемерово: Кемеровский технологический институт пищевой промышленности, 2005. - 278 с.

3. Касьянов, Г.И. Технология продуктов детского питания [Текст] / Г.И. Касьянов. - М.: Академия, 2003. -240 с.

4. Медузов, В.С. Производство детских молочных продуктов [Текст] / В.С. Медузов, З.А. Бирюкова, Л.Н. Иванова. - М.: Легкая и пищевая промышленность, 1982. - 208 с.

5. Горбатова, К.К. Биохимия молока и молочных продуктов [Текст] / К.К. Горбатова. - 3-е издание, перераб. и доп. - СПб.: ГИОРД, 2001. - 320 с.

6. Дщух, Н.А. Науковi основи виробництва напою кисломолочного для дитячого харчування з подовженим термшом збер^ання [Текст] / Н.А. Дщух, С.В. Романченко // Наук. пращ ОНАХТ: Одеса. - 2012. - Вип. 42. - Т.2. - С. 251-259.

© С.В. Романченко, 2015

УДК 004

Е.Р.Садретдинов

Аспирант

Факультет Информационных Технологий Брянский Государственный Технический Университет г. Брянск, Российская Федерация

АНАЛИЗ МЕТОДОВ ПОИСКА ПОДОБНЫХ ДОКУМЕНТОВ

Аннотация

Быстрый поиск по подобию в больших объемах данных - актуальная задача для многих современных приложений, особенно это касается поиска в Интернете. На данный момент существует множество различных методов, позволяющих анализировать данные для дальнейшего нахождения запрашиваемого документа с той или иной степенью успешности и различной скоростью выполнения запроса. В данной статье проводится анализ одних из самых распространенных структур, применяемых для выполнения поиска данных.

Ключевые слова

семантическое, хеширование, информационный, поиск, данные, обучение, двоичный, код Проблема поиска подобия подразумевает под собой нахождение самого схожего документа среди большой коллекции всех данных. Корректная работа поисковых методов имеет большое значение для многих информационно-поисковых систем, таких как обнаружение схожих дубликатов, анализ плагиата, совместная фильтрация, кэширование и мультимедийный поиск, основанный на контенте. В последнее время со стремительным развитием интернета и увеличивающимся количеством данных, подлежащих обработке, возникла поисковая проблема, заключающаяся в том, как проводить быстрый поиск на сходство в больших

49

Международный научный журнал «ИННОВАЦИОННАЯ НАУКА»_ISSN 2410-6070_№ 4/2015

масштабах. Поэтому, к настоящему моменту уже было проведено обширное исследование быстрого поиска подобия документов ввиду его центральной важности для многих современных приложений в IT-индустрии

[1, с. 1].

Для малоразмерных пространств, поиск подобия можно эффективно реализовать с помощью предварительно построенного разбиения пространства на индексируемые структуры (например, KD-дерево) или индексированных структур разделения данных (например, R-дерево). Однако, когда размерность пространства высокая (скажем, >10), поиск подобия, результаты которого должны обладать высокой точностью, в этих случаях начинает уступать по производительности более простому методу, представляющему собой линейное сканирование всей коллекции документов. В информационно-поисковой области документы обычно представлены как векторы в пространстве, размерность которого может быть больше тысячи. Тем не менее, если полная точность результатов не является необходимой, поиск подобия в пространстве высокой размерности может быть значительно ускорен с помощью методов хеширования, работа которых целенаправленно предназначена для нахождения приближенных результатов. Одним из самых привлекательных способов ускорить поиск подобия является использование семантического хеширования, которое способно генерировать компактные двоичные коды для большого количества документов [1, с. 2].

Методы хеширования, предназначенные для быстрого поиска подобия, предоставляют возможности для встраивания векторов высокой размерности в малоразмерное пространство Хэмминга (множество всех 2l двоичных слов длины l), до тех пор, пока остается возможным сохранение семантического сходства структур данных. В отличие от стандартных методов снижения размерности, таких как Latent Semantic Indexing (LSI) и Locality-Preserving Indexing (LPI), хеширование карты признаков векторов в бинарные коды является ключом к очень быстрому поиску подобия. Один из возможных способов получения двоичных кодов для текстовых документов является бинаризация стоимости малоразмерных векторов (полученные методом сокращения размерности, как в LSI) через пороговую функцию. Улучшение над двоичным LSI, которое непосредственно оптимизирует расстояние Хэмминга на основе целевой функции, получило название хеширование Лапласа и было предложено относительно недавно.

Наиболее хорошо известный метод хеширования, который сохраняет схожую информацию - Locality-Sensitive Hashing (LSH). LSH использует случайные линейные прогнозы (со случайным пороговым значением) для отображения точек данных в евклидовом пространстве в схожих кодах. Теоретически, с ростом длины кода, расстояние Хэмминга между двумя кодами будет асимптотически приближать Евклидово пространство между их соответствующими точками данных. Однако, поскольку конструкция хэш-функции для LSH — это рассеянные данные, LSH может привести к весьма неэффективным (длинным) кодам на практике [2, с. 459].

Несколько недавно предложенных методов хеширования пытаются преодолеть эту проблему, найдя оптимальные функции хеш-данных через машинное обучение. Одно из предложений состояло в том, чтобы использовать метод ограниченной машины Больцмана (RBM) и показать, что данный метод способен генерировать компактные двоичные коды для ускорения поиска схожих документов. Исследователи также пытались применять метод ускорения к Similarity Sensitive Coding (SSC) и Forgiving Hashing (FgH) — сначало они обучали AdaBoost классификаторы со схожими парами элементов как положительных примеров (так и не схожих между собой пар элементов отрицательных примеров в SCC), а затем принимали выход всех (тупиковое решение) слабо обученных примеров на данном документе в качестве двоичного кода. AdaBoost (сокращение от Adaptive Boosting) — алгоритм усиления классификаторов, путем объединения их в комитет. Этот алгоритм может использоваться в сочетании с несколькими алгоритмами классификации для улучшения их эффективности и он менее подвержен переобучению, по сравнению с другими алгоритмами машинного обучения.

В других исследованиях методы stacked-RBM и boosting-SSC были указаны как более продуктивные решения, чем LSH при использовании на базе данных, содержащей несколько десятков миллионов изображений. Также был предложен новый метод, названный спектральным хешированием (SpH). Он продемонстрировал значительные улучшения по сравнению с LSH, stacked-RBM и boosting-SSC с точки зрения количества битов, требуемых, чтобы найти схожие элементы.

Можно сделать вывод, что уже многие существующие методы поиска данных могут генерировать корректные двоичные коды для документов, хранящихся в коллекции и уже известных системе обучения, однако, получение кодов для документов, которые еще не попали в коллекцию, остается очень сложной

Международный научный журнал «ИННОВАЦИОННАЯ НАУКА»_ISSN 2410-6070_№ 4/2015

задачей. Для ее решения был предложен алгоритм самообучаемого хеширования (Self-Taught Hashing), основным преимуществом которого и является двухэтапность в обучении на данных.

Алгоритм STH сочетает в себе следующее: стачала мы находим оптимальные l-битные двоичные коды для всех документов данной коллекции на основе обучения без учителя, и затем обучаем l классификаторов на основе обучения с учителем, чтобы угадывать l-битный код для любого документа вне коллекции [1, c. 3].

Общая вычислительная сложность процесса обучения примерно квадратичная от количества документов в коллекции и в то же время линейная от среднего размера документов в коллекции.

Авторы STH продемонстрировали эффективность предложенной методики на основе ряда многотысячных новостных коллекций. Каждая коллекция делилась на две выборки - обучающую (около 60% всех документов) и тестовую (около 40%). Эффективность метода оценивалась с помощью двух групп показателей. 1. Показатели быстродействия - время обучения и ответов на запросы. 2. Показатели качества ответов на запросы. Точность - отношение количества найденных релевантных документов к общему количеству найденных документов. Полнота - отношение количества найденных релевантных документов к общему количеству релевантных документов. 3. F- мера - объединение точности и полноты в одной величине. F-мера определяется как взвешенное среднее гармоническое точности и полноты. Вычисляются величины, обратные точности и полноте, ищется их взвешенная сумма и определяется её обратная величина [1, с. 4].

Существует некоторое сходство между первым шагом метода спектрального хеширования (SpH) и стадией обучения без учителя в STH, потому что оба относятся к методам спектрального разделения графа. Тем не менее, в них используются различные спектральные методы, и берутся разные способы решения энтропии. Более важно то, что, чтобы обработать запрашиваемый документ, SpH должен предположить, что данные распределены равномерно в гипер-прямоугольнике, ограниченность которого является очень высокой. Напротив, STH подход может работать с любым распределением данных, а значит, данный подход является более гибким. Эксперименты привели к выводу о его высоком быстродействии и качестве ответов на запросы на фоне основных конкурентов - SpH, LSI, хеширования Лапласа. В частности, STH примерно в 10 раз превосходит SpH по быстродействию.

Список использованной литературы:

1. Self-Taught Hashing for Fast Similarity Search / D. Zhang, J. Wang, D. Cai, and J. Lu // Scientific article. - 2010. - 8 p.

2. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions / A. Andoni, P. Indyk // In Proceedings of the 47th Annual IEEE Symposium on Foundations of Computer Science (FOCS). - 2006. - p. 459468.

© Е. Р. Садретдинов, 2015

УДК 625.85

А.В. Сачкова, С.А. Разинькова, М.А.Целовальников

К.т.н., ст.преподаватель; студент; студент, Белгородский государственный технологический университет имени В.Г.Шухова г.Белгород, Россия

ПРИЧИНЫ ОБРАЗОВАНИЯ КОЛЕИ НА ДОРОГАХ И СПОСОБЫ ЕЁ УСТРАНЕНИЯ.

Аннотация

В данной статье будут приведены наиболее распространённые причины образования колейности на дорогах и основные методы борьбы с ней.

Ключевые слова

Колейность, асфальтобетон, резиновая крошка. Самая высокая вероятность возникновения деформации дорожного покрытия в летний период, при высоких температурах воздуха, на асфальтобетонном покрытии происходит снижение теплоустойчивости

51

i Надоели баннеры? Вы всегда можете отключить рекламу.