Научная статья на тему 'ВЗАИМОСВЯЗЬ МЕЖДУ МАТЕМАТИЧЕСКИМИ АЛГОРИТМАМИ И БОЛЬШИМИ ДАННЫМИ'

ВЗАИМОСВЯЗЬ МЕЖДУ МАТЕМАТИЧЕСКИМИ АЛГОРИТМАМИ И БОЛЬШИМИ ДАННЫМИ Текст научной статьи по специальности «Математика»

CC BY
116
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
МАТЕМАТИЧЕСКИЕ АЛГОРИТМЫ / БОЛЬШИЕ ДАННЫЕ / МАШИННОЕ ОБУЧЕНИЕ / ВЫЧИСЛИТЕЛЬНЫЕ СПОСОБНОСТИ / КОМПЬЮТЕР

Аннотация научной статьи по математике, автор научной работы — Сюй Юань

«Большие данные» стали модным словом в последнее десятилетие как в науке, так и среди широкой публики. Ученые всех областей сталкиваются с этим понятием в численных содержаниях своих исследований. Цель статьи - показать важность математических алгоритмов в обработке больших данных. Автор представляем несколько реальных примеров математики, лежащей в основе анализа и обработки больших данных, подчеркивая важность конкретных областей математики в этих процессах. Автор стремится стимулировать математиков к работе над темами, связанными с большими данными, а также побудить промышленность и исследователей в области компьютерных наук наиболее глубже сотрудничать с математиками в этом направлении.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RELATIONSHIP BETWEEN MATHEMATICAL ALGORITHMS AND BIG DATA

"Big data" has become a buzzword in the last decade both in science and among the general public. Scientists in all fields are confronted with this concept in changing the content of their research. The purpose of the article is to show the importance of mathematical algorithms in big data processing. The author presents several real examples of mathematics underlying the analysis and processing of big data, emphasizing the importance of specific areas of mathematics in these processes. The author aims to encourage mathematicians to work on topics related to big data, as well as encourage industry and computer science researchers to collaborate with mathematicians in this direction in the most profound way.

Текст научной работы на тему «ВЗАИМОСВЯЗЬ МЕЖДУ МАТЕМАТИЧЕСКИМИ АЛГОРИТМАМИ И БОЛЬШИМИ ДАННЫМИ»

Взаимосвязь между математическими алгоритмами и большими данными

CS CS

о

CS

о ш m

X

<

m О X X

Сюй Юань

магистр, факультет вычислительной математики и кибернетики, Московский государственный университет имени М.В. Ломоносова, Stride1999@yandex.ru

«Большие данные» стали модным словом в последнее десятилетие как в науке, так и среди широкой публики. Ученые всех областей сталкиваются с этим понятием в численных содержаниях своих исследований. Цель статьи - показать важность математических алгоритмов в обработке больших данных. Автор представляем несколько реальных примеров математики, лежащей в основе анализа и обработки больших данных, подчеркивая важность конкретных областей математики в этих процессах. Автор стремится стимулировать математиков к работе над темами, связанными с большими данными, а также побудить промышленность и исследователей в области компьютерных наук наиболее глубже сотрудничать с математиками в этом направлении.

Ключевые слова: математические алгоритмы, большие данные, машинное обучение, вычислительные способности, компьютер.

За последние несколько десятилетий были созданы новые способы производства, хранения и анализа данных, кульминацией которых стало появление области науки о данных, которая объединяет вычислительные, алгоритмические, статистические и математические методы для экстраполяции знаний из больших данных. Наличие огромных объемов данных в машиночитаемых форматах стимулирует создание эффективных процедур для сбора, организации, визуализации и моделирования этих данных. Эти инфраструктуры, в свою очередь, служат платформами для развития искусственного интеллекта с прицелом на повышение надежности, скорости и прозрачности процессов создания знаний. Исследователи во всех дисциплинах видят новообретенную способность связывать и перекрестно ссылаться на данные из различных источников как повышение точности и прогностической силы научных результатов и помощь в определении будущих направлений исследований, что в конечном итоге обеспечивает новую отправную точку для эмпирических исследований [5].

Однако роль математики легко упустить из виду и не признавать в полной мере, потому что технологические достижения гораздо более заметны, чем математические, хотя последние часто оказывают большее влияние. Общепринято, что ускорение вычислительных способностей компьютеров за счет технического прогресса подчиняется закону Мура: удвоение скорости каждые восемнадцать месяцев. Однако на практике это гораздо меньше.

Качество поисковой системы во многом зависит от алгоритмов ранжирования, которые определяют, в каком порядке веб-страницы будут отображаться для пользователя. Это важно, потому что большинство из пользователей не выходят за пределы первой страницы результатов поиска. Google PageRank, лежащий в основе успеха Google, был первым и самым известным алгоритмом ранжирования. Революционная идея Google заключалась в том, что важность веб-страницы зависит не только от количества, но и от качества ссылок, ведущих на эту страницу.

Математически «Всемирная паутина» моделируется как графа со страницами в качестве узлов и гиперссылок в качестве направленных ребер, а затем решается большой набор уравнений, чтобы найти значения PageRank для каждого узла на графике. Сразу после того, как был введен PageRank, его быстрое вычисление стало проблемой, представляющей большой интерес, потому что матрица Google огромна, на данный момент она имеет сотни миллиардов строк и столбцов.

В начале этого века значительный прирост скорости был достигнут за счет сложных новых методов из линейной алгебры. Высокие затраты на разработку в промышленности побудили многих производителей заменить создание и тестирование физических прототипов виртуальным прототипированием, то есть тестированием с

использованием крупномасштабного моделирования обширных математических моделей, основанных на физических принципах. Конкретными примерами являются автомобильная промышленность и авиационная промышленность. К такому моделированию следует относиться с осторожностью, так как существует неопределенность результатов как из-за ограничений модели, так и из-за численной точности моделирования, что часто требует решения больших систем дифференциальных уравнений. С одной стороны, возникает неопределенность из-за подмены физической реальности математической моделью. Это включает как неопределенность, вызванную упрощениями моделирования (структурная неопределенность), так и неопределенность в знании параметров модели (неопределенность параметров). С другой стороны, учитывая сложную математическую модель, важно знать, насколько точно численные методы могут аппроксимировать указанные выходные данные этой модели [2].

Термин «количественная оценка неопределенности» часто используется как общий термин для научных исследований в этой области. Существует несколько математических подходов к изучению этой неопределенности. Одним из таких подходов является применение статистических методов, связанных с планированием компьютерных экспериментов, таких как выборка латинского гиперкуба и методы поверхности отклика. Другой подход заключается в представлении математической модели как стохастическое уравнение в частных производных и попытках решить его [4].

Высшая математика использует сочетание анализа и стохастики, такие как методы разложения возмущений для случайных полей, стохастические операторные разложения и полиномиальный хаос (винеровский хаос). Методы уменьшения порядка модели (MOR) были недавно введены и использованы для преодоления проблемы серьезного времени вычислений, необходимого для решения математических моделей реальных процессов. За последние четыре десятилетия были разработаны модели пониженного порядка, направленные на замену исходной числовой задачи большой размерности [1].

В зависимости от контекста существуют разные стратегии для создания редуцированной проблемы, например, методы на основе подпространств Крылова, методы согласования моментов, правильное ортогональное разложение, сбалансированное усечение, методы редуцированного базиса.

Основная математическая теория подтверждает, что так называемую операцию BIG можно рассматривать как абстракцию технологий, систем и инструментов управления и обработки данных, которая преобразует данные в большие данные. Поразительно, что понятие бесконечности является существенной характеристикой больших данных. Бесконечность больших данных основана на исчислении и теории множеств. С другой стороны, теория нечетких подмножеств идеально подходит для раскрытия еще одной интересной характеристики больших данных, а именно характеристик относительности. Вполне уместно утверждать, что эти две характеристики образуют два столпа в моделировании и установлении характеристик больших данных. Характеристика относительности больших данных была основана на нечеткой работе теории нечетких подмножеств [3].

Таким образом, математика, является универсальным инструментом, играя важную роль в технологическом и научном развитии на протяжении последних столетий и будет продолжать играть эту роль и в эпоху больших данных. Математические алгоритмы не только будут способствовать более быстрому и эффективному решению проблем анализа больших данных, но и расширят кругозор, обнажая вопросы, о которых человек никогда не задумывались и, возможно, даже не ожидал, что они будут разрешимы.

Литература

1. Сафронов К.Ю. Квантовые нейронные сети в машинном обучении: проблемы и перспективы / К.Ю. Сафронов // Информационные технологии. №5. 2022. -с. 250-262.

2. Хопкрофт Дж., Мотвани Р., Ульман Дж. Введение в теорию автоматов, языков и вычислений. - 2-е изд. -М.: Вильямс, 2021. - 528 с.

3. Веретенников А.В. BigData: анализ больших данных сегодня / А. В. Веретенников. - Текст : непосредственный // Молодой ученый. — 2021. — № 32 (166). — С. 9-12.

4. Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce // Хабра-хабр. URL: https://habrahabr.ru/company/dca/blog/267361/ (дата обращения: 08.08.2020).

5. Хайруллин, В. А. Инерция в социально-экономических системах: теоретико-эвристический анализ феномена / В. А. Хайруллин, С. В. Макар, Э. Н. Ямалова // Дискуссия. - 2021. - № 5(108). - С. 88-104. - DOI 10.46320/2077-7639-2021-5-108-88-104. - EDN ZNUDXK.

Relationship between mathematical algorithms and big data Xu Yuan

Lomonosov Moscow State University

JEL classification: C10, C50, C60, C61, C80, C87, C90_

"Big data" has become a buzzword in the last decade both in science and among the general public. Scientists in all fields are confronted with this concept in changing the content of their research. The purpose of the article is to show the importance of mathematical algorithms in big data processing. The author presents several real examples of mathematics underlying the analysis and processing of big data, emphasizing the importance of specific areas of mathematics in these processes. The author aims to encourage mathematicians to work on topics related to big data, as well as encourage industry and computer science researchers to collaborate with mathematicians in this direction in the most profound way. Keywords: mathematical algorithms, big data, machine learning, computing

ability, computer. References

1. Safronov K.Yu. Quantum neural networks in machine learning: problems

and prospects / K.Yu. Safronov // Information technologies. No. 5. 2022. - p. 250-262.

2. Hopcroft J., Motwani R., Ulman J. Introduction to the theory of automata,

languages and computations. - 2nd ed. - M.: Williams, 2021. - 528 p.

3. Veretennikov A.V. BigData: big data analysis today / A. V. Veretennikov. -

Text: direct // Young scientist. - 2021. - No. 32 (166). — P. 9-12.

4. Big Data from A to Z. Part 1: Principles of working with big data, the

MapReduce paradigm // Habrahabr. URL:

https://habrahabr.ru/company/dca/blog/267361/ (date of access: 08.08.2020).

5. Khairullin, V. A. Inertia in socio-economic systems: theoretical and heuristic

analysis of the phenomenon / V. A. Khairullin, S. V. Makar, E. N. Yamalova // Discussion. - 2021. - № 5(108). - Pp. 88-104. - DOI 10.46320/2077-7639-2021-5-108-88-104. - EDN ZNUDHK.

X X

о го А с.

X

го m

о

to о м м

i Надоели баннеры? Вы всегда можете отключить рекламу.