Научная статья на тему 'КАК ПРОВОДИТЬ АНАЛИЗ ДАННЫХ ПРИ ПОМОЩИ PYTHON?'

КАК ПРОВОДИТЬ АНАЛИЗ ДАННЫХ ПРИ ПОМОЩИ PYTHON? Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
659
106
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
PYTHON / PANDAS / АНАЛИЗ ДАННЫХ / ИНДЕКСАЦИЯ / ВЫБОРКА / ПРОПУЩЕННЫЕ ДАННЫЕ / ДУБЛИКАТЫ / ГРУППИРОВКА / АГРЕГИРОВАНИЕ / ВРЕМЕННЫЕ ДАННЫЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Васильченко А.М.

В данной статье обсуждаются различные аспекты работы с библиотекой Pandas для анализа данных в Python. Были рассмотрены различные способы индексации и выборки данных из фреймов данных и серий, включая индексирование по меткам и позициям, логическое индексирование и индексирование с использованием срезов. Также были обсуждены важные аспекты работы с пропущенными данными и дубликатами, включая методы удаления, замены и заполнения пропущенных значений и удаления дубликатов. Другие темы, затронутые в статье, включали группировку и агрегирование данных, преобразование данных с помощью различных функций, а также работу с временными данными и датами. В целом, данная статья представляет собой полезный ресурс для тех, кто работает с Pandas и хочет улучшить свои навыки работы с данными. Он содержит множество советов и примеров, которые могут помочь вам стать более эффективным аналитиком данных и справиться с различными задачами обработки данных в Python.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Васильченко А.М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HOW TO ANALYZE DATA USING PYTHON?

This article discusses various aspects of working with the Pandas library for data analysis in Python. Different ways of indexing and selecting data from data frames and series were considered, including indexing by labels and positions, boolean indexing, and indexing using slices. Important aspects of working with missing data and duplicates were also discussed, including methods for removing, replacing, and filling missing values, and removing duplicates. Other topics covered in the article included grouping and aggregating data, transforming data using various functions, and working with time data and dates. Overall, this article is a useful resource for those working with Pandas and looking to improve their data manipulation skills. It contains many tips and examples that can help you become a more effective data analyst and tackle various data processing tasks in Python.

Текст научной работы на тему «КАК ПРОВОДИТЬ АНАЛИЗ ДАННЫХ ПРИ ПОМОЩИ PYTHON?»

Как проводить анализ данных при помощи Python?

Васильченко Александр Михайлович

аналитик данных, Basils1991@gmail.com

В данной статье обсуждаются различные аспекты работы с библиотекой Pandas для анализа данных в Python. Были рассмотрены различные способы индексации и выборки данных из фреймов данных и серий, включая индексирование по меткам и позициям, логическое индексирование и индексирование с использованием срезов. Также были обсуждены важные аспекты работы с пропущенными данными и дубликатами, включая методы удаления, замены и заполнения пропущенных значений и удаления дубликатов. Другие темы, затронутые в статье, включали группировку и агрегирование данных, преобразование данных с помощью различных функций, а также работу с временными данными и датами. В целом, данная статья представляет собой полезный ресурс для тех, кто работает с Pandas и хочет улучшить свои навыки работы с данными. Он содержит множество советов и примеров, которые могут помочь вам стать более эффективным аналитиком данных и справиться с различными задачами обработки данных в Python.

кЛючевые слова: Python, Pandas, анализ данных, индексация, выборка, пропущенные данные, дубликаты, группировка, агрегирование, временные данные.

Введение

Анализ данных - это процесс изучения и интерпретации информации, содержащейся в наборах данных, с целью извлечения знаний, представления выводов и принятия решений. Он включает в себя использование различных статистических методов, алгоритмов машинного обучения и компьютерных технологий для исследования, обработки и организации больших объемов данных.

Анализ данных имеет несколько этапов, включая сбор данных, их обработку и очистку, анализ и интерпретацию результатов, а также представление полученной информации в понятном виде. Для достижения этих целей могут использоваться различные методы, такие как дескриптивная статистика, корреляционный анализ, регрессионный анализ, кластерный анализ, классификационные алгоритмы и многое другое.

Применение анализа данных широко распространено в различных областях, включая бизнес, финансы, науку, медицину, социологию и технические науки. Он позволяет принимать обоснованные решения на основе фактов и данных, а также предсказывать будущие тенденции и результаты. Кроме того, анализ данных может помочь выявить проблемы и недостатки в бизнес-процессах и принять меры по их устранению.

Анализ данных при помощи языка программирования Python является одним из самых популярных и эффективных способов обработки больших объемов информации. Python предоставляет широкий набор инструментов и библиотек для работы с данными, включая NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn и другие [2].

Один из первых шагов в анализе данных в Python - это импорт библиотеки Pandas, которая предоставляет возможности для чтения, обработки и анализа данных. Для чтения данных из файлов используется функция read_csv() из Pandas, которая позволяет читать данные из CSV-файлов и других форматов. Далее данные могут быть обработаны, очищены и подготовлены для дальнейшего анализа.

NumPy является еще одной важной библиотекой, используемой в анализе данных в Python. Она предоставляет функции для работы с массивами и матрицами, что делает ее полезной для вычислений и математических операций, таких как суммирование, умножение, вычитание и т.д. Scikit-learn - это библиотека машинного обучения, которая предоставляет инструменты для обучения моделей, классификации, кластеризации и других задач машинного обучения.

Matplotlib и Seaborn - это библиотеки визуализации данных, которые позволяют создавать графики, диаграммы и другие визуализации для отображения данных в понятном виде. Они позволяют создавать графические представления данных, такие как диаграммы рассеяния, линейные графики, гистограммы и другие [3].

Matplotlib

При проведении анализа данных, возможность осуществить быстрый просмотр распределения оказывается весьма ценной. Например, в случае необходимости оценить распределение топ 100 пользователей с максимальным числом подписчиков, обычно для этой цели достаточно использовать библиотеку Matplotlib.

Пример визуализации в Matplotlib:

X X

о

го А

с.

X

го m

о

2 О M

со

СО CS

0

CS

01

О Ш

m

X

<

m О X X

import matplotlib.pyplot as pit

top.followers = new_profUe.sort_values(by='followers', axis=0, ascending=False)1:1

fig = pit.figured

plt.bar(top_foUowers.user_name, top_followers.followers)

35000

данные, строить предсказательные модели и визуализировать результаты в удобном и понятном виде. В сочетании с другими технологиями, такими как машинное обучение и искусственный интеллект, Python становится незаменимым инструментом для решения сложных задач в различных областях, включая бизнес, науку, медицину и другие.

Сбор данных

Сбор данных - это один из первых и важных этапов процесса анализа данных. Для того чтобы провести анализ данных при помощи Python, необходимо иметь организованные данные в матрицу образцов и функций:

30000

25000 -

20000-

15000-

10000-

5000 -

График 1 - Результат визуализации в Matplotlib Seaborn

Множество пользователей предпочитает использовать библиотеку seaborn для создания широко распространенных графических представлений, таких как столбчатые и прямоугольные диаграммы, расчетные графики, гистограммы и другие. Это обусловлено не только тем, что создание таких графиков требует меньше кода, но и их визуальной привлекательностью. Из приведенного выше примера видно, что цвета, используемые в seaborn, более эстетически приятны, чем цвета по умолчанию в библиотеке Matplotlib. Пример визуализации в Seaborn:

sns.set(style="darkg rid") titanic = sns.load_dataset("titanic") ax = sns.countplot(x="class", data=titanic) 500

400

300

200

100

feature 0 feature 1 feature n

sample 0 x x x

sample 1 x x x

sample n x x x

При сборе данных важно понимать, какие функции необходимы к изучению, и какой нужен тип данных (рис. 1). Функции могут быть непрерывными или категориальными.

Непрерывные функции имеют измеримую разницу между возможными значениями объектов. Значения функций обычно являются подмножеством всех действительных чисел. Примерами непрерывных функций являются количество, время, цена и температура.

Категориальные функции в свою очередь, имеют определенное количество дискретных возможных значений признаков. Эти значения могут иметь порядок, а могут и не иметь. Если они имеют естественный порядок, то их называют порядковыми категориальными признаками. В противном случае, если нет внутреннего упорядочения, они называются номинальными категориальными объектами. Примерами номинальных категориальных функций могут быть пол, цвет, фильмы, а порядковыми - малый-средний-крупный; 1-10 лет, 11-20 лет, 30-40 лет; счастливый, нейтральный, грустный [4].

Numérica data or quantitative data

* numercal vdues

Types of data

Discrete dato

t you cm Cixjnl it, men к s císcete

m

Categórica data of data

* categories / \

Nomhal data

I yúu caí bend it. menilexmna

Geuer Cooj BfПол

О t^ae ^"Bd

Osr»i

Ordha dala

i yojccn<cncacrde< i lien itso'dna

О Away* SÍ JИЛ-Q Samelimes

О

O1*™-

Third

График 2 - Результат визуализации в Seaborn

В целом, анализ данных при помощи Python является мощным и эффективным инструментом для обработки и анализа больших объемов информации. Благодаря широкому набору инструментов и библиотек, Python позволяет анализировать

Рисунок 1 - Типы данных

После того, как пришло понимание того, какие функции нужны и какой тип данных подходит, можно начать сбор данных. Данные могут быть собраны из различных источников, таких как базы данных, текстовые файлы, веб-страницы и т.д. В Python есть множество библиотек для сбора данных, таких как Beautiful Soup для парсинга HTML-страниц, Requests для работы с API и Pandas для импорта данных из файлов разных форматов.

Важно учитывать, что сбор данных - это не простой процесс и требует внимательности и точности. Некорректно собранные данные могут привести к неверным выводам и искажению результатов анализа данных. Поэтому необходимо

уделить достаточно времени и внимания этому этапу анализа данных, чтобы получить точные и надежные результаты.

Загрузка данных

Загрузка данных является одним из наиболее важных шагов в процессе анализа данных. После сбора информации необходимо научиться эффективно ее обрабатывать и манипулировать, чтобы извлекать максимальную пользу из полученных данных. В этом процессе поможет библиотека Pandas.

Pandas - это высокопроизводительная библиотека анализа данных для языка программирования Python. Она активно разрабатывается и является одной из наиболее важных библиотек для работы с данными. Pandas построена поверх библиотеки NumPy, что обеспечивает ее высокую производительность и эффективность.

Главными структурами данных в Pandas являются объекты Series и DataFrame. Объект Series представляет собой одномерный помеченный массив, представляющий собой один столбец в наборе данных. Он может содержать данные любого типа, включая числа, строки и даже объекты Python. DataFrame - это двумерная таблица с метками строк и столбцов, которая может содержать данные различных типов.

Импортировать библиотеку Pandas в код можно с помощью команды "import pandas as pd". После этого можно использовать все функции и методы, предоставляемые библиотекой. Pandas предоставляет широкий спектр инструментов для работы с данными, включая функции чтения и записи данных, фильтрацию, сортировку, группировку и агрегирование данных. Кроме того, библиотека обладает мощными возможностями для визуализации данных, что позволяет быстро и эффективно анализировать большие объемы информации [5].

Серия Pandas

Серия Pandas - это одномерный помеченный массив, представляющий собой один столбец в наборе данных. Ключевой особенностью серий является то, что все ее элементы должны иметь один и тот же тип данных, что обеспечивает однородность. Это означает, что серии Pandas способны хранить любой тип данных Python - целые числа, строки, числа с плавающей запятой, объекты и т.д. Однако, чтобы можно было применять операции к серии в масштабе всей колонки, все ее элементы должны иметь одинаковый тип данных [4].

Фрейм данных Pandas

Вторая структура данных, которую следует упомянуть, это набор рядов, или DataFrame. DataFrame представляет собой таблицу, состоящую из двумерных маркированных массивов данных, где каждый столбец может иметь различный тип данных. Он представляет удобный способ представления и манипулирования большим объемом данных, а также их анализа и визуализации [1].

Для работы с набором данных, его необходимо загрузить в DataFrame. Существует несколько способов загрузки данных в Pandas. Например, можно загрузить данные из SQL-базы данных при помощи метода read_sql_table, или из Excel-файла при помощи метода read_excel, из файла JSON при помощи метода read_json, из CSV-файла при помощи метода read_csv. Также можно загрузить данные из HTML-таблицы при помощи метода read_html, который возвращает список фреймов данных, по одному на каждую HTML-таблицу, найденную на веб-странице [7].

Несколько методов загрузки данных:

from sqlalchemy import create_engine engine = create_engine('sqlite:///¡memory:1)

sql_dataframe = pd.read_sql_table(1my_table', engine, columns= [1ColA1, 'ColB'])

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

xls_dataf rame = pd . read_excel ( 1 my_dataset. xlsx' , 1Sheetl', na_val_ues= ['NA', '?'])

json_dataframe = pd.read_json(1my_dataset.json', orient=1 columns')

csv_dataframe = pd . read_csv ( 'my_dataset. csv' , sep= ' , ' ) table_dataf rame= pd . read_html( ' http: //page.com/with/"table. html' ) [0]

Сводка данных

В анализе данных очень важно иметь полное представление о свойствах переменных в наборе данных. Для этого нужно проводить различные статистические анализы, включая описательную статистику. Описательная статистика представляет собой метод анализа данных, который используется для описания основных характеристик набора данных, таких как среднее значение, медиана, минимум, максимум, стандартное отклонение и т.д.

В Pandas для получения описательной статистической сводки числовых столбцов фрейма данных можно использовать метод .describe():

: dfl.describe{)

To tal As seis TötalRevenue Geographic Segments

count 1 320000e+02 132 OOOOOO 124 000000

mean 7979332e»04 11634 678783 4 814516

std 2.181632e-05 15739 6S7125 4 1S15B4

mm 2.611000e»02 15 700000 1 OOOOOO

25% 5077725e»03 1683 900000 2 OOOOOO

50% 1.16B030e-04 5005 600000 3 500000

75% 3.518675e-04 14151 500000 6000000

max 1.3349035*06 79975 700000 24 OOOOOO

Этот метод генерирует сводку, которая включает среднее значение (mean), стандартное отклонение (std), минимальное (min) и максимальное (max) значения, медиану (50%), а также первый (25%) и третий (75%) квартили.

Метод .describe() также может использоваться для анализа категориальных столбцов, где он выдает информацию о количестве уникальных значений (unique), наиболее часто встречающемся значении (top) и его частоте (freq).

Для быстрого ознакомления с представленными в фрейме данных записями и структурой таблицы можно использовать методы .head() и .tail(), которые выводят несколько верхних или нижних строк соответственно. По умолчанию, эти методы выводят 5 записей, но можно указать и другое число строк.

Особенно полезен метод .head() для первичного анализа данных и для быстрой проверки корректности их загрузки. Также можно использовать этот метод для проверки правильности работы функций, которые применяются к данным [6].

Кроме того, для быстрого просмотра общей структуры фрейма данных можно использовать метод .shape():

dfl - pd.read_csv('SPT5XCoriposite.csv', index_col='Ticker')

print(dfl.shape)

dfl.headQ

(132, S)

Name TotalAssets TotalRevenue Geographic Segments Primary Sector

Ticker

NYSE:AEM Agnico Eagle Mines Limited (NYSE:AEM) 10715,5 29900

TSXAC Air Canada (TSX:AC) 19197.0 18065.0

TSX:AGI Alamos Gold Inc. (TSX:AGI) 4455.5 889.4

TSXAQN Algonquin Powers Utilities Corp. (TSX:AQN) 12811.6 2247,9

TSX:ATD.B Alimentation Couehe-Tard inc. (TSXATD.B) 30426.3 79562.8

5.0 Materials

5.0 industrials

4,0 Materials

2.0 Utilities

3.0 Consumer Staples

Он возвращает кортеж из двух значений: количество строк и столбцов в таблице. Этот метод также может использоваться для дальнейшего анализа данных и для принятия решений о необходимости предобработки или изменения структуры таблицы.

При загрузке фрейма данных в Pandas возникает необходимость визуально оценить его структуру и содержание. Для

X X

о го А П.

X ГО

m

о

ю

2 О

м

CJ

СО CS

0

CS

01

О Ш

m

X

<

m О X X

этого полезно использовать метод info(), который выводит информацию о типах данных каждого столбца, количестве заполненных значений в каждом столбце, общем количестве записей, занимаемой памяти и т.д.:

dfl.infoQ

<dass 'pandas.core.frame.DataFrame'> Index: 132 entries, NYSE:AEH to T5X:YRI Data columns (total 5 columns): Name 132 non-null object

TotalAssets 132 non-null float«

TotalRevenue 132 non-null float«

GeographicSegnents 124 non-null float« PrimarySector 132 non-null object

dtypes: float54(3), object(2) memory usage: 6.2+ KB

Индексирование столбцов

Для доступа к содержимому столбцов фрейма данных в Pandas предоставляется несколько методов нарезки. Один из них - это индексирование по местоположению, который аналогичен индексированию обычного списка в Python. Другой метод - это индексирование по меткам, что аналогично индексированию словаря в Python. Кроме того, подобно массивам NumPy, фрейм данных Pandas позволяет использовать логические маски для индексации. Ниже приведены различные методы нарезки, позволяющие увидеть содержимое первого столбца:

dfl.Name dfl['Name'] dfl[['Name']] dfl.loc[:, 'Name'] dfl.loc[:, [4Jarae']] dfl.iloc[:, 0] dfl.lloc[:, [0]]

Name

Ticker

NYSE.AEM Agnico Eagle Mines Lirnitad (NYSE:AEM)

TSX.AC Air Canada (TSX.AC)

TSXAGI Alamos Gold Inc. (TSXAGI)

TSX AQN Algonquin Power S Utles Corp. (TSX:AQN) TSX ATO B Alimentation Couche-Tard Inc. (TSX.ATD.E)

typeCdfll'Name']) pandas.core.series.Series

type(dfl[['Na«e'J]) pandas, core, frame. DataFrame

type(dfl[[ Nam', 'TotalRevenue' ]]) pandas.core.frame.DataFrame

Индексирование строк

Для выборки строк в Pandas также могут быть использованы методы .loc[] и .iloc[], которые позволяют выбирать строки по меткам или индексам соответственно. Стоит отметить, что ожидаемый порядок аргументов - сначала для строк, затем для столбцов:

dfl[S:2]|

Ticker TotalAssets TotalRevenue Geographic Segments Primary Sector

NYSE:AEM Agnico Eagle Mines Limited (NYSE:AEM) TSX:AC Air Canada (TSXrAC) 10715.5 19197.0 2990.0 1&065.0 5.0 5.0 Materials industrials

dfl.iloc[0:2,:]

Ticker TotalAssets TotalRevenue Geographic Segments Primary Sector

NVSE:AEM Agnico Eaç le Mines Limited (NYSE'AEM) 197155 TSXAC AirCanadaiTSX.AC) 191970

2m a

1S 965.0

Materials Industrials

При работе с фреймами данных в Pandas очень удобно использовать названия столбцов для индексации, так как это позволяет точно определить, какой столбец извлекается, не задумываясь об их порядке. Однако, при поиске первого соответствия имени столбца перед разделением индекса столбца, производительность может немного снижаться по сравнению с прямым доступом к столбцу по индексу. Для выборки столбцов по меткам используется метод .loc[], а для выборки по индексу - метод .iloc[]. Также можно использовать метод .ix[], который позволяет использовать гибридный подход. Однако, следует иметь в виду, что этот метод устарел.

Необходимо отметить, что при использовании двойных скобок в синтаксисе, даже если указывается только один столбец, тип данных, который вернется обратно, будет фреймом данных в отличие от серии. Таким образом, преимущество использования списка заключается в возможности получения доступа к нескольким столбцам одновременно.

Метод .loc[] используется для выборки строк по меткам. Например, можно выбрать строки с метками 0 и 2 следующим образом: df.loc[[0, 2], :]

Метод .iloc[] используется для выборки строк по числовым индексам. Например, можно выбрать первые три строки следующим образом: df.iloc[:3, :]

Также можно использовать логические маски для выборки строк. Например, можно выбрать строки, в которых значение в столбце "age" больше 25 следующим образом: df[df['age'] > 25] Важно отметить, что при использовании двойных квадратных скобок для индексирования, даже если выбирается только одна строка, тип данных, который будет возвращен, будет фреймом данных, а не серией [2]. Логическое индексирование

Логическое индексирование в Pandas - это один из способов выборки данных из фрейма данных или серии. Этот метод позволяет выбрать только те строки, для которых выполняется определенное условие, заданное в виде логической операции. Для создания логического ряда можно вручную указать значения, соответствующие каждой строке, либо использовать условное выражение.

Для выполнения логической индексации необходимо передать логический ряд в квадратные скобки, после чего Pandas вернет только те строки, для которых значение в этом ряде равно True. Кроме того, возможно использовать побитовые логические операторы | и & для объединения нескольких логических условий в одно:

dfl[ (dfl.TotalAssets ( 1МЮ) 1 (dfl.TotslAssets > 99M) ]

home TolalAssets ToulRmime GtograpIticSegimls PnitiaiySector

Пскег

TSXÍMRA TSX08RB

MCSSP

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Empire Company Limited (TSXEMPA) Qlrtmrm (TSX08B.B) Йри|»ИС.аЗ*:ЗАР)

rSXiSRUUN ЗпММмМЕШкМММГТЯ-

ÍÍC2I 2S!IM

«31, t <111.«

BS5Î 13501.9

MS) i И1.1

NaN Consumai Staple:

i 0 Communication Setvra

5.0 ConsumerS'eple!

t.O RîîlEstatë

Это позволяет выполнить сложные запросы на выборку данных, используя несколько условий одновременно. Важно отметить, что при использовании логического индексирования необходимо убедиться, что размер логического ряда соответствует размеру индексируемой серии или фрейма данных. В противном случае возможна ошибка. Кроме того, при выполнении логической индексации может произойти потеря данных, если не все строки удовлетворяют заданному условию.

Одна из основных причин, по которой нельзя использовать обычные логические операторы Python для объединения логических условных выражений в Pandas, заключается в том, что это может привести к неоднозначности в интерпретации кода. Например, следующее неверное утверждение может быть истолковано двумя разными способами:

"If the logical operator (dfl.TotalAssets < 10000) or (dfl.TotalAssets > 9000) evaluates to anything other than False, then select all records in the dataset."

Можно интерпретировать это как:

1. Выберите все строки, где выполняется условие (dfl.TotalAssets < 10000), или

2. Выберите все строки, где выполняется условие (dfl.TotalAssets > 9000).

Второй вариант является желаемой функциональностью, но, чтобы полностью избежать этой неоднозначности, Pandas перегружает битовые операторы в своих объектах DataFrame и Series. При этом необходимо заключать каждое условие в круглые скобки, чтобы избежать ошибок при выполнении операций.

Запись в срез

Запись в срез - удобный способ обновления значений в выбранных ячейках фрейма данных или серии. Для записи в срез можно использовать синтаксис выбора скобок [] и указать срез вместо индекса:

df 1.loe[(df 1['Name']--1 Air Canada (TSX:AC)')/Name']

Ticker

TSX: AC Air Canada (T5X:AC)

Nafiie: Name, dtype: object

df 1. loc [( dfl [' liante ']=-' Air Canada (TSX:AC)'),'Narre"] = 'Air Canada'

dfl,loc[(dfl['Name']--'Air Canada (TSX;AC)'h'Naie']

Series([], Name: Name, dtype: object)

dfl,loc[(dfl['Name']--'Air Canada'),'flame']

Ticker

TSX: AC Air Canada

Name: Name, dtype: object

При записи в срез следует быть особо внимательным, так как меняются не только выбранные ячейки, но и оригинальный объект. Поэтому перед записью всегда рекомендуется создавать копию фрейма или серии, чтобы избежать потери данных.

Заключение

Python - это широко используемый язык программирования в области анализа данных и научных вычислений. Он предоставляет множество библиотек и инструментов для обработки и анализа данных, включая библиотеку Pandas.

Библиотека Pandas, основанная на Python, предоставляет разнообразные возможности для обработки и анализа данных. С ее помощью можно работать с различными типами данных, включая фреймы данных и серии. Она также обеспечивает широкий спектр функций для индексации, выборки, фильтрации, группировки и агрегирования данных.

Применение Python и библиотеки Pandas для анализа данных позволяет проводить глубокий и разнообразный анализ данных. Он может использоваться для анализа данных в различных областях, таких как финансы, маркетинг, здравоохранение и многие другие.

Знание основных методов работы с данными с помощью библиотеки Pandas является ключевым для успешной работы в области анализа данных. Это позволяет ускорить процесс обработки данных, повысить качество и точность анализа, а также обеспечить более эффективное принятие решений.

В целом, проведение анализа данных при помощи Python и библиотеки Pandas является актуальной и востребованной задачей в современном мире. Использование этих инструментов может улучшить производительность и результативность анализа данных, что делает их необходимыми для специалистов в области IT.

Литература

1. Маккинни У. Python и анализ данных. Объект фрейма данных. (2-е изд.). Москва: ДМК Пресс. 2020, стр. 148

2. Маккинни У. Python и анализ данных. Основы Python. (2-е изд.). Москва: ДМК Пресс. 2020, стр. 38

3. Молин С., Джи К. Практический анализ данных с помощью Pandas - Второе издание. Издательство Packt Publishing. Страница 31.

4. Харкират Сингх. Анализ данных с использованием Python. Medium.com , 2019 год. [Электронный ресурс] Режим доступа: https://medium.com/analytics-vidhya/data-analysis-using-python-24f1 c1962a5

5. Харрис К. Python для анализа данных. - Санкт-Петербург: Питер, 2019. С. 156-260

6. Жарова М. Как анализировать данные в Pandas: первые шаги. SkillFactory Media, 2023 год. [Электронный ресурс] Режим доступа: https://blog.skillfactory.ru/kak-nachat-analizirovat-dannye-v-pandas-pervye-shagi/

7. Документация Pandas. 2023 pandas viaNum FOCUS, Inc. Размещенный в СОБСТВЕННОМ облаке. [Электронный ресурс] Режим доступа: https://pandas.pydata.org/pandas-docs/stable/index.html (дата обращения: 10 мая 2023 г.)

How to analyze data using Python? Vasilchenko A.M.

JEL classification: C10, C50, C60, C61, C80, C87, C90_

This article discusses various aspects of working with the Pandas library for data analysis in Python. Different ways of indexing and selecting data from data frames and series were considered, including indexing by labels and positions, boolean indexing, and indexing using slices. Important aspects of working with missing data and duplicates were also discussed, including methods for removing, replacing, and filling missing values, and removing duplicates. Other topics covered in the article included grouping and aggregating data, transforming data using various functions, and working with time data and dates. Overall, this article is a useful resource for those working with Pandas and looking to improve their data manipulation skills. It contains many tips and examples that can help you become a more effective data analyst and tackle various data processing tasks in Python. Keywords: Python, Pandas, data analysis, indexing, selection, missing data,

duplicates, grouping, aggregation, time data. References

1. McKinney U. Python and data analysis. The DataFrame object. (2nd ed.). Moscow:

DMK Press. 2020, p. 148

2. McKinney U. Python and data analysis. Python basics. (2nd ed.). Moscow: DMK

Press. 2020, p. 38

3. Molin S., Ji K. Practical data analysis with Pandas - Second edition. Packt

Publishing. Page 31.

4. Harkirat Singh. Data Analysis using Python. Medium.com, 2019. [Electronic

resource] Access mode: https://medium.com/analytics-vidhya/data-analysis-using-python-24f1c1962a5

5. Harris K. Python for data analysis. - St. Petersburg: Peter, 2019. pp. 156-260

6. Zharova M. How to analyze data in Pandas: the first steps. SkillFactory Media, 2023.

[Electronic resource] Access mode: https://blog.skillfactory.ru/kak-nachat-analizirovat-dannye-v-pandas-pervye-shagi/

7. Pandas documentation. 2023 pandas viaNum FOCUS, Inc. Hosted by OWN cloud.

[Electronic resource] Access mode: https://pandas.pydata.org/pandas-docs/stable/index.html (accessed: May 10, 2023)

X X О го А С.

X

го m

о

2 О M

со

i Надоели баннеры? Вы всегда можете отключить рекламу.