pandas

Pandas


Тип	Python-библиотека^[d] и программа для численного анализа^[d]
Автор	Уэс Мак-Кинни^[d]^[2]
Разработчики	Уэс Мак-Кинни^[d], Брок Мендель^[d], Йорис Ван ден Босше^[d] и Джефф Ребек^[d]^[3]
Написана на	Python
Операционная система	кроссплатформенность
Первый выпуск	11 января 2008
Последняя версия	2.1.4 (8 декабря 2023)^[1]
Репозиторий	github.com/pandas-dev/pa…
Лицензия	BSD
Сайт	pandas.pydata.org (англ.)
Медиафайлы на Викискладе

pandas — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами. Название библиотеки происходит от эконометрического термина «панельные данные», используемого для описания многомерных структурированных наборов информации. pandas распространяется под новой лицензией BSD.

Область применения

Основная область применения — обеспечение работы в рамках среды Python не только для сбора и очистки данных, но для задач анализа и моделирования данных, без переключения на более специфичные для статобработки языки (такие, как R и Octave).

Также активно ведётся работа по реализации «родных» категориальных типов данных.

Пакет прежде всего предназначен для очистки и первичной оценки данных по общим показателям, например среднему значению, квантилям и так далее; статистическим пакетом^[en] он в полном смысле не является, однако наборы данных типов DataFrame и Series применяются в качестве входных в большинстве модулей анализа данных и машинного обучения (SciPy, Scikit-Learn^[en] и других).

Возможности

Основные возможности библиотеки:

Объект DataFrame для манипулирования индексированными массивами двумерных данных^[4]
Инструменты для обмена данными между структурами в памяти и файлами различных форматов
Встроенные средства совмещения данных и способы обработки отсутствующей информации
Переформатирование наборов данных, в том числе создание сводных таблиц
Срез данных по значениям индекса, расширенные возможности индексирования, выборка из больших наборов данных
Вставка и удаление столбцов данных
Возможности группировки позволяют выполнять трёхэтапные операции типа «разделение, изменение, объединение» (англ. split-apply-combine).
Слияние и объединение наборов данных
Иерархическое индексирование позволяет работать с данными высокой размерности в структурах меньшей размерности
Работа с временными рядами: формирование временных периодов и изменение интервалов и так далее

Библиотека оптимизирована для высокой производительности, наиболее важные части кода написаны на Cython и Си.

История

Разработка пакета начата в 2008 году сотрудником AQR Capital Management^[en] Уэсом Маккини (англ. Wes McKinney). Перед уходом из AQR ему удалось убедить руководство позволить опубликовать исходный код библиотеки под свободной лицензией.

Другой работник AQR — Чан Шэ — присоединился к проекту в 2012 году, став вторым главным разработчиком библиотеки. Примерно в то же время библиотека набрала популярность в среде Python-разработчиков, и к проекту присоединилось множество новых участников.^[5]

Примеры использования

Кривые

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

df = pd.DataFrame(np.random.randn(100, 5), columns=list('ABCDE'))
df=df.cumsum() # Return cumulative sum over a DataFrame or Series axis
df.plot()
plt.show()

Диаграмма

df = pd.DataFrame(np.random.rand(10, 5), columns=list('ABCDE'))
df.plot.bar(stacked=True)
plt.show()

График

df = pd.DataFrame(np.random.rand(7, 5), columns=list('ABCDE'))
df.plot.box()
plt.show()

Гистограмма

data = pd.Series(np.random.normal(size=100))
data.hist(grid=False)
plt.show()

Примечания

↑ Release 2.1.4 — 2023.
↑ https://wesmckinney.com/pages/about.html
↑ https://www.youtube.com/watch?v=7JHqxODJG9k
↑ Pandas Reset Index (неопр.) (30 августа 2021). Дата обращения: 30 августа 2021. Архивировано 30 августа 2021 года.
↑ Daniel Chen. Pandas for Everyone: Python Data Analysis. — Addison-Wesley Professional, 2017. — ISBN 978-0134546933. Архивная копия от 6 сентября 2021 на Wayback Machine Источник (неопр.). Дата обращения: 6 сентября 2021. Архивировано 6 сентября 2021 года.

Литература

Маккинни У. Python и анализ данных = Python for Data Analysis. — ДМК Пресс, 2015. — 482 с. — ISBN 978-5-97060-315-4, 978-1-449-31979-3.
Бринк Х., Ричардс Д., Феверолф М. Машинное обучение. — Питер, 2018. — 336 с. — ISBN 978-5-496-02989-6.
Вандер Плас Дж. Python для сложных задач. Наука о данных и машинное обучение = Python Data Science Handbook: Essential Tools for Working with Data. — Питер, 2017. — 576 с. — ISBN 978-5-496-03068-7.
Хейдт М. Изучаем pandas = Learning pandas. — ДМК Пресс, 2018. — 432 с. — ISBN 978-5-97060-625-4.

Python
Сообщество	Гвидо ван Россум Python Software Foundation
Реализации	CPython IronPython Jython MicroPython PyPy Stackless Python далее...
Другое	PyPI Стандартная библиотека Python Лицензия Python

Научное программное обеспечение на языке программирования Python
NumPy SciPy matplotlib pandas scikit-learn scikit-image PyTorch TensorFlow ещё

Эта страница в последний раз была отредактирована 29 января 2024 в 19:01.

Как только страница обновилась в Википедии она обновляется в Вики 2.
Обычно почти сразу, изредка в течении часа.

Из Википедии — свободной энциклопедии

Энциклопедичный YouTube

Субтитры

Содержание