维基百科
pandas
在计算机编程中,pandas是Python编程语言的用于数据操纵和分析的软件库。特别是,它提供操纵数值表格和时间序列的数据结构和运算操作。它是在三条款BSD许可证下发行的自由软件[2]。它的名字衍生自术语“面板数据”(panel data),这是计量经济学的数据集术语,它们包括了对同一个体的在多个时期上的观测[3]。它的名字还可解释为短语“Python data analysis”自身的文字游戏[4]。
库特征
- 数据帧(DataFrame)对象[5],用于凭借集成索引进行数据操纵。
- 在内存中数据结构和不同的文件格式之间读写数据的工具。
- 数据对齐和集成的缺失数据处理。
- 数据集的再成形(reshape)和装枢轴(pivot)。
- 大数据集的基于标签的分片、花式(fancy)索引和子集。
- 数据结构列的插入和删除。
- 由引擎(engine)分组,允许在数据集上的分离-应用-合并(split-apply-combine)运算操作。
- 数据集的归并和连接。
- 层级轴索引,以低维数据结构工作在高维数据上。
- 时间序列功能:数据范围生成[6]和频率转换,移动窗口统计,移动窗口线性回归,数据转移(shift)和滞后(lag)。
- 提供数据过滤。
数据帧
pandas主要用于数据分析。pandas的数据帧允许操纵各种数据文件格式,比如导入导出CSV、JSON、SQL、HDF5和导入Microsoft Excel等[8]。pandas允许各种数据操纵运算操作比如归并[9]、再成形[10]、选择[11],还有数据清洗和数据加工特征。
历史
开发者Wes McKinney于2008年在AQR Capital Management开始制作pandas来满足在财务数据上进行定量分析对高性能、灵活工具的需要。在离开AQR之前他说服管理者允许他将这个库开放源代码。
另一个AQR雇员Chang She,在2012年加入了这项努力并成为这个库的第二个主要贡献者。
在2015年,pandas签约了NumFOCUS的一个财务赞助项目,它是美国的501(c)(3)非营利慈善团体[13]。
例子
import pandas as pd import matplotlib.pyplot as plt import numpy as np df = pd.DataFrame(np.random.randn(100, 5), columns=list('ABCDE')) df=df.cumsum() # Return cumulative sum over a DataFrame or Series axis df.plot() plt.show()
時間線[14]
- 2008年:pandas 的開發開始
- 2009 年:pandas 開源
- 2012 年:第一版 Python for Data Analysis 發布
- 2015 年:pandas 成為 NumFOCUS 贊助的項目
- 2018 年:第一次面對面的核心開發者衝刺
参见
- NumPy
- R语言
- Scikit-learn
- statsmodels
- 数值分析软件列表
引用
- ^ 1.0 1.1 Pandas 1.5.3. 2023年1月18日 [2023年1月22日].
- ^ . pandas. 28 January 2020 [30 January 2020]. (原始内容存档于2012-02-14).
- ^ Wes McKinney. (PDF). 2011 [2 August 2018]. (原始内容 (PDF)存档于2015-05-13).
- ^ McKinney, Wes. Python for Data Analysis, Second Edition. O'Reilly Media. 2017: 13. ISBN 9781491957660.
- ^ DataFrame. [2022-09-01]. (原始内容于2022-09-01).
DataFrame is a 2-dimensional labeled data structure with columns of potentially different types. You can think of it like a spreadsheet or SQL table, or a dict of Series objects. It is generally the most commonly used pandas object.
- ^ . pandas. 29 January 2020 [30 January 2020]. (原始内容存档于2014-03-29).
- ^ . pandas. [13 November 2017]. (原始内容存档于2012-02-13).
- ^ IO tools (text, CSV, HDF5, …). [2020-09-12]. (原始内容于2020-09-15).
- ^ Merge, join, concatenate and compare. [2020-09-12]. (原始内容于2020-09-15).
- ^ Reshaping and pivot tables. [2020-09-12]. (原始内容于2020-09-15).
- ^ Indexing and selecting data. [2020-09-12]. (原始内容于2020-09-15).
- ^ xarray User Guide - Working with pandas. [2022-09-04]. (原始内容于2022-09-04).
- ^ . NumFOCUS. [3 April 2018]. (原始内容存档于2018-04-04).
- ^ Matt Harrison, Theodore Petrou. . Packt Publishing. 2017 [2021-10-11]. ISBN 978-1784393878. (原始内容存档于2021-10-26).
延伸阅读
- Chen, Daniel Y. Pandas for Everyone : Python Data Analysis. Boston: Addison-Wesley. 2018. ISBN 978-0-13-454693-3.
- McKinney, Wes. Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython 2nd. Sebastopol: O'Reilly. 2017. ISBN 978-1-4919-5766-0.
- VanderPlas, Jake. Data Manipulations with Pandas. Python Data Science Handbook: Essential Tools for Working with Data. O'Reilly. 2016: 97–216. ISBN 978-1-4919-1205-8.
- Pathak, Chankey. Pandas Cookbook. Pandas Cookbook. 2018: 1–8.
外部链接
- 官方网站