fbpx
维基百科

pandas

计算机编程中,pandasPython编程语言的用于数据操纵和分析的软件库。特别是,它提供操纵数值表格和时间序列的数据结构和运算操作。它是在三条款BSD许可证下发行的自由软件[2]。它的名字衍生自术语“面板数据”(panel data),这是计量经济学的数据集术语,它们包括了对同一个体的在多个时期上的观测[3]。它的名字还可解释为短语“Python data analysis”自身的文字游戏[4]

pandas
原作者Wes McKinney英语Wes McKinney
開發者社区
首次发布2008年1月11日,​15年前​(2008-01-11
目前版本
  • 1.5.3 (2023年1月18日)[1]
源代码库
  • github.com/pandas-dev/pandas
编程语言Python, Cython, C
操作系统跨平台
类型数据分析英语List of numerical analysis software
许可协议三条款BSD许可证
网站pandas.pydata.org

库特征

  • 数据帧(DataFrame)对象[5],用于凭借集成索引进行数据操纵。
  • 在内存中数据结构和不同的文件格式之间读写数据的工具。
  • 数据对齐和集成的缺失数据处理。
  • 数据集的再成形(reshape)和装枢轴(pivot)。
  • 大数据集的基于标签的分片英语Array slicing、花式(fancy)索引和子集。
  • 数据结构列的插入和删除。
  • 由引擎(engine)分组,允许在数据集上的分离-应用-合并(split-apply-combine)运算操作。
  • 数据集的归并和连接。
  • 层级轴索引,以低维数据结构工作在高维数据上。
  • 时间序列功能:数据范围生成[6]和频率转换,移动窗口统计,移动窗口线性回归,数据转移(shift)和滞后(lag)。
  • 提供数据过滤。

这个库对性能进行了高度优化,具有关键代码路径用CythonC写成[7]

数据帧

pandas主要用于数据分析。pandas的数据帧允许操纵各种数据文件格式,比如导入导出CSVJSONSQLHDF5和导入Microsoft Excel[8]。pandas允许各种数据操纵运算操作比如归并[9]、再成形[10]、选择[11],还有数据清洗数据加工英语data wrangling特征。

支持导入导出NetCDF格式数据的xarray,可以在自身的数据集和Pandas的数据帧之间相互转换[12]

历史

开发者Wes McKinney英语Wes McKinney于2008年在AQR Capital Management英语AQR Capital开始制作pandas来满足在财务数据上进行定量分析英语Quantitative analysis (finance)对高性能、灵活工具的需要。在离开AQR之前他说服管理者允许他将这个库开放源代码

另一个AQR雇员Chang She,在2012年加入了这项努力并成为这个库的第二个主要贡献者。

在2015年,pandas签约了NumFOCUS的一个财务赞助项目,它是美国的501(c)(3)非营利慈善团体[13]

例子

import pandas as pd import matplotlib.pyplot as plt import numpy as np df = pd.DataFrame(np.random.randn(100, 5), columns=list('ABCDE')) df=df.cumsum() # Return cumulative sum over a DataFrame or Series axis df.plot() plt.show() 

時間線[14]

  • 2008年:pandas 的開發開始
  • 2009 年:pandas 開源
  • 2012 年:第一版 Python for Data Analysis 發布
  • 2015 年:pandas 成為 NumFOCUS 贊助的項目
  • 2018 年:第一次面對面的核心開發者衝刺

参见

  • NumPy
  • R语言
  • Scikit-learn
  • statsmodels英语statsmodels
  • 数值分析软件列表英语List of numerical analysis software

引用

  1. ^ 1.0 1.1 Pandas 1.5.3. 2023年1月18日 [2023年1月22日]. 
  2. ^ . pandas. 28 January 2020 [30 January 2020]. (原始内容存档于2012-02-14). 
  3. ^ Wes McKinney. (PDF). 2011 [2 August 2018]. (原始内容 (PDF)存档于2015-05-13). 
  4. ^ McKinney, Wes. Python for Data Analysis, Second Edition. O'Reilly Media. 2017: 13. ISBN 9781491957660. 
  5. ^ DataFrame. [2022-09-01]. (原始内容于2022-09-01). DataFrame is a 2-dimensional labeled data structure with columns of potentially different types. You can think of it like a spreadsheet or SQL table, or a dict of Series objects. It is generally the most commonly used pandas object. 
  6. ^ . pandas. 29 January 2020 [30 January 2020]. (原始内容存档于2014-03-29). 
  7. ^ . pandas. [13 November 2017]. (原始内容存档于2012-02-13). 
  8. ^ IO tools (text, CSV, HDF5, …). [2020-09-12]. (原始内容于2020-09-15). 
  9. ^ Merge, join, concatenate and compare. [2020-09-12]. (原始内容于2020-09-15). 
  10. ^ Reshaping and pivot tables. [2020-09-12]. (原始内容于2020-09-15). 
  11. ^ Indexing and selecting data. [2020-09-12]. (原始内容于2020-09-15). 
  12. ^ xarray User Guide - Working with pandas. [2022-09-04]. (原始内容于2022-09-04). 
  13. ^ . NumFOCUS. [3 April 2018]. (原始内容存档于2018-04-04). 
  14. ^ Matt Harrison, Theodore Petrou. . Packt Publishing. 2017 [2021-10-11]. ISBN 978-1784393878. (原始内容存档于2021-10-26). 

延伸阅读

  • Chen, Daniel Y. Pandas for Everyone : Python Data Analysis. Boston: Addison-Wesley. 2018. ISBN 978-0-13-454693-3. 
  • McKinney, Wes. Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython 2nd. Sebastopol: O'Reilly. 2017. ISBN 978-1-4919-5766-0. 
  • VanderPlas, Jake. Data Manipulations with Pandas. Python Data Science Handbook: Essential Tools for Working with Data. O'Reilly. 2016: 97–216. ISBN 978-1-4919-1205-8. 
  • Pathak, Chankey. Pandas Cookbook. Pandas Cookbook. 2018: 1–8. 

外部链接

  • 官方网站

pandas, 提示, 此条目的主题不是pandas, 它是用于pandora, archive的澳大利亚归档管理系统, 在计算机编程中, 是python编程语言的用于数据操纵和分析的软件库, 特别是, 它提供操纵数值表格和时间序列的数据结构和运算操作, 它是在三条款bsd许可证下发行的自由软件, 它的名字衍生自术语, 面板数据, panel, data, 这是计量经济学的数据集术语, 它们包括了对同一个体的在多个时期上的观测, 它的名字还可解释为短语, python, data, analysis, 自身的文字游. 提示 此条目的主题不是PANDAS 它是用于Pandora Archive的澳大利亚归档管理系统 在计算机编程中 pandas是Python编程语言的用于数据操纵和分析的软件库 特别是 它提供操纵数值表格和时间序列的数据结构和运算操作 它是在三条款BSD许可证下发行的自由软件 2 它的名字衍生自术语 面板数据 panel data 这是计量经济学的数据集术语 它们包括了对同一个体的在多个时期上的观测 3 它的名字还可解释为短语 Python data analysis 自身的文字游戏 4 pandas原作者Wes McKinney 英语 Wes McKinney 開發者社区首次发布2008年1月11日 15年前 2008 01 11 目前版本1 5 3 2023年1月18日 1 源代码库github wbr com wbr pandas dev wbr pandas编程语言Python Cython C操作系统跨平台类型数据分析 英语 List of numerical analysis software 许可协议三条款BSD许可证网站pandas wbr pydata wbr org 目录 1 库特征 2 数据帧 3 历史 4 例子 5 時間線 14 6 参见 7 引用 8 延伸阅读 9 外部链接库特征 编辑数据帧 DataFrame 对象 5 用于凭借集成索引进行数据操纵 在内存中数据结构和不同的文件格式之间读写数据的工具 数据对齐和集成的缺失数据处理 数据集的再成形 reshape 和装枢轴 pivot 大数据集的基于标签的分片 英语 Array slicing 花式 fancy 索引和子集 数据结构列的插入和删除 由引擎 engine 分组 允许在数据集上的分离 应用 合并 split apply combine 运算操作 数据集的归并和连接 层级轴索引 以低维数据结构工作在高维数据上 时间序列功能 数据范围生成 6 和频率转换 移动窗口统计 移动窗口线性回归 数据转移 shift 和滞后 lag 提供数据过滤 这个库对性能进行了高度优化 具有关键代码路径用Cython或C写成 7 数据帧 编辑pandas主要用于数据分析 pandas的数据帧允许操纵各种数据文件格式 比如导入导出CSV JSON SQL HDF5和导入Microsoft Excel等 8 pandas允许各种数据操纵运算操作比如归并 9 再成形 10 选择 11 还有数据清洗和数据加工 英语 data wrangling 特征 支持导入导出NetCDF格式数据的xarray 可以在自身的数据集和Pandas的数据帧之间相互转换 12 历史 编辑开发者Wes McKinney 英语 Wes McKinney 于2008年在AQR Capital Management 英语 AQR Capital 开始制作pandas来满足在财务数据上进行定量分析 英语 Quantitative analysis finance 对高性能 灵活工具的需要 在离开AQR之前他说服管理者允许他将这个库开放源代码 另一个AQR雇员Chang She 在2012年加入了这项努力并成为这个库的第二个主要贡献者 在2015年 pandas签约了NumFOCUS的一个财务赞助项目 它是美国的501 c 3 非营利慈善团体 13 例子 编辑import pandas as pd import matplotlib pyplot as plt import numpy as np df pd DataFrame np random randn 100 5 columns list ABCDE df df cumsum Return cumulative sum over a DataFrame or Series axis df plot plt show 時間線 14 编辑2008年 pandas 的開發開始 2009 年 pandas 開源 2012 年 第一版 Python for Data Analysis 發布 2015 年 pandas 成為 NumFOCUS 贊助的項目 2018 年 第一次面對面的核心開發者衝刺参见 编辑NumPy R语言 Scikit learn statsmodels 英语 statsmodels 数值分析软件列表 英语 List of numerical analysis software 引用 编辑 1 0 1 1 Pandas 1 5 3 2023年1月18日 2023年1月22日 License Package overview pandas 1 0 0 documentation pandas 28 January 2020 30 January 2020 原始内容存档于2012 02 14 Wes McKinney pandas a Foundational Python Library for Data Analysis and Statistics PDF 2011 2 August 2018 原始内容 PDF 存档于2015 05 13 McKinney Wes Python for Data Analysis Second Edition O Reilly Media 2017 13 ISBN 9781491957660 DataFrame 2022 09 01 原始内容存档于2022 09 01 DataFrame is a 2 dimensional labeled data structure with columns of potentially different types You can think of it like a spreadsheet or SQL table or a dict of Series objects It is generally the most commonly used pandas object pandas date range pandas 1 0 0 documentation pandas 29 January 2020 30 January 2020 原始内容存档于2014 03 29 Python Data Analysis Library pandas Python Data Analysis Library pandas 13 November 2017 原始内容存档于2012 02 13 IO tools text CSV HDF5 2020 09 12 原始内容存档于2020 09 15 Merge join concatenate and compare 2020 09 12 原始内容存档于2020 09 15 Reshaping and pivot tables 2020 09 12 原始内容存档于2020 09 15 Indexing and selecting data 2020 09 12 原始内容存档于2020 09 15 xarray User Guide Working with pandas 2022 09 04 原始内容存档于2022 09 04 NumFOCUS pandas a fiscally sponsored project NumFOCUS 3 April 2018 原始内容存档于2018 04 04 Matt Harrison Theodore Petrou Pandas CookBook Packt Publishing 2017 2021 10 11 ISBN 978 1784393878 原始内容存档于2021 10 26 延伸阅读 编辑Chen Daniel Y Pandas for Everyone Python Data Analysis Boston Addison Wesley 2018 ISBN 978 0 13 454693 3 McKinney Wes Python for Data Analysis Data Wrangling with Pandas NumPy and IPython 2nd Sebastopol O Reilly 2017 ISBN 978 1 4919 5766 0 VanderPlas Jake Data Manipulations with Pandas Python Data Science Handbook Essential Tools for Working with Data O Reilly 2016 97 216 ISBN 978 1 4919 1205 8 Pathak Chankey Pandas Cookbook Pandas Cookbook 2018 1 8 外部链接 编辑官方网站 取自 https zh wikipedia org w index php title Pandas amp oldid 75418900, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。