Pandas这个名字是由“面板数据”(panel data)衍生而来,这是一个计量经济学中的术语,它是一个数据集,由同一个个体在多个时间段内所观察的结果组成。
数据范围
从外部应用程序接口(API)或者数据库中抓取数据的时候,通常需要确定一个数据范围。
Pandas可以很好地解决这一问题,它的data_range函数能够产出按日、月、年等方式递增的日期。
假设现在需要一组按天数递增的数据范围。把产出的date_range转化为开始和结束日期,这一步可以用后续函数(subsequentfunction)完成。
使用指示符合并
合并两个数据集就是将它们变成一个数据集的过程,这需要根据它们的公共属性或栏来对齐其中的每一行。
合并函数中有许多arguments(对应于传递给函数的参数的类数组对象),其中指示符(indicator)argument可主要应用到合并过程中,它在左、右或者两边的数据帧(DataFrame)函数添加_merge栏。
这一栏就显示了“数据行是哪里来的”。用_merge栏来处理更大的数据集会非常有用,尤其是需要检查合并操作的正确率时。
merge栏可以用来检查是否得到了我们预期的行数,而且它反映的是来自两个数据框架的预期值。
Pivot Table
Pandas可以用来创建MS Excel样式数据透视表(Pivot Table)。
在本文的例子中,数据的关键列是含有缺失值的“LoanAmount”。为了获得具体的贷款额度数字,我们可以用Gender、Married、Self_Employed这几列的贷款情况进行估算:
DataFrame排序
Pandas可以轻松基于多列进行排序Pandas的sort函数已经不能用了,现在排序要调用sort_value。
合并DataFrame
当我们需要将来自不同来源的信息进行整合时,
合并DataFrame(或者你们爱说数据框)就变得很重要了。