天天看點

Pandas資料分析之Series和DataFrame的基本操作

轉自:志學python

利用Python進行資料分析(8) pandas基礎: Series和DataFrame的基本操作

一、reindex() 方法:重新索引

針對 Series 的重新索引操作 重新索引指的是根據index參數重新進行排序。如果傳入的索引值在資料裡不存在,則不會報錯,而是添加缺失值的新行。不想用缺失值,可以用 fill_value 參數指定填充值。

Pandas資料分析之Series和DataFrame的基本操作

fill_value 會讓所有的缺失值都填充為同一個值,如果不想這樣而是用相鄰的元素(左或者右)的值填充,則可以用 method 參數,可選的參數值為 ffill 和 bfill,分别為用前值填充和用後值填充:

Pandas資料分析之Series和DataFrame的基本操作

針對 DataFrame 的重新索引操作

Pandas資料分析之Series和DataFrame的基本操作

二、drop() 方法:丢棄資料

針對 Series

Pandas資料分析之Series和DataFrame的基本操作

針對 DataFrame

不僅可以删除行,還可以删除列:

Pandas資料分析之Series和DataFrame的基本操作

三、索引、選取和過濾

針對 Series

Pandas資料分析之Series和DataFrame的基本操作

需要注意一點的是,利用索引的切片運算與普通的 Python 切片運算不同,其末端是包含的,既包含最後一個的項。比較:

Pandas資料分析之Series和DataFrame的基本操作

指派操作:

Pandas資料分析之Series和DataFrame的基本操作

針對 DataFrame

Pandas資料分析之Series和DataFrame的基本操作

DataFrame 中的 ix 操作:

Pandas資料分析之Series和DataFrame的基本操作

四、算術運算和資料對齊

針對 Series 将2個對象相加時,具有重疊索引的索引值會相加處理;不重疊的索引則取并集,值為 NA:

Pandas資料分析之Series和DataFrame的基本操作

針對 DataFrame

對齊操作會同時發生在行和列上,把2個對象相加會得到一個新的對象,其索引為原來2個對象的索引的并集:

Pandas資料分析之Series和DataFrame的基本操作

和Series 對象一樣,不重疊的索引會取并集,值為 NA;如果不想這樣,試試使用 add() 方法進行資料填充:

Pandas資料分析之Series和DataFrame的基本操作

五、函數應用和映射

将一個 lambda 表達式應用到每列資料裡:

Pandas資料分析之Series和DataFrame的基本操作

除了lambda 表達式還可以定義一個函數:

Pandas資料分析之Series和DataFrame的基本操作

六、排序

針對 Series

Pandas資料分析之Series和DataFrame的基本操作

針對 DataFrame

Pandas資料分析之Series和DataFrame的基本操作

七、排名

Pandas資料分析之Series和DataFrame的基本操作

八、帶有重複值的軸索引

索引不強制唯一,例如一個重複索引的 Series:

Pandas資料分析之Series和DataFrame的基本操作