天天看點

pandas 基本資料結構:Series 和 DataFrame

pandas主要有兩個資料結構:Series 和 DataFrame

維數 名稱 描述
1 Series centered 帶标簽的一維同構數組
2 DataFrame 帶标簽的,大小可變的,二維異構表格

注:

  • 同構是隻能有一種類型的資料,而異構可以有多種
  • 老版本支援三維的面闆(Panel)結構,現在已經不再支援。

Pandas 将讀取到的資料加載到叫做 Series 和 DataFrame 的資料結構架構當中,不用在意資料的具體含義,隻要符合規則就可以。

之後按照這些架構自己的處理方法進行處理,這是對資料的一種進階抽象。

pandas 基本資料結構:Series 和 DataFrame

Series:

Series (系列、數列、序列)是一個帶有标簽的一維數組。

以下商品的名稱是标簽、索引,不是具體的資料,起到解釋資料的作用。

香辣雞腿堡  17.00
香辣雞翅 10.50
吮指原味雞  11.00
dtype: float64
           

帶有同樣标簽和索引的 Series 可以組成一個 DataFrame,例如在上述的基礎上再加上一列數量

pandas 基本資料結構:Series 和 DataFrame

DataFrame:

DataFrame 是 Pandas 定義的一個二維資料結構。

  • 行(row),一條資料就是指其中的一行
  • 列(column),或者叫一個字段,是一條資料的某個值
  • 第一行是表頭,或者可叫字段名,類型 Python 字典裡的 key,代碼資料的屬性
  • 第一列是索引(index),就是這行資料所描述的主體,也是這條資料的關鍵

    表頭和索引在一些場景下也有稱列索引和行索引

這就是一個簡單的 DataFrame:

價格	數量
香辣雞腿堡  17.00	1
香辣雞翅    10.50	2
吮指原味雞  11.00	1
           

補充:

Series 和 DataFrame 裡邊的值都是可變的,比如增加行,并排序,篩選等等。Series 隻有一列不能再增加,DataFrame 可以增加列。

在處理資料時,一般不要對原始資料(實際檔案)及轉入進來的初始資料進行改動,而是複制生成新的對象,或者使用方法鍊把處理過的資料傳給新的對象。 這樣可以避免損失,也友善修改和維護。

繼續閱讀