天天看點

python dataframe删除某一列_python資料分析:整理某一列的内容

上一篇文章中,我們已删除了dataframe中不必要的行列,并學會了如何更改行索引。在這篇文章中,我會教大家清理特定的列并将它們化為統一格式,以使資料集更好看并且增強資料集的一緻性。

首先我們回顧下上篇文章清理後的資料集

python dataframe删除某一列_python資料分析:整理某一列的内容

我們可以看到Date of Publication和Place of Publication這兩列還是需要進行格式統一的。首先我們定位到Date of Publication列看一看

df.loc[1905:, 'Date of Publication'].head(10)
           
python dataframe删除某一列_python資料分析:整理某一列的内容

可以知道的是一本書的出版日期應該隻有一個,但是我們發現原始資料集中有很多不規則或者錯誤的日期表示,是以,我們需要執行以下操作:

  • 删除方括号中多餘的日期,例如:1879 [1878]
  • 将日期範圍轉換為它們的“開始日期”,例如:1860-63; 1839,38-54

明确了我們要做什麼之後,這個時候就得用到正規表達式了