上一篇文章中,我們已删除了dataframe中不必要的行列,并學會了如何更改行索引。在這篇文章中,我會教大家清理特定的列并将它們化為統一格式,以使資料集更好看并且增強資料集的一緻性。
首先我們回顧下上篇文章清理後的資料集
我們可以看到Date of Publication和Place of Publication這兩列還是需要進行格式統一的。首先我們定位到Date of Publication列看一看
df.loc[1905:, 'Date of Publication'].head(10)
可以知道的是一本書的出版日期應該隻有一個,但是我們發現原始資料集中有很多不規則或者錯誤的日期表示,是以,我們需要執行以下操作:
- 删除方括号中多餘的日期,例如:1879 [1878]
- 将日期範圍轉換為它們的“開始日期”,例如:1860-63; 1839,38-54
明确了我們要做什麼之後,這個時候就得用到正規表達式了