天天看點

【資料分析與預處理】 ---- 資料彙總_分組聚合

文章目錄

  • ​​1.讀取資料​​
  • ​​2.資料預處理​​
  • ​​删除(提取)評分為0的資料記錄 loc[~data['評分'].isnull()]​​
  • ​​空值填補0 fillna(0)​​
  • ​​去重 drop_duplicates()​​
  • ​​3.資料彙總​​
  • ​​3.1 每個城市的酒店評分平均值 groupby(by=['?']).mean()​​
  • ​​3.2 每個省份每個城市酒店評分的平均值 groupby(by=['?','?']).mean()​​

1.讀取資料

data = pd.read_csv("G:\Projects\pycharmeProject\大資料比賽\data\mysql.csv")
print(data.shape)      
【資料分析與預處理】 ---- 資料彙總_分組聚合

2.資料預處理

删除(提取)評分為0的資料記錄 loc[~data[‘評分’].isnull()]

data_clean = data.loc[~data['評分'].isnull()]      
【資料分析與預處理】 ---- 資料彙總_分組聚合

空值填補0 fillna(0)

data_fin_clean = data_clean.fillna(0)      
【資料分析與預處理】 ---- 資料彙總_分組聚合

去重 drop_duplicates()

data_fin_clean_dul = data_fin_clean.drop_duplicates()      

3.資料彙總

3.1 每個城市的酒店評分平均值 groupby(by=[‘?’]).mean()

city_avg = data_fin_clean_dul[['城市','評分']].groupby(by=['城市']).mean().reset_index()
print(city_avg)      
【資料分析與預處理】 ---- 資料彙總_分組聚合

3.2 每個省份每個城市酒店評分的平均值 groupby(by=[‘?’,‘?’]).mean()

pro_city_avg = data_fin_clean_dul[['省份','城市','評分']].groupby(by=['省份','城市']).mean().reset_index()
print(pro_city_avg)