目前有三類處理方法:1. 用平均值、中值、分位數、衆數、随機值等替代。效果一般,因為等于人為增加了噪聲。2. 用其他變量做預測模型來算出缺失變量。效果比方法1略好。有一個根本缺陷,如果其他變量和缺失變量無關,則預測的結果無意義。如果預測結果相當準确,則又說明這個變量是沒必要加入模組化的。一般情況下,介于兩者之間。3. 最精确的做法,把變量映射到高維空間。比如性别,有男、女、缺失三種情況,則映射成3個變量:是否男、是否女、是否缺失。連續型變量也可以這樣處理。比如Google、百度的CTR預估模型,預處理時會把所有變量都這樣處理,達到幾億維。這樣做的好處是完整保留了原始資料的全部資訊、不用考慮缺失值、不用考慮線性不可分之類的問題。缺點是計算量大大提升。而且隻有在樣本量非常大的時候效果才好,否則會因為過于稀疏,效果很差。
轉載自https://www.zhihu.com/question/26639110