這兩天在合并資料的時候發現了一個神奇的現象,rbind竟然可以合并不同列名的矩陣,而且不做任何提醒,在三個版本的R上都遇到了這個現象,看來不是個例。這樣會明顯造成資料錯誤呀!
talk is cheap, show me the code!
舉例如下:
建構資料框和矩陣
建了個超級簡單的資料框和矩陣。
name <- c('A', "B", "c")
test <- c(13, 16, 20)
df1 <- data.frame(name, test)
matrix1 <- as.matrix(df1)
name2 <- c('A', "D", "c")
test2 <- c(13, 16, 20)
df2 <- data.frame(name2, test2)
matrix2 <- as.matrix(df2)
複制
矩陣和資料框的資訊如下:
df1
name test
1 A 13
2 B 16
3 c 20
name test
[1,] "A" "13"
[2,] "B" "16"
[3,] "c" "20"
df2
name2 test2
1 A 13
2 D 16
3 c 20
name2 test2
[1,] "A" "13"
[2,] "D" "16"
[3,] "c" "20"
複制
可以看出,兩者的差別就是,矩陣隻能放同一種類型的資料,是以全部轉化成了字元串。後面我有換成全是數值試了下,結果是一樣的。
rbind合并資料
合并就出現我上面描述的現象啦!
#資料框合并報錯,沒問題!
rbind(df1, df2)
Error in match.names(clabs, names(xi)) :
names do not match previous names
#矩陣和資料框合并,報錯,沒問題
rbind(df1, matrix2)
Error in match.names(clabs, names(xi)) :
names do not match previous names
# 矩陣合并,神奇的無警告成功運作
rbind(matrix1, matrix2)
name test
[1,] "A" "13"
[2,] "B" "16"
[3,] "c" "20"
[4,] "A" "13"
[5,] "D" "16"
[6,] "c" "20"
複制
如何避免呢
看來以後做矩陣之間的rbind要小心了,要麼保證順序一緻,要麼換種方法啦!不知道有沒有大神解釋解釋為什麼呢!你怎麼看這個問題,有沒有被坑過呢,歡迎交流!