天天看點

rbind的坑?

這兩天在合并資料的時候發現了一個神奇的現象,rbind竟然可以合并不同列名的矩陣,而且不做任何提醒,在三個版本的R上都遇到了這個現象,看來不是個例。這樣會明顯造成資料錯誤呀!

talk is cheap, show me the code!

舉例如下:

建構資料框和矩陣

建了個超級簡單的資料框和矩陣。

name <- c('A', "B", "c")
test <- c(13, 16, 20)

df1 <- data.frame(name, test)
matrix1 <- as.matrix(df1)
name2 <- c('A', "D", "c")
test2 <- c(13, 16, 20)

df2 <- data.frame(name2, test2)
matrix2 <- as.matrix(df2)
           

複制

矩陣和資料框的資訊如下:

df1
  name test
1    A   13
2    B   16
3    c   20
     name test
[1,] "A"  "13"
[2,] "B"  "16"
[3,] "c"  "20"
df2
  name2 test2
1     A    13
2     D    16
3     c    20
     name2 test2
[1,] "A"   "13" 
[2,] "D"   "16" 
[3,] "c"   "20"
           

複制

可以看出,兩者的差別就是,矩陣隻能放同一種類型的資料,是以全部轉化成了字元串。後面我有換成全是數值試了下,結果是一樣的。

rbind合并資料

合并就出現我上面描述的現象啦!

#資料框合并報錯,沒問題!
rbind(df1, df2)
Error in match.names(clabs, names(xi)) : 
  names do not match previous names
#矩陣和資料框合并,報錯,沒問題
 rbind(df1, matrix2)
Error in match.names(clabs, names(xi)) : 
  names do not match previous names
# 矩陣合并,神奇的無警告成功運作
rbind(matrix1, matrix2)
     name test
[1,] "A"  "13"
[2,] "B"  "16"
[3,] "c"  "20"
[4,] "A"  "13"
[5,] "D"  "16"
[6,] "c"  "20"
           

複制

如何避免呢

看來以後做矩陣之間的rbind要小心了,要麼保證順序一緻,要麼換種方法啦!不知道有沒有大神解釋解釋為什麼呢!你怎麼看這個問題,有沒有被坑過呢,歡迎交流!