天天看點

MySQL 大批量插入,如何過濾掉重複資料?

加班原因是上線,解決線上資料庫存在重複資料的問題,發現了程式的bug,很好解決,有點問題的是,修正線上的重複資料。

線上庫有6個表存在重複資料,其中2個表比較大,一個96萬+、一個30萬+,因為之前處理過相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡單,就是連接配接資料庫,查出來重複資料,循環删除。

emmmm,但是這個效率嘛,實在是太低了,1秒一條,重複資料大約2萬+,預估時間大約在8個小時左右。。。

盲目依靠前人的東西,而不去自己思考是有問題的!總去想之前怎麼可以,現在怎麼不行了,這也是有問題的!我發現,最近确實狀态不太對,失去了探索和求知的欲望,今天算是一個警醒,頗有迷途知返的感覺。

言歸正傳,下面詳細介紹去重步驟。

CREATE TABLE `animal` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(20) DEFAULT NULL,
  `age` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;


INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42');           

目标:我們要去掉name相同的資料。

先看看哪些資料重複了

FROM
 student 
GROUP BY
NAME 
HAVING
 count( 1 ) > 1;           

輸出

name為cat和dog的資料重複了,每個重複的資料有兩條;

删除全部重複資料,一條不留

直接删除會報錯

原因是:更新這個表的同時又查詢了這個表,查詢這個表的同時又去更新了這個表,可以了解為死鎖。mysql不支援這種更新查詢同一張表的操作

解決辦法:把要更新的幾列資料查詢出來做為一個第三方表,然後篩選更新。

删除表中删除重複資料,僅保留一條

在删除之前,我們可以先查一下,我們要删除的重複資料是啥樣的

啥意思呢,就是先通過name分組,查出id最小的資料,這些資料就是我們要留下的火種,那麼再查詢出id不在這裡面的,就是我們要删除的重複資料。

開始删除重複資料,僅留一條

很簡單,剛才的select換成delete即可

如果你想開發小程式或者APP的話,可以通過第三方專業開發平台,來幫助你實作開發需求:

廈門在乎科技

-專注

廈門小程式開發

、app開發、網站開發