MySQL 大批量插入，如何過濾掉重複資料？

2021-08-09 23:50:00

加班原因是上線，解決線上資料庫存在重複資料的問題，發現了程式的bug，很好解決，有點問題的是，修正線上的重複資料。

線上庫有6個表存在重複資料，其中2個表比較大，一個96萬+、一個30萬+，因為之前處理過相同的問題，就直接拿來了上次的Python去重腳本，腳本很簡單，就是連接配接資料庫，查出來重複資料，循環删除。

emmmm，但是這個效率嘛，實在是太低了，1秒一條，重複資料大約2萬+，預估時間大約在8個小時左右。。。

盲目依靠前人的東西，而不去自己思考是有問題的！總去想之前怎麼可以，現在怎麼不行了，這也是有問題的！我發現，最近确實狀态不太對，失去了探索和求知的欲望，今天算是一個警醒，頗有迷途知返的感覺。

言歸正傳，下面詳細介紹去重步驟。

CREATE TABLE `animal` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(20) DEFAULT NULL,
  `age` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;


INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42');

目标：我們要去掉name相同的資料。

先看看哪些資料重複了

FROM
 student 
GROUP BY
NAME 
HAVING
 count( 1 ) > 1;

輸出

name為cat和dog的資料重複了，每個重複的資料有兩條；

删除全部重複資料，一條不留

直接删除會報錯

原因是：更新這個表的同時又查詢了這個表，查詢這個表的同時又去更新了這個表，可以了解為死鎖。mysql不支援這種更新查詢同一張表的操作

解決辦法：把要更新的幾列資料查詢出來做為一個第三方表，然後篩選更新。

删除表中删除重複資料，僅保留一條

在删除之前，我們可以先查一下，我們要删除的重複資料是啥樣的

啥意思呢，就是先通過name分組，查出id最小的資料，這些資料就是我們要留下的火種，那麼再查詢出id不在這裡面的，就是我們要删除的重複資料。

開始删除重複資料，僅留一條

很簡單，剛才的select換成delete即可

如果你想開發小程式或者APP的話，可以通過第三方專業開發平台，來幫助你實作開發需求：

廈門在乎科技

-專注

廈門小程式開發

、app開發、網站開發

MySQL 大批量插入，如何過濾掉重複資料？

繼續閱讀

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

mysql使用source指令導入.sql檔案

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入