先說說情況吧,我有一個資料庫,560多萬條資料,其中有一個字段(user_id)需要唯一,但目前表中該字段有60多萬條的重複資料,需要做去重處理,搜了網上的各種神貼,都不太好用,最後經過我自己的思考與實踐,終于找出來一條捷徑,處理時間隻需要3-5分鐘,下面說說操作步驟吧
1.先對要去重的表進行索引(處理重複的那個字段).
2.将資料group by後導入到新的表中,導入時,可能需要分多次導入,因為電腦的記憶體有限,設定一下tmp_table_size或許可以一下子多導點
使用sql如下:Insertinto Table2 select * from Table1 group by 重複字段名稱 limit 100000
使用以上SQL,并個性Limit參數多進行幾次導入操作即可