天天看点

python对比excel重复数据_Python-查找excel文档中的重复数据

需求

前段时间有个朋友说,能不能写一个快速从execl表格里面分离出重复数据和不重复数据的脚本。想想,好像用python实现比较快。就花了点时间,写了下面的脚本。

python对比excel重复数据_Python-查找excel文档中的重复数据

环境准备

Python版本:3.6.2

使用python3.6写的,如果使用python2.7也应该兼容。

如果使用python2.7,记得在文件前面加上

# -*- coding:utf-8 -*-

不然文件中的中文会报错的,还是推荐使用Python3。

开发环境:Archlinux

在Linux开发测试,但是在windows下运行应该也没有问题。

依赖包:xlrd xlwt

xlrd是用来读取execl表格里面的数据的;xlwt是用来写execl文件的。直接使用pip install安装就可以了。

pip install xlrd

pip install xlwt代码

python对比excel重复数据_Python-查找excel文档中的重复数据

需要的模块

python对比excel重复数据_Python-查找excel文档中的重复数据

获取重复的行号

python对比excel重复数据_Python-查找excel文档中的重复数据

写到文件中

python对比excel重复数据_Python-查找excel文档中的重复数据

主函数运行处理

代码地址:https://gitee.com/jalright/scriptstodo/blob/master/unique_duplicate.py

(头条里面代码格式会乱,放到这里了)

使用方法

示例:1.xlsx

python对比excel重复数据_Python-查找excel文档中的重复数据

将代码保存为unique_duplicate.py,进入终端或者dos

python unique_duplicate.py 1.xls

生成结果:

python对比excel重复数据_Python-查找excel文档中的重复数据
python对比excel重复数据_Python-查找excel文档中的重复数据

如果需要对比指定列,就在文件名后面指定(如果只指定开始列,就对比开始列到最后一列的数据)

对比第二列以后的数据

python unique_duplicate.py 1.xls 2

对比第二列到第五列的数据:

python unique_duplicate.py 1.xls 2 5总结

最开始脚本很简单的直接对比一整行的,数据,后来朋友要求越来越多,然后代码就越来越长了。想找时间修改一些,写一些备注之类的,然后就没时间了,有时间在修改一下,反正可以用就行。

一点点积累,会走得更快哦!

python对比excel重复数据_Python-查找excel文档中的重复数据
python对比excel重复数据_Python-查找excel文档中的重复数据