需求
前段时间有个朋友说,能不能写一个快速从execl表格里面分离出重复数据和不重复数据的脚本。想想,好像用python实现比较快。就花了点时间,写了下面的脚本。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZwpWPlBXe0ZCM40Te0lGbhVXcmcDN2MDO0cDNxIDewUjN9wWah5mYtVHa0ZyZwpmL0YzNwkDOyQzM0ETNx42b0U3cENkUBdka4M3QFdjZZ9kN65mRsdkUqp0bXJVO5kEMTdUcjdkeRlHRzUyQGJTJ0VmbuYjMx4yc35SZ1l3ZulGZGJTJGJTJBNTJwRHdo1DbyV3PvwFdl5mL2ITMuM3ducWbp52Lc9CX6MHc0RHaiojIsJye.jpg)
环境准备
Python版本:3.6.2
使用python3.6写的,如果使用python2.7也应该兼容。
如果使用python2.7,记得在文件前面加上
# -*- coding:utf-8 -*-
不然文件中的中文会报错的,还是推荐使用Python3。
开发环境:Archlinux
在Linux开发测试,但是在windows下运行应该也没有问题。
依赖包:xlrd xlwt
xlrd是用来读取execl表格里面的数据的;xlwt是用来写execl文件的。直接使用pip install安装就可以了。
pip install xlrd
pip install xlwt代码
需要的模块
获取重复的行号
写到文件中
主函数运行处理
代码地址:https://gitee.com/jalright/scriptstodo/blob/master/unique_duplicate.py
(头条里面代码格式会乱,放到这里了)
使用方法
示例:1.xlsx
将代码保存为unique_duplicate.py,进入终端或者dos
python unique_duplicate.py 1.xls
生成结果:
如果需要对比指定列,就在文件名后面指定(如果只指定开始列,就对比开始列到最后一列的数据)
对比第二列以后的数据
python unique_duplicate.py 1.xls 2
对比第二列到第五列的数据:
python unique_duplicate.py 1.xls 2 5总结
最开始脚本很简单的直接对比一整行的,数据,后来朋友要求越来越多,然后代码就越来越长了。想找时间修改一些,写一些备注之类的,然后就没时间了,有时间在修改一下,反正可以用就行。
一点点积累,会走得更快哦!