天天看點

Python處理Excel的子產品

0. 前言

從網頁爬下來的大量資料需要清洗?

成堆的科學實驗資料需要導入 Excel 進行分析?

有成堆的表格等待統計?

作為人生苦短的 Python 程式員,該如何優雅地操作 Excel?

得益于前人的辛勤勞作,Python 處理 Excel 已有很多現成的輪子,使用較多的有:

xlwings

http://docs.xlwings.org/en/stable/

openpyxl

https://openpyxl.readthedocs.io/en/latest/

pandas

http://pandas.pydata.org/

win32com

http://pythonexcels.com/python-excel-mini-cookbook/

xlsxwriter

https://xlsxwriter.readthedocs.io/

DataNitro

https://datanitro.com/

xlutils

https://pypi.python.org/pypi/xlutils/

上次我們介紹了下 xlutils,不少讀者留言表示有比它更好使的子產品,于是我們又把另外幾個都體驗了一遍。

本文将從運作環境、文檔操作、基本功能和性能等方面對以上子產品進行一次粗淺的比較,供大家參考。

1. 環境配置

再好的子產品,也需要在正确的 Python 版本以及 Excel 版本才可運作。

Python處理Excel的子產品

提醒及注意:

  • xlutils 僅支援 xls 檔案,即2003以下版本;
  • win32com 與 DataNitro 僅支援 windows 系統;
  • xlwings 安裝成功後,如果運作提示報錯“ImportError: no module named win32api”,請再安裝 pypiwin32 或者 pywin32 包;
  • win32com 不是獨立的擴充庫,而是內建在其他庫中,安裝 pypiwin32 或者 pywin32 包即可使用;
  • DataNitro 是 Excel 的插件,安裝需到官網下載下傳。

2. 文檔操作

雖然大家都是操作 Excel,但即使最基本的建立檔案、修改檔案、儲存檔案等功能,在不同的庫中也存在差異。比如 xlsxwriter 并不支援打開或修改現有檔案,xlwings 不支援對建立檔案的命名,DataNitro 作為 Excel 插件需依托于軟體本身,pandas 建立文檔需要依賴其他庫等等。

Python處理Excel的子產品

3. 基本功能

由于設計目的不同,每個子產品通常着重于某一方面功能,各有所長。

xlwings

可結合 VBA 實作對 Excel 程式設計,強大的資料輸入分析能力,同時擁有豐富的接口,結合 pandas/numpy/matplotlib 輕松應對 Excel 資料處理工作。

openpyxl

簡單易用,功能廣泛,單元格格式/圖檔/表格/公式/篩選/批注/檔案保護等等功能應有盡有,圖表功能是其一大亮點,缺點是對 VBA 支援的不夠好。

pandas

資料處理是 pandas 的立身之本,Excel 作為 pandas 輸入/輸出資料的容器。

win32com

從命名上就可以看出,這是一個處理 windows 應用的擴充,Excel 隻是該庫能實作的一小部分功能。該庫還支援 office 的衆多操作。需要注意的是,該庫不單獨存在,可通過安裝 pypiwin32 或者 pywin32 擷取。

xlsxwriter

擁有豐富的特性,支援圖檔/表格/圖表/篩選/格式/公式等,功能與openpyxl相似,優點是相比 openpyxl 還支援 VBA 檔案導入,迷你圖等功能,缺點是不能打開/修改已有檔案,意味着使用 xlsxwriter 需要從零開始。

DataNitro

作為插件内嵌到 Excel 中,可完全替代 VBA,在 Excel 中使用 python 腳本。既然被稱為 Excel 中的 python,協同其他 python 庫亦是小事一樁。然而,這是付費插件...

xlutils

基于 xlrd/xlwt,老牌 python 包,算是該領域的先驅,功能特點中規中矩,比較大的缺點是僅支援 xls 檔案。

4.性能

我們對幾個庫做了最基本的寫入和讀取測試,分别使用不同庫進行添加及讀取 1000行 * 700列 資料操作,得到所用時間,重複操作取平均值。另外在不同的電腦組態,不同的環境下結果肯定會有出入,資料僅供參考。

Python處理Excel的子產品

注:

  • xlutils 最多隻能寫入 256 列,即 1000*256,用時3.8秒,表現不錯;
  • DataNitro 與 xlsxwriter 不能打開 Excel 檔案。

5. 小結

通過以上的分析,相信大家對幾個庫都有了簡單的了解。在編寫文章的過程中,筆者也在思考各個庫最适合的應用場景。

  • 不想使用 GUI 而又希望賦予 Excel 更多的功能,openpyxl 與 xlsxwriter,你可二者選其一;
  • 需要進行科學計算,處理大量資料,建議 pandas+xlsxwriter 或者 pandas+openpyxl;
  • 想要寫 Excel 腳本,會 Python 但不會 VBA 的同學,可考慮 xlwings 或 DataNitro;
  • 至于 win32com,不管是功能還是性能都很強大,有 windows 程式設計經驗的同學可以使用。不過它相當于是 windows COM 的封裝,自身并沒有很完善的文檔,新手使用起來略有些痛苦。

你可根據自己的需求和生産環境,選擇合适的 Python-Excel 子產品。

6. 代碼示例

最後,附上一些示範代碼,大家可自行體會下不同子產品的使用。

6.1 xlwings基本代碼

import xlwings as xw
#連接配接到excel
workbook = xw.Book(r'path/myexcel.xlsx')#連接配接excel檔案
#連接配接到指定單元格
data_range = workbook.sheets('Sheet1').range('A1')
#寫入資料
data_range.value = [1,2,3]
#儲存
workbook.save()
           

6.2 xlsxwriter基本代碼

import xlsxwriter as xw
#建立excel
workbook  = xw.Workbook('myexcel.xlsx')
#建立工作薄
worksheet = workbook.add_worksheet()
#寫入資料
worksheet.wirte('A1',1)
#關閉儲存
workbook.close()
           

6.3 xlutils基本代碼import xlrd #讀取資料

import xlwt #寫入資料
import xlutils #操作excel
#----xlrd庫
#打開excel檔案
workbook = xlrd.open_workbook('myexcel.xls')
#擷取表單
worksheet = workbook.sheet_by_index(0)
#讀取資料
data = worksheet.cell_value(0,0)
#----xlwt庫
#建立excel
wb = xlwt.Workbook()
#添加工作薄
sh = wb.add_sheet('Sheet1')
#寫入資料
sh.write(0,0,'data')
#儲存檔案
wb.save('myexcel.xls')
#----xlutils庫
#打開excel檔案
book = xlrd.open_workbook('myexcel.xls')
#複制一份
new_book = xlutils.copy(book)
#拿到工作薄
worksheet = new_book.getsheet(0)
#寫入資料
worksheet.write(0,0,'new data')
#儲存
new_book.save()
           

6.4 win32com基本代碼

import win32com.client as wc
#啟動Excel應用
excel_app = wc.Dispatch('Excel.Application')
#連接配接excel
workbook = excel_app.Workbooks.Open(r'e:/myexcel.xlsx' )
#寫入資料
workbook.Worksheets('Sheet1').Cells(1,1).Value = 'data'
#關閉并儲存
workbook.SaveAs('newexcel.xlsx')
excel_app.Application.Quit()
           

6.5 openpyxl基本代碼 

import openpyxl
# 建立檔案
workbook = openpyxl.Workbook() 
# 寫入檔案
sheet = workbook.activesheet['A1']='data'
# 儲存檔案 
workbook.save('test.xlsx')
           

6.6 DataNitro基本代碼

#單一單元格指派
Cell('A1').value = 'data'
#單元區域指派
CellRange('A1:B2').value = 'data'
           

其他文章及回答:

Python 與 Excel 不得不說的事 - Crossin的程式設計教室 - 知乎專欄

爆款遊戲《貪吃蛇大作戰》的 Python 實作 - Crossin的程式設計教室 - 知乎專欄

NBA 舉辦程式設計馬拉松 - 資料分析時代的到來 - Crossin的文章 - 知乎專欄

想用 Python 做資料分析?先玩玩這個再說 - Crossin的文章 - 知乎專欄

用 Python 實作你的量化交易政策 - Crossin的文章 - 知乎專欄

學習程式設計的過程中可能會走哪些彎路,有哪些經驗可以參考? - Crossin 的回答

你是如何自學 Python 的? - Crossin 的回答

Python 抓取網頁亂碼原因分析 - Crossin的程式設計教室 - 知乎專欄

Crossin的程式設計教室

微信ID:crossincode

論壇: Crossin的程式設計教室

QQ群:167478032

Python處理Excel的子產品

「真誠贊賞,手留餘香」 贊賞 還沒有人贊賞,快來當第一個贊賞的人吧! Python Excel 技巧 資料處理 270

Python處理Excel的子產品
Python處理Excel的子產品
Python處理Excel的子產品
Python處理Excel的子產品
Python處理Excel的子產品

收藏 分享 舉報