天天看點

借用OpenOffice将上傳的Word文檔轉換成Html格式

将word轉html的原理是這樣的:

1、客戶上傳word文檔到伺服器

2、伺服器調用openoffice程式打開上傳的word文檔

3、openoffice将word文檔另存為html格式

4、over

至此可見,這要求伺服器端安裝openoffice軟體,其實也可以是ms office,不過openoffice的優勢是跨平台,你懂的。恩,說明一下,本文的測試基于 ms win7 ultimate x64 系統。

下面就是規規矩矩的實作。

1、下載下傳openoffice,http://download.openoffice.org/index.html so easy...

2、下載下傳jodconverter

http://www.artofsolving.com/opensource/jodconverter 這是一個開啟openoffice進行格式轉化的第三方jar包。

3、泡杯熱茶,等待下載下傳。

4、安裝openoffice,安裝結束後,調用cmd,啟動openoffice的一項服務:c:\program files (x86)\openoffice.org 3\program>soffice -headless -accept="socket,port=8100;urp;"

借用OpenOffice将上傳的Word文檔轉換成Html格式

5、打開eclipse

6、喝杯熱茶,等待eclipse打開。

7、建立eclipse項目,導入jodconverter/lib 下得jar包。

 * commons-io

 * jodconverter

 * juh

 * jurt

 * ridl

 * slf4j-api

 * slf4j-jdk14 

 * unoil

 * xstream

8、coding...

類組織的不好,博友湊合看,代碼注釋比較詳細了,不多說。

兩個公開的方法是獨立使用的,tohtmlstring(...)方法是轉化檔案并擷取html代碼,以備存入資料庫。

參考了http://dangry.iteye.com/blog/858787,表示感謝。