将word轉html的原理是這樣的:
1、客戶上傳word文檔到伺服器
2、伺服器調用openoffice程式打開上傳的word文檔
3、openoffice将word文檔另存為html格式
4、over
至此可見,這要求伺服器端安裝openoffice軟體,其實也可以是ms office,不過openoffice的優勢是跨平台,你懂的。恩,說明一下,本文的測試基于 ms win7 ultimate x64 系統。
下面就是規規矩矩的實作。
1、下載下傳openoffice,http://download.openoffice.org/index.html so easy...
2、下載下傳jodconverter
http://www.artofsolving.com/opensource/jodconverter 這是一個開啟openoffice進行格式轉化的第三方jar包。
3、泡杯熱茶,等待下載下傳。
4、安裝openoffice,安裝結束後,調用cmd,啟動openoffice的一項服務:c:\program files (x86)\openoffice.org 3\program>soffice -headless -accept="socket,port=8100;urp;"
5、打開eclipse
6、喝杯熱茶,等待eclipse打開。
7、建立eclipse項目,導入jodconverter/lib 下得jar包。
* commons-io
* jodconverter
* juh
* jurt
* ridl
* slf4j-api
* slf4j-jdk14
* unoil
* xstream
8、coding...
類組織的不好,博友湊合看,代碼注釋比較詳細了,不多說。
兩個公開的方法是獨立使用的,tohtmlstring(...)方法是轉化檔案并擷取html代碼,以備存入資料庫。
參考了http://dangry.iteye.com/blog/858787,表示感謝。