天天看點

資料抽取——純文字抽出程式庫DMCTextFilter

DMCTextFilter V4.2是由北京紅櫻楓軟體有限公司研制和開發的純文字抽出通用程式庫産品。本産品可以從各種各樣的文檔格式的資料中或從插入的OLE對象中,完全除掉特殊控制資訊,快速抽出純文字資料資訊。便于使用者實作對多種文檔資料資源資訊進行統一管理,編輯,檢索和浏覽。

在實際的推廣和應用中,紅櫻楓的通用文本抽出程式軟體被應用到了多個領域,如:資訊資源開發利用,智能搜尋引擎,情報分析和服務,資訊安全,企業知識門戶,數字圖書館,電子商務等領域。在世界各地得到了衆多知名企業的青睐。本産品在性能和品質上都得到了使用者高度評價。

客戶典型應用案例

● 攔截郵件後的内容資訊抽取過濾

● 搜尋引擎的資料前期格式統一

● 分詞資訊挖掘系統的資料轉換

● 網絡資料的過濾

● 輿情系統的資訊挖掘

● 企業郵件系統監控

提到資料格式轉換軟體,我們從WEB搜尋的應用上足可窺其廣闊的需求态勢。全球最大的搜尋網站百度,就采用了高效資料轉換技術。以提高搜尋引擎的搜尋品質和易用性為主要目标,百度将純文字抽出程式庫應用于搜尋引擎,進行二次開發和應用,為使用者提供了一個既易于操作、又能準确查詢的搜尋技術平台。文本抽出程式在INTERNET中的二次應用,使搜尋網站在專業化程序中更進一步。

類似WEB搜尋引擎,在郵件進行中一樣需要純文抽出程式庫來幫忙。為使商業郵件的管理更為有序高效,使用者需要找到一個簡單快捷的途徑,來對郵件進行檢索規整。這就相當于要在電腦上建立一個“透視眼”,對目标性資訊進行查詢。隻要鍵入目标資訊,就可以在不打開附件的情況下,找到搜尋目标,可獲知信件的主要資訊,這樣既能提高效率又能保證網絡安全。

本産品采用了先進的多語言、多平台、多線程的設計理念,支援多國語言(英語,中文簡體,中文繁體,日本語,南韓語),多種作業系統(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多種文字集合代碼(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多種形式的API功能接口(檔案格式識别函數,文本抽出函數,檔案屬性抽出函數,頁抽出函數,設定User Password的PDF檔案的文本抽出函數等),便于使用者友善使用。使用者可以十分便利的将本産品組裝到自己的應用程式中,進行二次開發。通過調用本産品的提供的API功能接口,實作從多種文檔格式的資料中快速抽出純文字資料。本産品在國内外得到了廣泛的應用,在産品性能和品質上都得到了使用者高度的好評。

本文出自 “” 部落格,請務必保留此出處

繼續閱讀