天天看點

kspider網絡資訊資源采集系統

KSpider網絡資訊資源采集系統

清華同方KSpider網絡資訊資源采集系統是一套功能強大的網絡資訊資源開發利用與整合系統,可用于定制跟蹤和監控網際網路實時資訊,建立可再利用的資訊服務系統。KSpider能夠從各種網絡資訊源,包括網頁、BLOG、論壇等采集使用者感興趣的特定資訊,經自動分類處理後,以多種形式提供給最終使用者使用。

KSpider能夠快速及時地捕獲使用者所需的熱點新聞、市場情報、行業資訊、政策法規、學術文獻等網絡資訊内容,可廣泛用于垂直搜尋引擎、網絡敏感資訊監控、情報收集、輿情分析、行情跟蹤等方面。

體系結構

KSpider系統由應用伺服器、網絡蜘蛛、智能代理、釋出系統四個子系統組成。此系統可分布部署、可群集,各子系統可以運作在多台伺服器上,也可以運作在一台伺服器上,依據性能要求和資料量來決定。體系結構如下圖所示:

kspider網絡資訊資源采集系統

應用伺服器是系統的核心部分,是使網絡蜘蛛、智能代理、釋出系統互相協調、同步工作的排程程式,負責各種任務的配置設定、子系統間的消息轉發及各子系統的排程。

網絡蜘蛛從使用者設定的網站抓取資料,形成資料包(資料表)發送給智能代理,由智能代理對所抓取的資料進行分析過濾,按站點、頻道、關鍵詞、或其他分類模型對資料進行自動分類,儲存在本地資料庫,并通過釋出系統按標明的風格釋出出來,友善使用者使用。

系統特點

先進的智能代理

基于先進淺層語義分析技術,內建多種智能資訊處理算法,能從資訊海洋中準确、及時地篩選出使用者感興趣的資訊,并自動分類;支援使用者自定義分類體系,為使用者提供了多種方式定制感興趣的主題。

擁有自學習功能,可以根據使用者回報資訊,及時地自學習完善知識體系,提高自身的智能性。

強大的資訊采集能力

高效的資訊采集技術完成網絡資料擷取,能快速、全面、準确的從Internet上擷取資料,并可對采集的資料進行結構化處理。可以多線程并行采集,實時動态監控特定目标;靈活地定制采集政策,可以全面采集,也可以針對特定的監控網站進行采集。對于采集規模較大的應用,采用叢集式網絡蜘蛛抓取,進而滿足抓取速度上的需求。

體系結構靈活

網絡蜘蛛群集,智能代理群集,應用伺服器智能排程,各子系統可以随時斷開随時連接配接到系統中來,不影響整個系統的運作。

基于KBase的海量非結構化資料存儲和全文檢索能力

支援海量非結構化資料的存儲管理,擁有成熟的全文檢索技術,檢索速度達500G/S,處于業界領先水準。支援智能相似檢索技術,檢索速度可達百萬級文獻量毫秒級響應,性能遠高于同類産品,處于國際領先水準。支援群集。

強大的釋出系統

系統支援了多種釋出風格,包括: CNKI專題庫風格、資訊資源門戶風格、搜尋引擎風格等。支援動态摘要和敏感摘要,并提供标紅、網頁快照、相關網頁自動關聯等實用功能。

穩定可靠的系統性能

采用分布式的群集系統、高效的搜尋算法以及靈活的體系結構,保證整個系統的高穩定性和易用性。

可采集多種文檔資訊

除了對各種動靜态網頁資訊的采集外,系統還可以采集多種文檔資訊,包括txt、doc、rtf、xml、ppt、pdf、chm、caj等。滿足使用者的多種采集需求。

滿足使用者的各種個性化檢索需求

支援使用者自定義符合自己行業、企業特殊需求的個性化分詞詞典,隻需要簡單的輸入自定的各種專業詞彙,系統便會按照使用者的定制精确檢索,大幅提高檢索效率和查全查準率。充分滿足使用者的各種個性化檢索需求。

支援主流的中文編碼标準

包括GBK(漢字内碼擴充規範)、GB2312(簡體)、BIG5(繁體)、Unicode,并且能夠在不同的編碼之間轉換。

良好的可拓展性

采集資料使用KBase系統進行管理,系統具備強大的中文檢索和智能資訊處理能力。可以友善地接入CNKI網格資源共享平台,與中國期刊全文資料庫、中國優秀博碩士論文資料庫、中國重要報紙全文資料庫、中國重要會議論文全文資料庫、中國年鑒資料庫等CNKI資源以及其他資料資源實作統一檢索和深度整合。

繼續閱讀