天天看點

dede文章采集管理php,CMS自帶采集體驗系列之DedeCMS v5.7

DedeCMS基于PHP+MySQL的技術開發,支援多種伺服器平台,從2004年開始釋出第一個版本開始,至今已經釋出了五個大版本。DedeCMS以簡單、健壯、靈活、開源幾大特點占領了國内CMS的大部份市場,目前已經有超過35萬個站點正在使用DedeCMS或基于DedeCMS核心開發,産品安裝量達到95萬。今天小編就帶大家來體驗一下DedeCMS v5.7的自帶采集。

同樣,織夢CMS内置了普通文章、圖檔集、軟體等内容模型,我們來測試常用了文章和圖檔兩個模型。為了能更好地與其他CMS做比較,我們的采集目标網站同上一期CMS自帶采集體驗系列之PHPCMS V9一樣。

1、織夢CMS文章采集

建立一個文章采集節點,背景——采集——采集節點管理——增加新節點,選擇内容模型為普通文章。

dede文章采集管理php,CMS自帶采集體驗系列之DedeCMS v5.7
dede文章采集管理php,CMS自帶采集體驗系列之DedeCMS v5.7

設定節點基本資訊。目标源碼同上篇文章所說,通過檢視目标網站源代碼後設定,區域比對模式預設字元串,隻有在字元串無法确定區域的時候才用正規表達式,不過一般都用不上。最後就是織夢cms采集的特點之一防盜鍊模式,如果目标網站有防盜鍊功能則開啟次功能可以成功采集,但是會降低采集速度。次測試目标網站沒防盜鍊功能,是以不開啟。

dede文章采集管理php,CMS自帶采集體驗系列之DedeCMS v5.7

清單網站擷取規則。同上篇文章分析,清單網址是有規律的可批量生成。這裡要說下dedecms的強大之處,不僅擷取清單網址的方式能靈活組合,而且如果目标網站整站使用的都是同一個模闆,就可以啟用“多欄目通配(#)”功能,通過設定後一個采集規則就可以采集整站并釋出不同欄目了,而不需要一個欄目對應一個規則。(此功能小編會另外單獨寫一篇教程)

dede文章采集管理php,CMS自帶采集體驗系列之DedeCMS v5.7

文章網址比對規則。檢視目标清單頁源代碼,設定要采集文章網址區域的開始和結束的html,接下來又是dedecms特點之一,如果采集網址頁面連結有圖檔可直接設定采集為縮略圖,非常友善。對區域網址進行再次篩選功能也有特色,除支援正規表達式外還聲明了“必須包含”和“不能包含”的優先級,本篇體驗目标站無幹擾網址,是以留白。

dede文章采集管理php,CMS自帶采集體驗系列之DedeCMS v5.7

儲存并測試,系統會應用前面的設定測試采集網址,完整無誤後儲存資訊并進入下一步内容采集設定。

dede文章采集管理php,CMS自帶采集體驗系列之DedeCMS v5.7