天天看點

采集

--------------------------------------------采集---------------------------------------------

一:普通采集

①方法:

file_get_contents("一參");//擷取頁面全部内容;3

//一參:參數可為'路徑'或者'靜态頁面的名'

preg_match_all(一參,二參,三參);//通過正則比對擷取的内容(比對全部);

//一參:正則;    二參:内容;     三參:變量名

preg_match(一參,二參,三參);//通過正則比對擷取的内容(比對一次);

strip_tags(一參);//去除HTML,XML和PHP中的各種标簽

//一參:要去除标簽的變量名

②,開啟php.ini中的配置:allow_url_fopen=On

③,範例:

$url=file_get_contents("路徑");

$path='比對正則';

preg_match_all($path,$url,$ul);

$pathg="/http:\/\/www\.yanxuening\.com\/0902\/demo\d{1}\.htm/s";

preg_match_all($pathg,implode($ul[1],""),$qq);

foreach($qq[0] as $k=>$v){

//擷取詳細内容

}

二:Snoopy采集

fetch(一參);//擷取網頁的内容

//一參:要采集頁面的路徑

fetchtext(一參);//隻擷取網頁中的文字内容

fetchlinks(一參);//傳回連結

submit(一參,二參);//僞登入(俗稱假登入)

//一參:網頁的位址;二參:數組名(登入所需要的一些值)

②步驟:

require_once(一參)/include_once(一參);//引入'Snoopy.class.php'類

$snoopy=new Snoopy();//執行個體化snoopy

$snoopy->fetch(一參);//擷取頁面全部内容

//一參:正則;   二參:内容;  三參:變量名

foreach(){}//做出相應的循環

$snoopy->results//Snoopy采集完成後存儲在其中

③範例:

require_once("Snoopy.class.php");

$snoopy=new Snoopy();

$snoopy->fetch("采集的路徑");

preg_match_all($path,$snoopy->results,$qq);

繼續閱讀