采集 #學習 #采集

采集

2021-11-28 02:57:04

--------------------------------------------采集---------------------------------------------

一：普通采集

①方法：

file_get_contents("一參");//擷取頁面全部内容；3

//一參：參數可為'路徑'或者'靜态頁面的名'

preg_match_all(一參，二參，三參);//通過正則比對擷取的内容(比對全部);

//一參:正則；二參:内容；三參：變量名

preg_match(一參，二參，三參);//通過正則比對擷取的内容(比對一次);

strip_tags(一參);//去除HTML,XML和PHP中的各種标簽

//一參:要去除标簽的變量名

②，開啟php.ini中的配置:allow_url_fopen=On

③，範例：

$url=file_get_contents("路徑");

$path='比對正則';

preg_match_all($path,$url,$ul);

$pathg="/http:\/\/www\.yanxuening\.com\/0902\/demo\d{1}\.htm/s";

preg_match_all($pathg,implode($ul[1],""),$qq);

foreach($qq[0] as $k=>$v){

//擷取詳細内容

}

二：Snoopy采集

fetch(一參);//擷取網頁的内容

//一參：要采集頁面的路徑

fetchtext(一參);//隻擷取網頁中的文字内容

fetchlinks(一參);//傳回連結

submit(一參，二參);//僞登入（俗稱假登入）

//一參:網頁的位址；二參:數組名(登入所需要的一些值）

②步驟：

require_once(一參)/include_once(一參);//引入'Snoopy.class.php'類

$snoopy=new Snoopy();//執行個體化snoopy

$snoopy->fetch(一參);//擷取頁面全部内容

//一參:正則；二參:内容；三參：變量名

foreach(){}//做出相應的循環

$snoopy->results//Snoopy采集完成後存儲在其中

③範例：

require_once("Snoopy.class.php");

$snoopy=new Snoopy();

$snoopy->fetch("采集的路徑");

preg_match_all($path,$snoopy->results,$qq);

采集

繼續閱讀

Spring5學習筆記（十二）—— 事務操作

session與cookie

Run-Time Check Failure #2 - Stack around the variable 'cmd' was corrupted 的可能原因

常用的圖像特征有顔色特征、紋理特征、形狀特征、空間關系特征。

優秀IT顧問的七大能力之六--宏觀把控能力6 宏觀把控能力

魔數（代碼大全第12章：基本資料類型）

項管行知01--幾個經理1 定義2 曆史

《電磁學》學習筆記5——磁場強度H分子環流假說

項目管理二三事1、時間2、鐵三角 3、PMBOK4、PMBOK版本變更5 小結

安卓學習筆記（2）----LinearLayoutLinearLayout

安卓學習筆記（3）------RelativeLayoutRelativeLayout參考文獻

.NET中英文切換常見錯誤

閱讀教材的最佳方法是什麼？

辨別符的命名規則和規範辨別符命名規則辨別符命名規範基礎版Java代碼規範詳細版

藍橋杯單片機比賽蜂鳴器與繼電器子產品（原理、代碼詳解）

UE學習筆記：材質錯亂排序函數