天天看点

采集

--------------------------------------------采集---------------------------------------------

一:普通采集

①方法:

file_get_contents("一参");//获取页面全部内容;3

//一参:参数可为'路径'或者'静态页面的名'

preg_match_all(一参,二参,三参);//通过正则匹配获取的内容(匹配全部);

//一参:正则;    二参:内容;     三参:变量名

preg_match(一参,二参,三参);//通过正则匹配获取的内容(匹配一次);

strip_tags(一参);//去除HTML,XML和PHP中的各种标签

//一参:要去除标签的变量名

②,开启php.ini中的配置:allow_url_fopen=On

③,范例:

$url=file_get_contents("路径");

$path='匹配正则';

preg_match_all($path,$url,$ul);

$pathg="/http:\/\/www\.yanxuening\.com\/0902\/demo\d{1}\.htm/s";

preg_match_all($pathg,implode($ul[1],""),$qq);

foreach($qq[0] as $k=>$v){

//获取详细内容

}

二:Snoopy采集

fetch(一参);//获取网页的内容

//一参:要采集页面的路径

fetchtext(一参);//只获取网页中的文字内容

fetchlinks(一参);//返回链接

submit(一参,二参);//伪登录(俗称假登录)

//一参:网页的地址;二参:数组名(登录所需要的一些值)

②步骤:

require_once(一参)/include_once(一参);//引入'Snoopy.class.php'类

$snoopy=new Snoopy();//实例化snoopy

$snoopy->fetch(一参);//获取页面全部内容

//一参:正则;   二参:内容;  三参:变量名

foreach(){}//做出相应的循环

$snoopy->results//Snoopy采集完成后存储在其中

③范例:

require_once("Snoopy.class.php");

$snoopy=new Snoopy();

$snoopy->fetch("采集的路径");

preg_match_all($path,$snoopy->results,$qq);

继续阅读