--------------------------------------------采集---------------------------------------------
一:普通采集
①方法:
file_get_contents("一参");//获取页面全部内容;3
//一参:参数可为'路径'或者'静态页面的名'
preg_match_all(一参,二参,三参);//通过正则匹配获取的内容(匹配全部);
//一参:正则; 二参:内容; 三参:变量名
preg_match(一参,二参,三参);//通过正则匹配获取的内容(匹配一次);
strip_tags(一参);//去除HTML,XML和PHP中的各种标签
//一参:要去除标签的变量名
②,开启php.ini中的配置:allow_url_fopen=On
③,范例:
$url=file_get_contents("路径");
$path='匹配正则';
preg_match_all($path,$url,$ul);
$pathg="/http:\/\/www\.yanxuening\.com\/0902\/demo\d{1}\.htm/s";
preg_match_all($pathg,implode($ul[1],""),$qq);
foreach($qq[0] as $k=>$v){
//获取详细内容
}
二:Snoopy采集
fetch(一参);//获取网页的内容
//一参:要采集页面的路径
fetchtext(一参);//只获取网页中的文字内容
fetchlinks(一参);//返回链接
submit(一参,二参);//伪登录(俗称假登录)
//一参:网页的地址;二参:数组名(登录所需要的一些值)
②步骤:
require_once(一参)/include_once(一参);//引入'Snoopy.class.php'类
$snoopy=new Snoopy();//实例化snoopy
$snoopy->fetch(一参);//获取页面全部内容
//一参:正则; 二参:内容; 三参:变量名
foreach(){}//做出相应的循环
$snoopy->results//Snoopy采集完成后存储在其中
③范例:
require_once("Snoopy.class.php");
$snoopy=new Snoopy();
$snoopy->fetch("采集的路径");
preg_match_all($path,$snoopy->results,$qq);