采集 #学习 #采集

采集

2021-11-28 02:57:04

--------------------------------------------采集---------------------------------------------

一：普通采集

①方法：

file_get_contents("一参");//获取页面全部内容；3

//一参：参数可为'路径'或者'静态页面的名'

preg_match_all(一参，二参，三参);//通过正则匹配获取的内容(匹配全部);

//一参:正则；二参:内容；三参：变量名

preg_match(一参，二参，三参);//通过正则匹配获取的内容(匹配一次);

strip_tags(一参);//去除HTML,XML和PHP中的各种标签

//一参:要去除标签的变量名

②，开启php.ini中的配置:allow_url_fopen=On

③，范例：

$url=file_get_contents("路径");

$path='匹配正则';

preg_match_all($path,$url,$ul);

$pathg="/http:\/\/www\.yanxuening\.com\/0902\/demo\d{1}\.htm/s";

preg_match_all($pathg,implode($ul[1],""),$qq);

foreach($qq[0] as $k=>$v){

//获取详细内容

}

二：Snoopy采集

fetch(一参);//获取网页的内容

//一参：要采集页面的路径

fetchtext(一参);//只获取网页中的文字内容

fetchlinks(一参);//返回链接

submit(一参，二参);//伪登录（俗称假登录）

//一参:网页的地址；二参:数组名(登录所需要的一些值）

②步骤：

require_once(一参)/include_once(一参);//引入'Snoopy.class.php'类

$snoopy=new Snoopy();//实例化snoopy

$snoopy->fetch(一参);//获取页面全部内容

//一参:正则；二参:内容；三参：变量名

foreach(){}//做出相应的循环

$snoopy->results//Snoopy采集完成后存储在其中

③范例：

require_once("Snoopy.class.php");

$snoopy=new Snoopy();

$snoopy->fetch("采集的路径");

preg_match_all($path,$snoopy->results,$qq);

采集

继续阅读

Spring5学习笔记（十二）—— 事务操作

session与cookie

Run-Time Check Failure #2 - Stack around the variable 'cmd' was corrupted 的可能原因

常用的图像特征有颜色特征、纹理特征、形状特征、空间关系特征。

优秀IT顾问的七大能力之六--宏观把控能力6 宏观把控能力

魔数（代码大全第12章：基本数据类型）

项管行知01--几个经理1 定义2 历史

《电磁学》学习笔记5——磁场强度H分子环流假说

项目管理二三事1、时间2、铁三角 3、PMBOK4、PMBOK版本变更5 小结

安卓学习笔记（2）----LinearLayoutLinearLayout

安卓学习笔记（3）------RelativeLayoutRelativeLayout参考文献

.NET中英文切换常见错误

阅读教材的最佳方法是什么？

标识符的命名规则和规范标识符命名规则标识符命名规范基础版Java代码规范详细版

蓝桥杯单片机比赛蜂鸣器与继电器模块（原理、代码详解）

UE学习笔记：材质错乱排序函数