天天看点

火车头文章采集步骤研究--如何导入本地access数据库

       最近一直在研究一个叫火车头的采集软件,现在终于有点眉目了,不过我的发布重点是在介绍怎么存储到本地access数据库上的,其他的我目前不需要也就暂时没去研究了,那么具体步骤是怎样的呢,让我们接着往下走~~~

1、为了方便管理,我们先建立测试站点,点击新建右边的小三角-->分组,先建立一个分组,再在分组下面建立测试的任务

2、接下来开始建立采集的任务,还是点击新建右边的小三角-->任务,打开新建任务对话框,如下图所示:

火车头文章采集步骤研究--如何导入本地access数据库

                                      图1

这个就是任务的界面,好了,那么这边我就拿http://www.lawtime.cn/info/fangdichan/fcanli/这个做范例,因为首页和内页的规则是不一样的哦。因此,如下

2-1、第一步的采集网址规则,这边就是要把文章的地址先采集下来,所以我们分析了下页面发现要先分首页和内页问题。。所以我们先点击添加按钮如下:

火车头文章采集步骤研究--如何导入本地access数据库

                                      图2

这个就是首页的地址,我们单独分开先添加一条单页地址采集规则。

2-2、然后重复上面的步骤,但是我们在添加采集地址的时候要选择击“批量/多页”命令,具体如下:

火车头文章采集步骤研究--如何导入本地access数据库

                                    图3

好了我们已经分析好网址了,接下来就是截取文章的地址列表,,具体下面:

火车头文章采集步骤研究--如何导入本地access数据库

                                      图4

火车头文章采集步骤研究--如何导入本地access数据库

                                     图5

一般我们只需要选中自动获取,然后去查看页面的源代码:找到文章列表的唯一标示符填入上面标注出来的框中就好了,然后记得点击http的请求方式:选中get方式,一般都是采用这个方式的。。如下源码:

火车头文章采集步骤研究--如何导入本地access数据库

                                     图6

找到唯一标示符…….

然后就是测试对不对了。。点击“测试网址采集”出现下面情况就是好了

火车头文章采集步骤研究--如何导入本地access数据库

                                      图7

这样第一步就完成了

再然后是分析文章地址了

http://www.lawtime.cn/info/fangdichan/fcanli/20110920161809.html  我这边拿这个来分析,主要是这个也有分页,刚好我们所要注意的都能在此体现。

界面上默认已经建立了标题、内容、作者、时间、出处5个规则,但是我们一般只要截取标题和内容,所以第一步见选择标题项,点击修改即可开始写截取标题的规则了,如下:

火车头文章采集步骤研究--如何导入本地access数据库

                                     图8

出现如下界面:

火车头文章采集步骤研究--如何导入本地access数据库

                                       图9

                               标题规则界面

接下来分析下该地址的标题截取,基本上来说我们都是选择“前后截取”的方式,然后我们再来看源码,我们看到有如下两种方式能得到标题:

火车头文章采集步骤研究--如何导入本地access数据库

                                     图10

火车头文章采集步骤研究--如何导入本地access数据库

                                   图11

以上,如果是将“标题规则界面”里面的title分别写成h1的话,在数据处理我们就可以放空,但是如果我们默认是截取title,会发现末尾有带“法律快车房地产法”几个关键字,那么怎么去掉呢,我们就可以在数据处理进行添加其他语法来过滤了,具体如下:

火车头文章采集步骤研究--如何导入本地access数据库

                                       图12

这里我们选择内容替换选项,出现如下界面:

火车头文章采集步骤研究--如何导入本地access数据库

                                      图13

1是写出要替换掉的文字规则,我这边后面带标签(*)指后面的都是可变的,前面几个文字不变,然后替换2为空。。点击确定,返回任务界面,在规则测试地址栏中填入我们刚分分析的地址。。点击测试,发现已经吧后面那串关键字去掉啦。。如下:

火车头文章采集步骤研究--如何导入本地access数据库

                                     图14

在来是分析内容规则同样的选中内容选项点击修改,先来分析内容规则,如下:

火车头文章采集步骤研究--如何导入本地access数据库

                                       图15

红色框呢,是唯一标识文章的框架,黑色的则是唯一标识分页的框架,所以我们规则如下写入界面里面:

火车头文章采集步骤研究--如何导入本地access数据库

                                     图16

开始字符串,为什么我加了参数(*),是为了防止文章开头有添加其他样式这么写的,我有发现其他文章不是写了一个样式【isc-article-bd】名……但是末尾是固定的,然后我还添加了去除标签和关键字的过滤,还有最重要的黑色箭头指示的地方一定要勾选,否则你在怎么写分页的规则,我们测试的时候永远都只能匹配第一页的内容,而取不到第二页的内容

看下方,分页规则是在左下方编写的,我们只要选择自动识别,软件就能自动识别页码了,非常方便

火车头文章采集步骤研究--如何导入本地access数据库

                                   图17

然后在点击测试你就会发现文章已经都被分析下来拉。。。

在来点击第三步:发布内容设置,我这边主要讲一下方式三,导入本地建立好的数据库【access】中,这边需慎重,你的数据库一定不要是在其他地方有在使用,否则你怎么测试sql语句都会提示出错,我之前就是一直没搞懂提示错误,因为我的数据库是另外一个网站的数据库,我正建立iis测试着了,我也没去在意结果在这上面分析了非常久,最终还是隔天灵光一现,吧数据库拷贝到桌面上才成功的。。【ps:最近换成win7系统,发现下载最新的火车头软件就可以共用数据库了~~~】好了废话不多说,我们接着往下走,我们在点击“数据库发布配置管理”,出现如下界面:

火车头文章采集步骤研究--如何导入本地access数据库

                                  图18

因为我之前已经建立过一次了,所以一些必备字段都有填充了,例如测试发布那边我先手动定义了字段了,方便测试入库,当然现在这些先不管,我们接着往下走,

火车头文章采集步骤研究--如何导入本地access数据库

                                   图19

根据上面步骤建立插入语句,点击保存模块,随便给个命名就好,这边说下,我数据库id是自动编号,access的sql语句要达到这个目的,放空就好,而不是像其他如mysql要写出字段,然后values是’’这样的形式这个一定要注意,其他想时间默认now的这边也放空了

接着选择数据库地址,测试入库语句,显示入库成功了的话,随便起个配置名,点击保存配置就好了。因为我之前已经建立过了,所以他显示的是修改配置,如下:

火车头文章采集步骤研究--如何导入本地access数据库

                                    图20

我的测试入库语句INSERTINTO LstNews (newsTitle ,newsContent) VALUES ('[标签:标题]','[标签:内容]')  

最终在我数据显示了记录,,如下:

火车头文章采集步骤研究--如何导入本地access数据库

                                   图21

这样整个采集的配置就完成啦,最后返回的第三步:发布内容设置,在方式三里面的复选框勾选起我们刚建立的发布规则就可以采集了

ps:还有很多很多功能有待发现,最近发现点击内容过滤,还可以吧文章字数小于设定的字数过滤掉,真心很好用的一款采集软件

继续阅读