天天看点

网络蜘蛛Spider的逻辑Logic(二)

1、关于规则识别的流程

1.1 自然语言描述

1)    输入规则

2)    判断规则是否有效

3)    分析规则内容

4)    输入目标

5)    使用规则解析目标内容

6)    生成目标实体

7)    判断实体是否有效

8)    有效则保存,否则丢弃

9)    判断是否解析完毕

10)    执行完毕退出,否则执行5)

11)    判断实体集是否有效

12)    有效则保存,否则执行13)

13)    结束

2、关于特定规则--图片采集规则的流程

2.1 自然语言描述

1)    输入图集的网址

2)    检查网址是否有效,包括是否http/https协议,是否目录

3)    获取网页内容,包括状态代码

4)    判断状态码是否有效,否则退出

5)    提取页面标题

6)    分析<img>标签,提取源地址和图片描述

7)    判断图片描述是否有效,否则使用5)处的标题代替

8)    对当前页面的图集去重

9)    判断是否有效,有效则保存

10)    提取页面超链接

11)    对超链接去重

12)    分析有效超链接并保存

13)    判断超链接集合是否为空,为空则退出

14)    逐个扫描超链接并记录,执行2)

15)    分析搜索的图集,下载和保存有效图集的信息

2.2 流程图描述

网络蜘蛛Spider的逻辑Logic(二)

特定规则:图片采集规则流程图

2.3 数据流图描述

网络蜘蛛Spider的逻辑Logic(二)

特定规则:图片采集规则数据流图

注:这个数据流图还缺少活动或进程的处理的简化描述,仅作参考。

后记:

写作有助于记忆,帮助自我更好的理解自己的作品。在不断的“写作-修改-审视”中,可以从各个方面深入了解项目内容和意义,总结过往经验,积累原始知识,弥补不足,添砖加瓦,精益求精,从而酝酿出更好的作品。

继续阅读