网络蜘蛛Spider的逻辑Logic（二）

2023-08-07 17:41:05

1、关于规则识别的流程

1.1 自然语言描述

1) 输入规则

2) 判断规则是否有效

3) 分析规则内容

4) 输入目标

5) 使用规则解析目标内容

6) 生成目标实体

7) 判断实体是否有效

8) 有效则保存，否则丢弃

9) 判断是否解析完毕

10) 执行完毕退出，否则执行5）

11) 判断实体集是否有效

12) 有效则保存，否则执行13）

13) 结束

2、关于特定规则--图片采集规则的流程

2.1 自然语言描述

1) 输入图集的网址

2) 检查网址是否有效，包括是否http/https协议，是否目录

3) 获取网页内容，包括状态代码

4) 判断状态码是否有效，否则退出

5) 提取页面标题

6) 分析<img>标签，提取源地址和图片描述

7) 判断图片描述是否有效，否则使用5）处的标题代替

8) 对当前页面的图集去重

9) 判断是否有效，有效则保存

10) 提取页面超链接

11) 对超链接去重

12) 分析有效超链接并保存

13) 判断超链接集合是否为空，为空则退出

14) 逐个扫描超链接并记录，执行2）

15) 分析搜索的图集，下载和保存有效图集的信息

2.2 流程图描述

网络蜘蛛Spider的逻辑Logic（二）

特定规则：图片采集规则流程图

2.3 数据流图描述

网络蜘蛛Spider的逻辑Logic（二）

特定规则：图片采集规则数据流图

注：这个数据流图还缺少活动或进程的处理的简化描述，仅作参考。

后记：

写作有助于记忆，帮助自我更好的理解自己的作品。在不断的“写作-修改-审视”中，可以从各个方面深入了解项目内容和意义，总结过往经验，积累原始知识，弥补不足，添砖加瓦，精益求精，从而酝酿出更好的作品。

网络蜘蛛Spider的逻辑Logic（二）

1、关于规则识别的流程

1.1 自然语言描述

2、关于特定规则--图片采集规则的流程

2.1 自然语言描述

2.2 流程图描述

2.3 数据流图描述

继续阅读

网络爬虫：URL去重策略之布隆过滤器(BloomFilter)的使用前言：关于BloomFilter：以前的去重策略：BloomFilter的使用：

Professional JS(6.2.4-6.3.1)组合使用构造函数模式&原型模式---原型链

用tornado爬素材网站用tornado爬素材网站

pyspider 爬取去哪儿旅游攻略

Tkinter监听窗口大小变化事件并自适应调整组件

【Python】scrapy框架简介——架构、数据流、配置文件架构图数据流项目架构

win10 下运行scrapy startproject tutorial 报错 “ImportError:DLL load failed”

使用scrapy爬虫框架批量下载图片

ubuntu16.4安装scrapy遇到的问题记录

(究极01)Scrapy练习第三辑-贯穿GitHub

Ibelievethere'saheroinallofus.#spiderman#蜘蛛侠#荷兰弟#汤姆赫兰德

技术美术百人计划学习笔记（七）色彩空间

技术美术百人计划学习笔记（四）MVP矩阵

技术美术百人计划学习笔记（六）图形API

技术美术百人计划学习笔记（三）矩阵运算

Spider和CrawlSpiderSpider和CrawlSpider