1、关于规则识别的流程
1.1 自然语言描述
1) 输入规则
2) 判断规则是否有效
3) 分析规则内容
4) 输入目标
5) 使用规则解析目标内容
6) 生成目标实体
7) 判断实体是否有效
8) 有效则保存,否则丢弃
9) 判断是否解析完毕
10) 执行完毕退出,否则执行5)
11) 判断实体集是否有效
12) 有效则保存,否则执行13)
13) 结束
2、关于特定规则--图片采集规则的流程
2.1 自然语言描述
1) 输入图集的网址
2) 检查网址是否有效,包括是否http/https协议,是否目录
3) 获取网页内容,包括状态代码
4) 判断状态码是否有效,否则退出
5) 提取页面标题
6) 分析<img>标签,提取源地址和图片描述
7) 判断图片描述是否有效,否则使用5)处的标题代替
8) 对当前页面的图集去重
9) 判断是否有效,有效则保存
10) 提取页面超链接
11) 对超链接去重
12) 分析有效超链接并保存
13) 判断超链接集合是否为空,为空则退出
14) 逐个扫描超链接并记录,执行2)
15) 分析搜索的图集,下载和保存有效图集的信息
2.2 流程图描述
特定规则:图片采集规则流程图
2.3 数据流图描述
特定规则:图片采集规则数据流图
注:这个数据流图还缺少活动或进程的处理的简化描述,仅作参考。
后记:
写作有助于记忆,帮助自我更好的理解自己的作品。在不断的“写作-修改-审视”中,可以从各个方面深入了解项目内容和意义,总结过往经验,积累原始知识,弥补不足,添砖加瓦,精益求精,从而酝酿出更好的作品。