接上一篇,系列博文:人工智能讲师叶梓关于人工智能项目的咨询案例,人工智能在爬虫、搜索引擎中的应用,为系列博文,更多课程,及老师资料可点击 个人主页
爬虫的工作原理
•第一步:爬行
•爬虫就会在沿着网站的链接进行广度优先(或深度优先)式的访问,从一个链接转移到另一个链接上。
•第二步:抓取存储
•爬虫通过链接爬行,跟踪链接到达网页然后抓取相对应的网页上的文本的内容。
•第三步:预处理
•通过爬虫的抓取的原文文本解析后,存储到数据库中。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsICM38FdsYkRGZkRG9lcvx2bjxiNx8VZ6l2cs0TPn10drpWT1kEROBDOsJGcohVYsR2MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZwpmLzEzM0IzM0kDM3ETOwkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.jpg)
基础知识:药品分类的不同层级
药品分类:西药、中成药、生物制品等。
目录层面: 分类+药品通用名+剂型
品种层面:分类+药品通用名+剂型+成分规格
商品层面:分类+药品通用名+剂型+成分规格+商品名+生产企业
品规层面:分类+药品通用名+剂型+成分规格+商品名+生产企业+包装规格。
药品分类 | 西药、解热镇痛及非甾体抗炎药物 | ||
通用名: | 阿司匹林肠溶片 | 剂 型: | 片剂 |
成份规格: | 0.1克*30t | 成 份: | 阿司匹林 |
商品名称: | 拜阿司匹灵 | 包 装: | 15片×2板 |
生产企业: | 拜耳医药保健有限公司 |
接下一篇,系列博文:人工智能讲师叶梓关于人工智能项目的咨询案例,人工智能在爬虫、搜索引擎中的应用,为系列博文,更多课程,及老师资料可点击 个人主页