天天看点

人工智能讲师咨询叶梓案例实战:人工智能在搜索引擎的应用目录信息自动抓取-3爬虫的工作原理基础知识:药品分类的不同层级

接上一篇,系列博文:人工智能讲师叶梓关于人工智能项目的咨询案例,人工智能在爬虫、搜索引擎中的应用,为系列博文,更多课程,及老师资料可点击 个人主页

爬虫的工作原理

•第一步:爬行

•爬虫就会在沿着网站的链接进行广度优先(或深度优先)式的访问,从一个链接转移到另一个链接上。

•第二步:抓取存储

•爬虫通过链接爬行,跟踪链接到达网页然后抓取相对应的网页上的文本的内容。

•第三步:预处理

•通过爬虫的抓取的原文文本解析后,存储到数据库中。

人工智能讲师咨询叶梓案例实战:人工智能在搜索引擎的应用目录信息自动抓取-3爬虫的工作原理基础知识:药品分类的不同层级

基础知识:药品分类的不同层级

药品分类:西药、中成药、生物制品等。

目录层面: 分类+药品通用名+剂型

品种层面:分类+药品通用名+剂型+成分规格

商品层面:分类+药品通用名+剂型+成分规格+商品名+生产企业

品规层面:分类+药品通用名+剂型+成分规格+商品名+生产企业+包装规格。    

药品分类 西药、解热镇痛及非甾体抗炎药物
通用名: 阿司匹林肠溶片 剂 型: 片剂
成份规格: 0.1克*30t 成 份: 阿司匹林
商品名称: 拜阿司匹灵 包 装: 15片×2板
生产企业: 拜耳医药保健有限公司

接下一篇,系列博文:人工智能讲师叶梓关于人工智能项目的咨询案例,人工智能在爬虫、搜索引擎中的应用,为系列博文,更多课程,及老师资料可点击 个人主页

继续阅读