0.写在前面
在python的爬虫中,经常需要用到强大的beautifulsoup库,如之前写的
股票数据的爬取中就用到了它。在这里,将详细总结beautifulsoup的用法,来巩固相关知识。以下便是我从各种网站搜集的资料,在这里做一个汇总。(我从不生产知识,我只是知识的搬运工)
1.基本介绍
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIn5GcukjZ5UjNzUmMxUGZ1QDZjJGOjdTY3MWM2EDZlFWNjBTNfdWbp9CXt92Yu4GZjlGbh5SZslmZxl3Lc9CX6MHc0RHaiojIsJye.png)
beautifulsoup
2.安装/引用
安装:win平台中‘以管理员身份运行’cmd,执行
pip install beautifulsoup4
即可安装
引用:
from bs4 import BeautifulSoup
或
import bs4
即可
3.使用方法
先煲制一锅汤
解析器
基本元素
对应各元素
一个用于接下来分析的demo
tag标签
tag.name
attrs
string
comment
如果不想输出内容的注释,可以写一个if语句:
if type(newsoup.b.string)==element.Comment:
print (newsoup.b.string)
bs4库将任何HTML输入都变成utf-8编码,python3.x默认支持编码是utf-8编码,解析无障碍
beautifulsoup库基本入门
HTML基本格式
标签树的下行遍历
标签树的上行遍历
标签树的平行遍历
本文参考
中国大学MOOC/
kikaylee的专栏