一、Tag(标簽)對象
1.Tag對象與XML或HTML原生文檔中的tag相同。
from bs4 import BeautifulSoup
soup = BeautifulSoup('
Extremely bold','lxml')
tag = soup.b
type(tag)
bs4.element.Tag
2.Tag的Name屬性
每個tag都有自己的名字,通過.name來擷取
tag.name
'b'
tag.name = "blockquote" # 對原始文檔進行修改
tag
Extremely bold
3.Tag的Attributes屬性
擷取單個屬性
tag['class']
['boldest']
按字典的方式擷取全部屬性
tag.attrs
{'class': ['boldest']}
添加屬性
tag['class'] = 'verybold'
tag['id'] = 1
print(tag)
Extremely bold
删除屬性
del tag['class']
del tag['id']
tag
Extremely bold
4.Tag的多值屬性
多值屬性會傳回一個清單
css_soup = BeautifulSoup('
','lxml')
print(css_soup.p['class'])
['body', 'strikeout']
rel_soup = BeautifulSoup('
Back to the homepage
','lxml')
print(rel_soup.a['rel'])
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)
['index']
Back to the homepage
如果轉換的文檔是XML格式,那麼tag中不包含多值屬性
xml_soup = BeautifulSoup('
', 'xml')
xml_soup.p['class']
'body strikeout'
二、可周遊字元串(NavigableString)
1.字元串常被包含在tag内,使用NavigableString類來包裝tag中的字元串
from bs4 import BeautifulSoup
soup = BeautifulSoup('
Extremely bold','lxml')
tag = soup.b
print(tag.string)
print(type(tag.string))
Extremely bold
2.一個 NavigableString 字元串與Python中的str字元串相同,通過str() 方法可以直接将 NavigableString 對象轉換成str字元串
unicode_string = str(tag.string)
print(unicode_string)
print(type(unicode_string))
Extremely bold
3.tag中包含的字元串不能編輯,但是可以被替換成其它的字元串,用 replace_with() 方法
tag.string.replace_with("No longer bold")
tag
No longer bold三、BeautifulSoup對象 BeautifulSoup 對象表示的是一個文檔的全部内容。
大部分時候,可以把它當作 Tag 對象,它支援 周遊文檔樹 和 搜尋文檔樹 中描述的大部分的方法。
四、注釋與特殊字元串(Comment)對象
markup = "
"
soup = BeautifulSoup(markup,'lxml')
comment = soup.b.string
type(comment)
bs4.element.Comment
Comment 對象是一個特殊類型的 NavigableString 對象
comment
'Hey, buddy. Want to buy a used parser?'
更多關于Python爬蟲庫BeautifulSoup的使用方法請檢視下面的相關連結