天天看點

15、web爬蟲講解2—urllib庫中使用xpath表達式—BeautifulSoup基礎

在urllib中,我們一樣可以使用xpath表達式進行資訊提取,此時,你需要首先安裝lxml子產品,然後将網頁資料通過lxml下的etree轉化為treedata的形式

urllib庫中使用xpath表達式

etree.HTML()将擷取到的html字元串,轉換成樹形結構,也就是xpath表達式可以擷取的格式

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree  #導入html樹形結構轉換子產品

wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye)  #将擷取到的html字元串,轉換成樹形結構,也就是xpath表達式可以擷取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #通過xpath表達式擷取标題

#注意,xpath表達式擷取到資料,有時候是清單,有時候不是清單是以要做如下處理
if str(type(hqq)) == "<class 'list'>":  #判斷擷取到的是否是清單
    print(hqq)
else:
    xh_hqq = [i for i in hqq]       #如果不是清單,循環資料組合成清單
    print(xh_hqq)

#傳回 :['【今日爆點】你的專屬資訊平台']           

BeautifulSoup基礎

BeautifulSoup是擷取thml元素的子產品

BeautifulSoup-3.2.1版本

15、web爬蟲講解2—urllib庫中使用xpath表達式—BeautifulSoup基礎

【轉載自:

http://www.lqkweb.com