在urllib中,我們一樣可以使用xpath表達式進行資訊提取,此時,你需要首先安裝lxml子產品,然後将網頁資料通過lxml下的etree轉化為treedata的形式
urllib庫中使用xpath表達式
etree.HTML()将擷取到的html字元串,轉換成樹形結構,也就是xpath表達式可以擷取的格式
#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree #導入html樹形結構轉換子產品
wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye) #将擷取到的html字元串,轉換成樹形結構,也就是xpath表達式可以擷取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #通過xpath表達式擷取标題
#注意,xpath表達式擷取到資料,有時候是清單,有時候不是清單是以要做如下處理
if str(type(hqq)) == "<class 'list'>": #判斷擷取到的是否是清單
print(hqq)
else:
xh_hqq = [i for i in hqq] #如果不是清單,循環資料組合成清單
print(xh_hqq)
#傳回 :['【今日爆點】你的專屬資訊平台']
BeautifulSoup基礎
BeautifulSoup是擷取thml元素的子產品
BeautifulSoup-3.2.1版本
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsICM0ITMvw1dvwlMvwlM3VWaWV2Zh1WaDdTJwlmc0N3LcRnbllmcv1yb0VXYvwlMyd2bNV2Zh1Wa-cmbw5SYmFTYwETMxYzM3IjZxITMtEzN2MjMwETMvw1cldWYtl2XkF2bsBXdvw1bp5SdoNnbhlmauMXZnFWbp1CZh9GbwV3Lc9CX6MHc0RHaiojIsJye.png)
【轉載自:
http://www.lqkweb.com】