15、web爬蟲講解2—urllib庫中使用xpath表達式—BeautifulSoup基礎

2019-06-30 23:50:00

在urllib中，我們一樣可以使用xpath表達式進行資訊提取，此時，你需要首先安裝lxml子產品，然後将網頁資料通過lxml下的etree轉化為treedata的形式

urllib庫中使用xpath表達式

etree.HTML()将擷取到的html字元串，轉換成樹形結構，也就是xpath表達式可以擷取的格式

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree  #導入html樹形結構轉換子產品

wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye)  #将擷取到的html字元串，轉換成樹形結構，也就是xpath表達式可以擷取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #通過xpath表達式擷取标題

#注意，xpath表達式擷取到資料，有時候是清單，有時候不是清單是以要做如下處理
if str(type(hqq)) == "<class 'list'>":  #判斷擷取到的是否是清單
    print(hqq)
else:
    xh_hqq = [i for i in hqq]       #如果不是清單，循環資料組合成清單
    print(xh_hqq)

#傳回 ：['【今日爆點】你的專屬資訊平台']

BeautifulSoup基礎

BeautifulSoup是擷取thml元素的子產品

BeautifulSoup-3.2.1版本

15、web爬蟲講解2—urllib庫中使用xpath表達式—BeautifulSoup基礎

【轉載自：

http://www.lqkweb.com

】

15、web爬蟲講解2—urllib庫中使用xpath表達式—BeautifulSoup基礎

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入