【Python】從0開始寫爬蟲——小試身手

2018-07-29 23:50:00

先寫個demo擷取資料，我不會做太多介紹，基本上都會寫在注釋裡。

header 的資料一般就是在浏覽器的調試工具裡，有的網站通路需要登陸，就要加cookie。像Chrome的調試工具快捷鍵是F12. 去到新浪首頁，按F12調出開發者工具，然後重新整理。在Network下拉到最上面就能看到一開始的請求資訊（我之前是做java web的，略微會一點。）

import urllib.request

header = {
    'User-Agent':
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',
}
url = "http://www.sina.com"

request = urllib.request.Request(url=url, headers=header)  # url為爬取的連結，headers主要是假裝我們不是爬蟲，現在我們就假裝我們是個Chrome浏覽器

response = urllib.request.urlopen(request)  # 請求資料

data = response.read()  # 讀取傳回的資料

data.decode("UTF-8")  # 設定字元格式為utf-8，可以進行中文

然後控制台會列印出一段html，就是新浪的首頁，資料太多就不發了，發一部分截圖。

然後我們用BeautifulSoup試着解析一下。

先導入BeautifulSoup，一般都是加在最上面

import urllib.request
from bs4 import BeautifulSoup

然後在最後面把 print(data) 那句去掉加上

soup = BeautifulSoup(data, "html.parser")  # 把html轉換成BeautifulSoup對象，這樣我們就可以用BeautifulSoup的方法來解析html

print(soup)  # 列印

控制台輸出如下

然後我們可以

print(soup.title)  # 列印标題

print(soup.find_all("a"))  # 列印所有a标簽

控制台輸出，因為find_all("a") 會找出所有的a标簽，是以輸出很多

現在就得去了解BeautifulSoup更多的知識，以便我們能更加快速得擷取我們想要得資訊。

忘了貼一下完整的代碼

import urllib.request
from bs4 import BeautifulSoup

header = {
    'User-Agent':
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
}
url = "http://www.sina.com"

request = urllib.request.Request(url=url, headers=header)  # url為爬取的連結，headers主要是假裝我們不是爬蟲，現在我們就假裝我們是個Chrome浏覽器

response = urllib.request.urlopen(request)  # 請求資料

data = response.read()  # 讀取傳回的資料

data.decode("UTF-8")  # 設定字元格式為utf-8，可以進行中文

soup = BeautifulSoup(data, "html.parser")  # 把html轉換成BeautifulSoup對象，這樣我們就可以用BeautifulSoup的方法來解析html

print(soup.title)  # 列印标題

print(soup.find_all("a"))  # 列印所有a标簽

【Python】從0開始寫爬蟲——小試身手

繼續閱讀

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

在python中建立excel并寫入