天天看點

python爬貼吧回複_李亞濤:python抓取百度貼吧回帖時間,回帖人,回帖内容資訊...

原标題:李亞濤:python抓取百度貼吧回帖時間,回帖人,回帖内容資訊

大家好,今天給大家分享一下如何利用python抓取百度貼吧相關資訊

為了示範,我就随便在iphone貼吧找了一個内容相對豐富的文章。

大家好,今天給大家分享一下如何利用python抓取百度貼吧相關資訊

為了示範,我就随便在iphone貼吧找了一個内容相對豐富的文章。

python爬貼吧回複_李亞濤:python抓取百度貼吧回帖時間,回帖人,回帖内容資訊...

我們隻是示範,是以我選擇抓取

回帖時間

回帖内容

回帖時

這3個資訊,其實比較聰明的人應該知道,這個可以做資訊聚合,标題+這些回複内容不就是一篇原創資訊。

先分析一下思路:

1、擷取單個頁面的源代碼

2、大概看一下頁數,當然我們也可以用正則擷取

這裡舉例,我看了一下有733頁的資訊,示範我就抓取前100頁吧。

3、資訊量比較大,這裡我們可能會利用到多線程的抓取

4、擷取每一頁所要擷取的内容,這裡用傳統正則可能稍微複雜一點,我們用神器xpath

5、最後把擷取到的内容整理一下寫入到文本檔案contents.txt裡

代碼這裡不友善發,不然文章可能會被删除,有興趣的到我公衆号可以去看

運作效果如下:

python爬貼吧回複_李亞濤:python抓取百度貼吧回帖時間,回帖人,回帖内容資訊...
python爬貼吧回複_李亞濤:python抓取百度貼吧回帖時間,回帖人,回帖内容資訊...

可以看到,抓取到了将近1萬行的資料,運作時間才幾秒中,非常快了。

有興趣的可以自己試試

李亞濤簡介:11年網站營運管理經驗,seo實戰教練,python爬蟲高手,建站專家傳回搜狐,檢視更多

責任編輯: