Preface 前言
在開始之前總得說點什麼!愛的諾骨牌片段
美——源于爬行中的發現
為什麼我喜歡做爬行動物?
什麼是爬蟲?
爬蟲長什麼樣?
一條會爬的蟲子
爬蟲的誕生
用爬蟲可以做哪些有意思的事情?
人也是爬蟲
爬蟲的語言界線
我怎麼養活它
爬蟲也要講禮貌(爬蟲協定)
網站地圖
Robots協定
HTTP 基礎
協定
URI
DNS
一個最簡單的爬蟲
開發環境搭建
Python
Java
C#
URL分析器
HTTPClient
狀态碼
模拟浏覽器
抓取壓縮網頁
模拟登入
使用代理
DNS緩存
正規表達式的使用
XPath的使用
Selector的使用
圖檔怎麼處理?
CSS要爬嗎?
腳本是條大蟲子
為什麼不要使用遞歸調用?
基于 Python 的實作
基于 C# 的實作
基于 Java 的實作
基于 …… 的實作
這麼簡單怎麼用?
要不要用資料庫?
加了緩存會怎麼樣?
一個線程太慢了!
它不讓我爬怎麼辦?
多網卡應用
僞造IP是否可行?
用爬蟲做靜态化
DevOps走起
在Docker中部署
爬蟲也能變身AI俠?
它偷偷的學會了把妹!
讓它變成一個有軀殼的蟲子
你想沒想過讓它爬進區塊鍊網絡?
爬蟲架構
概述
有哪些爬蟲架構?
那些不開源的大家夥
爬蟲架構大PK
我到底該用誰?
還是自己寫吧!
Scrapy帶給我的快感
自白
在不同的作業系統上跑起來
選擇器(seletors)
……
Selenium架構深入淺出
爬向未來
蜿蜒前行
附錄A 還有什麼你不知道?
附錄B 私書菜單
附錄C 有用沒用的公衆号