爬虫系列：连接网站与解析 HTML

这篇文章是爬虫系列第三期，讲解使用 Python 连接到网站，并使用 BeautifulSoup 解析 HTML 页面。

在 Python 中我们使用 requests 库来访问目标网站，使用 BeautifulSoup 对获取的内容进行解析。由于这两个库并不是 Python 标准库，因此需要单独安装这两个库：

下面是获取网站内容的示例代码：

首先使用了 requests 会话对象发送请求，并且设置了 User-agent，这里 User-agent 可以自定，这就为伪造 User-agent 提供了便利，同时也告诉了服务器客户端接受那些内容类型：

网络如果连接出现了错误，对错误进行异常处理：

BeautifulSoup 解析 HTML 文档出现错误，抛出 AttributeError：

以上就完成了一个使用 Python 连接网站的过程。这个时候如果没有异常我们就会拿到网站的 HTML 代码，之后根据需要进一步对 HTML 进行内容解析，获取自己需要的内容。

如果你已经确定了目标内容，可能是采集一个名字，一组统计数据，或者一段文字。你的目标内容可能隐藏在一个 HTML “烂泥堆”的第20层标签里，带有许多没用的标签或 HTML 属性，你按照目标网站的代码层级你有可能写出如下的一行代码抽取内容：

虽然以上写法可以达到目标，但是这样的写法看起来并不是很好。除了代码欠缺美感之外，还有一个问题就是：当网站管理员对网站稍作修改之后，这行代码便会失效。

例如，我们需要获得自己的公网 IP 地址，我们可以通过查询这个网站获得：https://www.pdflibr.com，之后查看网页源代码，找到自己的 IP 地址，又如下源代码：

我们使用 BeautifulSoup 经行解析：

这样就可以获取自己的 IP 以及 IP 归属地。