天天看点

Java爬虫.HttpClient

1.HttpClient

网络爬虫就是用程序帮助我们访问网络上的资源。我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用相同的HTTP协议访问网页。

这里我们使用Java的HTTP协议客户端HttpClient这个技术,来实现抓取网页数据。

1.1 GET请求

请求url地址 见 ​​HttpGetTest.class​​

1.2 带参数的Get请求

在慕课网中搜索学习视频,地址为:

​​​ https://www.icourse163.org/search.htm?search=java#/​​见​​HttpGetTest含参.class​​​

Ctrl+N 查找类

1.3 POST请求

*仅一处变动:

创建HttpPost对象,设置url访问地址

HttpPost httpPost = new HttpPost(uriBuilder.build());

见​​HttpPostTest.class​​

1.4 POST含参请求

在慕课网中使用POST含参请求搜索学习视频,地址为:

​​​ https://www.icourse163.org/search​​​ url地址没有参数,参数search=java放在表单中进行提交

见​​HttpPostTest含参.class​​