htmlunit使用代理IP

2023-07-29 10:53:24

String  url="http://news.cnblogs.com/";//想采集的网址
	String refer="http://www.cnblogs.com/";
	URL link=new URL(url); 
	WebClient wc=new WebClient();
	WebRequest request=new WebRequest(link); 
	request.setCharset("UTF-8");
	request.setProxyHost("120.120.120.x");
	request.setProxyPort();
	request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段
	设置请求报文头里的User-Agent字段
	request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
	//wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
	//wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。
	//其他报文头字段可以根据需要添加
	wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理
	wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页，这个是必须的
	wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页，这个是必须的。
	wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
	wc.getOptions().setThrowExceptionOnScriptError(false);
	wc.getOptions().setTimeout();
	//设置cookie。如果你有cookie，可以在这里设置
	Set<Cookie> cookies=null;
	Iterator<Cookie> i = cookies.iterator();
	while (i.hasNext()) 
	{
	    wc.getCookieManager().addCookie(i.next());
	}
	//准备工作已经做好了
	HtmlPage page=null;
	page = wc.getPage(request);
	if(page==null)
	{
	    System.out.println("采集 "+url+" 失败!!!");
	    return ;
	}
	String content=page.asText();//网页内容保存在content里
	if(content==null)
	{
	    System.out.println("采集 "+url+" 失败!!!");
	    return ;
	}
	//搞定了
	CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
	Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里，下次请求的时候可能可以用上啦。

htmlunit使用代理IP

继续阅读

htmlunit中 java.lang.NoClassDefFoundError: org/apache/http/cookie/CookieSpecProvider 异常

HtmlUnit+Jsoup学习总结

htmlunit抓取数据的一些总结

HtmlUnit实现的网站登录

java爬虫，破解JS加密的Cookie一序：二问题：三问题分析及解决：三结论：四调试过程中踩得坑：

Java爬虫学习:使用HtmlUnit获取html页面使用HtmlUnit获取html页面

2023年最流行的Java网页抓取库对比：Jsoup、HtmlUnit和Selenium

htmlunit设置支持js和 ajax

爬山的蜗牛旅程：爬虫 Jsoup+(HtmlUnit或HttpClient)实现具体实现

WebClient在多线程、使用代理情况下 socket closed 问题的一个解决办法[htmlunit] WebClient在多线程、使用代理情况下 socket closed 问题的一个解决办法[htmlunit]

基于HtmlUnit网络爬虫（一）

htmlunit(一）

2023年流行的Java网页抓取库：Jsoup、HtmlUnit和WebMagic

htmlunit做爬虫绕过验证码抓取网站数据

htmlunit获取指定元素