天天看點

htmlunit使用代理IP

String  url="http://news.cnblogs.com/";//想采集的網址
	String refer="http://www.cnblogs.com/";
	URL link=new URL(url); 
	WebClient wc=new WebClient();
	WebRequest request=new WebRequest(link); 
	request.setCharset("UTF-8");
	request.setProxyHost("120.120.120.x");
	request.setProxyPort();
	request.setAdditionalHeader("Referer", refer);//設定請求封包頭裡的refer字段
	設定請求封包頭裡的User-Agent字段
	request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
	//wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
	//wc.addRequestHeader和request.setAdditionalHeader功能應該是一樣的。選擇一個即可。
	//其他封包頭字段可以根據需要添加
	wc.getCookieManager().setCookiesEnabled(true);//開啟cookie管理
	wc.getOptions().setJavaScriptEnabled(true);//開啟js解析。對于變态網頁,這個是必須的
	wc.getOptions().setCssEnabled(true);//開啟css解析。對于變态網頁,這個是必須的。
	wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
	wc.getOptions().setThrowExceptionOnScriptError(false);
	wc.getOptions().setTimeout();
	//設定cookie。如果你有cookie,可以在這裡設定
	Set<Cookie> cookies=null;
	Iterator<Cookie> i = cookies.iterator();
	while (i.hasNext()) 
	{
	    wc.getCookieManager().addCookie(i.next());
	}
	//準備工作已經做好了
	HtmlPage page=null;
	page = wc.getPage(request);
	if(page==null)
	{
	    System.out.println("采集 "+url+" 失敗!!!");
	    return ;
	}
	String content=page.asText();//網頁内容儲存在content裡
	if(content==null)
	{
	    System.out.println("采集 "+url+" 失敗!!!");
	    return ;
	}
	//搞定了
	CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
	Set<Cookie> cookies_ret = CM.getCookies();//傳回的Cookie在這裡,下次請求的時候可能可以用上啦。