天天看點

java采集網頁資料方法【多線程資料采集之一】

第一步抓取資料。

java采集網頁資料。擷取html文本節點

有幾種辦法。

第一種: 采用HttpURLConnection

  1. package com.yjf.util;   
  2. import java.io.BufferedReader;   
  3. import java.io.IOException;   
  4. import java.io.InputStream;   
  5. import java.io.InputStreamReader;   
  6. import java.net.HttpURLConnection;   
  7. import java.net.URL;   
  8. public class HttpWebUtil {   
  9.     /**  
  10.      *網頁抓取方法  
  11.      * @param urlString      要抓取的url位址  
  12.      * @param charset        網頁編碼方式  
  13.      * @param timeout        逾時時間  
  14.      * @return               抓取的網頁内容  
  15.      * @throws IOException   抓取異常  
  16.      */   
  17.     public static String GetWebContent(String urlString, final String charset, int timeout) throws IOException {   
  18.         if (urlString == null || urlString.length() == 0) {   
  19.             return "";   
  20.         }   
  21.         urlString = (urlString.startsWith("http://") || urlString.startsWith("https://")) ? urlString : ("http://" + urlString).intern();   
  22.         URL url = new URL(urlString);   
  23.         HttpURLConnection conn = (HttpURLConnection) url.openConnection();   
  24.         conn.setDoOutput(true);      
  25.         conn.setRequestProperty("Pragma", "no-cache");      
  26.         conn.setRequestProperty("Cache-Control", "no-cache");      
  27.         int temp = Integer.parseInt(Math.round(Math.random()*(UserAgent.length-1))+"");   
  28.         conn.setRequestProperty(   
  29.                 "User-Agent",   
  30.                     UserAgent[temp]);  // 模拟手機系統   
  31.         conn.setRequestProperty("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");//隻接受text/html類型,當然也可以接受圖檔,pdf,*/*任意,就是tomcat/conf/web裡面定義那些   
  32.         conn.setConnectTimeout(timeout);   
  33.         try {   
  34.             if (conn.getResponseCode() != HttpURLConnection.HTTP_OK) {   
  35.                 return "";   
  36.             }   
  37.         } catch (Exception e) {   
  38.             try {   
  39.                 System.out.println(e.getMessage());   
  40.             } catch (Exception e2) {   
  41.                 e2.printStackTrace();   
  42.             }   
  43.             return "";   
  44.         }   
  45.         InputStream input = conn.getInputStream();   
  46.         BufferedReader reader = new BufferedReader(new InputStreamReader(input,   
  47.                 charset));   
  48.         String line = null;   
  49.         StringBuffer sb = new StringBuffer("");   
  50.         while ((line = reader.readLine()) != null) {   
  51.             sb.append(line).append("\r\n");   
  52.         }   
  53.         if (reader != null) {   
  54.             reader.close();   
  55.         }   
  56.         if (conn != null) {   
  57.             conn.disconnect();   
  58.         }   
  59.         return sb.toString();   
  60.     }   
  61.     public static String[] UserAgent = {   
  62.         "Mozilla/5.0 (Linux; U; Android 2.2; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.2",   
  63.         "Mozilla/5.0 (iPad; U; CPU OS 3_2_2 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Version/4.0.4 Mobile/7B500 Safari/531.21.11",   
  64.         "Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18121",   
  65.         "Nokia5700AP23.01/SymbianOS/9.1 Series60/3.0",   
  66.         "UCWEB7.0.2.37/28/998",   
  67.         "NOKIA5700/UCWEB7.0.2.37/28/977",   
  68.         "Openwave/UCWEB7.0.2.37/28/978",   
  69.         "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/989"   
  70.     };   
  71. }   

第二種:采用jar插件Jsoup.jar 

org.jsoup.Jsoup

  1. //站點入口清單   
  2.     public static List<String> getSiteUrlList1(List<String> list,String listurl){   
  3.         if(list==null || list.size()<=0){   
  4.             list = new ArrayList<String>();   
  5.         }   
  6.         try {   
  7.             Document docdata = Jsoup.connect(listurl).timeout(10000).get();   
  8.             String hb = ".m_book li a";   
  9.             String page = ".page_list .page_up";   
  10.             Elements ele = docdata.select(hb);   
  11.             for (Element el : ele) {   
  12.                 list.add(el.attr("href"));   
  13.             }   
  14.             if(docdata.select(page)!=null && docdata.select(page).first()!=null){   
  15.                 String url = "http://www.xxxxx.com/site_map/"+docdata.select(page).first().attr("href");   
  16.                 getSiteUrlList1(list, url);   
  17.             }   
  18.         } catch (Exception e) {   
  19.             e.printStackTrace();   
  20.         }   
  21.         return list;   
  22.     }   

第三種:http模拟器

可以請求表單資料和 重定向

http://blog.csdn.net/yjflinchong/article/details/8004706