java采集網頁資料方法【多線程資料采集之一】

第一步抓取資料。

java采集網頁資料。擷取html文本節點

有幾種辦法。

第一種：采用HttpURLConnection

  package com.yjf.util;          
           import java.io.BufferedReader;          
       import java.io.IOException;          
       import java.io.InputStream;          
       import java.io.InputStreamReader;          
       import java.net.HttpURLConnection;          
       import java.net.URL;          
           public class HttpWebUtil {          
               /**         
            *網頁抓取方法         
            * @param urlString      要抓取的url位址         
            * @param charset        網頁編碼方式         
            * @param timeout        逾時時間         
            * @return               抓取的網頁内容         
            * @throws IOException   抓取異常         
            */          
           public static String GetWebContent(String urlString, final String charset, int timeout) throws IOException {          
               if (urlString == null || urlString.length() == 0) {          
                   return "";          
               }          
               urlString = (urlString.startsWith("http://") || urlString.startsWith("https://")) ? urlString : ("http://" + urlString).intern();          
               URL url = new URL(urlString);          
               HttpURLConnection conn = (HttpURLConnection) url.openConnection();          
               conn.setDoOutput(true);             
               conn.setRequestProperty("Pragma", "no-cache");             
               conn.setRequestProperty("Cache-Control", "no-cache");             
                   int temp = Integer.parseInt(Math.round(Math.random()*(UserAgent.length-1))+"");          
               conn.setRequestProperty(          
                       "User-Agent",          
                           UserAgent[temp]);  // 模拟手機系統          
               conn.setRequestProperty("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");//隻接受text/html類型，當然也可以接受圖檔,pdf,*/*任意，就是tomcat/conf/web裡面定義那些          
               conn.setConnectTimeout(timeout);          
               try {          
                   if (conn.getResponseCode() != HttpURLConnection.HTTP_OK) {          
                       return "";          
                   }          
               } catch (Exception e) {          
                   try {          
                       System.out.println(e.getMessage());          
                   } catch (Exception e2) {          
                       e2.printStackTrace();          
                   }          
                   return "";          
               }          
               InputStream input = conn.getInputStream();          
               BufferedReader reader = new BufferedReader(new InputStreamReader(input,          
                       charset));          
               String line = null;          
               StringBuffer sb = new StringBuffer("");          
               while ((line = reader.readLine()) != null) {          
                   sb.append(line).append("\r\n");          
               }          
               if (reader != null) {          
                   reader.close();          
               }          
               if (conn != null) {          
                   conn.disconnect();          
               }          
               return sb.toString();          
           }          
               public static String[] UserAgent = {          
               "Mozilla/5.0 (Linux; U; Android 2.2; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.2",          
               "Mozilla/5.0 (iPad; U; CPU OS 3_2_2 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Version/4.0.4 Mobile/7B500 Safari/531.21.11",          
               "Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18121",          
               "Nokia5700AP23.01/SymbianOS/9.1 Series60/3.0",          
               "UCWEB7.0.2.37/28/998",          
               "NOKIA5700/UCWEB7.0.2.37/28/977",          
               "Openwave/UCWEB7.0.2.37/28/978",          
               "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/989"          
           };          
           }

第二種：采用jar插件Jsoup.jar

org.jsoup.Jsoup

  //站點入口清單          
           public static List<String> getSiteUrlList1(List<String> list,String listurl){          
               if(list==null || list.size()<=0){          
                   list = new ArrayList<String>();          
               }          
               try {          
                   Document docdata = Jsoup.connect(listurl).timeout(10000).get();          
                   String hb = ".m_book li a";          
                   String page = ".page_list .page_up";          
                   Elements ele = docdata.select(hb);          
                   for (Element el : ele) {          
                       list.add(el.attr("href"));          
                   }          
                   if(docdata.select(page)!=null && docdata.select(page).first()!=null){          
                       String url = "http://www.xxxxx.com/site_map/"+docdata.select(page).first().attr("href");          
                       getSiteUrlList1(list, url);          
                   }          
               } catch (Exception e) {          
                   e.printStackTrace();          
               }          
               return list;          
           }

第三種：http模拟器

可以請求表單資料和重定向

http://blog.csdn.net/yjflinchong/article/details/8004706

java采集網頁資料方法【多線程資料采集之一】

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method