天天看点

java爬虫 之 搜狐新闻爬虫(二)

我们可以发现搜狐新闻的新闻页都是有规律的比如:

http://news.sohu.com/20160415/n444266195.shtml

在浏览器中右键检查元素

java爬虫 之 搜狐新闻爬虫(二)

可以找到锁定文章标题,时间,来源的标签

那么经过分析确定标签可以得到下面的代码:

Elements h = doc.select("h1[itemprop]");//标题

    System.out.println(h.text());

    Elements time = doc.select("div.time");//时间

    System.out.println(time.text());
    /*
    Element source = doc.select("span[itemprop=name]").first();//来源

    System.out.println(source.text());
    */
    //maybe 更好
    Elements source = doc.select("div[class=source]");

    System.out.println(source.text());

    Elements body = doc.select("div[itemprop=articleBody]");

    System.out.println(body.text());
           

运行一下得到结果:

英媒:美防长将于15日登上航母穿越南海争议水域

2016-04-15 11:46:17

来源:环球网

  【环球网报道 记者 韩梅】据英国路透社4月15日报道,美国国防部长卡特将于周五登上美国航母,穿过南海争议水域。报道称,去年11月,卡特也有过类似举动。在此次美菲举行的联合军演中,卡特将登上的“斯坦尼斯号”航母也参与其中。   此前据美联社报道,卡特14日在马尼拉拜会菲律宾总统阿基诺三世,并与菲律宾国防部长加斯明举行双边会议。卡特在会后的记者会上说:“上个月我们在南海展开了联合海事巡逻。”他还表示,在15日的年度肩并肩演习结束后,将派275名美军人员暂时留在菲律宾。此外,5架A-10C雷霆攻击机,以及4架其他型号的战机也将继续留在菲律宾,直到4月底才会撤离。

每个网站的结构不一样,建议多试一个网页,以确保,抓取的标签没错。