小说网站爬虫

2017-03-08 16:24:04

小说网站爬虫第一天

从今天开始，学习一下爬虫的知识，爬取小说网站。

第一天：

网站：http://www.bxwx9.org

小说：大主宰

小说网站爬虫

语言：IDEA+java

jar包：maven工程，所以放上dependencies，每一个jar包的作用大家去研究一下

小说网站爬虫

项目结构：

小说网站爬虫

需求：获取小说的章节列表中的标题和URL

原理：

用谷歌浏览器F12查看网页的内容，找到章节列表所在的元素

小说网站爬虫
使用标签选择器来选择需要的内容

小说网站爬虫
代码如下操作：

小说网站爬虫
中文乱码的解决：

小说网站爬虫

运行的效果图：

center 小说网站今天开始

上一篇: spring boot --接入@SLF4J日志（二）日志配置详解

下一篇: 小说网站源码+PHP小说网站源码搭建教程

继续阅读