天天看点

小说网站爬虫

小说网站爬虫第一天

从今天开始,学习一下爬虫的知识,爬取小说网站。

第一天:

网站:http://www.bxwx9.org

小说:大主宰

小说网站爬虫

语言:IDEA+java

jar包:maven工程,所以放上dependencies,每一个jar包的作用大家去研究一下

小说网站爬虫
项目结构:
小说网站爬虫

需求:获取小说的章节列表中的标题和URL

原理:

  • 用谷歌浏览器F12查看网页的内容,找到章节列表所在的元素
    小说网站爬虫
  • 使用标签选择器来选择需要的内容
    小说网站爬虫
    代码如下操作:
    小说网站爬虫
    中文乱码的解决:
    小说网站爬虫

运行的效果图:

继续阅读