java爬虫爬取B站弹幕

2023-04-13 10:01:39

首先创建一个maven项目，并导入Jsoup包`

<dependencies>
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>
    </dependencies>

去B站找到你想要爬弹幕的视频页面

java爬虫爬取B站弹幕

右键点击查看网页源代码

按Ctrl + F输入cid 搜索

java爬虫爬取B站弹幕

找到并复制cid的值

http://comment.bilibili.com/20746041.xml

将你获取的cid替换.com后面的数字，然后这个xml文件就是该视频的所有弹幕

接下来就是JAVA代码了

public class Demo {
    public static void main(String args[]) throws IOException {
    	//获取整个页面
        Document document = Jsoup.connect("http://comment.bilibili.com/20746041.xml").get();
        //获取所有的d标签   也就是存放弹幕的标签  
        Elements d = document.getElementsByTag("d");
        //获取File
        File file = new File("D://卢本伟.txt");
        if(!file.exists()){
            file.createNewFile();
        }
        FileOutputStream fileOutputStream=new FileOutputStream(file);
        //遍历所有的d标签
        for(Element element: d){
       		//获取每条弹幕换行并添加到txt文件中
            fileOutputStream.write((element.text()+"\r\n").getBytes());
        }
        fileOutputStream.close();
    }
}

是不是很简单

右键运行，然后打开路径对应的文件就像下面这样，就获取到整个视频的弹幕啦

L B W N B

java爬虫爬取B站弹幕

java爬虫爬取B站弹幕

L B W N B

继续阅读

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

sort()函数到底是怎样进行数字排序的

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method