html 抓取网页中内容

2023-05-02 22:56:30

使用的解析第三方框架

compile 'org.jsoup:jsoup:1.9.2'

原理通过匹配网页中的标签、类、进行有规律的解析。找到需要抓取内容的共性，比如说类，样式，标签。

url：http://www.qiushibaike.com/ 使用网络加载框架为retrofit

String value = response.body();
//                Log.i("TAG", "onResponse: response.body---------" + value);
//                text.setText(value);
                //1	.通过Jsoup解析成Doucment
                Document document = Jsoup.parse(value);
                //2.	从doc中拿到class="article block untagged mb15" class中有空格后面是继承关系
                Elements elementsByClass = document.getElementsByClass("article");
                if (isClear) {
                    data.clear();
                }
                //3.	取出每个元素分装成Bean
                for (Element ele : elementsByClass) {
                    data.add(new JokeBean(ele));
                }

public JokeBean(Element e) {
//   获取用户头像  昵称
        userImage = e.getElementsByClass("author").get(0).select("img").attr("src");
        userName = e.getElementsByClass("author").get(0).select("img").attr("alt");
        //链接地址
        href = e.getElementsByClass("contentHerf").get(0).select("a").attr("href");
        //  获取内容 图片e.getElementsByClass("content”)找到的是content的集合 一个页面只有一个 所以后面取第0个
        this.content = ((Element) e.getElementsByClass("content").get(0)).select("span").text();
//        Log.i("TAG", "JokeBean: contents---------" + contents + ":::name:"
//                + userNames + ":::::image:" + userImages + ":::hrefs:" + hrefs);
        Elements imgs = e.getElementsByClass("thumb");
        if ((imgs != null) && (imgs.size() > 0)) {  //有些没有图片  有些有需要判断一下
            Elements es = ((Element) imgs.get(0)).select("img");
            if ((es != null) && (es.size() > 0)) {
                this.image = ((Element) es.get(0)).attr("src");
                Log.i("TAG", "JokeBean: image---------" + image);
                this.type = 1;
            }
        }


    }

html 抓取网页中内容

继续阅读

android常用工具类转载自：http://www.trinea.cn/android/android-common-utils/Android常用工具类

Android常用工具类ToastUtilsSizeUtilsLogUtilsRetrofitManagerAnimUtil

tabpanel 使用问题

为什么把CSS放头部，script放下面

CSS之折叠菜单

web开发之前后端渲染

Android Studio 0.8.0解决 Failure [INSTALL_FAILED_OLDER_SDK] 问题

Android – ListView 中添加按钮，动态删除添加ItemView的操作

403 Forbidden，You don't have permission to access / on this server.Forbidden

Kotlin的ListView与RecyclerView的简单应用

关于公司的那些坑：Android Studio篇

android SQLite事务和kotlin协程

无法正常编译错误Compilation failed to complete

关于Gradle配置的小结

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Android APK文件反编译Android APK文件反编译