java爬虫（获取页面中的书名、作者名、img地址、以及批量下载img）

下载图片

package cn.tedu;

import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class ImgTest {

    // 地址
    private static final String URL = "http://www.ireader.com/index.php?ca=booksort.index&pid=92&cid=142&order=download&status=0&page=3";
    // 获取img标签正则
    private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>";
    // 获取src路径的正则
    private static final String IMGSRC_REG = "[a-zA-z]+://[^\\s]*";


    public static void main(String[] args) {
        try {
            ImgTest cm=new ImgTest();
            //获得html文本内容
            String HTML = cm.getHtml(URL);
            //获取图片标签
            List<String> imgUrl = cm.getImageUrl(HTML);
            //获取图片src地址
            List<String> imgSrc = cm.getImageSrc(imgUrl);
            int count=120;
            for (String is : imgSrc) {
            	
            	count++;
            	String path="d:/library/history/"+count+".jpg";
            	downloadPicture( is,path);
				//System.out.println(is);
			}
            //下载图片
            //cm.Download(imgSrc);

        }catch (Exception e){
            System.out.println("发生错误");
        }
        System.out.println("下载成功");

    }

   //获取HTML内容
    private String getHtml(String url)throws Exception{
        URL url1=new URL(url);
        URLConnection connection=url1.openConnection();
        InputStream in=connection.getInputStream();
        InputStreamReader isr=new InputStreamReader(in);
        BufferedReader br=new BufferedReader(isr);

        String line;
        StringBuffer sb=new StringBuffer();
        while((line=br.readLine())!=null){
            sb.append(line,0,line.length());
            sb.append('\n');
        }
        br.close();
        isr.close();
        in.close();
        return sb.toString();
    }

    //获取ImageUrl地址
    private List<String> getImageUrl(String html){
        Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html);
        List<String>listimgurl=new ArrayList<String>();
        while (matcher.find()){
            listimgurl.add(matcher.group());
        }
        return listimgurl;
    }

    //获取ImageSrc地址
    private List<String> getImageSrc(List<String> listimageurl){
        List<String> listImageSrc=new ArrayList<String>();
        for (String image:listimageurl){
            Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image);
            while (matcher.find()){
                listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1));
            }
        }
        return listImageSrc;
    }

    //链接url下载图片
    private static void downloadPicture(String urlList,String path) {
        URL url = null;
        try {
            url = new URL(urlList);
            DataInputStream dataInputStream = new DataInputStream(url.openStream());
 
            FileOutputStream fileOutputStream = new FileOutputStream(new File(path));
            ByteArrayOutputStream output = new ByteArrayOutputStream();
 
            byte[] buffer = new byte[1024];
            int length;
 
            while ((length = dataInputStream.read(buffer)) > 0) {
                output.write(buffer, 0, length);
            }
            fileOutputStream.write(output.toByteArray());
            dataInputStream.close();
            fileOutputStream.close();
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    }

获取书名和作者名

@Test
	public void getMessage() throws Exception {
		String url="http://www.ireader.com/index.php?ca=booksort.index&pid=92&cid=142&order=download&status=0&page=3";
		Connection cn=Jsoup.connect(url);
		Document doc=cn.get();
		Elements el=doc.select(".bookMation h3 a");
		for (Element e : el) {
			String info=e.text();
			System.out.println("书名: "+info);
		}
		Elements el2=doc.select(".tryread");
		for (Element e2 : el2) {
			String info2=e2.text();
			System.out.println("作者: "+info2);
		}
		
		
		
	}

java爬虫（获取页面中的书名、作者名、img地址、以及批量下载img）

继续阅读

天池龙珠金融风控训练营Task04学习笔记前言学习知识点概要学习内容学习问题与解答学习思考与总结

2021-09-301、Ubuntu18.04安装Google浏览器2、待定

（Nginx）03_Nginx原理与优化一、Nginx原理二、master-workers机制三、面试题：

（Nginx）02_Nginx配置实例一、Nginx的应用：反向代理实现一：二、反向代理实例二：三、Nginx的配置实例三–负载均衡：四、Nginx的配置实例四–动静分离：Nginx在实际开发中的应用：

nginx配置示例

2022秋招面试记录与反思

《断舍离》读后感

unity中实现背景滚动

命令行和环境变量

Android记事本（附apk和源码）

现国内基金定投最好的入门书《指数基金投资指南》

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

线程同步，可重入锁，synchronized

对象锁和全局锁

sort()函数到底是怎样进行数字排序的

iview后台管理模版