用Java抓取CSDN主页上的图片

2024-09-08 05:32
文章标签 java 抓取 图片 csdn 主页

本文主要是介绍用Java抓取CSDN主页上的图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一,步骤一:获取网页源码

1,定义要爬取的页面的URL对象

//定义即将访问的链接
String url="http://www.csdn.net";
//获取CSDN的URL对象
URL realURL = new URL(url);

2,获得这个链接的一个连接对象

URLConnection connection = realURL.openConnection();

        3,开始连接

connection.connect();

4,将连接的输入流转化成BufferedReader输入流,通过BufferedReader对象存放到一个String对象中

in = new BufferedReader(new InputStreamReader(connection.getInputStream()));		
String line="";
while((line=in.readLine())!=null){result+=line+"\n";
}
二,步骤二:正则匹配,存储图片

1,找出正则表达式的样板

Pattern pattern = Pattern.compile("<img \\S+\\ssrc=\"(.+?)\"");

2,匹配对象

Matcher matcher = pattern.matcher(result);

3,实例化文件输出流

imgFile= new FileOutputStream("D:\\CSDN"+i+".png");

4,获得图片链接的缓冲流
URL imgURL = new URL(img);
URLConnection imgConnection = imgURL.openConnection();
imgConnection.connect();
bufferedImage = (BufferedInputStream) new BufferedInputStream(imgConnection.getInputStream());

5,将缓冲流写入文件中

while((size=bufferedImage.read(buf))!=-1){
<span style="white-space:pre">	</span>imgFile.write(buf, 0, size);
}

6,将输入输出流关闭

in.close();
imgFile.close();
bufferedImage.close();


程序的完整源码:

import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class CrawOne {public static void main(String[] args) throws IOException {// TODO Auto-generated method stub//定义即将访问的链接String url="http://www.csdn.net";//定义一个用来存储的字符串String result="";//用于存储网页源代码BufferedReader in = null;//用于存储图片链接String img=null;int i=0;int size=0;//定义每一次读取缓冲区的最大值int BUFFER_SIZE = 1024;  byte[] buf = new byte[BUFFER_SIZE]; //图片文件输出流FileOutputStream imgFile=null;//缓冲输入流BufferedInputStream bufferedImage =null;try {//获取CSDN的URL对象URL realURL = new URL(url);//获得这个链接的一个连接对象URLConnection connection = realURL.openConnection();//开始连接connection.connect();//将连接的输入流转化成BufferedReader输入流in = new BufferedReader(new InputStreamReader(connection.getInputStream()));		String line="";while((line=in.readLine())!=null){result+=line+"\n";}//找出正则表达式的样板Pattern pattern = Pattern.compile("<img \\S+\\ssrc=\"(.+?)\"");//匹配对象Matcher matcher = pattern.matcher(result);while(matcher.find()){System.out.println("find one");//获得匹配的值,由于只定义了一个群组,即正则表达式中打括号的组数,所以是group(1),group(0)表示的是整个匹配img = matcher.group(1);//实例化文件输出流imgFile= new FileOutputStream("D:\\CSDN"+i+".png");i++;//获得图片链接的缓冲流URL imgURL = new URL(img);URLConnection imgConnection = imgURL.openConnection();imgConnection.connect();bufferedImage = (BufferedInputStream) new BufferedInputStream(imgConnection.getInputStream());//将缓冲流写入文件中while((size=bufferedImage.read(buf))!=-1){imgFile.write(buf, 0, size);}}} catch (MalformedURLException e) {// TODO Auto-generated catch blocke.printStackTrace();}finally {if (in!=null) {//将输入输出流关闭in.close();imgFile.close();bufferedImage.close();}}System.out.println("Get some picture.");}}



这篇关于用Java抓取CSDN主页上的图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147252

相关文章

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法