用java做一个简易的小爬虫(可以爬美女图片哦)

2023-10-20 09:20

本文主要是介绍用java做一个简易的小爬虫(可以爬美女图片哦),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

爬虫一直python的强项,其它语言也能做,只是没有python那么方便快捷,今天正好学到java中了一些和网络相关的知识,就做了一个小爬虫。

主要功能是:爬取百度图片中的图片,一键下载。

效果图

话不多说,先上效果图
下载到的目录


功能就是这样,根据输入的关键字不同,自动下载不同的图片,当然,这些图片都是从百度图片中爬取出来的。

思路

  1. 随便输入一个关键字,百度图片就会展示出很多图片
    百度图片的展示

  2. 我们都知道,网络中的每个资源,都是有唯一确定的位置的。所以展示出来的每张图片,也都有一个唯一路径。在图片上点击鼠标右键,然后再点击查看图像。(我用的火狐浏览器,其它的浏览器应该也有类似的功能)
    在这里插入图片描述

就可以查看这单个图片了
图片的唯一路径观察上面的地址栏,这就是图片的地址,但是这个地址可能被百度处理过了,很长很长,所以我们用另一种方式来观察每张图片的url:开发者模式

在这里插入图片描述摁F12,进入开发者模式,然后点击左上角的选择元素,然后再选择想要查看的图片,就能看到图片的URL了,这张图片的url是:
https://ss2.bdstatic.com/70cFvnSh_Q1YnxGkpoWK1HF6hhy/it/u=195864913,3467183443&fm=26&gp=0.jpg
然后我们再多看几张,观察一下有什么规律
https://ss0.bdstatic.com/70cFuHSh_Q1YnxGkpoWK1HF6hhy/it/u=2204996942,2977507050&fm=26&gp=0.jpg
https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=1831886359,378289772&fm=26&gp=0.jpg
https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=2495686098,3449203597&fm=26&gp=0.jpg

规律还是很容易简单的吧,写一个简单的正则表达式 https://.*?0.jpg 当然,可以写得更准确,但是这个已经够用,就不写那么精确了。

剩下的就简单了,利用java中的URL这个类和IO流,把展示很多图片的那个页面给读出成一个字符串,然后在字符串中,去查找和上面正则匹配的图片路径。然后再用匹配到的每个路径,去下载图片,就OK了。

但是这样就将要下载图片的主题固定死了,因为我们输入的关键字没变。
在这里插入图片描述仔细观察这个路径,发现我们输入的关键字,被拼接到了URL的最后。这是因为这里采用了get请求,请求数据被放在URL里,所以我们可以对这个URL做手脚,自己来手动拼接,就可以达到输入不同关键字,下载不同图片的功能了。

关键点有两个:
一是改变首页URL的提交参数
二是利用正则获取到每张图片的URL

源代码

import java.io.*;
import java.net.URL;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;@SuppressWarnings("all")
public class InetAddressTest02
{public static void main(String[] args){Scanner input = new Scanner(System.in);System.out.println("欢迎体验这个小程序!");while (true){System.out.println("请输入您要下载图片明星的姓名(输入E\\e退出):");String name = input.next();if ("e".equals(name) || "E".equals(name)){ break; }System.out.println("正在下载,请稍等……");downBeautyPicture(name);System.out.println();}System.out.println("成功退出,欢迎下次光临!");}public static void downBeautyPicture(String name){String targetPath = "C://"+name+System.currentTimeMillis();new File(targetPath).mkdir();int count = 0;InputStream is = null;FileOutputStream fos = null;try{URL url = new URL("https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word="+name);is = url.openStream();int len;byte[] buffer = new byte[1024];StringBuilder pageText_ = new StringBuilder();while ((len = is.read(buffer)) != -1){ pageText_.append(new String(buffer,0,len, StandardCharsets.UTF_8)); }String pageText = pageText_.toString();Pattern compile = Pattern.compile("https://.*?0\\.jpg");Matcher matcher = compile.matcher(pageText);ArrayList<String> URLs = new ArrayList<>();while (matcher.find()){String eachURLStr = matcher.group();if (URLs.contains(eachURLStr)){ continue; }count ++;//System.out.println("正在下载第"+ count +"张图片…………");URL eachURL = new URL(eachURLStr);is = eachURL.openStream();fos = new FileOutputStream(targetPath+ "\\" + System.currentTimeMillis()+".jpg");while ((len = is.read(buffer)) != -1){ fos.write(buffer,0,len); }is.close();fos.flush();fos.close();URLs.add(eachURLStr);}}catch (IOException e){System.out.println("对不起,下载错误,请重试");e.printStackTrace();}finally{System.out.println("下载完成,共下载了"+ count +"图片,请到  "+targetPath+"  目录下查看");if (is != null){try{ is.close(); }catch (IOException e){ e.printStackTrace(); }}if (fos != null){try{ fos.close(); }catch (IOException e){ e.printStackTrace(); }}}}
}

用到的技术也很简单,URL、正则、IO流等等,其它一些java的基础知识我就不一一列举了。

问题

  1. 没有对图片的下载路径进行处理
    因为我懒,可以在下载图片的时候,让用户选择保存位置的,有兴趣的同学可以去实现一下。本来不想把下载到的图片默认保存到c盘的,因为c盘是系统盘。但是考虑到有的同学只有一个c盘,所以将就图片默认保存到c盘了。33行那里可以修改保存的位置,可以自己改。注意:如果不是改成在盘弧下,是在某个文件夹下,要先把这个文件夹创建出来!!!

  2. 只能下载30张
    这个真的是技术问题了,因为百度图片展示的时候,采取了延迟加载的策略,因为一个关键字可以搜索出来很多很多图片,不可能一次性给全部加载出来,用户也不会全部都看完,所以是根据用户鼠标的滚动来加载的。他这个应该是通过JavaScript代码来控制的,因为地址栏一直没有发生改变,所以也无法再通过改变URL来加载其它图片的目的了。
    搜索一个关键字,一开始的时候,默认会加载30张,所以就只能下载到这30张。

有什么不对或不懂的地方,欢迎交流

这篇关于用java做一个简易的小爬虫(可以爬美女图片哦)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/246162

相关文章

springboot rocketmq配置生产者和消息者的步骤

《springbootrocketmq配置生产者和消息者的步骤》本文介绍了如何在SpringBoot中集成RocketMQ,包括添加依赖、配置application.yml、创建生产者和消费者,并展... 目录1. 添加依赖2. 配置application.yml3. 创建生产者4. 创建消费者5. 使用在

Spring Retry 实现乐观锁重试实践记录

《SpringRetry实现乐观锁重试实践记录》本文介绍了在秒杀商品SKU表中使用乐观锁和MybatisPlus配置乐观锁的方法,并分析了测试环境和生产环境的隔离级别对乐观锁的影响,通过简单验证,... 目录一、场景分析 二、简单验证 2.1、可重复读 2.2、读已提交 三、最佳实践 3.1、配置重试模板

Spring中@Lazy注解的使用技巧与实例解析

《Spring中@Lazy注解的使用技巧与实例解析》@Lazy注解在Spring框架中用于延迟Bean的初始化,优化应用启动性能,它不仅适用于@Bean和@Component,还可以用于注入点,通过将... 目录一、@Lazy注解的作用(一)延迟Bean的初始化(二)与@Autowired结合使用二、实例解

SpringBoot使用Jasypt对YML文件配置内容加密的方法(数据库密码加密)

《SpringBoot使用Jasypt对YML文件配置内容加密的方法(数据库密码加密)》本文介绍了如何在SpringBoot项目中使用Jasypt对application.yml文件中的敏感信息(如数... 目录SpringBoot使用Jasypt对YML文件配置内容进行加密(例:数据库密码加密)前言一、J

Java中有什么工具可以进行代码反编译详解

《Java中有什么工具可以进行代码反编译详解》:本文主要介绍Java中有什么工具可以进行代码反编译的相关资,料,包括JD-GUI、CFR、Procyon、Fernflower、Javap、Byte... 目录1.JD-GUI2.CFR3.Procyon Decompiler4.Fernflower5.Jav

Spring Boot 中正确地在异步线程中使用 HttpServletRequest的方法

《SpringBoot中正确地在异步线程中使用HttpServletRequest的方法》文章讨论了在SpringBoot中如何在异步线程中正确使用HttpServletRequest的问题,... 目录前言一、问题的来源:为什么异步线程中无法访问 HttpServletRequest?1. 请求上下文与线

在 Spring Boot 中使用异步线程时的 HttpServletRequest 复用问题记录

《在SpringBoot中使用异步线程时的HttpServletRequest复用问题记录》文章讨论了在SpringBoot中使用异步线程时,由于HttpServletRequest复用导致... 目录一、问题描述:异步线程操作导致请求复用时 Cookie 解析失败1. 场景背景2. 问题根源二、问题详细分

Java对象和JSON字符串之间的转换方法(全网最清晰)

《Java对象和JSON字符串之间的转换方法(全网最清晰)》:本文主要介绍如何在Java中使用Jackson库将对象转换为JSON字符串,并提供了一个简单的工具类示例,该工具类支持基本的转换功能,... 目录前言1. 引入 Jackson 依赖2. 创建 jsON 工具类3. 使用示例转换 Java 对象为

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

Java中的Cursor使用详解

《Java中的Cursor使用详解》本文介绍了Java中的Cursor接口及其在大数据集处理中的优势,包括逐行读取、分页处理、流控制、动态改变查询、并发控制和减少网络流量等,感兴趣的朋友一起看看吧... 最近看代码,有一段代码涉及到Cursor,感觉写法挺有意思的。注意是Cursor,而不是Consumer