Java零基础入门——使用jsoup进行初级网络爬虫

2024-04-01 07:38

本文主要是介绍Java零基础入门——使用jsoup进行初级网络爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

      • 0. 配置jsoup
      • 1. 实战爬虫知乎
      • 2. 实战汽车之家爬图

0. 配置jsoup

  • 安装idea并打开创建class
  1. 打开idea,File->New->Project->Maven->Next----->Finish
  2. 在文件夹src->main->java下先创建package,再在该package下创建java class。
  • 配置jsoup
    把以下的文档复制粘贴到pom.xml:
<dependencies><dependency><!-- jsoup HTML parser library @ http://jsoup.org/ --><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency></dependencies>

1. 实战爬虫知乎

先使用jsoup获取网页的源代码,具体的,可以用Chrome浏览器打开该网页,右击查看源代码。

Document document=Jsoup.connect("https://www.zhihu.com/explore/recommendations")
.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)")
.get();

注:userAgent需要在网页中找对应的,具体的地方在:
在这里插入图片描述
然后是找到url,具体也是通过网页的源代码中去找(其实,爬虫爬虫,爬的就是网页,所以所有的去网页的源代码中去找就对了),先贴源码:

Element main = document.getElementById("zh-recommend-list-full");
Elements url = main.select("div").select("h2").select("a[class=question_link]");

注: 其中,document.getElementById表示通过id定位到你要爬取的块,然后用.select定位到前缀包含这些限定词的所有url

对应网页的源代码部分:
在这里插入图片描述
在这里插入图片描述
然后去遍历获取到的所有url

for(Element question:url)

并解析出单个问题的URL并连接,方式如上所述:

String URL=question.attr("abs:href");
Document document2=Jsoup.connect(URL).userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36").get();

然后同样的方式获取问题、问题描述、回答:

//问题
Elements title=document2.select(".QuestionHeader-main").select(".QuestionHeader-title");
//问题描述
Elements detail=document2.select(".QuestionHeader-detail").select(".QuestionRichText").select("span[class=RichText ztext]span[itemprop=text]");
//回答
Elements answer=document2.select(".RichContent").select(".RichContent-inner").select("span[class=RichText ztext CopyrightRichText-richText]span[itemprop=text]");

在这里插入图片描述
最后打印出来就好了,以下是完整代码:

package spider;import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;public class spider {public static void main(String[] args) throws IOException {//获取编辑推荐页Document document=Jsoup.connect("https://www.zhihu.com/explore/recommendations")//模拟火狐浏览器.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)").get();Element main=document.getElementById("zh-recommend-list-full");//System.out.println(main);Elements url=main.select("div").select("h2").select("a[class=question_link]");for(Element question:url){//输出href后的值,即主页上每个关注问题的链接String URL=question.attr("abs:href");//下载问题链接指向的页面Document document2=Jsoup.connect(URL).userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36").get();//问题
//            Elements title=document2.select("#zh-question-title").select("h2").select("a");Elements title=document2.select(".QuestionHeader-main").select(".QuestionHeader-title");//问题描述Elements detail=document2.select(".QuestionHeader-detail").select(".QuestionRichText").select("span[class=RichText ztext]span[itemprop=text]");//回答Elements answer=document2.select(".RichContent").select(".RichContent-inner").select("span[class=RichText ztext CopyrightRichText-richText]span[itemprop=text]");if(detail.size() == 0){System.out.println("\n"+"链接:"+URL+"\n"+"标题:"+title.text()+"\n"+"问题描述:"+"无"+"\n"+"回答:"+answer.text());}else{System.out.println("\n"+"链接:"+URL+"\n"+"标题:"+title.text()+"\n"+"问题描述:"+detail.text()+"\n"+"回答:"+answer.text());}}}
}

结果截图:
在这里插入图片描述
参考:https://blog.csdn.net/u014798883/article/details/54909951(原代码跑不通,本博文有改)

2. 实战汽车之家爬图

还是同样的思路,只不过这里是获取图片的URL,然后下载图片就好了,这里下载图片的代码是copy别人的,原代码忘了网址,发现的朋友请告知一声,我贴上链接或者删掉,谢谢理解-。

这里就直接贴源码了:

package spider;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;import java.io.File;
import java.io.IOException;import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.net.URLEncoder;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class spider_picture {private static void downImages(String filePath, String imgUrl) {// 若指定文件夹没有,则先创建File dir = new File(filePath);if (!dir.exists()) {dir.mkdirs();}// 截取图片文件名String fileName = imgUrl.substring(imgUrl.lastIndexOf('/') + 1, imgUrl.length());try {// 文件名里面可能有中文或者空格,所以这里要进行处理。但空格又会被URLEncoder转义为加号String urlTail = URLEncoder.encode(fileName, "UTF-8");// 因此要将加号转化为UTF-8格式的%20imgUrl = imgUrl.substring(0, imgUrl.lastIndexOf('/') + 1)+ urlTail.replaceAll("\\+", "\\%20");} catch (UnsupportedEncodingException e) {e.printStackTrace();}// 写出的路径File file = new File(filePath + File.separator + fileName);try {// 获取图片URLURL url = new URL(imgUrl);// 获得连接URLConnection connection = url.openConnection();// 设置10秒的相应时间connection.setConnectTimeout(10 * 1000);// 获得输入流InputStream in = connection.getInputStream();// 获得输出流BufferedOutputStream out = new BufferedOutputStream(new FileOutputStream(file));// 构建缓冲区byte[] buf = new byte[1024];int size;// 写入到文件while (-1 != (size = in.read(buf))) {out.write(buf, 0, size);}out.close();in.close();} catch (MalformedURLException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}}public static void main(String[] args) throws IOException {//获取图片爬虫页Document document = Jsoup.connect("https://car.autohome.com.cn/photolist/series/34231/4457966.html#pvareaid=3454450").userAgent("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36").get();String id = "pa";int n = 1;while (n < 4) {Element main=document.getElementById("pa" + n);Elements url = main.select("li").select("img");for(Element picture:url) {//输出href后的值,即主页上每个关注问题的链接String URL=picture.attr("abs:src");System.out.println(URL);downImages("d:/this_is_save_pictures_folder", URL);}n += 1;}}
}

这篇关于Java零基础入门——使用jsoup进行初级网络爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/866590

相关文章

Java实战之利用POI生成Excel图表

《Java实战之利用POI生成Excel图表》ApachePOI是Java生态中处理Office文档的核心工具,这篇文章主要为大家详细介绍了如何在Excel中创建折线图,柱状图,饼图等常见图表,需要的... 目录一、环境配置与依赖管理二、数据源准备与工作表构建三、图表生成核心步骤1. 折线图(Line Ch

如何使用CSS3实现波浪式图片墙

《如何使用CSS3实现波浪式图片墙》:本文主要介绍了如何使用CSS3的transform属性和动画技巧实现波浪式图片墙,通过设置图片的垂直偏移量,并使用动画使其周期性地改变位置,可以创建出动态且具有波浪效果的图片墙,同时,还强调了响应式设计的重要性,以确保图片墙在不同设备上都能良好显示,详细内容请阅读本文,希望能对你有所帮助...

Spring Boot 3 整合 Spring Cloud Gateway实践过程

《SpringBoot3整合SpringCloudGateway实践过程》本文介绍了如何使用SpringCloudAlibaba2023.0.0.0版本构建一个微服务网关,包括统一路由、限... 目录引子为什么需要微服务网关实践1.统一路由2.限流防刷3.登录鉴权小结引子当前微服务架构已成为中大型系统的标

Rust中的注释使用解读

《Rust中的注释使用解读》本文介绍了Rust中的行注释、块注释和文档注释的使用方法,通过示例展示了如何在实际代码中应用这些注释,以提高代码的可读性和可维护性... 目录Rust 中的注释使用指南1. 行注释示例:行注释2. 块注释示例:块注释3. 文档注释示例:文档注释4. 综合示例总结Rust 中的注释

Java集合中的List超详细讲解

《Java集合中的List超详细讲解》本文详细介绍了Java集合框架中的List接口,包括其在集合中的位置、继承体系、常用操作和代码示例,以及不同实现类(如ArrayList、LinkedList和V... 目录一,List的继承体系二,List的常用操作及代码示例1,创建List实例2,增加元素3,访问元

Java中将异步调用转为同步的五种实现方法

《Java中将异步调用转为同步的五种实现方法》本文介绍了将异步调用转为同步阻塞模式的五种方法:wait/notify、ReentrantLock+Condition、Future、CountDownL... 目录异步与同步的核心区别方法一:使用wait/notify + synchronized代码示例关键

Linux使用cut进行文本提取的操作方法

《Linux使用cut进行文本提取的操作方法》Linux中的cut命令是一个命令行实用程序,用于从文件或标准输入中提取文本行的部分,本文给大家介绍了Linux使用cut进行文本提取的操作方法,文中有详... 目录简介基础语法常用选项范围选择示例用法-f:字段选择-d:分隔符-c:字符选择-b:字节选择--c

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

Java 8 Stream filter流式过滤器详解

《Java8Streamfilter流式过滤器详解》本文介绍了Java8的StreamAPI中的filter方法,展示了如何使用lambda表达式根据条件过滤流式数据,通过实际代码示例,展示了f... 目录引言 一.Java 8 Stream 的过滤器(filter)二.Java 8 的 filter、fi

Java中实现订单超时自动取消功能(最新推荐)

《Java中实现订单超时自动取消功能(最新推荐)》本文介绍了Java中实现订单超时自动取消功能的几种方法,包括定时任务、JDK延迟队列、Redis过期监听、Redisson分布式延迟队列、Rocket... 目录1、定时任务2、JDK延迟队列 DelayQueue(1)定义实现Delayed接口的实体类 (