java的jsoup介绍--java爬虫与java解析html

2024-05-24 08:38

本文主要是介绍java的jsoup介绍--java爬虫与java解析html,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

         最近的工作需要从网上抓取些信息,奈何不会python,暂时又没时间去研究它,只好用java来搞了。事实证明,做爬虫不一定要用python,java一样能做到。jsoup是java的文档解析工具,很方便,很强大。它可以将html文件、字符串或URL转化为Document对象,然后可以通过DOM、CSS和类似jQuery的操作方式,取出或设置属性和内容。它还可以清理不受信任的html,以防止XSS攻击。你能想到的,几乎它都能实现。

        先简单讲一下爬虫。爬虫,属于灰色区域吧,它从互联网上抓取我们所需的信息,可以自动按时执行,以一定的规则抓取页面,处理后存储或利用起来,把别人的资源变成自己的。一般先建立一个爬虫队列,将初始URL放入队列;爬取初始URL,获取内容和URL链接,内容处理,搜集存储自己需要的资源,链接标记为已爬取;获取内容里的所有url,将自己需要的url加入爬虫队列;从队列里取出一个未标记的url,继续爬取,获取内容,继续扩充爬虫队列;当所有url都是已爬取,爬取结束。

       再说一下jsoup。主要来说,使用它进行爬取,需要三步。

       首先,获取html,可以是文件,也可以是html字符串,也可以是url链接。然后,将html转化为Document对象。最后处理Document对象。处理时,可以获取指定id的元素属性或内容,也可以通过标签获取。可以获取1个对象,也可以获取1个队列。如果通过jsoup的方法满足不了你的数据截取需求,可以继续用处理字符串的方法处理,字符串拆分(split)成数组,再获取,或者用substring获取。

       下面以抓取汇率信息做个简易demo,抓取人民币到美元的汇率。直接上代码:

public static void main(String args[]) throws IOException{//jsoup文档:https://jsoup.org/apidocs/String from = "CNY";String to = "USD";String url = "http://hl.anseo.cn/cal_"+from+"_To_"+to+".aspx";Document doc = Jsoup.connect(url).get();Element  result = doc.getElementById("result");if(null != result ){Element pElement = result.getElementsByTag("p").get(1);System.out.println("所需的字符串:"+pElement);String [] array = pElement.html().split(" ");int i = 0;for(String aString : array){System.out.println("处理之后,array["+i+"]=\""+aString+"\"");i++;}String fromName = array[1];String toName = array[4];//double除法有问题,用bigdecimalBigDecimal a1 = new BigDecimal(array[3]);    BigDecimal rate = a1.multiply(new BigDecimal("0.01"));System.out.println("结果所需要的五个元素:"+fromName+"("+from+"),"+toName+"("+to+"),"+rate.doubleValue());System.out.println("汇率结果:"+rate.doubleValue());}}
执行结果:

所需的字符串:<p>100 人民币 = 14.5100 美元</p>
处理之后,array[0]="100"
处理之后,array[1]="人民币"
处理之后,array[2]="="
处理之后,array[3]="14.5100"
处理之后,array[4]="美元"
结果所需要的五个元素:人民币(CNY),美元(USD),0.1451
汇率结果:0.1451
      由此可见,只要是这个网站支持的汇率展示,我都可以抓取出来,存起来之后,就可以对外提供服务了。包装成对外的实时接口也是可以的,实时的去抓取这个网页,结果返回给用户。其他的业务也是类似,好多公司的数据都是这么来的,但是要考虑到被封杀和下毒的风险,还有法律风险喽。这只是个简单的实例,实际的爬虫程序,会更为复杂和强大,还会用到定时任务,数据库存储(DB,mongo,redis),索引(solr,Elasticsearch),多线程等技术。

    以上,jsoup真的很强大,java果然是世界上最棒的语言。

这篇关于java的jsoup介绍--java爬虫与java解析html的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/997915

相关文章

揭秘未来艺术:AI绘画工具全面介绍

📑前言 随着科技的飞速发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。在艺术创作领域,AI技术同样展现出了其独特的魅力。今天,我们就来一起探索这个神秘而引人入胜的领域,深入了解AI绘画工具的奥秘及其为艺术创作带来的革命性变革。 一、AI绘画工具的崛起 1.1 颠覆传统绘画模式 在过去,绘画是艺术家们通过手中的画笔,蘸取颜料,在画布上自由挥洒的创造性过程。然而,随着AI绘画工

Java五子棋之坐标校正

上篇针对了Java项目中的解构思维,在这篇内容中我们不妨从整体项目中拆解拿出一个非常重要的五子棋逻辑实现:坐标校正,我们如何使漫无目的鼠标点击变得有序化和可控化呢? 目录 一、从鼠标监听到获取坐标 1.MouseListener和MouseAdapter 2.mousePressed方法 二、坐标校正的具体实现方法 1.关于fillOval方法 2.坐标获取 3.坐标转换 4.坐

Spring Cloud:构建分布式系统的利器

引言 在当今的云计算和微服务架构时代,构建高效、可靠的分布式系统成为软件开发的重要任务。Spring Cloud 提供了一套完整的解决方案,帮助开发者快速构建分布式系统中的一些常见模式(例如配置管理、服务发现、断路器等)。本文将探讨 Spring Cloud 的定义、核心组件、应用场景以及未来的发展趋势。 什么是 Spring Cloud Spring Cloud 是一个基于 Spring

Javascript高级程序设计(第四版)--学习记录之变量、内存

原始值与引用值 原始值:简单的数据即基础数据类型,按值访问。 引用值:由多个值构成的对象即复杂数据类型,按引用访问。 动态属性 对于引用值而言,可以随时添加、修改和删除其属性和方法。 let person = new Object();person.name = 'Jason';person.age = 42;console.log(person.name,person.age);//'J

java8的新特性之一(Java Lambda表达式)

1:Java8的新特性 Lambda 表达式: 允许以更简洁的方式表示匿名函数(或称为闭包)。可以将Lambda表达式作为参数传递给方法或赋值给函数式接口类型的变量。 Stream API: 提供了一种处理集合数据的流式处理方式,支持函数式编程风格。 允许以声明性方式处理数据集合(如List、Set等)。提供了一系列操作,如map、filter、reduce等,以支持复杂的查询和转

解析 XML 和 INI

XML 1.TinyXML库 TinyXML是一个C++的XML解析库  使用介绍: https://www.cnblogs.com/mythou/archive/2011/11/27/2265169.html    使用的时候,只要把 tinyxml.h、tinystr.h、tinystr.cpp、tinyxml.cpp、tinyxmlerror.cpp、tinyxmlparser.

Java面试八股之怎么通过Java程序判断JVM是32位还是64位

怎么通过Java程序判断JVM是32位还是64位 可以通过Java程序内部检查系统属性来判断当前运行的JVM是32位还是64位。以下是一个简单的方法: public class JvmBitCheck {public static void main(String[] args) {String arch = System.getProperty("os.arch");String dataM

详细分析Springmvc中的@ModelAttribute基本知识(附Demo)

目录 前言1. 注解用法1.1 方法参数1.2 方法1.3 类 2. 注解场景2.1 表单参数2.2 AJAX请求2.3 文件上传 3. 实战4. 总结 前言 将请求参数绑定到模型对象上,或者在请求处理之前添加模型属性 可以在方法参数、方法或者类上使用 一般适用这几种场景: 表单处理:通过 @ModelAttribute 将表单数据绑定到模型对象上预处理逻辑:在请求处理之前

eclipse运行springboot项目,找不到主类

解决办法尝试了很多种,下载sts压缩包行不通。最后解决办法如图: help--->Eclipse Marketplace--->Popular--->找到Spring Tools 3---->Installed。

JAVA读取MongoDB中的二进制图片并显示在页面上

1:Jsp页面: <td><img src="${ctx}/mongoImg/show"></td> 2:xml配置: <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans"xmlns:xsi="http://www.w3.org/2001