java的jsoup介绍--java爬虫与java解析html

2024-05-24 08:38

本文主要是介绍java的jsoup介绍--java爬虫与java解析html,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

         最近的工作需要从网上抓取些信息,奈何不会python,暂时又没时间去研究它,只好用java来搞了。事实证明,做爬虫不一定要用python,java一样能做到。jsoup是java的文档解析工具,很方便,很强大。它可以将html文件、字符串或URL转化为Document对象,然后可以通过DOM、CSS和类似jQuery的操作方式,取出或设置属性和内容。它还可以清理不受信任的html,以防止XSS攻击。你能想到的,几乎它都能实现。

        先简单讲一下爬虫。爬虫,属于灰色区域吧,它从互联网上抓取我们所需的信息,可以自动按时执行,以一定的规则抓取页面,处理后存储或利用起来,把别人的资源变成自己的。一般先建立一个爬虫队列,将初始URL放入队列;爬取初始URL,获取内容和URL链接,内容处理,搜集存储自己需要的资源,链接标记为已爬取;获取内容里的所有url,将自己需要的url加入爬虫队列;从队列里取出一个未标记的url,继续爬取,获取内容,继续扩充爬虫队列;当所有url都是已爬取,爬取结束。

       再说一下jsoup。主要来说,使用它进行爬取,需要三步。

       首先,获取html,可以是文件,也可以是html字符串,也可以是url链接。然后,将html转化为Document对象。最后处理Document对象。处理时,可以获取指定id的元素属性或内容,也可以通过标签获取。可以获取1个对象,也可以获取1个队列。如果通过jsoup的方法满足不了你的数据截取需求,可以继续用处理字符串的方法处理,字符串拆分(split)成数组,再获取,或者用substring获取。

       下面以抓取汇率信息做个简易demo,抓取人民币到美元的汇率。直接上代码:

public static void main(String args[]) throws IOException{//jsoup文档:https://jsoup.org/apidocs/String from = "CNY";String to = "USD";String url = "http://hl.anseo.cn/cal_"+from+"_To_"+to+".aspx";Document doc = Jsoup.connect(url).get();Element  result = doc.getElementById("result");if(null != result ){Element pElement = result.getElementsByTag("p").get(1);System.out.println("所需的字符串:"+pElement);String [] array = pElement.html().split(" ");int i = 0;for(String aString : array){System.out.println("处理之后,array["+i+"]=\""+aString+"\"");i++;}String fromName = array[1];String toName = array[4];//double除法有问题,用bigdecimalBigDecimal a1 = new BigDecimal(array[3]);    BigDecimal rate = a1.multiply(new BigDecimal("0.01"));System.out.println("结果所需要的五个元素:"+fromName+"("+from+"),"+toName+"("+to+"),"+rate.doubleValue());System.out.println("汇率结果:"+rate.doubleValue());}}
执行结果:

所需的字符串:<p>100 人民币 = 14.5100 美元</p>
处理之后,array[0]="100"
处理之后,array[1]="人民币"
处理之后,array[2]="="
处理之后,array[3]="14.5100"
处理之后,array[4]="美元"
结果所需要的五个元素:人民币(CNY),美元(USD),0.1451
汇率结果:0.1451
      由此可见,只要是这个网站支持的汇率展示,我都可以抓取出来,存起来之后,就可以对外提供服务了。包装成对外的实时接口也是可以的,实时的去抓取这个网页,结果返回给用户。其他的业务也是类似,好多公司的数据都是这么来的,但是要考虑到被封杀和下毒的风险,还有法律风险喽。这只是个简单的实例,实际的爬虫程序,会更为复杂和强大,还会用到定时任务,数据库存储(DB,mongo,redis),索引(solr,Elasticsearch),多线程等技术。

    以上,jsoup真的很强大,java果然是世界上最棒的语言。

这篇关于java的jsoup介绍--java爬虫与java解析html的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/997915

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

Spring Security 基于表达式的权限控制

前言 spring security 3.0已经可以使用spring el表达式来控制授权,允许在表达式中使用复杂的布尔逻辑来控制访问的权限。 常见的表达式 Spring Security可用表达式对象的基类是SecurityExpressionRoot。 表达式描述hasRole([role])用户拥有制定的角色时返回true (Spring security默认会带有ROLE_前缀),去

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

Spring Security--Architecture Overview

1 核心组件 这一节主要介绍一些在Spring Security中常见且核心的Java类,它们之间的依赖,构建起了整个框架。想要理解整个架构,最起码得对这些类眼熟。 1.1 SecurityContextHolder SecurityContextHolder用于存储安全上下文(security context)的信息。当前操作的用户是谁,该用户是否已经被认证,他拥有哪些角色权限…这些都被保

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template