本文主要是介绍java的jsoup介绍--java爬虫与java解析html,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
最近的工作需要从网上抓取些信息,奈何不会python,暂时又没时间去研究它,只好用java来搞了。事实证明,做爬虫不一定要用python,java一样能做到。jsoup是java的文档解析工具,很方便,很强大。它可以将html文件、字符串或URL转化为Document对象,然后可以通过DOM、CSS和类似jQuery的操作方式,取出或设置属性和内容。它还可以清理不受信任的html,以防止XSS攻击。你能想到的,几乎它都能实现。
先简单讲一下爬虫。爬虫,属于灰色区域吧,它从互联网上抓取我们所需的信息,可以自动按时执行,以一定的规则抓取页面,处理后存储或利用起来,把别人的资源变成自己的。一般先建立一个爬虫队列,将初始URL放入队列;爬取初始URL,获取内容和URL链接,内容处理,搜集存储自己需要的资源,链接标记为已爬取;获取内容里的所有url,将自己需要的url加入爬虫队列;从队列里取出一个未标记的url,继续爬取,获取内容,继续扩充爬虫队列;当所有url都是已爬取,爬取结束。
再说一下jsoup。主要来说,使用它进行爬取,需要三步。
首先,获取html,可以是文件,也可以是html字符串,也可以是url链接。然后,将html转化为Document对象。最后处理Document对象。处理时,可以获取指定id的元素属性或内容,也可以通过标签获取。可以获取1个对象,也可以获取1个队列。如果通过jsoup的方法满足不了你的数据截取需求,可以继续用处理字符串的方法处理,字符串拆分(split)成数组,再获取,或者用substring获取。
下面以抓取汇率信息做个简易demo,抓取人民币到美元的汇率。直接上代码:
public static void main(String args[]) throws IOException{//jsoup文档:https://jsoup.org/apidocs/String from = "CNY";String to = "USD";String url = "http://hl.anseo.cn/cal_"+from+"_To_"+to+".aspx";Document doc = Jsoup.connect(url).get();Element result = doc.getElementById("result");if(null != result ){Element pElement = result.getElementsByTag("p").get(1);System.out.println("所需的字符串:"+pElement);String [] array = pElement.html().split(" ");int i = 0;for(String aString : array){System.out.println("处理之后,array["+i+"]=\""+aString+"\"");i++;}String fromName = array[1];String toName = array[4];//double除法有问题,用bigdecimalBigDecimal a1 = new BigDecimal(array[3]); BigDecimal rate = a1.multiply(new BigDecimal("0.01"));System.out.println("结果所需要的五个元素:"+fromName+"("+from+"),"+toName+"("+to+"),"+rate.doubleValue());System.out.println("汇率结果:"+rate.doubleValue());}}
执行结果:
所需的字符串:<p>100 人民币 = 14.5100 美元</p>
处理之后,array[0]="100"
处理之后,array[1]="人民币"
处理之后,array[2]="="
处理之后,array[3]="14.5100"
处理之后,array[4]="美元"
结果所需要的五个元素:人民币(CNY),美元(USD),0.1451
汇率结果:0.1451
由此可见,只要是这个网站支持的汇率展示,我都可以抓取出来,存起来之后,就可以对外提供服务了。包装成对外的实时接口也是可以的,实时的去抓取这个网页,结果返回给用户。其他的业务也是类似,好多公司的数据都是这么来的,但是要考虑到被封杀和下毒的风险,还有法律风险喽。这只是个简单的实例,实际的爬虫程序,会更为复杂和强大,还会用到定时任务,数据库存储(DB,mongo,redis),索引(solr,Elasticsearch),多线程等技术。
以上,jsoup真的很强大,java果然是世界上最棒的语言。
这篇关于java的jsoup介绍--java爬虫与java解析html的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!