java使用phantomJs抓取动态页面

2024-05-07 02:08

本文主要是介绍java使用phantomJs抓取动态页面,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随时随地技术实战干货,充分利用闲暇时间,请关注源代码社区公众号和技术交流群。

from:http://blog.csdn.net/kaka0930/article/details/68941932

1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/

2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。

 

3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。报错太多。但是有没有文档,因为HttpUnit是2008年出的。官网上面啥也没有。所以我也没有资料参考,就放弃了。

4. 开始使用phantomjs,发现phantomjs算是动态爬取网页的主流。当然,所谓动态爬取从来不是问题,问题是速度。直接使用webkit等浏览器内核还是比较麻烦,而且速度不理想。

 

5. 自己使用的java + phantomjs在window上面开发。放到ubuntu上面。

首先是安装,其实window版下载解压即可。但是如果你想要直接在cmd可以使用phantomjs的命令,请把bin下面的phantomjs.exe文件路径添加到path里面。此处程序不要依赖path路径。也就是直接使用绝对路径。当然绝对路径里面使用了项目的相对路径。这样是为了更好的迁移。phantomJS的使用过程就是java程序调用phantomJS调用js文件来获取指定页面,然后传回相应的内容。

先给出代码:java端

 

[java] view plain copy

  1. public class JSUtil  
  2. {  
  3.   
  4.     // 如果要更换运行环境,请注意exePath最后的phantom.exe需要更改。因为这个只能在window版本上运行。前面的路径名  
  5.     // 也需要和exePath里面的保持一致。否则无法调用  
  6.     private static String projectPath = System.getProperty("user.dir");  
  7.     private static String jsPath = projectPath + File.separator + "huicong.js";  
  8.     private static String exePath = projectPath + File.separator + "phantomjs" + File.separator + "bin" + File.separator  
  9.             + "phantomjs.exe";  
  10.   
  11.     public static void main(String[] args) throws IOException, SAXException  
  12.     {  
  13.   
  14.         // 测试调用。传入url即可  
  15.         String html = getParseredHtml2("http://huisheng99.b2b.hc360.com/");  
  16.         System.out.println("html: " + html);  
  17.     }  
  18.   
  19.     // 调用phantomjs程序,并传入js文件,并通过流拿回需要的数据。  
  20.     public static String getParseredHtml2(String url) throws IOException  
  21.     {  
  22.         Runtime rt = Runtime.getRuntime();  
  23.         Process p = rt.exec(exePath + " " + jsPath + " " + url);  
  24.         InputStream is = p.getInputStream();  
  25.         BufferedReader br = new BufferedReader(new InputStreamReader(is));  
  26.         StringBuffer sbf = new StringBuffer();  
  27.         String tmp = "";  
  28.         while ((tmp = br.readLine()) != null)  
  29.         {  
  30.             sbf.append(tmp);  
  31.         }  
  32.         String[] result = sbf.toString().split("companyServiceMod");  
  33.         String result2 = "";  
  34.         if(result.length >= 2)  
  35.         {  
  36.             result2 = result[1];  
  37.             if(result2.length() > 200)  
  38.             {  
  39.                 result2 = result2.substring(0200);  
  40.             }  
  41.         }  
  42.         //System.out.println("resut2: "+result2);  
  43.         return result2;  
  44.     }  
  45.   
  46. }   



然后是js文件,

[javascript] view plain copy

  1. var page = require('webpage').create(),  
  2.   system = require('system'),  
  3.   t, address;  
  4. //写入文件,用来测试。正式版本可以注释掉用来提高速度。  
  5. var fs = require("fs");  
  6. //读取命令行参数,也就是js文件路径。  
  7. if (system.args.length === 1) {  
  8.   console.log('Usage: loadspeed.js <some URL>');  
  9. //这行代码很重要。凡是结束必须调用。否则phantomjs不会停止  
  10.   phantom.exit();  
  11. }  
  12. page.settings.loadImages = false;  //为了提升加载速度,不加载图片  
  13. page.settings.resourceTimeout = 10000;//超过10秒放弃加载  
  14. //此处是用来设置截图的参数。不截图没啥用  
  15. page.viewportSize = {  
  16.   width: 1280,  
  17.   height: 800  
  18. };  
  19. block_urls = ['baidu.com'];//为了提升速度,屏蔽一些需要时间长的。比如百度广告  
  20. page.onResourceRequested = function(requestData, request){  
  21.     for(url in block_urls) {  
  22.         if(requestData.url.indexOf(block_urls[url]) !== -1) {  
  23.             request.abort();  
  24.             //console.log(requestData.url + " aborted");  
  25.             return;  
  26.         }  
  27.     }              
  28. }  
  29. t = Date.now();//看看加载需要多久。  
  30. address = system.args[1];  
  31. page.open(address, function(status) {  
  32.   if (status !== 'success') {  
  33.     console.log('FAIL to load the address');  
  34.   } else {  
  35.     t = Date.now() - t;  
  36. //此处原来是为了提取相应的元素。只要可以用document的,还是看可以用。但是自己的无法用document,只能在用字符分割在java里。  
  37.     //  var ua = page.evaluate(function() {  
  38.     //   return document.getElementById('companyServiceMod').innerHTML;  
  39.         
  40.     // });  
  41.     // fs.write("qq.html", ua, 'w');  
  42.    // console.log("测试qq: "+ua);    
  43. //console.log就是传输回去的内容。  
  44.     console.log('Loading time ' + t + ' msec');  
  45.     console.log(page.content);  
  46.     setTimeout(function(){ phantom.exit(); }, 6000);  
  47.   }  
  48.   phantom.exit();  
  49. });  

 

请把js文件放到java的程序里面指定的路径。二者要一直。建议就是项目的根目录下面。

此处我是放在了项目的根目录下面。文件名是huicong.js

 

6. 有一个巨大的问题,就是速度。官网解释如下:


 

 stackoverflow给出的,如果截图,10秒算是正常。可以体会一下其速度。

然后自己查了一下stackoverflow,找到了一个很好的回答。

http://stackoverflow.com/questions/42703760/phantomjs-open-too-slow

表示感谢。具体就是三点:

6.1. 换个好点的电脑。

6.2. 不加载图片。参考上面的js文件。

6.3. 屏蔽相关广告等。参考上面的js文件。自己用了,成功吧时间压缩到2s。

 

7.自己是为了提取一个div里面的qq链接。但是没有找到怎么用dom来做。所以就直接传回整个page,然后手动用字符串解析。这里也许可以用各种selector。但是自己没有研究。 

 

 

 

 

1. phantomjs的镜像网站:http://npm.taobao.org/dist/phantomjs/

2. phantomjs内置webkit内核,也就是chrome的内核。可以无界面加载页面,指的是和浏览器上面的页面一致,也就是解析完js的页面。所以需要爬取或者获得动态页面的,这算是利器。

 

3.之前自己也试了HttpUnit,不行的。网上找到的例子自己运行不了。报错太多。但是有没有文档,因为HttpUnit是2008年出的。官网上面啥也没有。所以我也没有资料参考,就放弃了。

4. 开始使用phantomjs,发现phantomjs算是动态爬取网页的主流。当然,所谓动态爬取从来不是问题,问题是速度。直接使用webkit等浏览器内核还是比较麻烦,而且速度不理想。

 

5. 自己使用的java + phantomjs在window上面开发。放到ubuntu上面。

首先是安装,其实window版下载解压即可。但是如果你想要直接在cmd可以使用phantomjs的命令,请把bin下面的phantomjs.exe文件路径添加到path里面。此处程序不要依赖path路径。也就是直接使用绝对路径。当然绝对路径里面使用了项目的相对路径。这样是为了更好的迁移。phantomJS的使用过程就是java程序调用phantomJS调用js文件来获取指定页面,然后传回相应的内容。

先给出代码:java端

 

[java] view plain copy

  1. public class JSUtil  
  2. {  
  3.   
  4.     // 如果要更换运行环境,请注意exePath最后的phantom.exe需要更改。因为这个只能在window版本上运行。前面的路径名  
  5.     // 也需要和exePath里面的保持一致。否则无法调用  
  6.     private static String projectPath = System.getProperty("user.dir");  
  7.     private static String jsPath = projectPath + File.separator + "huicong.js";  
  8.     private static String exePath = projectPath + File.separator + "phantomjs" + File.separator + "bin" + File.separator  
  9.             + "phantomjs.exe";  
  10.   
  11.     public static void main(String[] args) throws IOException, SAXException  
  12.     {  
  13.   
  14.         // 测试调用。传入url即可  
  15.         String html = getParseredHtml2("http://huisheng99.b2b.hc360.com/");  
  16.         System.out.println("html: " + html);  
  17.     }  
  18.   
  19.     // 调用phantomjs程序,并传入js文件,并通过流拿回需要的数据。  
  20.     public static String getParseredHtml2(String url) throws IOException  
  21.     {  
  22.         Runtime rt = Runtime.getRuntime();  
  23.         Process p = rt.exec(exePath + " " + jsPath + " " + url);  
  24.         InputStream is = p.getInputStream();  
  25.         BufferedReader br = new BufferedReader(new InputStreamReader(is));  
  26.         StringBuffer sbf = new StringBuffer();  
  27.         String tmp = "";  
  28.         while ((tmp = br.readLine()) != null)  
  29.         {  
  30.             sbf.append(tmp);  
  31.         }  
  32.         String[] result = sbf.toString().split("companyServiceMod");  
  33.         String result2 = "";  
  34.         if(result.length >= 2)  
  35.         {  
  36.             result2 = result[1];  
  37.             if(result2.length() > 200)  
  38.             {  
  39.                 result2 = result2.substring(0200);  
  40.             }  
  41.         }  
  42.         //System.out.println("resut2: "+result2);  
  43.         return result2;  
  44.     }  
  45.   
  46. }   



然后是js文件,

[javascript] view plain copy

  1. var page = require('webpage').create(),  
  2.   system = require('system'),  
  3.   t, address;  
  4. //写入文件,用来测试。正式版本可以注释掉用来提高速度。  
  5. var fs = require("fs");  
  6. //读取命令行参数,也就是js文件路径。  
  7. if (system.args.length === 1) {  
  8.   console.log('Usage: loadspeed.js <some URL>');  
  9. //这行代码很重要。凡是结束必须调用。否则phantomjs不会停止  
  10.   phantom.exit();  
  11. }  
  12. page.settings.loadImages = false;  //为了提升加载速度,不加载图片  
  13. page.settings.resourceTimeout = 10000;//超过10秒放弃加载  
  14. //此处是用来设置截图的参数。不截图没啥用  
  15. page.viewportSize = {  
  16.   width: 1280,  
  17.   height: 800  
  18. };  
  19. block_urls = ['baidu.com'];//为了提升速度,屏蔽一些需要时间长的。比如百度广告  
  20. page.onResourceRequested = function(requestData, request){  
  21.     for(url in block_urls) {  
  22.         if(requestData.url.indexOf(block_urls[url]) !== -1) {  
  23.             request.abort();  
  24.             //console.log(requestData.url + " aborted");  
  25.             return;  
  26.         }  
  27.     }              
  28. }  
  29. t = Date.now();//看看加载需要多久。  
  30. address = system.args[1];  
  31. page.open(address, function(status) {  
  32.   if (status !== 'success') {  
  33.     console.log('FAIL to load the address');  
  34.   } else {  
  35.     t = Date.now() - t;  
  36. //此处原来是为了提取相应的元素。只要可以用document的,还是看可以用。但是自己的无法用document,只能在用字符分割在java里。  
  37.     //  var ua = page.evaluate(function() {  
  38.     //   return document.getElementById('companyServiceMod').innerHTML;  
  39.         
  40.     // });  
  41.     // fs.write("qq.html", ua, 'w');  
  42.    // console.log("测试qq: "+ua);    
  43. //console.log就是传输回去的内容。  
  44.     console.log('Loading time ' + t + ' msec');  
  45.     console.log(page.content);  
  46.     setTimeout(function(){ phantom.exit(); }, 6000);  
  47.   }  
  48.   phantom.exit();  
  49. });  

 

请把js文件放到java的程序里面指定的路径。二者要一直。建议就是项目的根目录下面。

此处我是放在了项目的根目录下面。文件名是huicong.js

 

6. 有一个巨大的问题,就是速度。官网解释如下:


 

 stackoverflow给出的,如果截图,10秒算是正常。可以体会一下其速度。

然后自己查了一下stackoverflow,找到了一个很好的回答。

http://stackoverflow.com/questions/42703760/phantomjs-open-too-slow

表示感谢。具体就是三点:

6.1. 换个好点的电脑。

6.2. 不加载图片。参考上面的js文件。

6.3. 屏蔽相关广告等。参考上面的js文件。自己用了,成功吧时间压缩到2s。

 

7.自己是为了提取一个div里面的qq链接。但是没有找到怎么用dom来做。所以就直接传回整个page,然后手动用字符串解析。这里也许可以用各种selector。但是自己没有研究。 

 

这篇关于java使用phantomJs抓取动态页面的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/966030

相关文章

idea maven编译报错Java heap space的解决方法

《ideamaven编译报错Javaheapspace的解决方法》这篇文章主要为大家详细介绍了ideamaven编译报错Javaheapspace的相关解决方法,文中的示例代码讲解详细,感兴趣的... 目录1.增加 Maven 编译的堆内存2. 增加 IntelliJ IDEA 的堆内存3. 优化 Mave

Java String字符串的常用使用方法

《JavaString字符串的常用使用方法》String是JDK提供的一个类,是引用类型,并不是基本的数据类型,String用于字符串操作,在之前学习c语言的时候,对于一些字符串,会初始化字符数组表... 目录一、什么是String二、如何定义一个String1. 用双引号定义2. 通过构造函数定义三、St

springboot filter实现请求响应全链路拦截

《springbootfilter实现请求响应全链路拦截》这篇文章主要为大家详细介绍了SpringBoot如何结合Filter同时拦截请求和响应,从而实现​​日志采集自动化,感兴趣的小伙伴可以跟随小... 目录一、为什么你需要这个过滤器?​​​二、核心实现:一个Filter搞定双向数据流​​​​三、完整代码

SpringBoot利用@Validated注解优雅实现参数校验

《SpringBoot利用@Validated注解优雅实现参数校验》在开发Web应用时,用户输入的合法性校验是保障系统稳定性的基础,​SpringBoot的@Validated注解提供了一种更优雅的解... 目录​一、为什么需要参数校验二、Validated 的核心用法​1. 基础校验2. php分组校验3

Pydantic中Optional 和Union类型的使用

《Pydantic中Optional和Union类型的使用》本文主要介绍了Pydantic中Optional和Union类型的使用,这两者在处理可选字段和多类型字段时尤为重要,文中通过示例代码介绍的... 目录简介Optional 类型Union 类型Optional 和 Union 的组合总结简介Pyd

Java Predicate接口定义详解

《JavaPredicate接口定义详解》Predicate是Java中的一个函数式接口,它代表一个判断逻辑,接收一个输入参数,返回一个布尔值,:本文主要介绍JavaPredicate接口的定义... 目录Java Predicate接口Java lamda表达式 Predicate<T>、BiFuncti

Vue3使用router,params传参为空问题

《Vue3使用router,params传参为空问题》:本文主要介绍Vue3使用router,params传参为空问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录vue3使用China编程router,params传参为空1.使用query方式传参2.使用 Histo

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

使用Python自建轻量级的HTTP调试工具

《使用Python自建轻量级的HTTP调试工具》这篇文章主要为大家详细介绍了如何使用Python自建一个轻量级的HTTP调试工具,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录一、为什么需要自建工具二、核心功能设计三、技术选型四、分步实现五、进阶优化技巧六、使用示例七、性能对比八、扩展方向建

Spring Security方法级安全控制@PreAuthorize注解的灵活运用小结

《SpringSecurity方法级安全控制@PreAuthorize注解的灵活运用小结》本文将带着大家讲解@PreAuthorize注解的核心原理、SpEL表达式机制,并通过的示例代码演示如... 目录1. 前言2. @PreAuthorize 注解简介3. @PreAuthorize 核心原理解析拦截与