js网页内容抓取分析

本文主要是介绍js网页内容抓取分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

jsoup网页内容抓取分析(2)

博客分类：
java爬虫搜索

jsoup java搜索爬虫 java数据抓取

针对上一篇写的内容很简单，只是给大家抛出了有一个工具可以用来分析网页的内容，做java搜索爬虫使用，实际的使用并没有怎么介绍，现在这篇文章就来介绍一下用法，可能分析的不是很全面，欢迎批评。经过我的测试使用，jsoup分析网页结构和内容的功能远远强大于HtmlParser,无论是获取整个页面的文本，还是分析特定内容的网页结构，都是十分的方便。

附上链接：jsoup官网：http://jsoup.org/ ，中文jsoup：http://www.open-open.com/jsoup/

下面写些我的使用记录，希望大家如果能从我的方法中得到启发，鉴于本人从事开发工作不久，内容可能写的不是很好。

jsoup数据获取有两大方法：1.通过分析dom模型的网页标签和元素，2.select元素选择器，类似jquery方式（功能很强大，还支持正则表达式）。网页tag标签有body，div，table，tr，td，a，等等。元素的属性有，href，title，width，height，color等等，元素属性的值就是，例如：href=“www.baidu.com”, 值就是www.baidu.com 。width=“98%” 值就是98%

下面就以分析http://www.iteye.com首页的每日资讯为例，抓取每日资讯的标题和url地址，详细写出分析步骤：

1.用chrome浏览器的元素审查，分析页面的结构，得到每日资讯是div class=<main_left>层里面

2.写程序分析，首先根据url获取div文本，再来根据文本对内容进行分析

Java代码    
 /** 
  * 根据jsoup方法获取htmlContent 
         * 加入简单的时间记录 
  * @throws IOException  
  */  
 public static String getContentByJsoup(String url){  
     String content="";  
     try {  
         System.out.println("time=====start");  
         Date startdate=new Date();  
         Document doc=Jsoup.connect(url)  
         .data("jquery", "java")  
         .userAgent("Mozilla")  
         .cookie("auth", "token")  
         .timeout(50000)  
         .get();  
         Date enddate=new Date();  
         Long time=enddate.getTime()-startdate.getTime();  
         System.out.println("使用Jsoup耗时=="+time);  
         System.out.println("time=====end");  
         content=doc.toString();//获取iteye网站的源码html内容  
         System.out.println(doc.title());//获取iteye网站的标题  
     } catch (IOException e) {  
         e.printStackTrace();  
     }  
     System.out.println(content);   
     return content;  
 }  

3. 根据整个每日资讯所在的div层，获取那段内容（精确获取）

Java代码    
        /** 
  * 使用jsoup来对文档分析 
         * 获取目标内容所在的目标层 
         * 这个目标层可以是div，table，tr等等 
  */  
 public static String getDivContentByJsoup(String content){  
     String divContent="";  
     Document doc=Jsoup.parse(content);  
     Elements divs=doc.getElementsByClass("main_left");  
     divContent=divs.toString();  
       //System.out.println("div==="+divContent);  
     return divContent;  
 }  

4.根据获取的目标层得到你所要的内容（title，url地址...等等）

Java代码    
 /** 
      * 使用jsoup分析divContent 
      * 1.获取链接 2.获取url地址（绝对路径） 
      */  
     public static void getLinksByJsoup(String divContent){  
         String abs="http://www.iteye.com/";  
         Document doc=Jsoup.parse(divContent,abs);  
         Elements linkStrs=doc.getElementsByTag("li");  
         System.out.println("链接==="+linkStrs.size());  
         for(Element linkStr:linkStrs){  
             String url=linkStr.getElementsByTag("a").attr("abs:href");  
             String title=linkStr.getElementsByTag("a").text();  
             System.out.println("标题:"+title+" url:"+url);  
         }  
     }  

5.加入main方法里面执行测试

Java代码    
 /** 
      * @method 测试获取内容程序 
      */  
     public static void main(String[] args) throws IOException {  
           
         /** 
          * 执行分析程序 
          */  
         String url="http://www.iteye.com/";  
         String HtmlContent=getContentByJsoup(url);  
         String divContent=getDivContentByJsoup(HtmlContent);  
         getLinksByJsoup(divContent);  
     }