了解Jsoup并解析51CTO博客主页中的友情链接

2023-10-08 18:50

本文主要是介绍了解Jsoup并解析51CTO博客主页中的友情链接,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Jsoup参见百度http://baike.baidu.com/view/4066913.htm

  官方网站:http://jsoup.org/

Jsoup解析HTML文件基本步骤:

  1.    获取Connection对象

  2.    通过Connection获取文档Document对象

  3.    根据需要解析文档

17092613_r86U.gif例子1:

import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class Demo1 {private static final String URL = "http://aiilive.blog.51cto.com/";public static void main(String[] args) throws IOException {/*** 通过URL获取连接*/Connection conn = Jsoup.connect(URL);/*** 通过连接获取文档对象*/Document doc = conn.get();/*** 获取所有的超链接*/Elements elements=doc.getElementsByTag("ul");for(int i=0, j=elements.size();i<j;i++){System.out.println(elements.get(i).html());}}
}

17092613_r86U.gif例子2:来自org.jsoup.examples.ListLink.java

package org.jsoup.examples;
import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/*** Example program to list links from a URL.*/
public class ListLinks {public static void main(String[] args) throws IOException {Validate.isTrue(args.length == 1, "usage: supply url to fetch");String url = args[0];print("Fetching %s...", url);Document doc = Jsoup.connect(url).get();Elements links = doc.select("a[href]");Elements media = doc.select("[src]");Elements imports = doc.select("link[href]");print("\nMedia: (%d)", media.size());for (Element src : media) {if (src.tagName().equals("img"))print(" * %s: <%s> %sx%s (%s)",src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),trim(src.attr("alt"), 20));elseprint(" * %s: <%s>", src.tagName(), src.attr("abs:src"));}print("\nImports: (%d)", imports.size());for (Element link : imports) {print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));}print("\nLinks: (%d)", links.size());for (Element link : links) {print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));}}private static void print(String msg, Object... args) {System.out.println(String.format(msg, args));}private static String trim(String s, int width) {if (s.length() > width)return s.substring(0, width-1) + ".";elsereturn s;}
}

   在解析51CTO博客中的友情链接的想法:

  1. 选择一个博客主页地址,如:http://aiilive.blog.51cto.com

  2. 通过<1>中的地址,获取到相对应的友情链接;

  3. 将友情链接作为<1>中的地址继续获取;

   解析的前提是对博客页面进行分析,下面是通过FireFox的程序员开发工具分析图:


17092613_3jmO.png

    友情链接在<div class="friendLink box">...</div>里面。

    Jsoup的优秀之处之一提供了类似CSS的选择器的方法,可以去特定标签进行选择过滤。

    友情链接的部分如下图:

17092613_Qvrz.png

做法一:

  1. 筛选出div class;

  2. 算选出属性class的值为fiendLink box

  3. 获取<a>...</a>的HTML代码

  4. 处理<3>字符串

    17092613_r86U.gif代码1:获取<li>中的HTML代码

    /*** 获取BlogMain中的超链接*/Element e = null;Elements elements = doc.select("div[class]");for (int i = 0; i < elements.size(); i++) {e = elements.get(i);if (e.attr("class").equals("friendLink box")) {break;}}printElements(e.children().tagName("li"));

    /*** 获取Elements中每一个Elment的HTML代码* @param es*/private static void printElements(Elements es) {for (int i = 0, j = es.size(); i < j; i++) {Element e = es.get(i);String str = e.html();getUrl(str);}}

    17092613_r86U.gif代码2:处理<3>中的字符串

    /*** <a href="http://21cnbao.blog.51cto.com" title="宋宝华的博客" target="_blank">宋宝华的博客</a>* @param str*/private static void getUrl(String str) {String[] strs = str.split("\"");for (String string : strs) {if (string.indexOf("http") != -1) {System.out.println(string);}}}

做法二:

做一个微小的改动:上述代码1中的printElements(Elements es){...}进行改动。

如下:

private static final String ATTRIBUTE_VALUE_ABS = "abs:href";
//方法改写
private static void getUrlExt(Elements es) {for (Element element : es) {String href = element.attr(ATTRIBUTE_VALUE_ABS);
//筛选51CTO博客if (filter51ctoBlog(href)) {linkSetTemp.add(href);}}}

filter51ctoBlog(href)做51CTO博客筛选,是保证URL个格式符和51CTO博客主页格式。

完整的深度可调节的博客友情链接遍历:

代码:

import java.io.IOException;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Demo4 {//遍历最小深度private static final int LEVEL_MIN = 1;//遍历最大深度private static final int LEVEL_MAX = 4;//程序入口URLprivate static final String IN_URL = "http://aiilive.blog.51cto.com/";//友情链接标记
//  private static final String TAGNAME = "li";//DIV CLASS筛选条件private static final String SELECT_DIV = "div[class]";private static final String ATTRIBUTE = "class";//友情链接CLASS的值private static final String ATTRIBUTE_VALUE = "friendLink box";//超链接筛选Queryprivate static final String ATTRIBUTE_VALUE_ABS = "abs:href";private static final String SELECT_TAG = "a[href]";//存放遍历的友情链接private static Set<String> linkSet = new HashSet<String>();private static Set<String> linkSetTemp = null;static {linkSet.add(IN_URL);}/*** 第一种:获取友情链接的URL** @param es*/@SuppressWarnings("unused")private static void getUrl(Elements es) {for (int i = 0, j = es.size(); i < j; i++) {Element e = es.get(i);String str = e.html();String[] strs = str.split("\"");for (String  strs ) {if (href.indexOf("http") != -1) {if (filter51ctoBlog(href)) {linkSetTemp.add(href);}}}}}/*** 过滤非51CTO博客主页的URL* @param str* @return*/private static boolean filter51ctoBlog(String str) {return str.endsWith("blog.51cto.com");}/*** 第二种:获取友情链接的URL** @param es*/private static void getUrlExt(Elements es) {for (Element element : es) {String href = element.attr(ATTRIBUTE_VALUE_ABS);if (filter51ctoBlog(href)) {linkSetTemp.add(href);}}}/*** 添加友情链接** @param url* @throws IOException*/private static void addFriendLink(String url) throws IOException {Document doc = Jsoup.connect(url).get();Element e = null;Elements elements = doc.select(SELECT_DIV);for (int i = 0; i < elements.size(); i++) {e = elements.get(i);if (e.attr(ATTRIBUTE).equals(ATTRIBUTE_VALUE)) {break;}}// 获取FRIEND_BOX的孩子结点,筛选出li标签// getUrl(e.children().tagName(TAGNAME));Elements es = e.children().select(SELECT_TAG);getUrlExt(es);}/*** 添加友情链接** @param set* @throws IOException*/private static void addFriendLink(Set<String> set) throws IOException {for (Iterator<String> iter = set.iterator(); iter.hasNext();) {addFriendLink(iter.next());}}/*** 打印集合信息** @param set*/private static void printSet(Set<String> set) {for (Iterator<String> iter = set.iterator(); iter.hasNext();) {System.out.println(iter.next());}}public static void main(String[] args) throws IOException {linkSet.add(IN_URL);for (int i = LEVEL_MIN; i <= LEVEL_MAX; i++) {linkSetTemp = new HashSet<String>();addFriendLink(linkSet);linkSet.addAll(linkSetTemp);linkSetTemp = null;}System.out.println(linkSet.size());printSet(linkSet);}
}

   解析HTML要对文件进行分析,找出共同特征。比如:不同博客的主页的排版方式不同,那么通过布局去解析会出问题,在获取HTML文件中某一部分的内容,应该从标签的Id,class入手。这次解遇到这样的问题,是因为博客布局的不同,所以要提取相同解决,特定处理不同。

本文出自 “野马红尘” 博客,谢绝转载!

转载于:https://my.oschina.net/aiilive/blog/507320

这篇关于了解Jsoup并解析51CTO博客主页中的友情链接的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/167310

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

在C#中合并和解析相对路径方式

《在C#中合并和解析相对路径方式》Path类提供了几个用于操作文件路径的静态方法,其中包括Combine方法和GetFullPath方法,Combine方法将两个路径合并在一起,但不会解析包含相对元素... 目录C#合并和解析相对路径System.IO.Path类幸运的是总结C#合并和解析相对路径对于 C

Java解析JSON的六种方案

《Java解析JSON的六种方案》这篇文章介绍了6种JSON解析方案,包括Jackson、Gson、FastJSON、JsonPath、、手动解析,分别阐述了它们的功能特点、代码示例、高级功能、优缺点... 目录前言1. 使用 Jackson:业界标配功能特点代码示例高级功能优缺点2. 使用 Gson:轻量

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

OWASP十大安全漏洞解析

OWASP(开放式Web应用程序安全项目)发布的“十大安全漏洞”列表是Web应用程序安全领域的权威指南,它总结了Web应用程序中最常见、最危险的安全隐患。以下是对OWASP十大安全漏洞的详细解析: 1. 注入漏洞(Injection) 描述:攻击者通过在应用程序的输入数据中插入恶意代码,从而控制应用程序的行为。常见的注入类型包括SQL注入、OS命令注入、LDAP注入等。 影响:可能导致数据泄

从状态管理到性能优化:全面解析 Android Compose

文章目录 引言一、Android Compose基本概念1.1 什么是Android Compose?1.2 Compose的优势1.3 如何在项目中使用Compose 二、Compose中的状态管理2.1 状态管理的重要性2.2 Compose中的状态和数据流2.3 使用State和MutableState处理状态2.4 通过ViewModel进行状态管理 三、Compose中的列表和滚动