本文主要是介绍HTMLParser Java HTML 解析框架,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
最近要做一个Java整站保存程序,在网上找了很多都不理想,只想自己做一个。本人对于正则表达相当弱,只能要网上找框架,所以找到HTMLParser,试用了一下,感觉还不错。
这里HTMLParser在SourceForge上的下载地址:
http://sourceforge.net/projects/htmlparser/files/
String htmlcode = sb.toString();
NodeFilter filter = new NodeClassFilter(LinkTag.class);
Parser parser = new Parser();
parser.setInputHTML(htmlcode);
NodeList list = parser.extractAllNodesThatMatch(filter);
for (int i = 0; i < list.size(); i++) {LinkTag node = (LinkTag) list.elementAt(i);System.out.println(node.getLink());
}
这是我想做的整站保存程序的一段代码,获取我得到的HTML代码的所有链接,这样我可以沿着这个链接爬下去。
这篇关于HTMLParser Java HTML 解析框架的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!