本文主要是介绍关于HtmlStreamTokenizer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
HtmlStreamTokenizer 是纯java写的html 解析器,把html处理成三种类型tags, comments, and text,类试于StreamTokenizer class,但HtmlStreamTokenizer 处理的是html stream数据流,可以用来处理html文件,下面是一个例子
import adc.parser.*;
//
HtmlStreamTokenizer tok = new HtmlStreamTokenizer(inputstream);
HtmlTag tag = new HtmlTag();
while (tok.nextToken() != HtmlStreamTokenizer.TT_EOF)
{
int ttype = tok.getTokenType();
if (ttype == HtmlStreamTokenizer.TT_TAG)
{
tok.parseTag(tok.getStringValue(), tag);
System.out.println("tag: " + tag.toString());
}
else if (ttype == HtmlStreamTokenizer.TT_TEXT)
{
System.out.println("text: " + tok.getStringValue());
}
else if (ttype == HtmlStreamTokenizer.TT_COMMENT)
{
System.out.println("comment: <!--" +
tok.getStringValue() + "-->");
}
}
下载地址
http://sourceforge.net/projects/htmltok/
这篇关于关于HtmlStreamTokenizer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!