C#中使用HtmlAgilityPack对html进行解析

本文主要是介绍C#中使用HtmlAgilityPack对html进行解析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

xpath一般使用在xml的解析上比较多，实际上html是xml的一个子集。在.Net中为了方便我们对html进行操作微软为我们提供了一个轻量级并且开源的类库HtmlAgilityPack（点击下载）。比如我们想截取网页上某一部分文字获取其他元素的时候我们一般都是使用正则表达式一步一步的来进行处理的，这个过程相当的繁琐特别是对正则表达式不熟悉的情况，通过HtmlAgilityPack这个过程就变得相当简单了。下面我们来看下HtmlAgilityPack的基本使用方法。

工具/原料

Google浏览器
HtmlAgilityPack开源Xpath解析库
VS2010+
一台电脑

方法/步骤

1

下载 HtmlAgilityPack 下载地址：http://www.studycsharp.com/thread-44-1-1.html HtmlAgilityPack基本支持.Net2-.Net4.5 也支持Sliverlight和Windows Phone，大家可以根据自己的需求来使用。
2

引用对应的DLL本文采用.Net4开发所以选择Net40文件夹中的库
3

打开谷歌浏览器吧鼠标放在你想要获取的元素上，点击鼠标右键->审查元素->Copy Xpath
4

编写代码：

/第一步声明HtmlAgilityPack.HtmlDocument实例

           HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

           //获取Html页面代码

           string html = HTMLHelper.Get_Http("http://www.studycsharp.com/");

           //第二步加载html文档

           doc.LoadHtml(html);

           //第三步通过Xpath选中html的指定元素这样子就获取到了[url=http://www.studycsharp.com]www.studycsharp.com[/url]的"常用工具类"的板块链接了

           HtmlAgilityPack.HtmlNode htmlnode = doc.DocumentNode.SelectSingleNode("//*[@id=\"category_63\"]/table/tr[2]/td[2]/dl/dt/a");

           //获取所有板块的a标签

           HtmlAgilityPack.HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//*[starts-with(@id,'category_')]/table/tr/td/dl/dt/a");

           StringBuilder sb = new StringBuilder();

           foreach (HtmlAgilityPack.HtmlNode item in collection)

           {

               sb.Append(string.Format("{0}:{1}\r\n", item.InnerText, item.Attributes["href"].Value));

           }

           this.textBox1.Text = sb.ToString();
5

代码运行效果

END