C#中使用HtmlAgilityPack对html进行解析

2024-06-16 20:58

本文主要是介绍C#中使用HtmlAgilityPack对html进行解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

xpath一般使用在xml的解析上比较多,实际上html是xml的一个子集。在.Net中为了方便我们对html进行操作微软为我们提供了一个轻量级并且开源的类库HtmlAgilityPack(点击下载)。比如我们想截取网页上某一部分文字获取其他元素的时候我们一般都是使用正则表达式一步一步的来进行处理的,这个过程相当的繁琐特别是对正则表达式不熟悉的情况,通过HtmlAgilityPack这个过程就变得相当简单了。下面我们来看下HtmlAgilityPack的基本使用方法。

工具/原料

  • Google浏览器
  • HtmlAgilityPack开源Xpath解析库
  • VS2010+
  • 一台电脑

方法/步骤

  1. 1

    下载 HtmlAgilityPack 下载地址:http://www.studycsharp.com/thread-44-1-1.html HtmlAgilityPack基本支持.Net2-.Net4.5 也支持Sliverlight和Windows Phone,大家可以根据自己的需求来使用。

  2. 2

    引用对应的DLL本文采用.Net4开发所以选择Net40文件夹中的库

    C#中使用HtmlAgilityPack对html进行解析
    C#中使用HtmlAgilityPack对html进行解析
  3. 3

    打开谷歌浏览器吧鼠标放在你想要获取的元素上,点击鼠标右键->审查元素->Copy Xpath

    C#中使用HtmlAgilityPack对html进行解析
  4. 4

    编写代码:

    /第一步声明HtmlAgilityPack.HtmlDocument实例

               HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

               //获取Html页面代码

               string html = HTMLHelper.Get_Http("http://www.studycsharp.com/");

               //第二步加载html文档

               doc.LoadHtml(html);

               //第三步通过Xpath选中html的指定元素  这样子就获取到了[url=http://www.studycsharp.com]www.studycsharp.com[/url]的"常用工具类"的板块链接了

               HtmlAgilityPack.HtmlNode htmlnode = doc.DocumentNode.SelectSingleNode("//*[@id=\"category_63\"]/table/tr[2]/td[2]/dl/dt/a");

               //获取所有板块的a标签

               HtmlAgilityPack.HtmlNodeCollection collection = doc.DocumentNode.SelectNodes("//*[starts-with(@id,'category_')]/table/tr/td/dl/dt/a");

     

               StringBuilder sb = new StringBuilder();

               foreach (HtmlAgilityPack.HtmlNode item in collection)

               {

                   sb.Append(string.Format("{0}:{1}\r\n", item.InnerText, item.Attributes["href"].Value));

               }

               this.textBox1.Text = sb.ToString();

  5. 5

    代码运行效果

    C#中使用HtmlAgilityPack对html进行解析
    END

注意事项

  • HTMLHelper.Get_Http("http://www.studycsharp.com/"); 这段函数是获取远程的Html页面
  • 上面的例子的网站是http://www.studycsharp.com

这篇关于C#中使用HtmlAgilityPack对html进行解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1067535

相关文章

Spring Boot循环依赖原理、解决方案与最佳实践(全解析)

《SpringBoot循环依赖原理、解决方案与最佳实践(全解析)》循环依赖指两个或多个Bean相互直接或间接引用,形成闭环依赖关系,:本文主要介绍SpringBoot循环依赖原理、解决方案与最... 目录一、循环依赖的本质与危害1.1 什么是循环依赖?1.2 核心危害二、Spring的三级缓存机制2.1 三

C#中async await异步关键字用法和异步的底层原理全解析

《C#中asyncawait异步关键字用法和异步的底层原理全解析》:本文主要介绍C#中asyncawait异步关键字用法和异步的底层原理全解析,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录C#异步编程一、异步编程基础二、异步方法的工作原理三、代码示例四、编译后的底层实现五、总结C#异步编程

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

JS+HTML实现在线图片水印添加工具

《JS+HTML实现在线图片水印添加工具》在社交媒体和内容创作日益频繁的今天,如何保护原创内容、展示品牌身份成了一个不得不面对的问题,本文将实现一个完全基于HTML+CSS构建的现代化图片水印在线工具... 目录概述功能亮点使用方法技术解析延伸思考运行效果项目源码下载总结概述在社交媒体和内容创作日益频繁的

前端CSS Grid 布局示例详解

《前端CSSGrid布局示例详解》CSSGrid是一种二维布局系统,可以同时控制行和列,相比Flex(一维布局),更适合用在整体页面布局或复杂模块结构中,:本文主要介绍前端CSSGri... 目录css Grid 布局详解(通俗易懂版)一、概述二、基础概念三、创建 Grid 容器四、定义网格行和列五、设置行

C#TextBox设置提示文本方式(SetHintText)

《C#TextBox设置提示文本方式(SetHintText)》:本文主要介绍C#TextBox设置提示文本方式(SetHintText),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录C#TextBox设置提示文本效果展示核心代码总结C#TextBox设置提示文本效果展示核心代

shell编程之函数与数组的使用详解

《shell编程之函数与数组的使用详解》:本文主要介绍shell编程之函数与数组的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录shell函数函数的用法俩个数求和系统资源监控并报警函数函数变量的作用范围函数的参数递归函数shell数组获取数组的长度读取某下的

使用Python开发一个带EPUB转换功能的Markdown编辑器

《使用Python开发一个带EPUB转换功能的Markdown编辑器》Markdown因其简单易用和强大的格式支持,成为了写作者、开发者及内容创作者的首选格式,本文将通过Python开发一个Markd... 目录应用概览代码结构与核心组件1. 初始化与布局 (__init__)2. 工具栏 (setup_t

C#中DrawCurve的用法小结

《C#中DrawCurve的用法小结》本文主要介绍了C#中DrawCurve的用法小结,通常用于绘制一条平滑的曲线通过一系列给定的点,具有一定的参考价值,感兴趣的可以了解一下... 目录1. 如何使用 DrawCurve 方法(不带弯曲程度)2. 如何使用 DrawCurve 方法(带弯曲程度)3.使用Dr

Python虚拟环境终极(含PyCharm的使用教程)

《Python虚拟环境终极(含PyCharm的使用教程)》:本文主要介绍Python虚拟环境终极(含PyCharm的使用教程),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录一、为什么需要虚拟环境?二、虚拟环境创建方式对比三、命令行创建虚拟环境(venv)3.1 基础命令3