HtmlAgilityPack中通过sibling才能得到对应的InnerText和form,option等tag的子节点

本文主要是介绍HtmlAgilityPack中通过sibling才能得到对应的InnerText和form,option等tag的子节点,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自:http://www.crifan.com/htmlagilitypack_html_tag_form_option_no_child_via_sibling_get_innertext/


最近在用HtmlAgilityPack解析HTML文件,用到的很奇怪的问题,这篇文章给了很详细解释和标准答案,收藏一下!



【背景】

之前使用HtmlAgilityPack期间,遇到了2个bug:

1. InnerText没有包含对应字符串(但是用NextSibling.InnerText却可以得到)

对于html:

?
1
<option value="search-alias=instant-video">Amazon Instant Video</option>

用如下的代码:

?
1
2
3
4
//<option value="search-alias=instant-video">Amazon Instant Video</option>
string searchValue = singleOptionNode.Attributes["value"].Value; //search-alias=instant-video
//instant-video
string generalCategory = singleOptionNode.InnerText; //CAN NOT get: Amazon Instant Video

是不工作的。

后来经过调试,改为:

?
1
2
3
4
//<option value="search-alias=instant-video">Amazon Instant Video</option>
string searchValue = singleOptionNode.Attributes["value"].Value; //search-alias=instant-video
//instant-video
string generalCategory = singleOptionNode.NextSibling.InnerText; //can get: Amazon Instant Video

却是可以的。

很是尼玛的诡异。

很明显是一个bug。

 

和:

2.丢失了form节点的input子节点

访问:

http://www.amazon.com/gp/offer-listing/B0083PWAPW/ref=dp_olp_all_mbc?ie=UTF8&condition=all

得到的html中,对应的部分是:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
<form method= "POST"  action= "/gp/item-dispatch/ref=olp_atc_fm_1"  >
     <input type= "hidden"  name= "session-id"  value= "182-0726239-4848949" >
     <input type= "hidden"  name= "qid"  value= "" >
     <input type= "hidden"  name= "sr"  value= "" >
     <input id= "signInToHUC"  type= "hidden"  value= "0"  name= "signInToHUC" >
     <input type= "hidden"  name= "metric-asin.B0083PWAPW"  value= "1" >
     <input type= "hidden"  name= "registryItemID.1"  value= "" >
     <input type= "hidden"  name= "registryID.1"  value= "" >
     <input type= "hidden"  name= "itemCount"  value= "1" >
     <input type= "hidden"  name= "offeringID.1" value= "%2F%2FeHHmpktM3oPoQj%2FOWhDI%2FpHyvwwFCwEfNIBEgFcfAHzKHAzVK%2BZfhkmBFO%2BPbow9JfdOmrE6eKME4ydhLTTK1Dgaf8O3N7SyOR%2F136TvVh0lfJypEt4Q%3D%3D" >
     <input type= "hidden"  name= "isAddon"  value= "0" >
     <input type= "image"  src= "http://g-ecx.images-amazon.com/images/G/01/x-locale/nav2/images/add-to-cart-md-p._V192250398_.gif"  align= "absmiddle" alt= "Add to cart"  border= "0"  height= "21"  name= "submit.addToCart"  width= "112" />
</form>

可以通过:

?
1
2
htmlDoc = crl.htmlToHtmlDoc(respHtml);
HtmlNodeCollection postItemNodeList = htmlDoc.DocumentNode.SelectNodes( "//form[starts-with(@action, '/gp/item-dispatch/ref=') and @method='POST']" );

搜索到form节点,但是结果其下,再去搜input节点:

?
1
HtmlNodeCollection inputTypeNodeList = postItemNode.SelectNodes( ".//input[@type='hidden' and @name and @value]" );

竟然得到的inputTypeNodeList是null:

inputTypeNodeList is null

即form下面,没有找到任何的child,即,所有的input节点,都丢失了!

再回去查看postItemNode,结果其下就是没有child的:

first child is null and no child

 

所以,应该是对应的HtmlAgilityPack的bug。

 

【折腾过程】

1. 后来看到:

No child nodes for FORM object

中提到了,说是:

In Html specification form tag can overlap, so Htmlagilitypack handle this node a little different.  
。。。

After adding this call all form elements are added as children.

然后就去看看,结果果然是从child变成了sibling了,而且此处还是很变态的,NextSibling的NextSibling才是我们要的input节点:

nextsibling then nextsibling can get input

所以,此处,看来只能是说动的,类似于上面那个问题一样的,写成NextSibling的NextSibling

不过,真是这样写的话,那也够变态的。。。。

2.然后也看到别人也遇到同样问题:

Problem parsing children of a node with HtmlAgilityPack

而且某人也是放弃了HtmlAgilityPack而转到了SGMLReader了。

不过,另外有人说,不是bug,而是可以配置的。

其相关的讨论见:

http://htmlagilitypack.codeplex.com/workitem/21782

再参考:

HtmlAgilityPack — Does <form> close itself for some reason?

去,在将html转为htmlDoc之前,添加:

?
1
HtmlNode.ElementsFlags.Remove( "form" );

变为:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
//http://www.crifan.com/htmlagilitypack_html_tag_form_option_no_child_via_sibling_get_innertext/
HtmlNode.ElementsFlags.Remove( "form" );
htmlDoc = crl.htmlToHtmlDoc(respHtml);
HtmlNodeCollection postItemNodeList = htmlDoc.DocumentNode.SelectNodes( "//form[starts-with(@action, '/gp/item-dispatch/ref=') and @method='POST']" );
if  (postItemNodeList ==  null )
{
     //something error
}
else
{
     foreach  (HtmlNode postItemNode  in  postItemNodeList)
     {
         //http://www.amazon.com/gp/item-dispatch/ref=olp_atc_used_1
         string  itemDispatchUrl = postItemNode.Attributes[ "action" ].Value;  ///gp/item-dispatch/ref=olp_atc_used_1
         itemDispatchUrl = constAmazonDomainUrl + itemDispatchUrl; //http://www.amazon.com/gp/item-dispatch/ref=olp_atc_used_1
         Dictionary< string string > postDict =  new  Dictionary< string string >();
         HtmlNodeCollection inputTypeNodeList = postItemNode.SelectNodes( ".//input[@type='hidden' and @name and @value]" );

然后得到的inputTypeNodeList,的确不是null了,也有了child了:

indeed has the input node as child for form

 

【总结】

之前还夸奖HtmlAgilityPack好用呢,结果还没用多久,就出现这么多的bug。看来真的没法继续使用了。

每次都要很小心,不知道啥时候就会出错,真郁闷。。。

即使不是bug,其本身把form下面的节点,都弄成其sibling这个策略,还是很变态的。至少让更多人的,都容易误解。


【后记】

后来的后来,经过参考别人的解释:

<option> have no child, why?

发现,

其实上述两个,所谓的bug,就是同一个问题:

对于HtmlAgilityPack,实际上,对于option,form等tag,其默认的处理的结果是:其下的子节点,会变成sibling

所以,上面的:

对于option需要通过NextSibling才能获得对应的InnerText;

对于form子节点为空,也是需要通过NextSibling(的NextSibling)才能获得对应的input子节点;

其本质都是:

HtmlAgilityPack是针对HTML 3.2的规范去实现的,而HTML 3.2就是这样规定的。

其不是bug,而是feature

但是很明显,是属于让人蛋疼的feature。

解决办法有两种:

1.改源码

把HtmlNode.cs中的下面这行注释掉:

?
1
ElementsFlags.Add( "form" , HtmlElementFlag.CanOverlap | HtmlElementFlag.Empty);

2.不改源码

在HtmlDocument类型的变量执行LoadHtml之前,加上:

?
1
HtmlNode.ElementsFlags.Remove( "tagName" );

即,对于我之前的crifanlib.cs中的:

?
1
2
3
4
5
6
7
8
public  HtmlAgilityPack.HtmlDocument htmlToHtmlDoc( string  html)
{
     HtmlAgilityPack.HtmlDocument htmlDoc =  new HtmlAgilityPack.HtmlDocument();
     htmlDoc.LoadHtml(html);
     return  htmlDoc;
}

换成:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
public  HtmlAgilityPack.HtmlDocument htmlToHtmlDoc( string  html)
{
     HtmlAgilityPack.HtmlDocument htmlDoc =  new  HtmlAgilityPack.HtmlDocument();
     //http://www.crifan.com/htmlagilitypack_html_tag_form_option_no_child_via_sibling_get_innertext/
     //make some html tag: form/option, has child
     HtmlNode.ElementsFlags.Remove( "form" );
     HtmlNode.ElementsFlags.Remove( "option" );
     htmlDoc.LoadHtml(html);
     return  htmlDoc;
}

即可。

如此,后续解析html得到的form,option等tag,其child就是我们所希望的内容了。


这篇关于HtmlAgilityPack中通过sibling才能得到对应的InnerText和form,option等tag的子节点的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/694191

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

【 html+css 绚丽Loading 】000046 三才归元阵

前言:哈喽,大家好,今天给大家分享html+css 绚丽Loading!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏+关注哦 💕 目录 📚一、效果📚二、信息💡1.简介:💡2.外观描述:💡3.使用方式:💡4.战斗方式:💡5.提升:💡6.传说: 📚三、源代码,上代码,可以直接复制使用🎥效果🗂️目录✍️

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

day-51 合并零之间的节点

思路 直接遍历链表即可,遇到val=0跳过,val非零则加在一起,最后返回即可 解题过程 返回链表可以有头结点,方便插入,返回head.next Code /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}*

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

【VUE】跨域问题的概念,以及解决方法。

目录 1.跨域概念 2.解决方法 2.1 配置网络请求代理 2.2 使用@CrossOrigin 注解 2.3 通过配置文件实现跨域 2.4 添加 CorsWebFilter 来解决跨域问题 1.跨域概念 跨域问题是由于浏览器实施了同源策略,该策略要求请求的域名、协议和端口必须与提供资源的服务相同。如果不相同,则需要服务器显式地允许这种跨域请求。一般在springbo

HTML提交表单给python

python 代码 from flask import Flask, request, render_template, redirect, url_forapp = Flask(__name__)@app.route('/')def form():# 渲染表单页面return render_template('./index.html')@app.route('/submit_form',

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟)

【每日一题】LeetCode 2181.合并零之间的节点(链表、模拟) 题目描述 给定一个链表,链表中的每个节点代表一个整数。链表中的整数由 0 分隔开,表示不同的区间。链表的开始和结束节点的值都为 0。任务是将每两个相邻的 0 之间的所有节点合并成一个节点,新节点的值为原区间内所有节点值的和。合并后,需要移除所有的 0,并返回修改后的链表头节点。 思路分析 初始化:创建一个虚拟头节点