本文主要是介绍VBA之正则表达式(24)-- 杂乱数据提取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
实例需求:
待处理字符串:
西装,皮带,领带各10,西装20上衣30,西装40上衣50西装皮带领带各60,西装70上衣80,西装90上衣80,70西装60上衣,西装,皮带,领带各50,40西装,上衣、领带各30,西装皮带领带各20,皮带领带各10
处理规则:仅提取其中包含“xx各yy”的部分,如下图黄色部分所示。
大家肯定已经发现这个数据非常的不规范,分隔符即有逗号,也有顿号,需要提取的文字部分与前一段文字,有的是符号分隔,有的没有,这也增加了处理难度。
示例代码如下。
Sub Demo()Dim strWord As StringDim objRegExp As ObjectSet objRegExp = CreateObject("VBSCRIPT.REGEXP")strWord = Trim([A1])With objRegExp.Global = True.Pattern = "(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[,]*?)*((?:(?:西装|领带|皮带|上衣)[,、]?){2,}各\d+)".ignoreCase = TrueSet objMatch = .Execute(strWord)If objMatch.Count > 0 ThenFor Each objMH In objMatchDebug.Print objMH.submatches(0)NextEnd IfEnd WithSet objRegExp = Nothing
End Sub
运行代码结果如下。
西装,皮带,领带各10
西装皮带领带各60
西装,皮带,领带各50
上衣、领带各30
西装皮带领带各20
皮带领带各10
【代码解析】
第4行代码创建正则表达式对象。
第5行代码设置初始字符串变量。
第8行代码设置匹配模式。
第10行代码执行正则匹配。
如果匹配成功,第13~14行代码使用For…Next循环结构在立即窗口中输出匹配结果。
正则匹配模式比较长,分为两段来来讲解。
前半部分用于匹配无需提取的字符。
(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[,]*?)*
正则表达式 | 说明 |
---|---|
\d+(?:上衣|西装|领带|皮带) | 匹配数字在前商品名称在后的字符 |
(?:上衣|西装|领带|皮带)\d+ | 匹配商品名称在前数字在后的字符 |
(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+) | 上述两种规则的字符串至少出现一次 |
[,]*? | 尾随一个全角逗号,或者没有 |
(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[,]*?)* | 整个模式可以重复多次,也可以没有,即两段相邻字符均符合提取的模式 |
注意:此模式中多次使用非提取组?:
,便于最后读取匹配结果。
后半部分用于匹配需要提取的字符。
((?:(?:西装|领带|皮带|上衣)[,、]?){2,}各\d+)*
正则表达式 | 说明 |
---|---|
(?:西装|领带|皮带|上衣) | 匹配商品名称 |
[,、]? | 匹配商品名称之间的分隔符号,可以出现多次,也可以没有 |
(?:(?:西装|领带|皮带|上衣)[,、]?){2,} | 上述规则至少出现两次 |
各\d+ | 匹配“各+数字” |
((?:(?:西装|领带|皮带|上衣)[,、]?){2,}各\d+) | 整个模式为一个匹配组 |
有的读者可能会有疑问,既然后半部分匹配要提取的字符,为什么还需要前半段去匹配其他字符呢?利用正则测试工具就可以发现,如果只使用后半部分,就会导致部分匹配组不正确(请参见上图中标记黄色的两个提取组)。
这篇关于VBA之正则表达式(24)-- 杂乱数据提取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!