VBA之正则表达式（24）-- 杂乱数据提取

本文主要是介绍VBA之正则表达式（24）-- 杂乱数据提取，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

实例需求：
待处理字符串：

西装，皮带，领带各10，西装20上衣30，西装40上衣50西装皮带领带各60，西装70上衣80，西装90上衣80，70西装60上衣，西装，皮带，领带各50，40西装，上衣、领带各30，西装皮带领带各20，皮带领带各10

处理规则：仅提取其中包含“xx各yy”的部分，如下图黄色部分所示。

在这里插入图片描述

大家肯定已经发现这个数据非常的不规范，分隔符即有逗号，也有顿号，需要提取的文字部分与前一段文字，有的是符号分隔，有的没有，这也增加了处理难度。

示例代码如下。

Sub Demo()Dim strWord As StringDim objRegExp As ObjectSet objRegExp = CreateObject("VBSCRIPT.REGEXP")strWord = Trim([A1])With objRegExp.Global = True.Pattern = "(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[，]*?)*((?:(?:西装|领带|皮带|上衣)[，、]?){2,}各\d+)".ignoreCase = TrueSet objMatch = .Execute(strWord)If objMatch.Count > 0 ThenFor Each objMH In objMatchDebug.Print objMH.submatches(0)NextEnd IfEnd WithSet objRegExp = Nothing
End Sub

运行代码结果如下。

西装，皮带，领带各10
西装皮带领带各60
西装，皮带，领带各50
上衣、领带各30
西装皮带领带各20
皮带领带各10

【代码解析】
第4行代码创建正则表达式对象。
第5行代码设置初始字符串变量。
第8行代码设置匹配模式。
第10行代码执行正则匹配。
如果匹配成功，第13~14行代码使用For…Next循环结构在立即窗口中输出匹配结果。

正则匹配模式比较长，分为两段来来讲解。
前半部分用于匹配无需提取的字符。

(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[，]*?)*

在这里插入图片描述

正则表达式	说明
`\d+(?:上衣\|西装\|领带\|皮带)`	匹配数字在前商品名称在后的字符
`(?:上衣\|西装\|领带\|皮带)\d+`	匹配商品名称在前数字在后的字符
`(?:\d+(?:上衣\|西装\|领带\|皮带)\|(?:上衣\|西装\|领带\|皮带)\d+)`	上述两种规则的字符串至少出现一次
`[，]*?`	尾随一个全角逗号，或者没有
`(?:(?:\d+(?:上衣\|西装\|领带\|皮带)\|(?:上衣\|西装\|领带\|皮带)\d+)[，]?)`	整个模式可以重复多次，也可以没有，即两段相邻字符均符合提取的模式

注意：此模式中多次使用非提取组?:，便于最后读取匹配结果。

后半部分用于匹配需要提取的字符。

((?:(?:西装|领带|皮带|上衣)[，、]?){2,}各\d+)*

在这里插入图片描述

正则表达式	说明
`(?:西装\|领带\|皮带\|上衣)`	匹配商品名称
`[，、]?`	匹配商品名称之间的分隔符号，可以出现多次，也可以没有
`(?:(?:西装\|领带\|皮带\|上衣)[，、]?){2,}`	上述规则至少出现两次
`各\d+`	匹配“各+数字”
`((?:(?:西装\|领带\|皮带\|上衣)[，、]?){2,}各\d+)`	整个模式为一个匹配组