java正则替换excel公式_给你的Excel增加正则处理函数,简直如虎添翼

本文主要是介绍java正则替换excel公式_给你的Excel增加正则处理函数,简直如虎添翼,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

给你的Excel增加正则处理函数,简直如虎添翼

小小明 凹凸数据

0e35e1cb5b2502bb7169ec07a724ffff.png

小小明,「凹凸数据」专栏作者,Pandas数据处理专家,致力于帮助无数数据从业者解决数据处理难题。

凹凸们,大家好

我们都知道Pandas里支持正则替换比较舒服,但是Excel却没有一个可以支持正则的函数!!!

不过我发现借助VBA就可以在Excel实现正则的抽取、搜索和替换,简直如虎添翼有没有~今天我要给大家分享一个我自己用VBA编写的神器,让你的Excel能够直接支持正则。看完全文,如果有收获,别忘了点赞支持一下

先看看效果吧:

正则抽取效果

对于一列数据:

中楼层(共9层)|2007年建|1室1厅|24.78平米|北

地下室|2014年建|1室0厅|39.52平米|东

底层(共2层)5室3厅|326.56平米|东南西北

我们想提取出其中的 层、楼层数、建筑年份、户型、大小和方向,我们可以选中一排的六个单元格,然后输入公式:

=re_extract(A1,"([^|(]+)(?:\(共(\d+)层\))?(?:\|(\d{4})年建\|)?(\d室\d厅)\|([\d.]+)平米\|([东南西北]+)")

然后按下Ctrl+shift+Enter(表示数组公式),即可得到如下结果:

中楼层 9 2007 1室1厅 24.78 北

地下室 0 2014 1室0厅 39.52 东

底层 2 0 5室3厅 326.56 东南西北

效果如下:

a71ddb46ba1c083ba69341b08f63be59.png

?:表示当前括号内部是非捕获组。

再看一个简单的例子,对于一列数据:

小五87

张三丰98

东方不败76

杨过88

我们想将姓名和成绩分开,可以选中一排的二个单元格,然后输入公式:

=re_extract(A1,"(.+?)(\d+)")

然后按下Ctrl+shift+Enter(表示数组公式),即可得到如下结果。

效果:

8cbe6dd35bb872cde56b41cf0fbd3a4e.png

正则搜索效果

对于一列数据:

联想/LENOVO

狮乐/SHILE

Midea/美的

联想/LENOVO

松下/Panasonic

红叶/RedLeaf

纳米亚

富士施乐/FujiXerox

佳印

佳能/CANON

TCL

我们想提取其中的中文品牌,对于没有中文的才用英文,可以输入公式:

=re_find(A1,"[\u4e00-\u9fa5]+|^\w+$")

最终结果:

07e07bc865c801b7d8f1e7b21ec4194b.png

当然正则搜索也支持数组公式,再看一个例子,对于下面一列数据:

ENBCUCPFunction=280419,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279719,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280196,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280198,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280219,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279519,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279619,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280019,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279819,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280319,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280191,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280194,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=460-01_280192,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280197,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280199,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279419,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=18

我们需要取出所有

的ENBCUCPFunction/CULTE/RATFreq/EutranFreqLTE四个字段对应的值,可以选中一排的四个单元格,然后输入公式:

=re_find(A1,"[-_\d]+")

即可得到结果:

280419 1 1 18

279719 1 1 18

280196 1 1 18

280198 1 1 18

280219 1 1 18

280228 1 1 18

280242 1 1 18

279519 1 1 18

279619 1 1 18

279633 1 1 18

280032 1 1 18

280382 1 1 18

279731 1 1 18

280019 1 1 18

279819 1 1 18

280319 1 1 18

280191 1 1 18

280194 1 1 18

460-01_280192 1 1 18

280197 1 1 18

280199 1 1 18

279419 1 1 18

279488 1 1 18

效果:

ec32a7f724d60d19404117273a220989.png

正则替换效果

对于下面这列数据,我们希望仅保留EutranFreqLTE对应的值,多个值用;拼接:

ENBCUCPFunction=280419,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279719,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280196,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280198,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280219,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280228,CULTE=1,RATFreq=1,EutranFreqLTE=19

ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280242,CULTE=1,RATFreq=1,EutranFreqLTE=19

ENBCUCPFunction=279519,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279619,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279633,CULTE=1,RATFreq=1,EutranFreqLTE=19

ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280032,CULTE=1,RATFreq=1,EutranFreqLTE=19

ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=280382,CULTE=1,RATFreq=1,EutranFreqLTE=19

ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279731,CULTE=1,RATFreq=1,EutranFreqLTE=19

ENBCUCPFunction=280019,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279819,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280319,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280191,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280194,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=460-01_280192,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280197,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=280199,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279419,CULTE=1,RATFreq=1,EutranFreqLTE=18

ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=18;ENBCUCPFunction=279488,CULTE=1,RATFreq=1,EutranFreqLTE=19

可以输入公式:

=re_sub(A1,".+?(\d+)(;|$)", "$1$2")

得到结果:

18

18

18

18

18

18;19

18;19

18

18

18;19

18;19

18;19

18;19

18

18

18

18

18

18

18

18

18

18;19

效果:

b2726bb76a878c1a130725285951d015.png

再举个例子,对于下面这列数据,想去掉所有的非中文字符和被括号括起来的字符:

中山-Z-古镇华艺集团路口-280308-1-2-OF

中山-ZD-古镇华艺集团路口-280308-2-1-OF

中山-Z-古镇华艺集团路口-280308-2-2-OF

中山-ZD-横栏富横东路-280227-1-1-OF

中山-Z-横栏富横东路-280227-1-2-OF

中山-ZD-横栏富横东路-280227-2-1-OF

中山-Z-横栏富横东路-280227-2-2-OF

中山-ZD-横栏富横东路-280227-3-1-OF

中山-Z-横栏富横东路-280227-3-2-OF

中山-Z-三角电信营业厅(室分QCELL)-278903-1-1-MF

中山-Z-三角高平营业厅(室分QCELL)-278902-1-1-MF

中山-ZD-横栏中艺重工-280009-1-1-OF

中山-ZD-横栏中艺重工-280009-2-1-OF

中山-ZD-横栏中艺重工-280009-3-1-OF

中山-Z-横栏三沙商富路-279966-1-2-OF

中山-ZD-横栏三沙商富路-279966-1-1-OF

中山-ZD-横栏新丰物流-279974-1-1-OF

黄圃奥杰斯电器LTGX_3_F

输入一下公式:

=re_sub(A1,"[A-Z0-9_\-]+|\(.*\)", "")

即可得到:

中山古镇华艺集团路口

中山古镇华艺集团路口

中山古镇华艺集团路口

中山横栏富横东路

中山横栏富横东路

中山横栏富横东路

中山横栏富横东路

中山横栏富横东路

中山横栏富横东路

中山三角电信营业厅

中山三角高平营业厅

中山横栏中艺重工

中山横栏中艺重工

中山横栏中艺重工

中山横栏三沙商富路

中山横栏三沙商富路

中山横栏新丰物流

黄圃奥杰斯电器

效果:

7e67732680b3a0672bcded11b0523be8.png

用VBA实现上面三个函数并让其自动加载

好了,演示完效果,我们现在来看看如何开发这三个函数吧。

首先打开excel软件,点击开发工具->Visual Basic(或者直接按快捷键Alt+F11),打开VBA的编辑器:

c419e043685367f5404a230c559121a1.png

右键单击当前工作薄对象插入模块:

7d48d77c0526cf0b6acd1e508673689c.png

在模块中插入以下代码:

Option Explicit

Public Function re_sub(sText As String, pattern As String, repl As String)

Dim oRegExp As Object

Set oRegExp = CreateObject("vbscript.regexp")

With oRegExp

.Global = True 'True表示匹配所有, False表示仅匹配第一个符合项

.IgnoreCase = False '区分大小写

.pattern = pattern

re_sub = .Replace(sText, repl)

End With

End Function

Public Function re_find(sText As String, pattern As String)

Dim oRegExp As Object, match As Object, matches As Object

Set oRegExp = CreateObject("vbscript.regexp")

With oRegExp

.Global = True 'True表示匹配所有, False表示仅匹配第一个符合项

.IgnoreCase = True '不区分大小写

.pattern = pattern

Set matches = .Execute(sText)

End With

Dim d As Object

Set d = CreateObject("Scripting.Dictionary")

For Each match In matches

d.Add match, Null

Next

re_find = d.keys

End Function

Public Function re_extract(sText As String, pattern As String)

Dim oRegExp As Object, match As Object, matches As Object, i As Integer

Set oRegExp = CreateObject("vbscript.regexp")

With oRegExp

.Global = True 'True表示匹配所有, False表示仅匹配第一个符合项

.IgnoreCase = True '不区分大小写

.pattern = pattern

Set matches = .Execute(sText)(0).submatches

End With

Dim d As Object

Set d = CreateObject("Scripting.Dictionary")

For i = 0 To matches.Count - 1

d.Add matches(i), Null

Next

re_extract = d.keys

End Function

e16b77a2b148db3665626c8b19b2c979.png

然后按下Ctrl+S保存:

634ce243e8034f3e991c30f7dfef29d5.png

保存在个人宏工作簿:

C:\Users\{userName}\AppData\Roaming\Microsoft\Excel\XLSTART\

对于家庭和学生版2016,个人宏工作簿在:

C:\Users\{userName}\AppData\Local\Packages\Microsoft.Office.Desktop_8wekyb3d8bbwe\LocalCache\Roaming\Microsoft\Excel\XLSTART

{userName}表示你当前的用户名。

格式为xlam,文件名无所谓。

db40c4671ddd9d00bf9ce07b25a7a137.png

然后在这个电脑的任何时候,任何地方打开excel软件都可以直接使用上面开发好的正则处理函数了!

正则高级语法相关资料

非捕获组

功能:让某个圆括号只用于分组,而不捕获其中的内容。

方法:将(内容)改为(?:内容)

09b3ff43be86ceffb58e11bb3d0ff953.png

940ebeeca65b09ac1e519f122720de4b.png

环视

(?=abc)是正则中表示位置的语法,用于表示一个位置,表示当前位置的右边必须是abc字符而不会匹配abc本身。

a5d577e0d20e0a425116e2a4664f1538.png

获取捕获组

b33d58714cf30ca9a6bf2c19330d12db.png

完结,撒花!

干货分享,求个三连~

这篇关于java正则替换excel公式_给你的Excel增加正则处理函数,简直如虎添翼的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/294111

相关文章

Spring Boot @RestControllerAdvice全局异常处理最佳实践

《SpringBoot@RestControllerAdvice全局异常处理最佳实践》本文详解SpringBoot中通过@RestControllerAdvice实现全局异常处理,强调代码复用、统... 目录前言一、为什么要使用全局异常处理?二、核心注解解析1. @RestControllerAdvice2

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

Spring事务传播机制最佳实践

《Spring事务传播机制最佳实践》Spring的事务传播机制为我们提供了优雅的解决方案,本文将带您深入理解这一机制,掌握不同场景下的最佳实践,感兴趣的朋友一起看看吧... 目录1. 什么是事务传播行为2. Spring支持的七种事务传播行为2.1 REQUIRED(默认)2.2 SUPPORTS2

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

java中新生代和老生代的关系说明

《java中新生代和老生代的关系说明》:本文主要介绍java中新生代和老生代的关系说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、内存区域划分新生代老年代二、对象生命周期与晋升流程三、新生代与老年代的协作机制1. 跨代引用处理2. 动态年龄判定3. 空间分

Java设计模式---迭代器模式(Iterator)解读

《Java设计模式---迭代器模式(Iterator)解读》:本文主要介绍Java设计模式---迭代器模式(Iterator),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录1、迭代器(Iterator)1.1、结构1.2、常用方法1.3、本质1、解耦集合与遍历逻辑2、统一

Java内存分配与JVM参数详解(推荐)

《Java内存分配与JVM参数详解(推荐)》本文详解JVM内存结构与参数调整,涵盖堆分代、元空间、GC选择及优化策略,帮助开发者提升性能、避免内存泄漏,本文给大家介绍Java内存分配与JVM参数详解,... 目录引言JVM内存结构JVM参数概述堆内存分配年轻代与老年代调整堆内存大小调整年轻代与老年代比例元空

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

Java 线程安全与 volatile与单例模式问题及解决方案

《Java线程安全与volatile与单例模式问题及解决方案》文章主要讲解线程安全问题的五个成因(调度随机、变量修改、非原子操作、内存可见性、指令重排序)及解决方案,强调使用volatile关键字... 目录什么是线程安全线程安全问题的产生与解决方案线程的调度是随机的多个线程对同一个变量进行修改线程的修改操