正则表达式之旅_sed_awk

2024-06-15 07:18
文章标签 sed awk 正则表达式 之旅

本文主要是介绍正则表达式之旅_sed_awk,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

谈谈正则表达式这个东西:

我想作为一个程序员,正则表达式大家绝对不陌生。

正则表达式好像一个有限则动机。主要作用是匹配,但是同时因为这个功能,我们可以扩展很多其他用法

像很多语言都引人了正则表达式:java,C#等面向对象语言,更多的是脚本语言。

另外我们常用的一些工具都引入了这个正则表达式:sed,awk,gawk,grep

包括我们的C语言,它这种引入了一部分基础的正则表达式,我们一会会见到:

正则表达式是用正则表达式引擎实现的。正则表达式引擎是解释正则表达式模式并使用这些模式进行文字或者命令匹配的底层软件

学过编译原理的都知道DFA,和NFA的概念,这是我们编译过程中语法匹配的两大模式。他们的原理和正则表达式一样。

正则表达式就是根据这样分类:我们之关注Linux

在Linux,有两种流行的正则表达式引擎:

POSIX基本正则表达式引擎(BRE)

POSIX扩展正则表达式引擎(ERE)

大多数Linux工具都至少符合BRE

下面先看一下BRE基本成分,然后看看它在不同方面的不同应用

BRE主要有一些特殊字符组成:这些特殊字符有: .*[]^${}\+?|(),下面我们一一学习:但是有一点特殊:不能直接使用单斜线(/)要用反义字符表示包括除法符号(/)

1,锚字符

行首锁定:^  定义从数据流中文本行的行首开始的模式。只能是行首

行尾锁定:$定义了行尾锚点

两种可以匹配 使用 达到特殊的用处

2,点字符

.  用来匹配除了换行符以外的任意单字符

3,字符数组

[] 可以在此数组中定义你想匹配的任意字符也可以前后配合使用用于交叉匹配

4,排除字符组

[^] 就是字符数组的反义词,匹配的时候不匹配数组中的字符

5,区间:

[]可以用次符号表示区间 [0-9]     [a-z]等等进行匹配

6,特殊字符数组:这些定义好的可以使用

[[:alpha:]]   匹配任意字母字符,不区分大小写(都包括)

[[:alnum:]]  匹配任意字母数字字符0-9,A-Z  , a-z

[[:blank:]]   匹配空格或者制表符

[[:digit:]]     匹配0-9数字

[[:lower:]]   匹配小写字母

[[:print:]]     匹配可打印字符

[[:punct:]]   匹配标点符号

[[:space:]]  匹配任意空白:空格,制表符,NL,NF,VT,和CR

[[:upper:]]   匹配任意大写字母

7,星号:

在匹配文本后面表示出现0次或多次:

ERE包括一些特殊的扩展用法,awk工具能识别但是sed工具不能

1,问号

文本后面加上?,表示匹配0次或者1次

2,加号

匹配文本后加上+,表示至少匹配一次

3,化括号

(m,n)至少出现m此,最多出现n次

4,管道符号

类似or符号,任意匹配就可以

5,聚合表达式

(),用该符号表示,相当于一个准字符

 

 

下面我们来做实验,介绍正则表达式常用的地方及场景

1,sed工具

sed的全程为stream editor,俗称流编辑器。和传说中的交互式文本编辑器正好相反

语法:

sed options script file

 -e script  在处理输入时,将script中指定的命令添加到运行的命令中

 -f file      在处理输入时,将file中指定的命令添加到运行的命令中

 -n           不要为每个命令生成输出,等待print命令来输出,起到过滤的意思

下面一一道来:

e1:

 

我们从这三个例子中可以看出,sed -n选项的过滤作用,可以看到sed的流处理是怎么实现的。其中s是sed流处理过程中替换的标识,后面还有很多eg:d删除,p打印等等见到再说

///一共是三个,前面两个中间是被替换的文本,后面两个中间是要替换的文本

要在sed命令行上执行多条指令,则加上-e选项就可以了,相当于前面的插入命令,中间加上“;”号,其他不正确的写法看下图

e2:

 

上面介绍了几种常见的正确和错误写法,其中最后一种主要是根据’号的作用,很类似python语言中的长句子(...        ...)

 

而且还有一种现象,我们的匹配是完全的,只要有匹配的就替换,下面的从文本中读取编辑命令可以看出:

e3:

结果出来了,仔细看的就会发现。所谓完全匹配还是有一定的差别。有一个限制条件是:每行之替换一个!!!

如果我们想让它们都替换怎么办,简单,加上全集控制符就可以了/g,看它是怎么只手回天的

e4:

 

怎么样,控制性很高吧

 

sed的匹配模式语法:

s/pattern/replacement/flags

有四种可以替换标记:

>数字,标识将替换第几处匹配的地方

>g , 标识全局替换,只要出现就替换

>p  ,标识原来行的内容打印出来

>w file ,将替换的结果写的文件file中

数字:

e5:

g和p:

e6:

我们从例子中可以清晰的看出区别

 

下面看看我们的另类一点的 写文件:

e7:

自己看,不解释,标志在感情可以接受的范围内可以用多个

另外我们发现,如果我们替换的是字符串并且字符串里面是一个路径(里面含有/)怎么办?

Look me:

e8:

我们看出了什么? 很明显,有路径必须用\符合转义。当然也可以换作其他分割符"!"

而且目前只有"!"可以胜任,其他的(如例子#,@)虽然没有语法错误,但是不识别

 

sed使用地址:

sed中有两种行寻址:

1,行的数字范围

2,用文本模式来过滤出某行

都可以用相似方式实现:

[address] command    

address {

     command1

     command2

     command3

}

数字行寻址:

e9:

 

结果很明显,不做太多解释。$前面也介绍过

文本过滤模式过滤:

/pattern/command

e10:

 

当然组合命令也是可以的,比较繁

 

一个新的sed标识:d(elete)

看例子:

e11:

删除可以根据上面提到过的两种匹配模式

还有你甚至可以这样删除:

e12:

但是这么做有可能造成意外.第一次指定模式会"打开"行删除功能,第二个模式会"关闭"行删除功能.意思是会删除它们之间的元素

另外,只要匹配了打开功能,就开始删除.结果可能让你发疯:

e13:

 

sed的插入和追加:

 插入命令i会在指定行之前增加一行

 追加命令a会在指定行之后加入一个新行

令人纳闷的它们格式:

sed '[address]command\

     new line'

例子:

e14:

 $指最后一行:

e15:

 

同理可以在文本第一行插入.

 

sed 的修改:

同理修改要指定行地址

e16:

 

sed 转换命令

[address]y/inchars/outchars/  等长转换

转换是一个全局命令,可以转化匹配的一切:

e17:

 

sed的打印

>p     打印文本行

>=    打印行号

>l     列出行

打印行:

e18:

 

打印行号:

e19:

 

列出行: 列出数据流中所有字符,包括可打印和不可打印的字符

e20:

 

sed的文本保存

[address]w filename

sed '1,2w test' file  把file文件的1,2行读到test中.

可以用-n选项禁止显示在屏幕上

 

sed的读文件

[address]r filename

 

sed '3r test' file  读出test内容插入到file文件的第3行后面

sed '/number/r test' file  读出test内容,插入到file中含number行后面

sed '$r test' file    把test内容插到file文件最后

这篇关于正则表达式之旅_sed_awk的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1062777

相关文章

RedHat运维-Linux文本操作基础-AWK进阶

你不用整理,跟着敲一遍,有个印象,然后把它保存到本地,以后要用再去看,如果有了新东西,你自个再添加。这是我参考牛客上的shell编程专项题,只不过换成了问答的方式而已。不用背,就算是我自己亲自敲,我现在好多也记不住。 1. 输出nowcoder.txt文件第5行的内容 2. 输出nowcoder.txt文件第6行的内容 3. 输出nowcoder.txt文件第7行的内容 4. 输出nowcode

Linux文本三剑客sed

sed和awk grep就是查找文本当中的内容,最强大的功能就是使用扩展正则表达式 sed sed是一种流编辑器,一次处理一行内容。 如果只是展示,会放在缓冲区(模式空间),展示结束后,会从模式空间把结果删除 一行行处理,处理完当前行,才会处理下一行。直到文件的末尾。 sed的命令格式和操作选项: sed -e '操作符 ' -e '操作符' 文件1 文件2 -e表示可以跟多个操作

Java中的正则表达式使用技巧

Java中的正则表达式使用技巧 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天,我们来探讨一下Java中正则表达式的使用技巧。正则表达式是一种强大的工具,用于字符串匹配、替换和分割等操作。掌握正则表达式能够大大提高我们处理文本数据的效率。 1. 正则表达式的基本概念 正则表达式(Regular Expression,简称

js 正则表达式出现问题

帮同事写个页面,出现正则表达式不管怎么改都没法匹配的情况。。。。 reg = /^sy[0-9]+$/i; if(rtx.match(reg) == null){ alert("请输入正确的RTX账号!"); return false; } 因为之前一直用的是 reg ="/^sy[0-9]+$/i"; 写PHP写习惯了。。外面多写了两个双引号……T.T 改

Android热修复学习之旅——Andfix框架完全解析

Android热修复学习之旅开篇——热修复概述 Android热修复学习之旅——HotFix完全解析 Android热修复学习之旅——Tinker接入全攻略 在之前的博客《Android热修复学习之旅——HotFix完全解析》中,我们学习了热修复的实现方式之一,通过dex分包方案的原理还有HotFix框架的源码分析,本次我将讲解热修复的另外一种思路,那就是通过native方法,使用这种思路

Android热修复学习之旅——HotFix完全解析

在上一篇博客 Android热修复学习之旅开篇——热修复概述中,简单介绍了各个热修复框架的原理,本篇博客我将详细分析QQ空间热修复方案。 Android dex分包原理介绍 QQ空间热修复方案基于Android dex分包基础之上,简单概述android dex分包的原理就是:就是把多个dex文件塞入到app的classloader之中,但是android dex拆包方案中的类是没有重复的,如

Android热修复学习之旅开篇——热修复概述

Android热修复技术无疑是Android领域近年来最火热的技术之一,同时也涌现了各种层出不穷的实现方案,如QQ空间补丁方案、阿里AndFix以及微信Tinker等等,从本篇博客开始,计划写一个系列博客专门介绍热修复的相关内容,本系列博客将一一介绍这些框架的原理和源码分析,作为本系列的开篇,本篇博客将对热修复技术进行一个概述,并对以上几种方案进行对比。 为什么会出现热修复? 简单来说,以前出

Java日常探秘-从小疑问到实践智慧的编程之旅(1)

文章目录 前言一、Git中回滚操作的方式二、加密为第三方服务,需要rpc,怎么提高效率三、加解密需求,逻辑能够尽量收敛四、加解密优化五、加解密的rpc失败了处理机制六、优化MySQL查询总结 前言 所有分享的内容源于日常思考和实践,探讨Java编程中的小知识点和实用场景,加深自己对编程技巧和理解Java深层次的原理,期待发现妙招和解决实际问题的新思路。 一、Gi

shell的正则表达式

一、正则表达式:匹配的是文本内容(文本三剑客:grep:过滤文本内容       sed:针对文本内容进行增删改查        awk:按行取列) 二、grep:过滤 1.grep:过滤文本内容,作用就是使用正则表达式来匹配文本内容。    grep命令格式:grep -m 1 “bash”  /etc/passwd                             cat  /e

文本三剑客—sed命令

sed命令 一、概念 sed是一种流编辑器,一次处理一行内容。 处理方式:一行一行处理,处理完当前行,才会处理下一行,直到文件末尾。 如果只是展示,会放在缓冲区(模式空间),展示结束之后,会从模式空间把操作结果删除。 二、sed的命令格式和操作选项 1、命令格式 sed -e ‘操作符1;操作符2’ 文件1 文件2 sed -e ‘操作符’ -e ‘操作符’ 文件1 文件2 -e