2024年2月19日 - mis

2024-02-21 18:20
文章标签 2024 19 mis

本文主要是介绍2024年2月19日 - mis,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

当需要在两个或多个子模式间插入文本时,这个特性尤其有用。这里有个脚本,它使用子模式在大数字中插入逗号。

$ echo "1234567" | sed '{
> :start
> s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
> t start
> }'
1,234,567
$

​ 这个脚本将匹配模式分成了两部分。
​ .*[0-9]
​ [0-9]{3}
​ 这个模式会查找两个子模式。第一个子模式是以数字结尾的任意长度的字符。第二个子模式
是若干组三位数字(关于如何在正则表达式中使用花括号的内容可参考第20章)。如果这个模式
在文本中找到了,替代文本会在两个子模式之间加一个逗号,每个子模式都会通过其位置来标示。
这个脚本使用测试命令来遍历这个数字,直到放置好所有的逗号。

正则表达式中的子模式“.*[0-9]”表示匹配任意长度的字符,以数字结尾。这是因为:

  1. 点号(.):在正则表达式中,点号(.)是一个特殊字符,它匹配除了换行符之外的任何单个字符。
  2. 星号(*):星号(*)是一个量词,表示前面的字符可以出现零次或多次。当它跟在点号后面时,就表示匹配任意长度的字符序列。注意:这里的星号会尽可能的多匹配字符。
  3. 字符集[0-9]:方括号内的范围表示一个字符集,匹配任何一个指定的字符。在这里,[0-9]表示匹配任何一个数字字符。

[0-9]{3} 是一个正则表达式的子模式,它匹配的是恰好由三个数字组成的字符串

  1. 字符集[0-9]:在正则表达式中,方括号[]用来定义一个字符集合,匹配任何一个指定的字符。这里的[0-9]表示匹配从0到9之间的任何一个单个数字字符。
  2. 量词{3}:花括号{}中的3是一个量词,表示前面的字符集[0-9]必须连续出现3次。

疑惑:循环两次的匹配,它到底应该先匹配哪个比较好,我的意思是可以有很多种情况,例如:第一次循环的时候可以是 1,234567 或 1234,567 或 12,34567 等等;所以要循环一次才可以看出来:

bobo@thj:~/Havefun$ echo "1234567" | sed '{
> s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
> }'
1234,567
bobo@thj:~/Havefun$ echo "1234567f" | sed '{
s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
}'
1234,567f
bobo@thj:~/Havefun$ echo "1234567f123" | sed '{
s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
}'
1234,567f123
bobo@thj:~/Havefun$ echo "1234,567f123" | sed '{
s/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/
}'
1,234,567f123

总结:他是从后面向前面匹配的,先找到最后连续的3个数字,然后向前找一位。感觉上像是在尽力照顾全局。(为什么要这样设计呢?)这是因为在正则表达式中,.*[0-9] 这部分会尽可能多地匹配字符,直到最后一个数字。

可是 为什么*要尽可能多匹配字符,而不是尽可能少的匹配字符呢? (然后发现还有贪婪匹配和非贪婪匹配这种东西😂)

​ 正则表达式中的 * 量词默认是贪婪的,这意味着它会尽可能多地匹配字符。这种设计的原因主要是为了提供一种默认的行为,使得在大多数情况下能够满足匹配的需求。贪婪匹配是一种最大化匹配策略,它尝试找到最长的可能匹配,这样可以确保表达式能够匹配到所有可能的情况。

然而,有时候我们可能需要最小化匹配,即匹配尽可能少的字符。在这种情况下,可以使用非贪婪匹配,通常是通过在量词后面加上一个问号 ? 来实现,如 *?+??? 等。这样,正则表达式引擎会在找到第一个可能的匹配后停止,不再继续寻找更长的匹配。


  • 命令n:小写的n是next命令的简写。这个命令会告诉sed编辑器移动到输入数据流中的下一行,而不用重新执行当前行上的所有命令。通常sed会在处理当前行之前的所有命令后,再移动到下一行。但使用n命令可以改变这一流程,使得sed在处理完当前行上的某个特定命令后即刻移动到下一行。
  • 命令N:大写的N用来将输入数据流中的下一行加到当前行之后,创建一个多行组。这对于处理跨多行的文本操作非常有用。当N命令执行后,它们会被视为一个整体来处理接下来的sed命令。

bobo@thj:~/Havefun$ nl data2.txt1  This is the header line.2  This is the first data line.3  This is the second data line.4  This is the last line.
bobo@thj:~/Havefun$
bobo@thj:~/Havefun$
bobo@thj:~/Havefun$ cat -n data2.txt1  This is the header line.2  This is the first data line.3  This is the second data line.4  This is the last line.
bobo@thj:~/Havefun$

bash shell 命令也可以添加行号,但是会有间隔。


那么,如何用美元符来显示数据流末尾的若干行呢?答案是创建滚动窗口。
滚动窗口是检验模式空间中文本行块的常用方法,它使用N命令将这些块合并起来。N命令将
下一行文本附加到模式空间中已有文本行后面。一旦你在模式空间有了一个10行的文本块,你可
以用美元符来检查你是否已经处于数据流的尾部。如果不在,就继续向模式空间增加行,同时删
除原来的行(记住,D命令会删除模式空间的第一行)。

通过循环N命令和D命令,你在向模式空间的文本行块增加新行的同时也删除了旧行。分支命
令非常适合这个循环。要结束循环,只要识别出最后一行并用q命令退出就可以了。

$ cat data7.txt
This is line 1.
This is line 2.
This is line 3.
This is line 4.
This is line 5.
This is line 6.
This is line 7.
This is line 8.
This is line 9.
This is line 10.
This is line 11.
This is line 12.
This is line 13.
This is line 14.
This is line 15.
$
$ sed '{
> :start
> $q ; N ; 11,$D
> b start
> }' data7.txt
This is line 6.
This is line 7.
This is line 8.
This is line 9.
This is line 10.
This is line 11.
This is line 12.
This is line 13.
This is line 14.
This is line 15.

如果是最后一行的话就退出,然后将下一行添加到模式空间中去,接着继续执行下面的命令,然后检查这一行是不是11行到最后一行,如果是的话,就删除模式空间的第一行;如此循环处理每一行,因为一共是15行,所以会删除前面5行。


$ cat data8.txt
This is line one.This is line two.This is line three.This is line four.
$
$ sed '/./,/^$/!d' data8.txt
This is line one.This is line two.This is line three.This is line four.
$

,:表示范围操作符,这里指从匹配第一个模式的行开始到匹配第二个模式的行结束,期间的所有行都将作为一组处理。区间是/./到/^$/。区间的开始地址会匹配任何含有至少一个字符的行。区间的结束地址会匹配一个空行。在这个区间内的行不会被删除。(为什么最后一行就不会删除呢,逆天!!!)


$ cat data10.txt
This is the first line.
This is the second line.$ sed '{
> :start
> /^\n*$/{$d ; N ; b start }
> }' data10.txt
This is the first line.
This is the second line.
$

这就删除了最后两行了,大写的疑惑?

我们来分析一下,将删除命令改为打印命令,看看是如何循环的:

bobo@thj:~/Havefun$ cat data10.txt | sed '=' | sed 'N; s/\n/ /'
1 This is the first line.
2 This is the second line.
3
4
5
bobo@thj:~/Havefun$ sed '{
:start
/^\n*$/{$p ; N ; b start }
}' data10.txt | sed '=' | sed 'N; s/\n/ /'
1 This is the first line.
2 This is the second line.
3
4
5
6
7
8
bobo@thj:~/Havefun$

首先注意一个问题:sed 编辑器默认情况下并不支持模糊匹配,它采用的是正则表达式进行精确或基于模式的匹配操作

先看前两行,没有被p 命令打印,说明不满足匹配条件;但是我感觉后面三行是整体打印的。

这篇关于2024年2月19日 - mis的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/732667

相关文章

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

详解Spring Boot接收参数的19种方式

《详解SpringBoot接收参数的19种方式》SpringBoot提供了多种注解来接收不同类型的参数,本文给大家介绍SpringBoot接收参数的19种方式,感兴趣的朋友跟随小编一起看看吧... 目录SpringBoot接受参数相关@PathVariable注解@RequestHeader注解@Reque

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

2024网安周今日开幕,亚信安全亮相30城

2024年国家网络安全宣传周今天在广州拉开帷幕。今年网安周继续以“网络安全为人民,网络安全靠人民”为主题。2024年国家网络安全宣传周涵盖了1场开幕式、1场高峰论坛、5个重要活动、15场分论坛/座谈会/闭门会、6个主题日活动和网络安全“六进”活动。亚信安全出席2024年国家网络安全宣传周开幕式和主论坛,并将通过线下宣讲、创意科普、成果展示等多种形式,让广大民众看得懂、记得住安全知识,同时还

2024/9/8 c++ smart

1.通过自己编写的class来实现unique_ptr指针的功能 #include <iostream> using namespace std; template<class T> class unique_ptr { public:         //无参构造函数         unique_ptr();         //有参构造函数         unique_ptr(

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

免费也能高质量!2024年免费录屏软件深度对比评测

我公司因为客户覆盖面广的原因经常会开远程会议,有时候说的内容比较广需要引用多份的数据,我记录起来有一定难度,所以一般都用录屏工具来记录会议内容。这次我们来一起探索有什么免费录屏工具可以提高我们的工作效率吧。 1.福晰录屏大师 链接直达:https://www.foxitsoftware.cn/REC/  录屏软件录屏功能就是本职,这款录屏工具在录屏模式上提供了多种选项,可以选择屏幕录制、窗口

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已