字符串匹配新秀之Sunday

2023-12-03 22:18
文章标签 字符串 匹配 新秀 sunday

本文主要是介绍字符串匹配新秀之Sunday,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Sunday算法的大致思想是,以pos表示本次匹配的目标串tar的起始位置,len_m表示模式串的长度,当出现不匹配的时候,看从pos开始长为len_m的一段字串的最后一个字符k是否在模式串中出现过,判断是否出现过是通过从右到左扫描模式串得到的,只要碰到k,记录下其位置i,将pos+i作为新的pos(pos+=i),继续匹配。这就扯出了next数组,不要将这个next数组跟KMP中的数组牵连起来,二者没任何关系。next数组就是记录模式串中的字母离串尾的距离,若某个字符重复出现,则只记录最右边的那个,next初始值是模式串的长度,即如果某个字符没在mode串中出现,那么pos移动时就是整体平移一个模式串的距离。next[i]表示字母i距离模式串末尾的距离,pos+next[k]表示将目标串的本次起始位置pos移动next[k]个单位,这样,新的pos位置与k的距离正好是模式串串首到k的距离。因为原来是pos-->pos+len_m,pos右移到pos+next[k]后,那么距离pos+len_m就是len_m-next[k],正好是模式串串首到k的距离。这种匹配模式思想大体上就是从中间某个字符开始匹配,这样的好处是增大了匹配成功的概率,极大减少了无用匹配次数(如rat="abcabe",mode="abe",mode与tar的前一个"ab"的匹配就是无用匹配,因为第三个字符不再匹配),有些情况下比KMP效率高,并且相对容易理解。
给个实现:

既然是字串匹配新秀,就顺便说说一个更容易理解的模式匹配算法,但论效率个个都是雄于KMP:ZZL算法

相当容易:

序需要两部
预处理
预处理主要完成查找模式串首字符在主串中的所有出现位置,并将其保存在一个数组中。

匹配
在预处理的基础上,字符串匹配算法就可以从查找到的模式串在主串中的位置开始,匹配模式串首字母之后的其余部分。此时,采用BF算法(最闻名而又最笨的字串匹配算法),并可设置一个计数器,记录匹配次数。

实现狠容易,自己看着办— —

PS:本人写博,纯属装X(a<X<c).   本文遵从CC协议,pz伯伯原创,转载注明出处。

这篇关于字符串匹配新秀之Sunday的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/451067

相关文章

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

hdu 3065 AC自动机 匹配串编号以及出现次数

题意: 仍旧是天朝语题。 Input 第一行,一个整数N(1<=N<=1000),表示病毒特征码的个数。 接下来N行,每行表示一个病毒特征码,特征码字符串长度在1—50之间,并且只包含“英文大写字符”。任意两个病毒特征码,不会完全相同。 在这之后一行,表示“万恶之源”网站源码,源码字符串长度在2000000之内。字符串中字符都是ASCII码可见字符(不包括回车)。

二分最大匹配总结

HDU 2444  黑白染色 ,二分图判定 const int maxn = 208 ;vector<int> g[maxn] ;int n ;bool vis[maxn] ;int match[maxn] ;;int color[maxn] ;int setcolor(int u , int c){color[u] = c ;for(vector<int>::iter

POJ 3057 最大二分匹配+bfs + 二分

SampleInput35 5XXDXXX...XD...XX...DXXXXX5 12XXXXXXXXXXXXX..........DX.XXXXXXXXXXX..........XXXXXXXXXXXXX5 5XDXXXX.X.DXX.XXD.X.XXXXDXSampleOutput321impossible

每日一题|牛客竞赛|四舍五入|字符串+贪心+模拟

每日一题|四舍五入 四舍五入 心有猛虎,细嗅蔷薇。你好朋友,这里是锅巴的C\C++学习笔记,常言道,不积跬步无以至千里,希望有朝一日我们积累的滴水可以击穿顽石。 四舍五入 题目: 牛牛发明了一种新的四舍五入应用于整数,对个位四舍五入,规则如下 12345->12350 12399->12400 输入描述: 输入一个整数n(0<=n<=109 ) 输出描述: 输出一个整数

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

二分图的最大匹配——《啊哈!算法》

二分图 如果一个图的所有顶点可以被分为X和Y两个集合,并且所有边的两个顶点恰好一个属于X,另外一个属于Y,即每个集合内的顶点没有边相连,那么此图就是二分图。 二分图在任务调度、工作安排等方面有较多的应用。 判断二分图:首先将任意一个顶点着红色,然后将其相邻的顶点着蓝色,如果按照这样的着色方法可以将全部顶点着色的话,并且相邻的顶点着色不同,那么该图就是二分图。 java

web群集--nginx配置文件location匹配符的优先级顺序详解及验证

文章目录 前言优先级顺序优先级顺序(详解)1. 精确匹配(Exact Match)2. 正则表达式匹配(Regex Match)3. 前缀匹配(Prefix Match) 匹配规则的综合应用验证优先级 前言 location的作用 在 NGINX 中,location 指令用于定义如何处理特定的请求 URI。由于网站往往需要不同的处理方式来适应各种请求,NGINX 提供了多种匹

C和指针:字符串

字符串、字符和字节 字符串基础 字符串就是一串零个或多个字符,并且以一个位模式为全0的NUL字节结尾。 字符串长度就是字符串中字符数。 size_t strlen( char const *string ); string为指针常量(const修饰string),指向的string是常量不能修改。size_t是无符号数,定义在stddef.h。 #include <stddef.h>

PHP字符串全排列

方法一: $str = 'abc';$a =str_split($str);perm($a, 0, count($a)-1);function perm(&$ar, $k, $m) {if($k == $m){ echo join('',$ar), PHP_EOL;}else {for($i=$k; $i<=$m; $i++) {swap($ar[$k], $ar[$i]);perm($ar