AC自动机加强版 uva 1449 - Dominating Patterns

2024-05-28 05:08

本文主要是介绍AC自动机加强版 uva 1449 - Dominating Patterns,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AC自动机最初作用  一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。

当然这不是AC自动机的全部作用。

本文就是一例,给出几个单词,查询在text里出现最多次数的单词,如果不唯一,按输入次序输出

AC自动机是刚刚学的,修改其实自己没能力,参考了别人的代码,修改了自己的模板

先看题目http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&category=505&page=show_problem&problem=4195

再看我自己的AC模板(修改前的)

/*************************************************/
//AC 自动机  by Pilgrim
//
//MAXLEN 模式串的长度
//str 模式串(待匹配的)
//keyword 待输入的单词
//cnt是否为该单词的最后一个节点,Insert的时候,
//当单词插入完成,其最后一个节点的cnt=1
//root的fail为NULL
//
// 初始化
//root=cur=Trie;    //cur指向存储单元的末地址
//head = tail = 0;
//root->clr();
//另外在Insert的时候  创建节点的时候也是要clr()的
/*************************************************/#define MAXLEN 1000010
#define MAXTRIE 500010
#define WORDLEN 51
#define KIND 26char str[MAXLEN],keyword[WORDLEN];struct Node{Node *fail;Node *next[KIND];   /*next数组里存的是当前节点的孩子*/int cnt;void clr(){fail = NULL;cnt = 0;memset(next,0,sizeof(next)*KIND);}
}Trie[MAXTRIE],*q[MAXTRIE],*root,*cur;  /*看最开头的注释*/
int head,tail;/*队列首尾 初始化head = tail = 0*/void Insert(char s[])   /*向Tries 插入单词*/
{int idx,i,n=strlen(s);Node *p=root;for(int i=0;i<n;i++){idx = s[i]-'a';if(p->next[idx]==NULL){/*NULL的时候才分配空间,是为了处理这种情况:he  her 两个单词,字典树上他们在同一个分支,r和e的cnt都是1*/p->next[idx]=++cur;p->next[idx]->clr();}p=p->next[idx];}p->cnt++;   /*插入完成,此处是p->cnt++而非p->cnt=1;是为了排除这种情况:her er 这两个单词,如果是p->cnt=1只会被按一种单词计数,但是也造成的问题是,模板串即keyword重复的时候会出现问题*/
}void Build_AC()
{Node *p,*tmp;root->fail=NULL;q[tail++]=root;while(head!=tail){p=q[head++];for(int i=0;i<KIND;i++){if(p->next[i]){q[tail++]=p->next[i];if(p == root){p->next[i]->fail = root;}else{tmp=p->fail;while(tmp!=NULL){if(tmp->next[i])    /*tmp->next[i] p->next[i]  i都表示'a'+i故如果tmp->next[i]!=NULL,说明以前出现过'a'+i*/{p->next[i]->fail=tmp->next[i];break;}tmp=tmp->fail;}if(tmp == NULL)p->next[i]->fail = root;}}}}
}int Query()
{int ans=0,n=strlen(str),idx;Node *tmp,*p=root;for(int i=0;i<n;i++){idx=str[i]-'a';while(p->next[idx]==NULL && p!=root) //跳转失败指针,比如已经到达最底层p=p->fail;p=p->next[idx];if(p==NULL) /*如果Trie中不存在该字母,就让该字母的指针指向root*/p=root;tmp = p;	//p不动,tmp计算后缀串while(tmp!=root && tmp->cnt!=-1)//模拟下就可以知道,tmp->cnt!=-1{                               //是为了防止对同一个串重复计数ans+=tmp->cnt;              //比如单词是her  str是herher 此时答案只是1tmp->cnt=-1;tmp=tmp->fail;//指针移向下个字符继续匹配}}return ans;
}void Init_AC()
{cur = root = Trie;root->clr();head = tail = 0;
}

首先分析题目需要处理的几个问题:

1、计数。

AC自动机为了不重复计数,有这么一句tmp->cnt=-1;

这一句肯定要改掉

另外,注意即使不是单词结尾,也可以进入这个循环,而每次进入这个循环,如果/*(2)*/这里处理不当,肯定会多计数

    while(tmp!=root && tmp->cnt!=-1)/*(1)*/{                               ans+=tmp->cnt;              tmp->cnt=-1;/*(2)*/tmp=tmp->fail;//指针移向下个字符继续匹配}
    需要做两处修改,/*(1)*/处,tmp->cnt>=1才进入循环; /*(2)*/处,数组记录出现次数


2、当有些word出现次数相同的时候,怎么输出所有的。

答案是,记录最大的出现次数mmax,然后扫记录所有单词出现次数的数组,只要跟mmax相同,就输出。


最后上代码

#include <cstdio>
#include <cstdlib>
#include <iostream>
#include <cstring>
#include <map>using namespace std;#define MAXLEN 1000010
#define MAXTRIE 500010
#define WORDLEN 71
#define KIND 26
#define N 201char str[MAXLEN],keyword[WORDLEN];
char all[N][WORDLEN];
int num[N];/*存储字符串个数*/struct Node{Node *fail;Node *next[KIND];   /*next数组里存的是当前节点的孩子*/int cnt,id;void clr(){fail = NULL;cnt = 0;id=-1;memset(next,0,sizeof(next)*KIND);}
}Trie[MAXTRIE],*q[MAXTRIE],*root,*cur;  /*看最开头的注释*/
int head,tail;/*队列首尾 初始化head = tail = 0*/void Insert(char s[],int id)   /*向Tries 插入单词*/
{int idx,i,n=strlen(s);Node *p=root;for(int i=0;i<n;i++){idx = s[i]-'a';if(p->next[idx]==NULL){/*NULL的时候才分配空间,是为了处理这种情况:he  her 两个单词,字典树上他们在同一个分支,r和e的cnt都是1*/p->next[idx]=++cur;p->next[idx]->clr();}p=p->next[idx];}p->cnt++;   /*插入完成,此处是p->cnt++而非p->cnt=1;是为了排除这种情况:her er 这两个单词,如果是p->cnt=1只会被按一种单词计数,但是也造成的问题是,模板串即keyword重复的时候会出现问题*/p->id=id;
}void Build_AC()
{Node *p,*tmp;root->fail=NULL;q[tail++]=root;while(head!=tail){p=q[head++];for(int i=0;i<KIND;i++){if(p->next[i]){q[tail++]=p->next[i];if(p == root){p->next[i]->fail = root;}else{tmp=p->fail;while(tmp!=NULL){if(tmp->next[i])    /*tmp->next[i] p->next[i]  i都表示'a'+i故如果tmp->next[i]!=NULL,说明以前出现过'a'+i*/{p->next[i]->fail=tmp->next[i];break;}tmp=tmp->fail;}if(tmp == NULL)p->next[i]->fail = root;}}}}
}int Query()
{int ans=0,n=strlen(str),idx;Node *tmp,*p=root;for(int i=0;i<n;i++){idx=str[i]-'a';while(p->next[idx]==NULL && p!=root) //跳转失败指针,比如已经到达最底层p=p->fail;p=p->next[idx];if(p==NULL) /*如果Trie中不存在该字母,就让该字母的指针指向root*/p=root;tmp = p;	//p不动,tmp计算后缀串while(tmp!=root && tmp->cnt>=1)//模拟下就可以知道,tmp->cnt!=-1{                               //是为了防止对同一个串重复计数ans+=tmp->cnt;if(tmp->id!=-1)             //比如单词是her  str是herher 此时答案只是1num[tmp->id]++;//tmp->cnt=-1;tmp=tmp->fail;//指针移向下个字符继续匹配}}return ans;
}void Init_AC()
{cur = root = Trie;root->clr();head = tail = 0;memset(num,0,sizeof(num));
}int main()
{int n;while(scanf("%d",&n)!=EOF && n){Init_AC();for(int i=0;i<n;i++){scanf("%s",keyword);strcpy(all[i],keyword);Insert(keyword,i);}scanf("%s",str);Build_AC();int mmax = -1;Query();for(int i=0;i<n;i++)mmax = max(mmax,num[i]);printf("%d\n",mmax);for(int i=0;i<n;i++)if(num[i]==mmax)puts(all[i]);}return 0;
}

上面的略慢,再快一点的,Query循环里稍改下

#include <cstdio>
#include <cstdlib>
#include <iostream>
#include <cstring>
#include <map>using namespace std;#define MAXLEN 1000010
#define MAXTRIE 500010
#define WORDLEN 71
#define KIND 26
#define N 201char str[MAXLEN],keyword[WORDLEN];
char all[N][WORDLEN];
int num[N];/*存储字符串个数*/struct Node{Node *fail;Node *next[KIND];   /*next数组里存的是当前节点的孩子*/int cnt,id;void clr(){fail = NULL;cnt = 0;id=-1;memset(next,0,sizeof(next)*KIND);}
}Trie[MAXTRIE],*q[MAXTRIE],*root,*cur;  /*看最开头的注释*/
int head,tail;/*队列首尾 初始化head = tail = 0*/void Insert(char s[],int id)   /*向Tries 插入单词*/
{int idx,i,n=strlen(s);Node *p=root;for(int i=0;i<n;i++){idx = s[i]-'a';if(p->next[idx]==NULL){/*NULL的时候才分配空间,是为了处理这种情况:he  her 两个单词,字典树上他们在同一个分支,r和e的cnt都是1*/p->next[idx]=++cur;p->next[idx]->clr();}p=p->next[idx];}p->cnt++;   /*插入完成,此处是p->cnt++而非p->cnt=1;是为了排除这种情况:her er 这两个单词,如果是p->cnt=1只会被按一种单词计数,但是也造成的问题是,模板串即keyword重复的时候会出现问题*/p->id=id;
}void Build_AC()
{Node *p,*tmp;root->fail=NULL;q[tail++]=root;while(head!=tail){p=q[head++];for(int i=0;i<KIND;i++){if(p->next[i]){q[tail++]=p->next[i];if(p == root){p->next[i]->fail = root;}else{tmp=p->fail;while(tmp!=NULL){if(tmp->next[i])    /*tmp->next[i] p->next[i]  i都表示'a'+i故如果tmp->next[i]!=NULL,说明以前出现过'a'+i*/{p->next[i]->fail=tmp->next[i];break;}tmp=tmp->fail;}if(tmp == NULL)p->next[i]->fail = root;}}}}
}int Query()
{int ans=0,n=strlen(str),idx;Node *tmp,*p=root;for(int i=0;i<n;i++){idx=str[i]-'a';while(p->next[idx]==NULL && p!=root) //跳转失败指针,比如已经到达最底层p=p->fail;p=p->next[idx];if(p==NULL) /*如果Trie中不存在该字母,就让该字母的指针指向root*/p=root;tmp = p;	//p不动,tmp计算后缀串while(tmp!=root)//模拟下就可以知道,tmp->cnt!=-1{if(tmp->cnt>=1)                   //是为了防止对同一个串重复计数if(tmp->id!=-1)             //比如单词是her  str是herher 此时答案只是1num[tmp->id]++;tmp=tmp->fail;//指针移向下个字符继续匹配}}return ans;
}void Init_AC()
{cur = root = Trie;root->clr();head = tail = 0;memset(num,0,sizeof(num));
}int main()
{int n;while(scanf("%d",&n)!=EOF && n){Init_AC();for(int i=0;i<n;i++){scanf("%s",keyword);strcpy(all[i],keyword);Insert(keyword,i);}scanf("%s",str);Build_AC();int mmax = -1;Query();for(int i=0;i<n;i++)mmax = max(mmax,num[i]);printf("%d\n",mmax);for(int i=0;i<n;i++)if(num[i]==mmax)puts(all[i]);}return 0;
}


这篇关于AC自动机加强版 uva 1449 - Dominating Patterns的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1009621

相关文章

uva 10055 uva 10071 uva 10300(水题两三道)

情歌两三首,水题两三道。 好久没敲代码了为暑假大作战热热身。 uva 10055 Hashmat the Brave Warrior 求俩数相减。 两个debug的地方,一个是longlong,一个是输入顺序。 代码: #include<stdio.h>int main(){long long a, b;//debugwhile(scanf("%lld%lld", &

poj 3259 uva 558 Wormholes(bellman最短路负权回路判断)

poj 3259: 题意:John的农场里n块地,m条路连接两块地,w个虫洞,虫洞是一条单向路,不但会把你传送到目的地,而且时间会倒退Ts。 任务是求你会不会在从某块地出发后又回来,看到了离开之前的自己。 判断树中是否存在负权回路就ok了。 bellman代码: #include<stdio.h>const int MaxN = 501;//农场数const int

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

uva 10387 Billiard(简单几何)

题意是一个球从矩形的中点出发,告诉你小球与矩形两条边的碰撞次数与小球回到原点的时间,求小球出发时的角度和小球的速度。 简单的几何问题,小球每与竖边碰撞一次,向右扩展一个相同的矩形;每与横边碰撞一次,向上扩展一个相同的矩形。 可以发现,扩展矩形的路径和在当前矩形中的每一段路径相同,当小球回到出发点时,一条直线的路径刚好经过最后一个扩展矩形的中心点。 最后扩展的路径和横边竖边恰好组成一个直

uva 10061 How many zero's and how many digits ?(不同进制阶乘末尾几个0)+poj 1401

题意是求在base进制下的 n!的结果有几位数,末尾有几个0。 想起刚开始的时候做的一道10进制下的n阶乘末尾有几个零,以及之前有做过的一道n阶乘的位数。 当时都是在10进制下的。 10进制下的做法是: 1. n阶位数:直接 lg(n!)就是得数的位数。 2. n阶末尾0的个数:由于2 * 5 将会在得数中以0的形式存在,所以计算2或者计算5,由于因子中出现5必然出现2,所以直接一

uva 568 Just the Facts(n!打表递推)

题意是求n!的末尾第一个不为0的数字。 不用大数,特别的处理。 代码: #include <stdio.h>const int maxn = 10000 + 1;int f[maxn];int main(){#ifdef LOCALfreopen("in.txt", "r", stdin);#endif // LOCALf[0] = 1;for (int i = 1; i <=

uva 575 Skew Binary(位运算)

求第一个以(2^(k+1)-1)为进制的数。 数据不大,可以直接搞。 代码: #include <stdio.h>#include <string.h>const int maxn = 100 + 5;int main(){char num[maxn];while (scanf("%s", num) == 1){if (num[0] == '0')break;int len =

uva 10014 Simple calculations(数学推导)

直接按照题意来推导最后的结果就行了。 开始的时候只做到了第一个推导,第二次没有继续下去。 代码: #include<stdio.h>int main(){int T, n, i;double a, aa, sum, temp, ans;scanf("%d", &T);while(T--){scanf("%d", &n);scanf("%lf", &first);scanf

uva 10916 Factstone Benchmark(打表)

题意是求 k ! <= 2 ^ n ,的最小k。 由于n比较大,大到 2 ^ 20 次方,所以 2 ^ 2 ^ 20比较难算,所以做一些基础的数学变换。 对不等式两边同时取log2,得: log2(k ! ) <=  log2(2 ^ n)= n,即:log2(1) + log2(2) + log2 (3) + log2(4) + ... + log2(k) <= n ,其中 n 为 2 ^

uva 10025 The ? 1 ? 2 ? ... ? n = k problem(数学)

题意是    ?  1  ?  2  ?  ...  ?  n = k 式子中给k,? 处可以填 + 也可以填 - ,问最小满足条件的n。 e.g k = 12  - 1 + 2 + 3 + 4 + 5 + 6 - 7 = 12 with n = 7。 先给证明,令 S(n) = 1 + 2 + 3 + 4 + 5 + .... + n 暴搜n,搜出当 S(n) >=