CF1200E Compress Words

2024-02-23 02:52
文章标签 words compress cf1200e

本文主要是介绍CF1200E Compress Words,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

题目描述

Amugae has a sentence consisting of n words. He want to compress this sentence into one word. Amugae doesn't like repetitions, so when he merges two words into one word, he removes the longest prefix of the second word that coincides with a suffix of the first word. For example, he merges "sample" and "please" into "samplease".

Amugae will merge his sentence left to right (i.e. first merge the first two words, then merge the result with the third word and so on). Write a program that prints the compressed word after the merging process ends.

输入格式

The first line contains an integer n ( 1≤n≤10^5 ), the number of the words in Amugae's sentence.

The second line contains n words separated by single space. Each words is non-empty and consists of uppercase and lowercase English letters and digits ('A', 'B', ..., 'Z', 'a', 'b', ..., 'z', '0', '1', ..., '9'). The total length of the words does not exceed 10^6 .

输出格式

In the only line output the compressed word after the merging process ends as described in the problem.

题意翻译

Amugae 有 n 个单词,他想把这个 n 个单词变成一个句子,具体来说就是从左到右依次把两个单词合并成一个单词。合并两个单词的时候,要找到最大的 i(i≥0),满足第一个单词的长度为 i 的后缀和第二个单词长度为 i 的前缀相等,然后把第二个单词第 i 位以后的部分接到第一个单词后面。输出最后那个单词。

注:题中的字符串存在大小写字母和数字。

输入输出样例

输入 #1

5
I want to order pizza

输出 #1

Iwantorderpizza

输入 #2

5
sample please ease in out

输出 #2

sampleaseinout

本题的解法有两种,一种是KMP算法,另一种是哈希算法,我使用的是哈希算法来求解

思路

本题有两个哈希值一个是主串的,一个是子串的,通过对比主串后缀的哈希值和子串前缀的哈希值来判断需要链接的部分,然后进行连接。

1.本题的坑点:题目的意思是合并单词前面的主串的后缀和此单词的前缀而不是前一个单词的后缀和后一个单词的前缀,举个例子:

给你3个单词:i,ab,iab,合并之后答案是iab,而不是iabiab。

2.采用哈希解法本题的难点:

1.本题需要采用字符串进制哈希且是双哈希,不然65数据过不了,所谓双哈希就是同时满足两个哈希函数,两个哈希函数有不同的key值和mod值。

2.对于主串求后缀的哈希值需要用O(1)速度,而不是暴力,否则时间过不了,

O(1)求字符串子串方法:

假设有一个 S=s1s2s3s4s5的字符串,根据定义,获取其 Hash值如下(我们先忽略MOD,方便理解):

haxi[1]=s1

haxi[2]=s1∗Base+s2

haxi[3]=s1∗Base^2+s2∗Base+s3

haxi[4]=s1∗Base^3+s2∗Base^2+s3∗Base+s4

现在我们想求字串 s3s4的hash值,不难得出为s3∗Base+s4,并且从上面观察,如果看hash[4]−hash[2]*Base^2,至此,通过对上例的归纳,可以得出如下的公式。

ans=((hash[r]−hash[l−1]∗Base^r−l+1)%MOD+MOD)%MOD,(求区间(l,r)字串的哈希值

思路和坑点讲完,上代码

//Compress Words  CF1200E(双字符串哈希+后缀字符串哈希)
#include<stdio.h>
#include<string.h>
long long  mod = 1e8+4,mod2= 1e9+9;
int base = 131, hgf = 377;
char s[1000001], t[1000001];
long long ans[1000001], bns[1000001];//主串的两个哈希数组(双哈希)
long long hj[1000001], hg[1000001];//预处理进制数组
int main()
{int n, k, h, i, j, q;long long f, u;hg[0] = hj[0] = 1;for (i = 1; i <= 1000000; i++)//预处理进制数组{hj[i] = (hj[i - 1] * base) % mod;hg[i] = (hg[i - 1] * hgf) % mod2;}scanf("%d", &n);scanf("%s", t);//先输入第一个串h = strlen(t);for (i = 0; i < h; i++)//求哈希值{ans[i + 1] = (ans[i] * base + t[i]) % mod;bns[i + 1] = (bns[i] * hgf + t[i]) % mod2;}for (i = 2; i <= n; i++){scanf("%s", s);//输入单词k = strlen(s);int ww = 0, flag = 0;//ww记录最大重合的单词数量,flag判断是否有重合long long gf = 0, kg = 0;for (j = 0; j < h && j < k; j++)//从单词的第一个字符开始比较{//输入单词的两个哈希值gf = (gf * base + s[j]) % mod;kg = (kg * hgf + s[j]) % mod2;//主串对应后缀的两个哈希值(O(1)求法,非暴力)f = (gf + ans[h - j - 1] * hj[j + 1]) % mod;u = (kg + bns[h - j - 1] * hg[j + 1]) % mod2;if (f == ans[h] && u == bns[h])//两两对应都相同则存在重合{ww = j; flag = 1;}}if (flag == 1)//如果有重合部分ww++;for (j = ww; j < k; j++)//重合部分后面的连接到主串后面并计算哈希值{t[h++] = s[j];ans[h] = (ans[h - 1] * base + s[j]) % mod;bns[h] = (bns[h - 1] * hgf + s[j]) % mod2;}t[h] = '\0';}printf("%s", t);//输出答案return 0;
}

本题写了3~4个小时,看了题解,虽说花费的时间多,但更进一步了解了进制哈希,双哈希和O(1)方式求子串哈希的方法,还是有收获的

这篇关于CF1200E Compress Words的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/737296

相关文章

HDUPlay on Words

1.定理:无向图G有欧拉通路的充分必要条件是G为连通图,并且G仅有两个奇度结点或者无奇度结点。 (1)当G是仅有两个奇度结点的连通图时,G的欧拉通路必以此两个结点为端点。 (2)当G是无奇度结点的连通图时,G必有欧拉回路。 2.一个有向图D具有欧拉通路,当且仅当D是连通的,且除了两个顶点外,其余顶点的入度均等于出度,这两个特殊的顶点中,一个顶点的入度比出度大1,另一个顶点的入度比出度小1

rman compress

级别         初始         备完    耗时    low          1804       3572    0:10     High         1812       3176   2:00     MEDIUM  1820       3288    0:13    BASIC      1828   3444    0:56 ---不如MEDIUM,

[LeetCode] 692. Top K Frequent Words

题:https://leetcode.com/problems/top-k-frequent-words/ 题目大意 对于 string[] words,输出 出现频率前k高的 word,顺序 为 word 出现的频率 由高到低 ,频率相同的 word 按 字符排序。 思路 其实是对words中的所有word进行一个排序。 排序有两个规则: 1.word 在 words中出现的次数。 2.

[LeetCode] 820. Short Encoding of Words

题:https://leetcode.com/problems/short-encoding-of-words/ 题目大意 参考题目 思路 set 集合 将所有word 放入set中,然后遍历所有set中的word,将word的从头的子串都从set中删除,最后统计 set中所有(word 的长度 + 1)(’#’) class Solution {public int minimumL

【HDU】4117 GRE Words AC自动机+线段树优化DP

传送门:【HDU】4117 GRE Words 题目分析:水不了啊狸的打字机就来水这题了= =。。。 首先建立ac自动机,然后用fail指针的反向关系建边,构造fail指针树。fail指针树中每个结点u表示的串都是其子节点v的后缀(同时该后缀是所有串中最长的)。对fail指针树dfs一次得到时间戳,当要求以串i结尾的最大价值,首先我们需要知道以串i的子串j结尾的最大价值val。因为在树中

LeetCode 30 Substring with Concatenation of All Words

题意: 给出字符串s和许多等长(len)单词w,找出所有s中的满足子串为w中所有单词的一种组合的位置。 思路: 因为w中的单词要满足的是组合而不是排列,因此用“区间[L,R]中包含单词的计数”来维护比较合适。 一是满足了组合对顺序的不要求,二是方便处理重复的单词。 首先可以统计一下,w中各种单词个数。如果s的长度为size(w) * len的子串单词计数与w相同,则找到一个答案。

Aspose.Cells、Aspose.Words常用功能

一般使用 Excel求和Word插入内容新建插入图片插入表格 Excel求和 冒号 为 范围 B2~B11 逗号 为 B1+B11 worksheet.Cells["A4"].Formula = "=SUM(A1:A3)";worksheet.Cells["A4"].Formula = "=SUM(A1,A3)"; 单元格设置公式后,保存 Excel 文件后打开即可得到

[论文笔记] LLM-ICL可解释论文:标签词是锚点:理解语境学习的信息流视角 Label Words are Anchors

Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun 信息流视角:论文提出了一种新的视角,即通

【Aspose-words】导出html到word

1、由于Mavenzh中央仓库中对于com.aspose.words jar包的缺乏,小编本地maven集成下载的 aspose-words-16.4.0-jdk16.jar 2、 package com.xw.ssm.util.word;import com.alibaba.fastjson.JSONObject;import com.aspose.words.*;import com.

10129 - Play on Words(欧拉道路有向图)

题目:10129 - Play on Words 题目大意:词语接龙。 解题思路:刚开始没想到欧拉道路,直接找,结果超时了。 这题满足要求的话就是把每个单词看做一条路,每条路连在一起走一遍就符合要求, 欧拉回路也是符合要求的。 满足欧拉道路:1,至多只有两个点的出度入度相差1。    2, 这个有向图的无向图连通。(刚开始一直在想,如果有两条一样的路,这样怎么处理,后面