mers专题

biostar handbook(六)|正则表达式和K-mers在模式匹配中的使用

模式匹配中的正则表达式和k-mer 模式匹配指的是在看似杂乱无章的系统中找到符合要求的部分。比如说你想从基因组中寻找motif,转录因子结合位点,CDS, 或者检测测序结果里是否有接头等,这些行为都可以解读为根据已有的模式去寻找目标序列中符合要求的片段。后面介绍的序列模式匹配的两种方法,正则表达式和k-mers。 正则表达式的基础概念 正则表达式(regular expression)的概念

DNA序列k-mers哈希映射和相似序列查找

对DNA序列的k-mer进行哈希映射和相似序列查找是生物信息学中常见的任务之一。使用哈希函数对DNA序列的k-mer进行映射,并使用哈希表进行相似序列的查找。这种方法可以加速相似序列的搜索,并在处理大规模DNA序列数据时具有较好的性能。 哈希函数是一种将输入数据映射到固定长度的输出数据的函数。它的主要特点是对于给定的输入,能够产生唯一的输出,称为哈希值或散列值。哈希函数常用于密码学、数据完整性检