DNA序列 DNA Consensus String

2023-12-19 18:04
文章标签 dna string 序列 consensus

本文主要是介绍DNA序列 DNA Consensus String,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 代码实现(为个人思路,并非最优解):

#include <stdio.h>
#include <stdlib.h>
#define MAX_ARR 256int main()
{int m, n;scanf("%d %d", &m, &n);getchar();//动态内存开辟一个二维数组char** s = (char**)calloc(m, sizeof(char*));if (s == NULL){perror("calloc_s");return 1;}for (int i = 0; i < m; i++){s[i] = (char*)calloc(n + 1, sizeof(char));if (s[i] == NULL){perror("calloc_s[]");return 1;}}//赋值int count = 0;for (int i = 0; i < m; i++){gets_s(s[i],n + 1);}printf("\n");//找最优解for (int j = 0; j < n; j++){int arr[MAX_ARR]= { 0 };//统计各个字母的个数for (int i = 0; i < m; i++){arr[s[i][j]] += 1;}//找个数最多的字母int sign = 0;int max = 0;for (int k = 65; k <= 90; k++){if (k == 65){max = arr[k];sign = k;}else if (max < arr[k]){max = arr[k];sign = k;}}//计算距离,打印一列的最优解count = count + (m - arr[sign]);printf("%c", sign);}printf("\n%d",count);//空间释放for (int i = 0; i < m; i++){free(s[i]);s[i] = NULL;}free(s);s = NULL;return 0;
}

 

思路:1.遍历每一列字符序列,并将出现的次数存在数组中;

2.序列的每一列找出出现次数最多的字母,并打印出来(即为最优解);(特殊情况:遇到最大数字相同的字母,打印字典序小的字母,这里代码的处理方式是:由于遍历是由下标从大到小遍历,所以对应字典序也是从小到大的,又由于判断条件是max  < arr[k],所以sign小标不会更新,打印的仍然是字典序小的字母)

3.最小距离为每一列与最优解不同的字母的总和。

这篇关于DNA序列 DNA Consensus String的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/513174

相关文章

uva 10131 最长子序列

题意: 给大象的体重和智商,求体重按从大到小,智商从高到低的最长子序列,并输出路径。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vect

POJ1631最长单调递增子序列

最长单调递增子序列 import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.io.PrintWriter;import java.math.BigInteger;import java.util.StringTokenizer;publ

leetcode105 从前序与中序遍历序列构造二叉树

根据一棵树的前序遍历与中序遍历构造二叉树。 注意: 你可以假设树中没有重复的元素。 例如,给出 前序遍历 preorder = [3,9,20,15,7]中序遍历 inorder = [9,3,15,20,7] 返回如下的二叉树: 3/ \9 20/ \15 7   class Solution {public TreeNode buildTree(int[] pr

string字符会调用new分配堆内存吗

gcc的string默认大小是32个字节,字符串小于等于15直接保存在栈上,超过之后才会使用new分配。

day-50 求出最长好子序列 I

思路 二维dp,dp[i][h]表示nums[i] 结尾,且有不超过 h 个下标满足条件的最长好子序列的长度(0<=h<=k),二维数组dp初始值全为1 解题过程 状态转换方程: 1.nums[i]==nums[j],dp[i,h]=Math.max(dp[i,h],dp[j,h]+1) 2.nums[i]!=nums[j],dp[i,h]=Math.max(dp[i,h],dp[j,h-1

LeetCode:3177. 求出最长好子序列 II 哈希表+动态规划实现n*k时间复杂度

3177. 求出最长好子序列 II 题目链接 题目描述 给你一个整数数组 nums 和一个非负整数k 。如果一个整数序列 seq 满足在下标范围 [0, seq.length - 2] 中 最多只有 k 个下标i满足 seq[i] != seq[i + 1] ,那么我们称这个整数序列为好序列。请你返回 nums中好子序列的最长长度。 实例1: 输入:nums = [1,2,1,1,3],

用Python实现时间序列模型实战——Day 14: 向量自回归模型 (VAR) 与向量误差修正模型 (VECM)

一、学习内容 1. 向量自回归模型 (VAR) 的基本概念与应用 向量自回归模型 (VAR) 是多元时间序列分析中的一种模型,用于捕捉多个变量之间的相互依赖关系。与单变量自回归模型不同,VAR 模型将多个时间序列作为向量输入,同时对这些变量进行回归分析。 VAR 模型的一般形式为: 其中: ​ 是时间  的变量向量。 是常数向量。​ 是每个时间滞后的回归系数矩阵。​ 是误差项向量,假

时间序列|change point detection

change point detection 被称为变点检测,其基本定义是在一个序列或过程中,当某个统计特性(分布类型、分布参数)在某时间点受系统性因素而非偶然因素影响发生变化,我们就称该时间点为变点。变点识别即利用统计量或统计方法或机器学习方法将该变点位置估计出来。 Change Point Detection的类型 online 指连续观察某一随机过程,监测到变点时停止检验,不运用到

OBItools:Linux下的DNA条形码分析神器

在生物信息学领域,DNA条形码分析是一种非常常见的研究方法,用于物种鉴定、生态学和进化生物学研究。今天要介绍的工具就是专为此设计的——OBItools。这个工具集专门用于处理生态学和进化生物学中的DNA条形码数据,在Linux环境下运行。无论你是本科生还是刚入门的科研人员,OBItools都能为你提供可靠的帮助。 OBItools的功能亮点 OBItools是一个强大的工具包,特别适合DNA条形

Leetcode面试经典150题-128.最长连续序列-递归版本另解

之前写过一篇这个题的,但是可能代码比较复杂,这回来个简洁版的,这个是递归版本 可以看看之前的版本,两个版本面试用哪个都保过 解法都在代码里,不懂就留言或者私信 class Solution {/**对于之前的解法,我现在提供一共更优的解,但是这种可能会比较难懂一些(思想方面)代码其实是很简洁的,总体思想如下:不需要排序直接把所有数放入map,map的key是当前数字,value是当前数开始的