基于动态规划算法的DNA序列比对函数,给出两条序列(v和w)的打分矩阵

2024-05-24 11:36

本文主要是介绍基于动态规划算法的DNA序列比对函数,给出两条序列(v和w)的打分矩阵,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.什么是动态规划算法

1.1总体思想

·动态规划算法与分治法类似,基本思想也是将待求解的问题分成若干个子问题

·经过分解得到的子问题往往不是互相独立的,有些子问题被重复计算多次

·如果能够保存已解决的子问题答案,在需要时再找出来已求得的答案,就可以避免大量重复计算,从而得到多项式时间算法(备忘录)

1.2使用动态规划求解的问题需要具备的基本要素

1)重复子问题

·递归算法求解问题时,每次产生的子问题并不总是新问题,有些子问题被反复计算多次,这种性质被称为子问题的重叠性质

·动态规划算法,对每一个子问题只解一次,而后将其解保存在一个表格中,当再次需要解此子问题时,只是简单地用常数时间查看一下结果。

·通常不同的子问题个数随问题的大小呈多项式增长,用动态规划算法只需要多项式时间,从而获得较高的解题效率。

2)最优子结构

·一个问题的最优解包含着其子问题的最优解,这种性质称为最优子结构性质

·分析问题的最优子结构性质,首先假设由问题的最优解导出的子问题的解不是最优,然后再设法说明在这个假设下可构造出比原问题最优解更好的解,从而导致矛盾

·利用问题的最优子结构性质,以自底向上的方式递归地从子问题的最优解逐步构造出整个问题的最优解

·最优子结构是一个问题能用动态规划算法求解的前提

1.3动态规划求解的基本步骤

1)找出最优解的性质,并刻画其结构特征

2)递归地定义最优质

3)以自底向上的方式计算出最优值

4)根据计算最优值时得到的信息,构造最优解

二.打分矩阵代码

import random  # 1. 生成一个指定长度的随机DNA序列  
def generate_dna(length):  dna_bases = 'ACGT'  # DNA的四个碱基  sequence = ''  # 初始化空序列  for _ in range(length):  # 循环length次  sequence += random.choice(dna_bases)  # 每次从四个碱基中随机选一个添加到序列中  return sequence  # 返回生成的DNA序列  # 2. 在DNA序列中随机位置插入一个可能突变的motif  
def insert_motif(dna, motif, mutation_rate):  mutated_motif = ''  # 初始化突变的motif为空字符串  for base in motif:  # 遍历motif中的每个碱基  if random.random() < mutation_rate:  # 如果随机数小于突变率  mutated_motif += random.choice('ACGT')  # 则该位置碱基随机突变  else:  mutated_motif += base  # 否则保持原样  insert_point = random.randint(0, len(dna))  # 在DNA序列中随机选择一个插入点  return dna[:insert_point] + mutated_motif + dna[insert_point:]  # 插入突变的motif  # 3. 生成多条带有随机插入motif的DNA序列  
def generate_sequences(num_sequences, dna_length, motif_length, mutation_rate):  sequences = []  # 初始化一个空列表来存储生成的序列  motif = generate_dna(motif_length)  # 生成一个随机的motif  for _ in range(num_sequences):  # 循环生成指定数量的序列  dna = generate_dna(dna_length)  # 生成一个DNA序列  dna_with_motif = insert_motif(dna, motif, mutation_rate)  # 插入motif  sequences.append(dna_with_motif)  # 将序列添加到列表中  return sequences  # 返回生成的序列列表  # 使用函数生成序列并打印  
sequences = generate_sequences(5, 20, 5, 0.1)  
for seq in sequences:  print(seq)

三.编写一个函数,生成m条DNA序列,每条序列长度为k,然后对每条序列随机插入一个长度为L的motif,motif的突变率为n

import random  # 1. 生成一个指定长度的随机DNA序列  
def generate_dna(length):  dna_bases = 'ACGT'  # DNA的四个碱基  sequence = ''  # 初始化空序列  for _ in range(length):  # 循环length次  sequence += random.choice(dna_bases)  # 每次从四个碱基中随机选一个添加到序列中  return sequence  # 返回生成的DNA序列  # 2. 在DNA序列中随机位置插入一个可能突变的motif  
def insert_motif(dna, motif, mutation_rate):  mutated_motif = ''  # 初始化突变的motif为空字符串  for base in motif:  # 遍历motif中的每个碱基  if random.random() < mutation_rate:  # 如果随机数小于突变率  mutated_motif += random.choice('ACGT')  # 则该位置碱基随机突变  else:  mutated_motif += base  # 否则保持原样  insert_point = random.randint(0, len(dna))  # 在DNA序列中随机选择一个插入点  return dna[:insert_point] + mutated_motif + dna[insert_point:]  # 插入突变的motif  # 3. 生成多条带有随机插入motif的DNA序列  
def generate_sequences(num_sequences, dna_length, motif_length, mutation_rate):  sequences = []  # 初始化一个空列表来存储生成的序列  motif = generate_dna(motif_length)  # 生成一个随机的motif  for _ in range(num_sequences):  # 循环生成指定数量的序列  dna = generate_dna(dna_length)  # 生成一个DNA序列  dna_with_motif = insert_motif(dna, motif, mutation_rate)  # 插入motif  sequences.append(dna_with_motif)  # 将序列添加到列表中  return sequences  # 返回生成的序列列表  # 使用函数生成序列并打印  
sequences = generate_sequences(5, 20, 5, 0.1)  
for seq in sequences:  print(seq)

四.对生成的已插入突变motif的序列集合,编写一套函数,寻找其中的motif,可指定motif长度;

# 定义一个名为 find 的函数,它接受两个参数:  
# sequence_set 是一个包含多个 DNA 序列的列表  
# motif_length 是我们想要查找的子序列(也称为 motif)的长度  
def find(sequence_set, motif_length):    # 初始化一个空集合 motifs,用于存储找到的所有唯一的 motif  motifs = set()    # 遍历 sequence_set 中的每一条序列  for sequence in sequence_set:    # 对于每一条序列,我们从其第一个碱基开始,直到剩下的碱基数量少于 motif_length 为止  # 这样确保我们可以从序列中提取出完整长度的 motif  for i in range(len(sequence) - motif_length + 1):    # 从当前位置 i 开始,提取长度为 motif_length 的子序列  motif = sequence[i:i+motif_length]    # 将提取到的 motif 添加到 motifs 集合中  # 由于 motifs 是一个集合,所以重复的 motif 会被自动去除  motifs.add(motif)    # 函数返回包含所有唯一 motif 的集合  return motifs    # 测试数据:一个包含三条 DNA 序列的列表和一个 motif 长度值  
sequence_set = ['ACGTTAGC', 'GTATCGAG', 'CGTACGTA']    
motif_length = 4    # 调用 find 函数,传入测试数据,并将返回的结果存储在变量 motifs 中  
motifs = find(sequence_set, motif_length)    
# 打印出找到的所有唯一 motif  
print(motifs)

五.对生成的已插入突变motif的序列集合,编写一套函数,基于分支界定法寻找指定长度的motif,并与遍历法比较计算效率

import itertools  
import time  # 计算motif在序列中的得分  
def calculate_score(motif, sequences):  score = 0  for seq in sequences:  min_distance = float('inf')  for i in range(len(seq) - len(motif) + 1):  distance = sum(motif[j] != seq[i + j] for j in range(len(motif)))  min_distance = min(min_distance, distance)  score += min_distance  return score  # 分支界定法  
def find_motif_branch_bound(sequences, motif_length):  best_motif = None  best_score = float('inf')  def search(motif, depth):  nonlocal best_motif, best_score  if depth == motif_length:  score = calculate_score(motif, sequences)  if score < best_score:  best_score = score  best_motif = motif  return  for base in 'ACGT':  search(motif + base, depth + 1)  start_time = time.time()  search('', 0)  end_time = time.time()  return best_motif, end_time - start_time  # 遍历法  
def find_motif_brute_force(sequences, motif_length):  best_motif = None  best_score = float('inf')  start_time = time.time()  for motif in itertools.product('ACGT', repeat=motif_length):  motif = ''.join(motif)  score = calculate_score(motif, sequences)  if score < best_score:  best_score = score  best_motif = motif  end_time = time.time()  return best_motif, end_time - start_time  # 示例序列集合和motif长度  
sequences = ['ACGTAGCTAG', 'ACGGATCGTA', 'TAGCTAGCTA', 'TCGATCGATT']  
motif_length = 3  # 使用分支界定法寻找motif  
motif_bb, time_bb = find_motif_branch_bound(sequences, motif_length)  
print(f"Branch and Bound Motif: {motif_bb}, Time: {time_bb:.4f}s")  # 使用遍历法寻找motif  
motif_bf, time_bf = find_motif_brute_force(sequences, motif_length)  
print(f"Brute Force Motif: {motif_bf}, Time: {time_bf:.4f}s")

这篇关于基于动态规划算法的DNA序列比对函数,给出两条序列(v和w)的打分矩阵的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/998294

相关文章

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

Python itertools中accumulate函数用法及使用运用详细讲解

《Pythonitertools中accumulate函数用法及使用运用详细讲解》:本文主要介绍Python的itertools库中的accumulate函数,该函数可以计算累积和或通过指定函数... 目录1.1前言:1.2定义:1.3衍生用法:1.3Leetcode的实际运用:总结 1.1前言:本文将详

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

关于最长递增子序列问题概述

《关于最长递增子序列问题概述》本文详细介绍了最长递增子序列问题的定义及两种优化解法:贪心+二分查找和动态规划+状态压缩,贪心+二分查找时间复杂度为O(nlogn),通过维护一个有序的“尾巴”数组来高效... 一、最长递增子序列问题概述1. 问题定义给定一个整数序列,例如 nums = [10, 9, 2

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

MySQL数据库函数之JSON_EXTRACT示例代码

《MySQL数据库函数之JSON_EXTRACT示例代码》:本文主要介绍MySQL数据库函数之JSON_EXTRACT的相关资料,JSON_EXTRACT()函数用于从JSON文档中提取值,支持对... 目录前言基本语法路径表达式示例示例 1: 提取简单值示例 2: 提取嵌套值示例 3: 提取数组中的值注意

Java使用POI-TL和JFreeChart动态生成Word报告

《Java使用POI-TL和JFreeChart动态生成Word报告》本文介绍了使用POI-TL和JFreeChart生成包含动态数据和图表的Word报告的方法,并分享了实际开发中的踩坑经验,通过代码... 目录前言一、需求背景二、方案分析三、 POI-TL + JFreeChart 实现3.1 Maven

Java导出Excel动态表头的示例详解

《Java导出Excel动态表头的示例详解》这篇文章主要为大家详细介绍了Java导出Excel动态表头的相关知识,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录前言一、效果展示二、代码实现1.固定头实体类2.动态头实现3.导出动态头前言本文只记录大致思路以及做法,代码不进

Java function函数式接口的使用方法与实例

《Javafunction函数式接口的使用方法与实例》:本文主要介绍Javafunction函数式接口的使用方法与实例,函数式接口如一支未完成的诗篇,用Lambda表达式作韵脚,将代码的机械美感... 目录引言-当代码遇见诗性一、函数式接口的生物学解构1.1 函数式接口的基因密码1.2 六大核心接口的形态学

vue基于ElementUI动态设置表格高度的3种方法

《vue基于ElementUI动态设置表格高度的3种方法》ElementUI+vue动态设置表格高度的几种方法,抛砖引玉,还有其它方法动态设置表格高度,大家可以开动脑筋... 方法一、css + js的形式这个方法需要在表格外层设置一个div,原理是将表格的高度设置成外层div的高度,所以外层的div需要