从基因组获取fasta文件并计算Nx0脚本

2024-02-15 11:59

本文主要是介绍从基因组获取fasta文件并计算Nx0脚本,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

从基因组获取fasta文件并计算Nx0脚本

import sys
from Bio import SeqIO 
from Bio.SeqRecord import SeqRecord
from Bio.Seq import Seq
import re #正则表达式

我们先导入模块,sys将参数提取到脚本外,实现把路径跟在脚本后面直接跑即可。SeqIO是Bio里面的子包,用于序列信息提取,re为正则表达式载入。

读取文件

fn = 'sys.argv[1]'
seq_index = SeqIO.index(fn,'fasta')
chr_len = {k:len(v.seq) for k,v in seq_index.items()} # 列表推导式 迭代文章有讲 取出id并且算出序列长。

我们一般倾向于seq_index的使用保存为字典后比较好提取内容。

计算

简单信息:总长、条数、平均长度

n = len(chr_len)
total_len = sum(chr_len.values())
mean_len = total_len / n

最长序列

longest_id, longest_len = max(chr_len.items(), key=lambda x:x[1])

使用max函数求最长序列。

N50

def Nx0(l,x):'''该函数用于计算Nx0, 接受两个参数:l : 长度列表x : N50 | N60 | N70...返回两个值:idx : Nx0 的编号nx0 : Nx0 的长度'''l = sorted(l, reverse=True)p = int(x[1:]) / 100total_len = sum(l)nx0 = idx = cumsum = 0for i,v in enumerate(l, start = 1):cumsum += vif cumsum >= total_len * p:idx = inx0 = vbreak  return idx, nx0

定义函数,输入两个参数,然后输出两个参数,if的一个简单判断。

N count 和Gaps

n_count =0
gaps = 0
for k,v in seq_index.items():s= str(v.seq)                     # 正则表达式需要转换为字符串。n_count += s.count('N')gaps += len(re.split('N+',s))-1   #通过切割序列数来定义Gaps。

计算序列碱基里面的N的数量,还有Gaps的数量。

打印

fi_name = fn.split('/')[-1]
print('stats for {}'.format(fi_name))
print('sum = {}, n = {}, ave = {}, largest = {}'\.format(total_len, n, mean_len, longest_id))for n in ('N50', 'N60', 'N70', 'N80', 'N90', 'N100'):idx, nx0 = Nx0(chr_len.values(), n)print('{} = {}, n = {}'.format(n, nx0, idx))print('count ={}'.format(n_count))print('Gaps = {}'.format(gaps))

测试数据图
感觉在R语言里面,执行Python脚本感觉还是挺麻烦的,特别是我的终端特别的卡,而且终端输入文件路径时正斜线与反斜线的交叉使用让我很头疼,虽然能联动但是感觉还是挺麻烦的,不知道是我技术有限还是因为确实如此。

小结

弥补了上一个脚本不能计算Count与Gaps的问题,并且学习了新的模块,也不算模块吧,相当于新的包,提取序列的id,name,seq,还是挺方便的,大小写转化,反向互补什么的,就不需要依赖其它网站或者软件了,一行代码就搞定了,这点感觉还是挺不错的。特别是批量转换的时候,会体现出很大的优势。

没什么好聊的了,日常鸡汤:对待生命你不妨大胆冒险一点, 因为好歹你要失去它。如果这世界上真有奇迹,那只是努力的另一个名字。没有人可以拯救自己,到最后拯救你的只有你自己。绝处逢生的喜悦,大难不死的庆幸,都不是你所想象的“人品守恒”。在这个世界面前,生活是无比具体而烦琐的藤蔓,你只有从中体会到酸甜苦辣才知道它最后的余香。生命是需要奋斗的,奋斗与不奋斗,造就的结果截然不同。生无所息,保持奋斗的姿态,让世界变得如此灿烂,让你的人生绚烂多姿。千万不能满足小溪的平缓,否则你也就满足了自己的平庸,只有欣赏到山峰的险峻,才有机会欣赏自己。

这篇关于从基因组获取fasta文件并计算Nx0脚本的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/711339

相关文章

5分钟获取deepseek api并搭建简易问答应用

《5分钟获取deepseekapi并搭建简易问答应用》本文主要介绍了5分钟获取deepseekapi并搭建简易问答应用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1、获取api2、获取base_url和chat_model3、配置模型参数方法一:终端中临时将加

C#实现系统信息监控与获取功能

《C#实现系统信息监控与获取功能》在C#开发的众多应用场景中,获取系统信息以及监控用户操作有着广泛的用途,比如在系统性能优化工具中,需要实时读取CPU、GPU资源信息,本文将详细介绍如何使用C#来实现... 目录前言一、C# 监控键盘1. 原理与实现思路2. 代码实现二、读取 CPU、GPU 资源信息1.

Linux中shell解析脚本的通配符、元字符、转义符说明

《Linux中shell解析脚本的通配符、元字符、转义符说明》:本文主要介绍shell通配符、元字符、转义符以及shell解析脚本的过程,通配符用于路径扩展,元字符用于多命令分割,转义符用于将特殊... 目录一、linux shell通配符(wildcard)二、shell元字符(特殊字符 Meta)三、s

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

java脚本使用不同版本jdk的说明介绍

《java脚本使用不同版本jdk的说明介绍》本文介绍了在Java中执行JavaScript脚本的几种方式,包括使用ScriptEngine、Nashorn和GraalVM,ScriptEngine适用... 目录Java脚本使用不同版本jdk的说明1.使用ScriptEngine执行javascript2.

C#实现获取电脑中的端口号和硬件信息

《C#实现获取电脑中的端口号和硬件信息》这篇文章主要为大家详细介绍了C#实现获取电脑中的端口号和硬件信息的相关方法,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 我们经常在使用一个串口软件的时候,发现软件中的端口号并不是普通的COM1,而是带有硬件信息的。那么如果我们使用C#编写软件时候,如

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

C#实现WinForm控件焦点的获取与失去

《C#实现WinForm控件焦点的获取与失去》在一个数据输入表单中,当用户从一个文本框切换到另一个文本框时,需要准确地判断焦点的转移,以便进行数据验证、提示信息显示等操作,本文将探讨Winform控件... 目录前言获取焦点改变TabIndex属性值调用Focus方法失去焦点总结最后前言在一个数据输入表单