从基因组获取fasta文件并计算Nx0脚本

2024-02-15 11:59

本文主要是介绍从基因组获取fasta文件并计算Nx0脚本,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

从基因组获取fasta文件并计算Nx0脚本

import sys
from Bio import SeqIO 
from Bio.SeqRecord import SeqRecord
from Bio.Seq import Seq
import re #正则表达式

我们先导入模块,sys将参数提取到脚本外,实现把路径跟在脚本后面直接跑即可。SeqIO是Bio里面的子包,用于序列信息提取,re为正则表达式载入。

读取文件

fn = 'sys.argv[1]'
seq_index = SeqIO.index(fn,'fasta')
chr_len = {k:len(v.seq) for k,v in seq_index.items()} # 列表推导式 迭代文章有讲 取出id并且算出序列长。

我们一般倾向于seq_index的使用保存为字典后比较好提取内容。

计算

简单信息:总长、条数、平均长度

n = len(chr_len)
total_len = sum(chr_len.values())
mean_len = total_len / n

最长序列

longest_id, longest_len = max(chr_len.items(), key=lambda x:x[1])

使用max函数求最长序列。

N50

def Nx0(l,x):'''该函数用于计算Nx0, 接受两个参数:l : 长度列表x : N50 | N60 | N70...返回两个值:idx : Nx0 的编号nx0 : Nx0 的长度'''l = sorted(l, reverse=True)p = int(x[1:]) / 100total_len = sum(l)nx0 = idx = cumsum = 0for i,v in enumerate(l, start = 1):cumsum += vif cumsum >= total_len * p:idx = inx0 = vbreak  return idx, nx0

定义函数,输入两个参数,然后输出两个参数,if的一个简单判断。

N count 和Gaps

n_count =0
gaps = 0
for k,v in seq_index.items():s= str(v.seq)                     # 正则表达式需要转换为字符串。n_count += s.count('N')gaps += len(re.split('N+',s))-1   #通过切割序列数来定义Gaps。

计算序列碱基里面的N的数量,还有Gaps的数量。

打印

fi_name = fn.split('/')[-1]
print('stats for {}'.format(fi_name))
print('sum = {}, n = {}, ave = {}, largest = {}'\.format(total_len, n, mean_len, longest_id))for n in ('N50', 'N60', 'N70', 'N80', 'N90', 'N100'):idx, nx0 = Nx0(chr_len.values(), n)print('{} = {}, n = {}'.format(n, nx0, idx))print('count ={}'.format(n_count))print('Gaps = {}'.format(gaps))

测试数据图
感觉在R语言里面,执行Python脚本感觉还是挺麻烦的,特别是我的终端特别的卡,而且终端输入文件路径时正斜线与反斜线的交叉使用让我很头疼,虽然能联动但是感觉还是挺麻烦的,不知道是我技术有限还是因为确实如此。

小结

弥补了上一个脚本不能计算Count与Gaps的问题,并且学习了新的模块,也不算模块吧,相当于新的包,提取序列的id,name,seq,还是挺方便的,大小写转化,反向互补什么的,就不需要依赖其它网站或者软件了,一行代码就搞定了,这点感觉还是挺不错的。特别是批量转换的时候,会体现出很大的优势。

没什么好聊的了,日常鸡汤:对待生命你不妨大胆冒险一点, 因为好歹你要失去它。如果这世界上真有奇迹,那只是努力的另一个名字。没有人可以拯救自己,到最后拯救你的只有你自己。绝处逢生的喜悦,大难不死的庆幸,都不是你所想象的“人品守恒”。在这个世界面前,生活是无比具体而烦琐的藤蔓,你只有从中体会到酸甜苦辣才知道它最后的余香。生命是需要奋斗的,奋斗与不奋斗,造就的结果截然不同。生无所息,保持奋斗的姿态,让世界变得如此灿烂,让你的人生绚烂多姿。千万不能满足小溪的平缓,否则你也就满足了自己的平庸,只有欣赏到山峰的险峻,才有机会欣赏自己。

这篇关于从基因组获取fasta文件并计算Nx0脚本的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/711339

相关文章

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 1342 欧拉定理(计算几何模板)

题意: 给几个点,把这几个点用直线连起来,求这些直线把平面分成了几个。 解析: 欧拉定理: 顶点数 + 面数 - 边数= 2。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <

XTU 1237 计算几何

题面: Magic Triangle Problem Description: Huangriq is a respectful acmer in ACM team of XTU because he brought the best place in regional contest in history of XTU. Huangriq works in a big compa

Linux服务器Java启动脚本

Linux服务器Java启动脚本 1、初版2、优化版本3、常用脚本仓库 本文章介绍了如何在Linux服务器上执行Java并启动jar包, 通常我们会使用nohup直接启动,但是还是需要手动停止然后再次启动, 那如何更优雅的在服务器上启动jar包呢,让我们一起探讨一下吧。 1、初版 第一个版本是常用的做法,直接使用nohup后台启动jar包, 并将日志输出到当前文件夹n

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

Android Environment 获取的路径问题

1. 以获取 /System 路径为例 /*** Return root of the "system" partition holding the core Android OS.* Always present and mounted read-only.*/public static @NonNull File getRootDirectory() {return DIR_ANDR

centos6一键安装vsftpd脚本

centos6一键安装vsftpd脚本 手动安装vsftpd参考教程:Centos下安装Vsftpd的图文教程 vsftpd脚本功能: 1.安装 (命令执行:sh xxx.sh)2.添加ftp用户 (命令执行:sh xxx.sh add)3.卸载vsftpd (命令执行:sh xxx.sh uninstall) 测试环境:centos6 x64 centos6 x86(测试centos7以

计算数组的斜率,偏移,R2

模拟Excel中的R2的计算。         public bool fnCheckRear_R2(List<double[]> lRear, int iMinRear, int iMaxRear, ref double dR2)         {             bool bResult = true;             int n = 0;             dou

Android逆向(反调,脱壳,过ssl证书脚本)

文章目录 总结 基础Android基础工具 定位关键代码页面activity定位数据包参数定位堆栈追踪 编写反调脱壳好用的脚本过ssl证书校验抓包反调的脚本打印堆栈bilibili反调的脚本 总结 暑假做了两个月的Android逆向,记录一下自己学到的东西。对于app渗透有了一些思路。 这两个月主要做的是代码分析,对于分析完后的持久化等没有学习。主要是如何反编译源码,如何找到