[python项目一]查找输出fasta序列的gap的起始终止等信息

2024-03-14 15:58

本文主要是介绍[python项目一]查找输出fasta序列的gap的起始终止等信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、需要实现的程序内容及输出:

对于输入的fasta序列,编写程序查找里面N的起始,终止位置等信息,如下面的染色体test.fa序列为例:

>1 dna_sm:chromosome chromosome:UMD3.1:1:1:158337067:1 REF
aaattagacactgaagagacttggaaagagaggaagtcaaataacaaagaagaggaaacc
aaaagggcctatagaccttgagtattctcaaggtggaacaagaaactatctgaaattgaa
ccgacccccacgctgcccacaacagctccagagaaattcctagatatatttttactacta
tcataaAAAAAatgattgagtttattttgtatttttaatattgtatttttgagagtgtat
cttctctacttcactctgtgaatctctaggtgttctgggctgtggagaacacttagggaa
>2
ctgattactggctagatcagtctctccccttttgtttgcccttcttctcctcctggtcac
tccaaaacttgagaacaccaggaaactcctgactccaggaacattaatcaacaagagctc
atccaaaagcctccatacctacacggaaaccaagctccatccaagagccaacaagttcca
NNNTCTTTTGACTCTCCCTTTTCTCTCCCATGTCAGCTCTTTCTCCTCCCTCCCCCTTCT
gatcaagacataccatgctaattctccaacaacataggaacatagccctgaacattaaaa
tacaggctgcccaacgtcatgtcaaacccatagatgccccaaaactcactcctggacact
>3
tcattgcactccagagagaagagatccagttccaccgaccagaacacagatgcaagtttc
caaacccaatcaaaagaggaagagatagggagtctacctgaaaaagaattcagagtaatg
>4
gatcaataatgaataatgcaataacagatcaaaagaactctggagggaaacaacagtaga
ggcatgagaaaatacctgaggagataatagttgaaattttctctaaaatggggaaggaaa
atcctaagacatacattaatcaaattaatgaagaccaaacacaaagaacaaatattaaag
TTTTTTTTAATAAATGCCAATCTGTTTATGACTTAACTTGTCANNNNNNNNNNNNNNNNN
NNNNNNNNANNCCCTNNNNNNNNACTTCAGACAATAATGTTTTTTTAAAACCAGTCTAGT
TTCTTGGACTTCTAGTTGGATGGCTTCACCGACTTGAAGGACGTGAGTTTGAGTAAGTTC
CAAGAGTTAGTGATGGACAGGGAAGCCCGGTGTGCTGCAGTCCCTGGGGTGGCAAAGAGT

希望得到每一条染色体N的pos的起始位置,终止位置,长度以及中的Gap(N又称为Gap区域)的总长及总数目,输出结果为:

test.fa.pos:

ID=>2   180     182     3
ID=>4   223     247     25
ID=>4   249     250     2
ID=>4   255     262     8

test.fa.stat:

Total_gap_num=4,Total_gap_len=38


二、用perl的相应的程序如下:

#/user/bin/perl -w
use strict;
unless(@ARGV==1){
die"Usage:perl $0 <input.fa>\n";
}
my($infile)=@ARGV;
open IN,$infile||die"error:can't open infile:$infile";
my $outfile1=$infile."_out";
my $outfile2=$infile."_stat";
open OUT,">$outfile1"||die$!;
open OUTT,">$outfile2"||die$!;
$/=">";<IN>;
my $start=0;
my $skip=0;
my $step;
my $len=1;
my $stop;
my $end;
my $total_len=0;
my $number=0;
my $num_1bp=0;
my $line;
my $i;
while(my $seq=<IN>)
{
if(index($seq,"N")!=-1)
{#if-1
my $id=$1 if($seq=~/^(\S+)/);
chomp $seq;
$seq=~s/^.+?\n//;
$seq=~s/\s//g;
if(index($seq,"N")==-1)
{
last;
}
$step=0;
$stop=1;
$start=index($seq,"N",$step)+1;
$step=$start-1;
$skip=$step;
print "start=$start\tstep=$step\tskip=$skip\n";
while($stop)
{#while -2
$skip=index($seq,"N",$step+1);
print "in while:skip=$skip\tstep=$step\n";
if($skip==($step+1))
{#if skip (49)
print "in-while-if:skip=$skip\tstep=$step\n";
$len++;
$step++;
next;
}else{
print "in-while-else:skip=$skip\tstep=$step\n";
if($skip!=-1)
{#if skip != -1 (55)
print "else-if:skip=$skip\tstep=$step\n";
if($len!=1){
$end=$start+$len-1;
}
else{
$num_1bp++;
$end=$start;
}
$total_len+=$len;
$number++;
print OUT"if-$id\t$start\t$end\t$len\n";


$step=$skip;
$start=$skip+1;
$len=1;
}else{
print "else-else:skip=$skip\tstep=$step\n";
if($len!=1){
$end=$start+$len-1;
}
else{
$num_1bp++;
$end=$start;
}
$total_len+=$len;
$number++;
print OUT"else-$id\t$start\t$end\t$len\n";
$stop=0;
$len=1;


}#if-else- (56)
}#if-else- (49)
}#while -2
       }#if-1
}#while 
print OUTT "total_length\t $total_len\ngap_number\t$number\n1bp_gap_number\t$num_1bp\n";
$/="\n";
close IN;
close OUT;


三、用python编写的程序如下:

#-*- coding=utf-8 -*-
#输出gap的起始位置,终止位置,长度等位置信息
import os,sys
import re


class Fasta():
    def __init__(self,name,sequence):
        self.name=name
        self.sequence=sequence


def process_fasta(infile):
    reader=infile.readlines()
    index=0
    increace=[]
    for line in reader:
        line=line.strip()
        if line.startswith('>'):
            if index >=1:
                 increace.append(instance)
            id=line
            seq=''
            index += 1
        else:
            seq += line
            instance=Fasta(id,seq)
    increace.append(instance)
    return increace


def find_N(List):
    gap_num=0
    gap_len=0
    for t in List:
        str1=t.sequence
        start=0
        end=0
        length=1
        if(str1.find('N') != -1):
            indel = str1.find('N',start)
            start = indel
            step = start 
            skip = step
            flag=True
            N_array=re.split('[N+]{1,}',str1)
            while(flag):
                skip=str1.find('N',step+1)
                if(skip - 1 == step):
                    #前后两次查找的N的index相差1,说明N是连续的
                    step += 1
                    length +=1
                    continue 
                else:
                    #前后两次index相差不为1,说明N之间出现了其他碱基
                    if (skip != -1):
                        #说明后面还有N
                        end = bool(length !=1) and start+length -1 or start
                        step=skip
                        outfile1.write("ID=%s\t%d\t%d\t%d\n" %(t.name,start,end,length))
                        length=1
                        start=step
                    else:
                        #说明后面已经没有N了
                        end = bool(length !=1) and start+length -1 or start
                        outfile1.write("ID=%s\t%d\t%d\t%d\n" %(t.name,start,end,length))
                        length=1                           
                        flag=False
            gap_len += str1.count('N')
            gap_num += len(N_array) -1
    outfile2.write("Total_gap_num=%d,Total_gap_len=%d\n" %(gap_num,gap_len))
    
if __name__ == '__main__':
    infile=open(sys.argv[1],'r')
    outfile1=open(sys.argv[1]+'.pos','w')
    outfile2=open(sys.argv[1]+'.stat','w')


    List=process_fasta(infile)
    find_N(List) 


    infile.close()                           
    outfile1.close()
    outfile2.close()


四、总结:

      编程思路请见下面的逻辑图

     


这篇关于[python项目一]查找输出fasta序列的gap的起始终止等信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/808915

相关文章

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中反转字符串的常见方法小结

《Python中反转字符串的常见方法小结》在Python中,字符串对象没有内置的反转方法,然而,在实际开发中,我们经常会遇到需要反转字符串的场景,比如处理回文字符串、文本加密等,因此,掌握如何在Pyt... 目录python中反转字符串的方法技术背景实现步骤1. 使用切片2. 使用 reversed() 函

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

使用Docker构建Python Flask程序的详细教程

《使用Docker构建PythonFlask程序的详细教程》在当今的软件开发领域,容器化技术正变得越来越流行,而Docker无疑是其中的佼佼者,本文我们就来聊聊如何使用Docker构建一个简单的Py... 目录引言一、准备工作二、创建 Flask 应用程序三、创建 dockerfile四、构建 Docker

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

在Linux中改变echo输出颜色的实现方法

《在Linux中改变echo输出颜色的实现方法》在Linux系统的命令行环境下,为了使输出信息更加清晰、突出,便于用户快速识别和区分不同类型的信息,常常需要改变echo命令的输出颜色,所以本文给大家介... 目python录在linux中改变echo输出颜色的方法技术背景实现步骤使用ANSI转义码使用tpu

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Python使用python-can实现合并BLF文件

《Python使用python-can实现合并BLF文件》python-can库是Python生态中专注于CAN总线通信与数据处理的强大工具,本文将使用python-can为BLF文件合并提供高效灵活... 目录一、python-can 库:CAN 数据处理的利器二、BLF 文件合并核心代码解析1. 基础合

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文