NGS项目五:用R语言生成极端嗜盐古菌蛋白序列进化树

2023-10-25 08:39

本文主要是介绍NGS项目五:用R语言生成极端嗜盐古菌蛋白序列进化树,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

        基因表达数据分析和实验设计密不可分,总体来说,实验设计有两大类思路:一类是时间序列分析,主要思想是测定基因多个时间点的表达值,通过聚类和主成分分析等分析手段寻找调控基因,进而研究其深层机制;第二类是基因表达差异的限制性分析。

        所谓GO注释,就是将表示基因或其产物的ID映射到一组GOID上,用这组GOterm来描述这个基因。而实际应用中,人们更关心一组基因(比如差异表达基因)的共同点,因此会对它们所对应的所有GO的分布情况进行分析,有利于发现新的现象,或者集中到感兴趣的方向。

        GO富集分析的统计基础是超几何分布,简单来说就是根据下列Fisher精确检验(Fisherexact test)公式,对每个GOterm计算一个P值:

P=(M/k)((N-M)/(n-k))/(N/n)

       通路(Pathway)分析包括通路注释和通路富集分析。通路富集分析的基本思路、统计模型等基本和GO富集分析一致。常用的公共通路数据库主要有KEGGBioCartaGenMAPP。由于KEGG注释来源和授权问题,Biocondocutor已经转而使用更加开源的Reactome数据库。

        基因组或转录组序列的注释分析包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。主要有两种方法:一是通过相似性比对一直基因和蛋白序列得到简接证据;二是基于各种统计模型和算法从头预测。对从头预测出的基因进行高通量功能注释也是基于相似性搜索。

        ID映射可以通过编程自动化进行,大大提高了数据注释的效率。除了自行编程,常用的数据库ID之间的映射可以使用Uniprot数据库网站的工具。芯片数据处理过程中,经常将Affymetrix芯片组的ID映射到其他数据库ID,这方面的常用工具是NIH网站的DAVID(http://david.abcc.ncifcrf.gov/)

        对于一组差异基因,研究人员若关心这组基因富集到哪些基因本体论术语或者通路上,这就需要应用统计学方法来对富集的显著性进行定量。统计为后续研究指明了方向,是生物信息学研究的核心;而可视化可以帮组研究人员更好地理解统计结果,提供进一步研究的思路和灵感。R语言提供了强大的一体化的统计和绘图功能。

       反复阅读、调试源代码是学习计算机编程语言的唯一捷径。

      极端嗜盐古菌发展出许多复杂且完整的分子机制以对抗盐分、氧气、光和养分的变动,因此可以尝试从蛋白水平寻找某些序列特征,以期找到一些相关的机制。可分为以下五个方面:

A.将蛋白质序列批量导入;

B.统计每条序列的氨基酸百分比含量;

C特定模序匹配与统计,提取包含模序2次以上的蛋白质序列;

D 对提取的序列进行两两比对;

E 根据比对结果构建系统发育树。


A.将蛋白质序列批量导入;


>seq_import<-function(input_file){

+my_fasta<-readLines(input_file);

+y<-regexpr("^>",my_fasta,perl=T);

+ y[y==1]<-0;

+index<-which(y==0);

+distance<-data.frame(start=index[1:(length(index)-1)],end=index[2:length(index)]);

+distance<-rbind(distance,c(distance[length(distance[,1]),2],length(y)+1));

+distance<-data.frame(distance,dist=distance[,2]-distance[,1]);

+seq_no<-1:length(y[y==0]);

+index<-rep(seq_no,as.vector(distance[,3]));

+my_fasta<-data.frame(index,y,my_fasta);

+my_fasta[my_fasta[,2]==0,1]<-0;

+seqs<-tapply(as.vector(my_fasta[,3]),factor(my_fasta[,1]),paste,collapse="",simplify=F);

+seqs<-as.character(seqs[2:length(seqs)]);

+Desc<-as.vector(my_fasta[c(grep("^>",as.character(my_fasta[,3]),perl=TRUE)),3]);

+my_fasta<-data.frame(Desc,Length=nchar(seqs),seqs);

+Acc<-gsub(".*gb\\|(.*)\\|.*","\\1",as.character(my_fasta[,1],perl=T);

+my_fasta<-data.frame(Acc,my_fasta);

+my_fasta;

}


B.统计每条序列的氨基酸百分比含量;

pattern_match<-function(pattern,sequences,hit_num){

pos<-gregexpr(pattern,as,character(sequences[,4]),perl=T);

posv<-unlist(lapply(pos,paste,collapse=“,”));

posv[posv==-1]<-0;

hitsv<-unlist(lapply(pos,function(x)if(x[1]==-1){0}else{length(x)}));

sequences<-data.frame(sequences[,1:3],Position=as.vector(posv),His=hitsv,sequences[,4]);

tag<-gsub(“([A-Z]”,“\\L\\1”,as.character(sequences[sequences[,5]>hit_num,6]),perl=T,ignore.case=T);

pattern2=paste(“(“,pattern,”)”,seq=””);

tag<-gsub(pattern2,“\\U\\,1”,tag,perl=T,ignore.case=T);

export<-data.frame(sequences[sequences[sequences[,5]>hit_num,-6],tag);

export<-data.frame(Acc=paste(“>”,export[,1],seq=“”),seq=export[,6];

write.table(as.vector(as.character(t(export))),file=“Hit_sequences.fasta”,quote=F,row.names=F,col.names=F);

cat(“含有模序\””,pattern,”\”超过”,hit_num,“个的所有蛋白质序列已经写入当前工作目录下文件“Hit_sequence.fasta””,”\n”,seq=””);

selected<-sequences[sequences[,5]>hit_num,];

cat(“极端嗜盐古菌蛋白组中以下序列含有模序\””,pattern,”\”的数量超过2个:”,“\n”,seq=””);

print(selected[,1:5]);

selected;

}

C特定模序匹配与统计,提取包含模序2次以上的蛋白质序列;

getAApercentage<-function(sequences){

AA<-data.frame(AA=c(“A”,”C”,”D”,”E”,”F”,”G”,”H”,”I”,”K”,”L”,”M”,”N”,”P”,”Q”,”R”,”S”,”T”,”V”,”W”,”Y”));

Aastat<-lapply(strsplit(as.character(sequences[,6]),””),table);

for(i in1:length(AAstat)){

Aaperc<-Aastat[[i]]/sequences[,3][i]*100;

Aaperc<-as.data.frame(AAperc);

names(AAperc)[2]<-as.vector(sequences[i,1]);

AA<-merge(AA,Aaperc,by.x=”AA”,by.y=”Varl”,all=T);

}

for(i in1:length(AA[[1]])){

forjin 1:length(AA)){

if(is.na(AA[i,j])){
AA[i,j]<-0;

}

}

}

Aapercentage<-data.frame(AA,Mean=apply(AA[,2:length(AA)],1,mean,na.rm=T));

write.csv(AApercentage,file=”AApercentage.csv”,row.names=F,quote=F);

AApercentage;

}


D 对提取的序列进行两两比对;

seq_alignment<-function(sequences){

shell(“del/fmy_needle_file”);

for(i in1:length(sequences[,1])){

cat(as.character(paste(“>”,as.vector(sequences[i,1]),seq=””)),as.character(as.vector(sequences[i,6])),file=”file1”,seq=”\n”);

for(j in1:length(sequences[,1])){

cat(as.character(paste(“>”,as.vector(sequences[j,1]),seq=””)),as.character(as.vector(sequences[i,6])),file=”file1”,seq=”\n”);

shell(“needlefile1 file2 stdout -gapopen 10.0 -gapextend 0.5 >>my_needle_file\”\n”);

}
}

cat(“Needle程序完成所有序列的两两比对,结果存入文件\”my_needle_file\”\n”);

}

E1定义函数’getScoreMatrix‘求得得分矩阵

getScoreMatrix<-function(sequences){

score<-readLine(“my_needle_file”);

score<-score[grep(“^#Score”,score,perl=T)];

score<-gsub(“.*”,””,as.character(score),perl=T);

score<-as.numeric(score);

scorem<-matrix(score,length(sequences[,1]),length(sequence[,1]),dimnames=list(as.vector(sequences[,1]),as.vector(sequence[,1])));

scorem.dist<-as.dist(1/scorem);

hc<-hclust(scorem.dist,method=”complete”);

plot(hc,hang=-1,main=”DistanceTree Based on Needle All-Against-All Comparison”,xlab=”sequencename”,ylab=”distance”);

scorem;

}

E2定义函数’infile_produce'

infile_produce<-function(scorem){

z<-l/scorem;

len=sqrt(length(scorem));

z[seq(1,length(scorem),by=(len+1))]<-0;

z<-round(z,7);

write.table(len,file=”infile”,quote=F,row.names=F,col.names=F);

write.table(as.data.frame(z),file=”infile”,append=T,quote=F,col.names=F,seq=”\t”);

cat(“Phylip格式的距离矩阵已经输出到工作目录下名为‘infile'的文件,以便使用Phylip软件继续进行分析。”,“\n”);

}


课题实现

A调用函数’seq_import'导入数据

setwd(“C:/workingdirectory”);

my_file<-”AE004437.faa”;

my_sequence<-seq_import(input_file=my_file);

B调用函数‘pattern_match'寻找模序

hit_sequences<-pattern_match(pattern=”H..H{1,2}”,sequences=my_sequences,hit_num=2)

C调用函数’getAApercentage'统计氨基酸百分含量

AA_percentage<-getAApercentage(sequences=hit_sequences)

D调用函数‘seq_alignment'进行序列两两比对

seq_alignment(sequences=hit_sequences)

E1调用函数’getScoreMatrix'得到得分矩阵

score_matrix<-getScoreMatrix(sequences=hit_sequences)

E2调用函数‘infile_produce'生成PHYLIP软件的输入文件infile

infile_produce(scorem=score_matrix)

E3 调用PHYLIP软件生产进化树

infile文件拖入neighbor窗口

E4 进化树查看与编辑

使用retree.exe

这篇关于NGS项目五:用R语言生成极端嗜盐古菌蛋白序列进化树的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/281348

相关文章

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n

poj 1287 Networking(prim or kruscal最小生成树)

题意给你点与点间距离,求最小生成树。 注意点是,两点之间可能有不同的路,输入的时候选择最小的,和之前有道最短路WA的题目类似。 prim代码: #include<stdio.h>const int MaxN = 51;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int P;int prim(){bool vis[MaxN];

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

在cscode中通过maven创建java项目

在cscode中创建java项目 可以通过博客完成maven的导入 建立maven项目 使用快捷键 Ctrl + Shift + P 建立一个 Maven 项目 1 Ctrl + Shift + P 打开输入框2 输入 "> java create"3 选择 maven4 选择 No Archetype5 输入 域名6 输入项目名称7 建立一个文件目录存放项目,文件名一般为项目名8 确定

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验