WGDI之深入理解blockinfo输出结果

2024-06-23 19:48

本文主要是介绍WGDI之深入理解blockinfo输出结果,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

blockinfo模块输出文件以csv格式进行存放,共23列,可以用EXCEL直接打开。

block info

其中16列非常容易裂解,描述如下

  1. id 即共线性的结果的唯一标识

  2. chr1,start1,end1 即参考基因组(点图的左边)的共线性范围(对应GFF1的位置)

  3. chr2,start2,end2 即参考基因组(点图的上边)的共线性范围(对应GFF2的位置)

  4. pvalue 即共线性结果评估,常常认为小于0.01的更合理些

  5. length 即共线性片段中基因对数目

  6. ks_median 即共线性片段上所有基因对ks的中位数(主要用来评判ks分布的)

  7. ks_average 即共线性片段上所有基因对ks的平均值

  8. block1,block2分别为共线性片段上基因order的位置。

  9. ks共线性片段上所有基因对的ks

  10. density1,density2 共线性片段的基因分布密集程度。值越小表示稀疏。

最后两列,class1class2会在 alignment 模块中用到,对应的是两个block分组,默认值是0表示两个block是同一组。这两列后期需要自己根据覆盖率,染色体核型等多个方面进行确定。举个例子,我们可以根据 homo1 的取值范围对class1进行赋值,例如-1~-0.5 是 1,-0.5 ~ 0.5 是2,0.5~1是3,最后在alignment中会就会用三种颜色来展示,例如下图的1,2,3分别对应red,blue,green.

alignment

中间的homo1,homo2,homo3,homo4,homo5并非那么直观,先说结论:

  • 这里的homoN(N=1,2,3,4,5) 表示一个基因有N个最佳匹配时的取值

  • N由mutiple参数确定,对应点阵图(dotplot)中的红点

  • multiple的取值一般取1即可,表示最近一次的WGD可能是一次二倍化事件,因此每个基因只会有一个最佳匹配。如果设置为2,可能是一次3倍化,每个基因由两个最佳匹配。当然实际情况可能会更加复杂,比如说异源四倍体,或者异源六倍体,或者没有多倍化只是小规模的基因复制(small-scale gene duplication) 等情况,也会影响multiple的设置。

  • homoN会在后面过滤共线性区块时用到,一般最近的WGD事件所产生的共线性区块会比较接近1,而古老的WGD产生的共线性区块则接近-1.

接着,我们将根据源代码 blast_homo和blast_position 来说明结算过程。

首先需要用到blast_homo函数,用来输出每个基因对在不同最佳匹配情况下的取值(-1,0,1)。

def blast_homo(self, blast, gff1, gff2, repeat_number):index = [group.sort_values(by=11, ascending=False)[:repeat_number].index.tolist()for name, group in blast.groupby([0])]blast = blast.loc[np.concatenate(np.array([k[:repeat_number] for k in index], dtype=object)), [0, 1]]blast = blast.assign(homo1=np.nan, homo2=np.nan,homo3=np.nan, homo4=np.nan, homo5=np.nan)for i in range(1, 6):bluenum = i+5redindex = np.concatenate(np.array([k[:i] for k in index], dtype=object))blueindex = np.concatenate(np.array([k[i:bluenum] for k in index], dtype=object))grayindex = np.concatenate(np.array([k[bluenum:repeat_number] for k in index], dtype=object))blast.loc[redindex, 'homo'+str(i)] = 1blast.loc[blueindex, 'homo'+str(i)] = 0blast.loc[grayindex, 'homo'+str(i)] = -1return blast

for循环前的代码作用是提取每个基因BLAST后的前N个最佳结果。循环的作用基因对进行赋值,主要规则是基因对如果在点图中为红色,赋值为1,蓝色赋值为0,灰色赋值为-1。

  • homo1 对应 redindex = 0:1, bluenum = 1:6, grayindex = 6:repeat_number

  • homo2 对应redindex = 0:2, bluenum = 2:7, grayindex = 7:repeat_number

  • ...

  • homo5对应redindex=0:5, bluenum=5:10, grayindex = 10:repeat_number

最终函数返回的就是每个基因对,在不同最佳匹配数下的赋值结果。

0          1  homo1  homo2  homo3  homo4  homo5
185893  AT1G01010  AT4G01550    1.0    1.0    1.0    1.0    1.0
185894  AT1G01010  AT1G02230    0.0    1.0    1.0    1.0    1.0
185899  AT1G01010  AT4G35580   -1.0    0.0    0.0    0.0    0.0
185900  AT1G01010  AT1G33060   -1.0   -1.0    0.0    0.0    0.0
185901  AT1G01010  AT3G49530   -1.0   -1.0   -1.0    0.0    0.0
185902  AT1G01010  AT5G24590   -1.0   -1.0   -1.0   -1.0    0.0
250822  AT1G01030  AT1G13260    0.0    0.0    0.0    1.0    1.0
250823  AT1G01030  AT1G68840    0.0    0.0    0.0    0.0    1.0
250825  AT1G01030  AT1G25560    0.0    0.0    0.0    0.0    0.0
250826  AT1G01030  AT3G25730   -1.0    0.0    0.0    0.0    0.0
250824  AT1G01030  AT5G06250   -1.0   -1.0    0.0    0.0    0.0

然后block_position函数, 会用 for k in block[1]的循环提取每个共线性区块中每个基因对的homo值,然后用 df = pd.DataFrame(blk_homo)homo = df.mean().values求均值。

def block_position(self, collinearity, blast, gff1, gff2, ks):data = []for block in collinearity:blk_homo, blk_ks = [],  []if block[1][0][0] not in gff1.index or block[1][0][2] not in gff2.index:continuechr1, chr2 = gff1.loc[block[1][0][0],'chr'], gff2.loc[block[1][0][2], 'chr']array1, array2 = [float(i[1]) for i in block[1]], [float(i[3]) for i in block[1]]start1, end1 = array1[0], array1[-1]start2, end2 = array2[0], array2[-1]block1, block2 = [], []## 提取block中对应基因对的homo值for k in block[1]:block1.append(int(float(k[1])))block2.append(int(float(k[3])))if k[0]+","+k[2] in ks.index:pair_ks = ks[str(k[0])+","+str(k[2])]blk_ks.append(pair_ks)elif k[2]+","+k[0] in ks.index:pair_ks = ks[str(k[2])+","+str(k[0])]blk_ks.append(pair_ks)else:blk_ks.append(-1)if k[0]+","+k[2] not in blast.index:continueblk_homo.append(blast.loc[k[0]+","+k[2], ['homo'+str(i) for i in range(1, 6)]].values.tolist())ks_arr = [k for k in blk_ks if k >= 0]if len(ks_arr) == 0:ks_median = -1ks_average = -1else:arr_ks = [k for k in blk_ks if k >= 0]ks_median = base.get_median(arr_ks)ks_average = sum(arr_ks)/len(arr_ks)# 对5列homo值求均值    df = pd.DataFrame(blk_homo)homo = df.mean().valuesif len(homo) == 0:homo = [-1, -1, -1, -1, -1]blkks = '_'.join([str(k) for k in blk_ks])block1 = '_'.join([str(k) for k in block1])block2 = '_'.join([str(k) for k in block2])data.append([block[0], chr1, chr2, start1, end1, start2, end2, block[2], len(block[1]), ks_median, ks_average, homo[0], homo[1], homo[2], homo[3], homo[4], block1, block2, blkks])data = pd.DataFrame(data, columns=['id', 'chr1', 'chr2', 'start1', 'end1', 'start2', 'end2','pvalue', 'length', 'ks_median', 'ks_average', 'homo1', 'homo2', 'homo3','homo4', 'homo5', 'block1', 'block2', 'ks'])data['density1'] = data['length'] / \((data['end1']-data['start1']).abs()+1)data['density2'] = data['length'] / \((data['end2']-data['start2']).abs()+1)return data

最终得到的homo1的homo5,是不同最佳匹配基因数下计算的值。如果共线性的点大部分为红色,那么该值接近于1;如果共线性的点大部分为蓝色,那么该值接近于0;如果共线性的点大部分为灰色,那么该值接近于-1。也就是我们可以根据最初的点图中的颜色来确定将来筛选不同WGD事件所产生共线性区块。

这也就是为什么homoN可以作为共线性片段的筛选标准。

这篇关于WGDI之深入理解blockinfo输出结果的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1088111

相关文章

回调的简单理解

之前一直不太明白回调的用法,现在简单的理解下 就按这张slidingmenu来说,主界面为Activity界面,而旁边的菜单为fragment界面。1.现在通过主界面的slidingmenu按钮来点开旁边的菜单功能并且选中”区县“选项(到这里就可以理解为A类调用B类里面的c方法)。2.通过触发“区县”的选项使得主界面跳转到“区县”相关的新闻列表界面中(到这里就可以理解为B类调用A类中的d方法

如何理解redis是单线程的

写在文章开头 在面试时我们经常会问到这样一道题 你刚刚说redis是单线程的,那你能不能告诉我它是如何基于单个线程完成指令接收与连接接入的? 这时候我们经常会得到沉默,所以对于这道题,笔者会直接通过3.0.0源码分析的角度来剖析一下redis单线程的设计与实现。 Hi,我是 sharkChili ,是个不断在硬核技术上作死的 java coder ,是 CSDN的博客专家 ,也是开源

MySQL理解-下载-安装

MySQL理解: mysql:是一种关系型数据库管理系统。 下载: 进入官网MySQLhttps://www.mysql.com/  找到download 滑动到最下方:有一个开源社区版的链接地址: 然后就下载完成了 安装: 双击: 一直next 一直next这一步: 一直next到这里: 等待加载完成: 一直下一步到这里

PyTorch模型_trace实战:深入理解与应用

pytorch使用trace模型 1、使用trace生成torchscript模型2、使用trace的模型预测 1、使用trace生成torchscript模型 def save_trace(model, input, save_path):traced_script_model = torch.jit.trace(model, input)<

神经网络第三篇:输出层及softmax函数

在上一篇专题中,我们以三层神经网络的实现为例,介绍了如何利用Python和Numpy编程实现神经网络的计算。其中,中间(隐藏)层和输出层的激活函数分别选择了 sigmoid函数和恒等函数。此刻,我们心中不难发问:为什么要花一个专题来介绍输出层及其激活函数?它和中间层又有什么区别?softmax函数何来何去?下面我们带着这些疑问进入本专题的知识点: 1 输出层概述 2 回归问题及恒等函数 3

isa指针的理解

D3实例isa指向D3类对象。D3类的话isa指向D3元类对象。D3元类保存类中的方法调度列表,包括类方法和对象方法

从《深入设计模式》一书中学到的编程智慧

软件设计原则   优秀设计的特征   在开始学习实际的模式前,让我们来看看软件架构的设计过程,了解一下需要达成目标与需要尽量避免的陷阱。 代码复用 无论是开发何种软件产品,成本和时间都最重要的两个维度。较短的开发时间意味着可比竞争对手更早进入市场; 较低的开发成本意味着能够留出更多营销资金,因此能更广泛地覆盖潜在客户。 代码复用是减少开发成本时最常用的方式之一。其意图

[大师C语言(第三十六篇)]C语言信号处理:深入解析与实战

引言 在计算机科学中,信号是一种软件中断,它允许进程之间或进程与内核之间进行通信。信号处理是操作系统中的一个重要概念,它允许程序对各种事件做出响应,例如用户中断、硬件异常和系统调用。C语言作为一门接近硬件的编程语言,提供了强大的信号处理能力。本文将深入探讨C语言信号处理的技术和方法,帮助读者掌握C语言处理信号的高级技巧。 第一部分:C语言信号处理基础 1.1 信号的概念 在Unix-lik

WeakHashMap深入理解

这一章,我们对WeakHashMap进行学习。 我们先对WeakHashMap有个整体认识,然后再学习它的源码,最后再通过实例来学会使用WeakHashMap。 第1部分 WeakHashMap介绍 第2部分 WeakHashMap数据结构 第3部分 WeakHashMap源码解析(基于JDK1.6.0_45) 第4部分 WeakHashMap遍历方式 第5部分 WeakHashMap示例

netty中常用概念的理解

目录   目录ChannelHandler ChannelHandler功能介绍通过ChannelHandlerAdapter自定义拦截器ChannelHandlerContext接口ChannelPipeline ChannelPipeline介绍ChannelPipeline工作原理ChannelHandler的执行顺序   在《Netty权威指南》(第二版)中,ChannelP