Robust detection of alternative splicing in a population of single cells

2023-10-31 19:40

本文主要是介绍Robust detection of alternative splicing in a population of single cells,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

鲁棒性很好的可变剪切探测

北卡20161月发表在Nucleic Acids Research上的一篇Methodology

当然主要是为了介绍他们的SingleSplice 软件,python脚本实现。但是we should focus on its specific strategies to solve transcripts finding and quantificating issues

The SingleSplice method consists of three main phases(文章就说主要思路分三步走). In the first phase, we compute expression levels for the longest pieces of transcripts (通过DIFsplice方法,把scRNAseq下来的短reads去计算最长转录本的丰度)that can be unambiguously identified using short reads. We accomplish this using the DiffSplice method(也是上博提到的扩散方法中的一个分支). Briefly, we construct a directed, acyclic splice graph(DAG,有向无环图,非常非常重要的概念,而这里是直接从比对上的reads产生的有向无环剪切图) directly from read alignments so that possible transcripts correspond to paths through the graph. Using this splice graph, we identify single-entry, single-exit modules in the graph (Figure 1A). These single-entry, single-exit portions of the graph are called alternative splicing modules (ASMs), and each path through an ASM corresponds to a piece of one or more transcripts spanning two or more exons; there may be one or more ASMs per gene. ASMs possess the important property that any alternative splicing a gene undergoes will cause a change in the ratio of at least one pair of ASM paths. 

解释再多还是不如一张图好使,如下 

任何一个path就是一个转录本可能存在的有向的剪切事件,因为是从5‘到3’所以是directional的一个path,一个ASM里面可能有1个甚至更多个的ASMs path,所以可以用这个AGM graph很好的描述我们sc RNASeq数据中各个时期各个细胞不同水平的AS事件的发生频数,之后再用ratio来衡量AS的差异among different cells

The second phase of SingleSplice fits distributions describing the expected expression variation(每条path in ASM中因为技术噪声产生的变异的期望表达情况) of each ASM path due to technical noise In the third phase, to determine whether a gene shows significant splicing changes across a set of cells, we sample values from the fitted noise model of each ASM path to predict the variance of isoform ratios due to technical noise alone, then use these predicted values to assess the significance of the observed variation in isoform ratio (Figure 1C). Intuitively, performing this sampling procedure (a statistical technique known as parametric bootstrapping参数枚举或者参数自举法,重要而基础的参数估计概念) is like sequencing the same set of cells repeatedly to see how the isoform usage changes from technical variation alone.

 parametric bootstrapping之后只有系统噪音的observed variation in isoform ratio,以及有isoform变异的observed variation in isoform ratio

Then comes to the specific steps:

首先对转录本丰度matrix做normalized:

 

纠正了细胞程长度以及分子表达量的转录本覆盖率

再用mixed model to predict technical variants:

其中p=dropout probability,来自于逻辑回归的参数估计,转录本表达的分布模型用gamma分布来进行参数估计

而gamma分布的参数,k以及塞塔:可以直接来自转录本表达值的均数和方差:

在计算好系统变异方程之后,我们可以对cell size对表达水平的影响做均一化处理了:

 首先得到一个叫做scaler factor的因子: 

and using it in the following equation: 

which yielding a quantity similar to reads per kilobase length per million reads (RPKM),and then multiply by the Si

至此,我们均一化之后的转录本覆盖度已经没有cell size effect了

接着,作者继续论证:

Detecting biological variation in isoform usage

也就是用isoform使用你path多少的比例来算出ratio:这一步就是parameters boosting的运用项

首先定义在含n个细胞的set 中,两个转录本A、B在不同平均表达水平下u1、u2的表达水平: 

Then, for each of the 1000 sets of n values, we compute the sample variance of the isoform proportions:

之后对1000个这样的cell set 做isoform丰度的样本之间的变异量统计:

公式如下: 

r是 isoform proportion的一个经验分布(可以用我们在测序结果中直接观测到的isoform分布作为r)

上述公式其实就是一个自参数的迭代过程,算法有点像2个均数的方差计算方法,不过这里不是方差而是平方差。ri随着i=1to1000,不停变化。S^2,here。就是零假设(只有系统噪声的isoform丰度)的经验p值,作为一个是否有isoform variants影响的一个threshold。因为S^2是单单只有系统噪声的p-value。(自举参数估计的思想核心应用,repeatly count)

RESULTS

SingleSplice accurately predicts behavior of spike-in transcripts

本篇重点:DAG:有向无环图for the path(ASMs)finding、Parameters Boosting:参数自举法估计单纯系统噪声的Pvalue

 

转载于:https://www.cnblogs.com/beckygogogo/p/9195380.html

这篇关于Robust detection of alternative splicing in a population of single cells的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/317674

相关文章

时间序列|change point detection

change point detection 被称为变点检测,其基本定义是在一个序列或过程中,当某个统计特性(分布类型、分布参数)在某时间点受系统性因素而非偶然因素影响发生变化,我们就称该时间点为变点。变点识别即利用统计量或统计方法或机器学习方法将该变点位置估计出来。 Change Point Detection的类型 online 指连续观察某一随机过程,监测到变点时停止检验,不运用到

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

参考原文地址:[http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html](http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html) 文章目录 一、MACS bdgdiff 简介DESCRIPTION 二、用法

vivado error:Combinatorial Loop Alert:1 LUT cells form a combinatorial loop

VIVADO ERROR :Combinatorial Loop Alert:1 LUT cells form a combinatorial loop vivao生成bit流时发生报错,如下图所示定位原因解决 vivao生成bit流时发生报错,如下图所示 定位原因 在三段式状态机中,组合逻辑代码if else 语句未写全只写了if…elsif…,没有写else,导致错误

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文,可以看做19年的iccv的论文的衍生,在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的,应该是吧,这名字听起来就像。 摘要abstract 我们解决异常检测的问题,即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型,而在训练时看不到异常样本,并在测试时使用重建误

REMEMBERING HISTORY WITH CONVOLUTIONAL LSTM FOR ANOMALY DETECTION——利用卷积LSTM记忆历史进行异常检测

上海科技大学的文章,上海科技大学有个组一直在做这方面的工作,好文章挺多的还有数据集。 ABSTRACT 本文解决了视频中的异常检测问题,由于异常是无界的,所以异常检测是一项极具挑战性的任务。我们通过利用卷积神经网络(CNN或ConvNet)对每一帧进行外观编码,并利用卷积长期记忆(ConvLSTM)来记忆与运动信息相对应的所有过去的帧来完成这项任务。然后将ConvNet和ConvLSTM与

COD论文笔记 ECCV2024 Just a Hint: Point-Supervised Camouflaged Object Detection

这篇论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点: 1. 动机 伪装物体检测(Camouflaged Object Detection, COD)旨在检测隐藏在环境中的伪装物体,这是一个具有挑战性的任务。由于伪装物体与背景的细微差别和模糊的边界,手动标注像素级的物体非常耗时,例如每张图片可能需要 60 分钟来标注。因此,作者希望通过减少标注负担,提出了一种仅依赖“点标注”的弱

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下: 动机: 论文的核心动机是解决伪装目标检测(COD)中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标,这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展,但现有方法仍面临有效分离目标和背景的难题,尤其是在伪装目标与背景特征高度相似的情况下。 现有方法的不足之处: 过于

[LeetCode] 137. Single Number II

题:https://leetcode.com/problems/single-number-ii/ 题目大意 给定array,其中有一个元素只出现了1次,其他元素都出现了3次。 思路 求和 减去 (set(array)*3 - array)/2 作为答案。 class Solution {public int singleNumber(int[] nums) {Set<Long> se

Image Transformation can make Neural Networks more robust against Adversarial Examples

Image Transformation can make Neural Networks more robust against Adversarial Examples 创新点 1.旋转解决误分类 总结 可以说简单粗暴有效

Detection简记3-Region Proposal by Guided Anchoring

创新点 1.新的anchor 分布策略:Guided Anchoring 2.feature adaption module,根据潜在的anchor精调特征 总结 Guided Anchoring:流程如图所示 特征图F1接两个分支:位置预测分支产生物体可能存在的位置的概率图,形状预测分支预测物体的形状,独立于位置。根据两个分支的输出,得到anchor。 位置预测分支: 1X1的卷积+si