论文Prediction of Prediction of off-target activities for the end-to-end design of CRISPR guide RNA 笔记

2024-06-12 03:08

本文主要是介绍论文Prediction of Prediction of off-target activities for the end-to-end design of CRISPR guide RNA 笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Prediction of Prediction of off-target activities for the end-to-end design of CRISPR guide RNAs

论文链接

摘要:

脱靶效应可导致次优基因编辑结果,是其发展的瓶颈。

使用基于两个相互关联的机器学习模型的方法来预测脱靶效应—叫做Elevation。

对独立的guide-target 对进行评分,然后同时将他们合并为一个唯一整体总结指导分数。还提出了一张评估方法用于:平衡活动和非活动guide之间的误差

背景:

减少脱靶影响最好的方式是:知道他们什么时候,在哪发生,并在平衡on-target效率的情况下设计一个指南来避免脱靶。

本文提出了基于机器学习的方法:

基于机器学习的预测建模可以利用少量的数据来了解导致脱靶效应的gRNA-target序列对的统计规律,以及它们对细胞的总体影响。这种建模使得能够廉价和快速地在全基因组水平上筛选非试验前的gRNA的脱靶效应。

本文方法:

对于脱靶预测建模有两种主要的用例:
1,了解给定的脱靶区域可能对特定的gRNA来说有多活跃,这个活跃性称之为gRNA-target评分。(对于关注基因组的特定区域来说是很有用的)
2,获得给定的gRNA的所有脱靶活性的总体得分,以获得基因的潜在gRNA排序。

可以将脱靶预测模型问题分解成三个主要的任务:

  • 搜索并过滤全基因组以获得一个gRNA的潜在靶点。 (例如,基因组中与gRNA相匹配的区域中,可能有N个目标位点的核苷酸误匹配,这些位点将会在第二步以后才会被视为脱靶活性,使用机器学习去区分有活性的和无活性的targets。在这一步只会创建一个潜在活性位点的简短列表。)
  • 对每一个潜在活动目标进行评分,给gRNA-target对分配一个数值,来表示一个gRNA-target对预计有多少脱靶效应。
  • 对(2)中的分数进行合并,得到一个单独的脱靶可能性,用于评估gRNA。

在第一步的搜索和过滤任务中,可以使用数值方法:Cas-OFFinder, CRISPOR, CHOP-CHOP,
e-CRISPR, CRISPR-DO, CROP-IT and COSMID。(所算法使用的搜索算法不同,以及有着不同的搜索完整性。)

搜索完整性:取决于诸如最大不匹配数量,允许的原型间隔符相邻基序(PAM)和所使用的搜索算法。

本文中,在第一步中使用了自己的系统作为搜索和过滤操作—-Elevation-search

第二步和第三步使用所提出的—脱靶的端对端建模方法为Elevation

  • 对于gRNA-target评分:开发出一个双层回归模型Elevation-score):
    • 第一层学习预测单个错配(target与预期的target之间,因此也包括替代的PAM)脱靶活性。
    • 第二层模型学习如何将来自具有多个错配的gRNA-target对的单错配模型的预测组合成单个gRNA-target得分—-‘combiner’模型
  • 为了汇总guide的单个评分:
    • 首先将gRNA-target评分模型应用于潜在的target列表(通过Elevation搜索列出)。
    • 然后再使用Elevation-汇总模型来对单个的评分进行汇总。
      Elevation模型:考虑每一个潜在的target是否位于基因中,并允许这些特征和其他特征通过非线性建模方法(boosted 回归树)相互作用。

下图为Elevation脱靶预测模型的框架图:

  • 第一层a
    • 首先gRNA-target对被分解为两个单个误匹配pseudo-pairs({} t1,g1 t 1 , g 1 },{ t2,g2 t 2 , g 2 }),每一对可以通过第一层(单个误匹配)模型来获得评分 f f
    • 然后这些单个的评分通过第二层模型进行组合,生成一个解释所有误匹配的单个gRNA-target评分。
  • 第二层b
    • 计算gRNA-target评分的输入分布的统计作为特征,并通过模型运行产生一个gRNA的聚合评分。

scheme

特征选择:

对于第一层(单个误匹配)特征选择:

  • 误匹配的位置.
  • 误匹配的nucleotide(核苷酸)一致性(the nucleotide identity).
  • 单个特征中无匹配的联合位置和身份.
  • 突变是否是一个转换或者颠换。

第二层(多个误匹配组合器)模型:

  • 特征重要性显示误匹配的总数,以及第一层单个误匹配预测的总和在驱动了这个模型。

聚合的最后任务:获得对于一个gRNA所给定的所有单个gRNA-target评分的单个脱靶总结评分。该任务的解决方案对于gRNA的设计非常有用,在于用户想要扫描大量的gRNA的总体活性。

细胞的活力部分由每个细胞的DNA断裂数决定。第二个对活性的影响是在一个关键基因上的脱靶活性。


核染色质开放性–真核生物染色质DNA在核小体或转录因子等蛋白与其结合后,对其他蛋白能否再结合的开放程度。这一特征反应了染色质转录活跃程度。(这部分不太清楚,应该是在介绍核染色质对实验的影响?)


研究方法:

数据:

  • 训练第一层,使用CD33数据。
  • 评估第二层,使用两个无偏/全基因组多误匹配数据集。

单个gRNA靶对评分的预测模型:

先介绍CFD模型所作出的假设,再描述Elevation评分模型以及他怎么在概念上与CFD相关联的。

CFD模型(预测脱靶模型):

  • 首先计算CD33数据中每种单个错配类型的gRNA-target对活性的观测频率(observed frequency)

  • 然后针对有多个误匹配的gRNA-target对,CFD通过将单个错配频率乘到一起进行组合。

    • 例如,如果gRNA-target对在位置3处有A:G误匹配,在位置5处有T:C误匹配,并且在目标区域有“CG”的PAM存在,则CFD将会计算这个gRNA的脱靶评分为:CFD score=P(active|A:G,3)×P(active|T:C,5)×P(active|CG)

    这些项每个都是根据CD33训练集数据中(只包含单个误匹配或备用PAM,但是不会同时包含两者)观察到的频率来计算的。

  • CFD作为朴素贝叶斯:可以把CFD算法解释为分类模型—朴素贝叶斯。

    • Y=1 Y = 1 表示一个gRNA-target对有活性, Y=0 Y = 0 表示这个对没有活性。

    • Xi X i 表示特征比如(T:G,5), i i 简单的指示了这些特征的枚举(即一个one-hot编码)。如果特征(误匹配)发生—-Xi=1,如果没有发生—- Xi=0 X i = 0 。因此,在CD33数据集中(只有单个误匹配),一个特殊的gRNA-target对仅有一个 Xi=1 X i = 1 ,其他的都为 Xi=0 X i = 0 。在这个定义下,可以重写针对一个gRNA-target对的CFD为: CFD=i{i|Xi=1} P(Y=1|Xi=1) C F D = ∏ i ∈ { i | X i = 1 } P ( Y = 1 | X i = 1 )

    贝叶斯模型将会计算在给定的特征值下,一个gRNA-target对是有活性的概率为:

    NaiveBayesP(Y=1|{Xj})=P(Y=1)P({Xj}))iP(Xi|Y=1) N a i v e B a y e s ≡ P ( Y = 1 | { X j } ) = P ( Y = 1 ) P ( { X j } ) ) ∏ i P ( X i | Y = 1 )

    其中, Xj X j 为所有特征 Xi X i 的集合。假设在gRNA是有活性的情况下,特征 Xi X i 是独立的使得: P({Xj}|Y=1)=iP(Xi|Y=1) P ( { X j } | Y = 1 ) = ∏ i P ( X i | Y = 1 ) 。使用Bayes规则,可以重写朴素贝叶斯分类器为:

    NaiveBayesP(Y=1|{Xj})=P(Y=1)P({Xj})iP(Y=1|Xi)P(Xi)P(Y=1)=1P({Xj})iP(Y=1|Xi)P(Xi) N a i v e B a y e s ≡ P ( Y = 1 | { X j } ) = P ( Y = 1 ) P ( { X j } ) ∏ i P ( Y = 1 | X i ) P ( X i ) P ( Y = 1 ) = 1 P ( { X j } ) ∏ i P ( Y = 1 | X i ) P ( X i )

    如果做出两个更近一步的假设,会发现朴素贝叶斯分类器恰好与CFD匹配。第一个假设假设特征略微独立,也就是说: iP(Xi)=P({Xj}) ∏ i P ( X i ) = P ( { X j } ) ,在这种情况下,朴素贝叶斯可以简化为:

    NaiveBayesfeat.ind.=iP(Y=1|Xi) N a i v e B a y e s f e a t . i n d . = ∏ i P ( Y = 1 | X i )

    在Elevation-score中也可以做出同样的假设。如果假设 P(Y=1|Xi=0)=1 P ( Y = 1 | X i = 0 ) = 1 ,那么CFD和朴素贝叶斯将会是独立的。关键的问题是询问训练数据集的那些属性能够推广到模型可能应用的不可见数据集中。特别地,可以有理由的假设 P(Y=1|Xi=1) P ( Y = 1 | X i = 1 ) 是一个可以推广到其他数据集的quality。这个quality反映了我们观察到一种特定类型的不匹配的情况下gRNA的活跃可能性。因此他与在训练与测试集中不匹配类型的分布无关。定义了在没有观察到特征的情况下,gRNA是活跃的可能性。

    CFD假设为 P(Y=1|Xi=0)=1 P ( Y = 1 | X i = 0 ) = 1

    Elevation-score作为两层堆栈回归:

    可以从CFD中推广出三种主要的方式:

    • 使用回归代替分类器。
    • 增大了特征空间。
    • 组合使用机器学习方法取代了乘法结合概率的先验方法。

    模型值执行前两步,具体方法为:

    • 首先将CD33LFC数值转换为位于范围内。他们可以被解释成概率,再使用核密度估计器将每个LFC变换成核密度估计中的LFC的累积密度。在这里使用高斯核并通过tenfold cross-validation(十倍交叉验证)来选择频率长度。
    • Elevation-score被分为两层:
    • 第一层对gRNA-target对中的单个误匹配进行预测(第一层单个误匹配回归模型 p(y|{Xj}) p ( y | { X j } )
      • 使用boosted regression trees(boosted回归树)(使用scikit-learn库的默认配置)在CD33数据集上执行。由于每个gRNA-target对在这些数据上只有一个 Xi=1 X i = 1 ,也可以使用线性回归模型来进行预测。但是希望gRNA-target对更加丰富。因此希望这些特征能够在一个非线性方法中相互影响。特别地,会使用特征的“解耦”版本,比如编码形式之一‘A:G’—-这是one-hot。还有其他位置的整数特征。CFD是将这些组合在一起作为一个单独的特征。还包括突变是否是颠倒或过渡。使用这些改进的并组合每一个误匹配的模型,正如CFD所作的将这些值相乘一样—-Elevation-naive。
    • 第二层组合这些多个误匹配:
      • 我们将Elevation-score的第二层作为组合器,因为它学习如何以更细致的方式将来自单个不匹配模型的预测结合起来,而不是简单地将它们相乘,从而允许减轻某些陈述的假设。使用数据驱动及其学习方法来调整如何去组合他们。使用第一层boosted回归树模型J次来对J个单个gRNA-target对进行预测(也就是说,J个特征有着 Xj=1 X j = 1 ),产生J个预测 y^i[0,1] y ^ i ∈ [ 0 , 1 ] (每一个特征有 Xj=1 X j = 1 ,并且针对剩余的K个有着的 Xk=0 X k = 0 特征设置 y^k=1 y ^ k = 1 )。每一个gRNA-target对有 T=J+K=21 T = J + K = 21 个boosted回归树预测。(20个可能的误匹配位置和一个PAM)作为特征。这21个特征的 log l o g : {log(yt^)} { l o g ( y t ^ ) } 以及他们的总和,乘积和J(误匹配数和PAM数)作为第二层模型L1正则线性回归模型的输入。
      • 最后,因为我们最终想要的是对gRNA-target对进仓库有效的可能性的预测,我们还要对来自L1回归组合器模型的输出应用了一个最终变换。通过一个校准模型来转换输出。
        校准模型使用逻辑回归模型使用Elevation-naive训练得到的预测作为输入来估计 P(active|GUIDE  seq normalized counts) P ( a c t i v e | G U I D E − s e q n o r m a l i z e d c o u n t s ) ,然后使用相对应的二值观测活性(LFC>1)作为目标变量。—–只有回归的表现会影响这个转换,同gRNA-target评分无关。(即使是很简单的线性变换也可能会改变聚合分数。)
    Elevation-聚合:

    Elevation-score值提供了选择具有最小期望脱靶活性的gRNA的初始条件。最终的结果需要将多个值聚合成一个以进行排序。

    • 开发一个基于梯度boosted回归树的模型来执行Elevation-aggregate。超参数的设置选择通过使用一个随机搜索交叉验证方法: lossesleast squares;least absolute deviation;Huber l o s s e s ∈ l e a s t s q u a r e s ; l e a s t a b s o l u t e d e v i a t i o n ; H u b e r , learning rates[1.0×106,1.0] l e a r n i n g r a t e s ∈ [ 1.0 × 10 − 6 , 1.0 ] 在在对数空间中等间隔的100点, the number of estimators[20,50,80,100,200,300,400,500] t h e n u m b e r o f e s t i m a t o r s ∈ [ 20 , 50 , 80 , 100 , 200 , 300 , 400 , 500 ] , 最大树深范围为 1 到 7, 最小分割样本数量 = [2, 3, 4], splitting criterion[Friedman meansquared error,meansquared error,meanabsolute error] s p l i t t i n g c r i t e r i o n ∈ [ F r i e d m a n m e a n − s q u a r e d e r r o r , m e a n − s q u a r e d e r r o r , m e a n a b s o l u t e e r r o r ] .

这篇关于论文Prediction of Prediction of off-target activities for the end-to-end design of CRISPR guide RNA 笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1053031

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi