用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值...

2023-10-29 22:30

本文主要是介绍用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

编辑 | 萝卜皮

0dcaefaf483d047193ab27482e51e3ce.png

大规模并行 DNA 测序导致生物学中高度多重实验的快速增长。这些实验产生独特的测序结果,需要特定的分析管道来解码高度结构化的读数。然而,尚未开发出解释测序读数以提取其编码信息用于下游生物分析的多功能框架。

在这里,不列颠哥伦比亚大学和东京大学的研究人员报告了 INTERSTELLAR(interpretation, scalable transformation, and emulation of large-scale sequencing reads,大规模测序读数的解释、可扩展转换和仿真);理论上,它可以解码任何类型的测序读数中编码的数据值,并将它们转化为另一种选择结构的测序读数。

INTERSTELLAR 成功地从一系列短读长和长读长测序读数中提取了信息,并翻译了单细胞 (sc)RNA-seq、scATAC-seq 和空间转录组学的那些数据,从而方便研究人员用不同软件工具进行分析。INTERSTELLAR 将极大地促进基于测序的实验的开发和数据分析管道的共享。

该研究以「A universal sequencing read interpreter」为题,于 2023 年 1 月 4 日发布在《Science Advances》。

e700e889e2ab21b68808c88a4971ffb1.png

在过去的几十年里,利用微阵列和高通量 DNA 测序,DNA 条形码的概念使一系列汇集的生物筛选成为可能。早期的例子包括建立酵母缺失集合,其中每个菌株都被构建为在缺失位点具有两个独特的 DNA 条形码。可以汇集条形码酵母菌株并进行单一生长竞争测定,其个体相对生长变化可以通过竞争前后微阵列或高通量测序测量的条形码数量读出。该策略开创了化学基因组学领域筛选药物靶基因的先河。

不久之后,同样的概念也被应用于基于哺乳动物细胞培养的全基因组基因敲除和敲除分析。在这些测定中,细胞由编码短发夹 (sh) RNA 或 CRISPR-Cas9 引导 (g) RNA 的慢病毒文库转导。由不同扰动引起的细胞生长可以通过聚合酶链反应 (PCR) 扩增和小 shRNA 或 gRNA 编码 DNA 片段的测序来大量量化。

此外,产生远端基因组区域和与不同因素相关的 DNA 条形码的嵌合融合的实验系统,使得研究人员能够大规模探索染色质构象、蛋白质相互作用、遗传相互作用和单分子 RNA 的空间细胞分布。在单细胞和空间基因组学中,单细胞标识符 (ID)、空间 ID 和唯一分子 ID (UMI) 用于唯一标记相应的转录组或基因组 DNA 片段,这导致了单细胞 RNA 测序(scRNA-seq)、scATAC-seq、空间转录组学和空间基因组技术的发展。

上述方法中的每一种都可以同时进行多个实验并生成测序文库。来自不同检测的测序文库也可以通过将额外的文库特异性、独特的 DNA 条形码融合到每个测序文库 DNA 中,进一步复用用于单次测序运行。这些实验的输出 DNA 分子具有一系列复杂性,其中一些编码多个信息片段,其组合有时被设计为通过多个读取(例如,配对末端读取和索引读取)读取。

然而,存在一些共同的问题——这些基于测序的实验中的大多数方法,都是使用它们自己专有的软件工具针对特定的序列读取结构开发的。虽然许多此类工具具有先进的下游数据分析功能,但它们通常不能重复用于概念上相同类型的实验系统产生的测序读数。对于具有改进的性能和不同读取结构的概念相同的分析,已经反复提出新的实验方法,并且已经为它们各自的读取结构开发了处理基本相同信息的数据分析工具。

在 scRNA-seq 领域尤其观察到这些轮子的再发明。这些软件工具不能交换不同的 scRNA-seq 库结构,也不能通过将它们应用于相同的 scRNA-seq 数据集来进行交叉验证。已经做出多项努力来开发能够分析特定类别实验的不同读取结构的灵活软件工具,例如 UMI-tools、zUMIs、scumi(用于基于 UMI 的 RNA-seq 和 scRNA-seq)和 SnapATAC(对于 scATAC-seq),但它们对于正在进行的产生独特读取结构的新实验的开发无效。

任何测序数据分析都遵循每次读取中序列片段的识别(例如,在 scRNA-seq reads 中识别细胞 ID、UMI 和 cDNA 编码区域)以及提取的序列片段和值(例如,映射到参考基因组和 scRNA-seq 中每个 RNA 种类的 UMI 计数)的下游分析。

因此,不列颠哥伦比亚大学和东京大学的研究人员提出了两种解决方案:(i) sequencing read interpreter 和数据分析工具的开发——如果一个 read interpreter 只提取在 sequencing reads 中编码的数据值,那么它的数据分析 pipeline 应该适用于产生相同数据结构的其他实验的 sequencing reads;(ii) read translator 的开发——如果可以将某种格式的测序 reads 翻译成另一种 reads 结构,则可以使用为特定 reads 结构开发的现有数据分析管道来分析其他 reads 结构。基于这两个方案,研究人员开发了称为 INTERSTELLAR 的单一通用工具。

5fb3e9f6a8429f67b6820c722d78c3bc.png

图示:INTERSTELLAR 的概述。(来源:论文)

任何测序文库的结构都是通过用序列片段的位置规定在DNA序列中编码的信息或使用恒定标记序列对其进行切片来设计的(否则测序后无法分析文库)。在对文库进行测序之后进行任何测定后,提取序列片段并进行错误校正以用于下游分析。INTERSTELLAR 完全有能力使用灵活的正则表达式系统和序列段中编码的值的亲本关联来解码任何这些读取。

研究人员使用不同的软件工具对 scATAC-seq、scRNA-seq 和空间转录组学读数进行读数翻译和数据分析,并将结果与原始专有软件工具分析的原始读数进行比较。尽管原始结果和仿真结果的总体结果非常相似,但观察到的差异程度不同。

90cf947e31ac8274975f8f546cd05dc5.png

图示:不同 scRNA-seq 读数和软件工具的交叉评估。(来源:论文)

结果的差异可以通过三个潜在来源来解释:(i) 读取解释过程,(ii) 目标段分配过程,以及 (iii) 不同软件工具之间价值分析过程的差异,其中 INTERSTELLAR 负责前两个。从 scRNA-seq 读取翻译演示中,读取解释过程的纠错步骤被认为是所见差异的潜在主要来源,其中读取解释的纠错很可能使在不同软件工具中实施的纠错步骤无效(即,通过 INTERSTELLAR 覆盖纠错策略)。

2f05e218ccf5f7fe611064a7f142216a.png

图示:多模式 scRNA-seq 读取的翻译。(来源:论文)

虽然 Levenshtein 距离度量是 INTERSTELLAR 的基于非许可名单的纠错的默认值,并且对于大多数测序读取数据分析来说这实际上不是问题,但它可以用 Bartender 或用户开发的插件代替。当目标片段的信息容量(或代表性)小于相应源片段的信息容量(或代表性)时,目标片段序列分配过程是源读取中编码信息丢失的唯一潜在来源。

为了解决这个问题,研究人员在理论上实施了最佳价值空间优化策略,该策略使用亲本段分配的用户定义信息,并成功地证明了读取翻译的信息损失可以最小化,同时降低了序列代表性。

在过去的几十年里,除了临床样本和各种物种的(表观)基因组学和转录组学分析之外,大规模并行短读长测序技术的应用使得广泛的生物检测得以发展,并且该领域继续迅速扩大。虽然开发专有测序读数解释器和数据分析管道并将其与新的基于测序的分析方法的开发结合起来是一种实践,但该团队的研究人员建议应开发下一种形式,即社区可使用通用的测序读数解释和翻译平台, 如 INTERSTELLAR,只开发数据分析部分,单独共享,以最大限度地利用数据处理资源。

论文链接:https://www.science.org/doi/10.1126/sciadv.add2793

人工智能 × [ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

这篇关于用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/303774

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;