GPB | RegVar:基于深度神经网络的非编码区突变功能预测新方法

2024-04-25 13:28

本文主要是介绍GPB | RegVar:基于深度神经网络的非编码区突变功能预测新方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

fcdfad754a4ae5d87bc97338abe7c82a.png

Genomics, Proteomics & Bioinformatics (GPB)发表了由军事医学研究院辐射医学研究所张成岗研究员周钢桥研究员卢一鸣副研究员团队完成的题为“RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants”的方法文章。我们的“要文译荐”栏目很高兴邀请到文章的通讯作者张成岗研究员为大家介绍RegVar方法的建立与应用。

要点介绍

研究问题:

基于全基因组测序的研究工作,研究人员已在人类基因组上发现了超过8000万个基因突变位点,在单个个体基因组上也存在400~500万个突变位点。如何对这些海量突变位点在个体疾病与性状产生过程中的作用进行系统研究,仍然是基因组学与遗传学领域的一大难题。此外,由于基因组上绝大部分突变位于非编码区,可通过影响基因转录和翻译过程中的不同生物事件来发挥作用,对其进行准确的功能注释和靶基因鉴定仍是一重大挑战。

研究方法:

利用来自基因型-组织表达(genotype-tissue expression, GTEx)研究项目的组织类型特异性表达数量性状基因座(expression quantitative trait loci, eQTL)数据,采用深度神经网络(deep neural network, DNN)的计算框架,对发挥调控功能的SNP位点与其靶基因位点的多种分子特征进行整合建模分析,包括其序列特征、表观组学特征和进化保守性特征等,在17种人体组织中构建了组织特异性的非编码区调控型突变预测模型,并在多种条件下对模型的预测性能进行了充分评估。

主要结果:

我们建立了一种基于DNN的计算框架RegVar,它可以准确预测非编码区调控型突变的组织特异性调控功能,并对其靶基因进行高准确性鉴定。通过学习多种人类组织中“遗传位点-基因表达”关联的分子特征,RegVar在多种情景下表现出对非编码区调控型突变功能预测的优异性能。我们期待RegVar能够帮助深入理解人类基因组的遗传结构,并有助于揭示复杂性状和疾病背后新的分子机制。

背景和研究对象

来自全基因组关联分析(genome-wide association studies, GWAS)的研究结果显示,大量变异位点与疾病表型之间存在显著关联,其中绝大部分位于基因组的非编码区。非编码区的变异位点不改变编码蛋白的序列和功能,主要通过调控基因的表达来发挥效应。如何对这些具有调控功能的变异位点进行鉴定和注释是医学遗传学研究中的一大挑战。

以往针对非编码区突变效应的研究大多关注于致病型突变的注释,对这些方法的评测结果显示其并不适用于调控型突变的鉴定。与致病型突变相比,调控型突变的突变效应更为微弱,使得其鉴定更加困难。调控元件与其调控的靶基因之间通常具有较远的基因组距离,如何在远距离上将调控元件上的变异位点与靶基因联系起来,是本领域的研究难点。此外,调控型突变的作用往往具有组织或细胞类型特异性,对不同组织类型中的变异位点进行特异性注释,也具有十分重要的生物学意义。

方法建立

RegVar采用DNN算法框架,利用来自GTEx研究项目的eQTL数据进行建模分析,结合了突变位点及其所调控的靶基因的序列、表观组学和进化保守性等特征,在17种人体组织中构建了组织特异性的非编码区调控型突变预测模型。为了对方法的稳健性与有效性进行充分评估,构建了多种情景下的阴性数据集对RegVar的预测性能进行测试,包括:(1)随机突变组,即选择基因组上随机阴性SNP位点与靶基因构成阴性数据集;(2)镜像突变组,即选择基因组上与阳性突变位点关于靶基因镜像对称位置的阴性SNP位点与靶基因构成阴性数据集;(3)邻近突变组,即选择基因组上阳性突变位点附近的阴性SNP位点与靶基因构成阴性数据集;(4)随机基因组,即选择基因组上阳性突变位点1Mb之内的随机基因与阳性突变构成阴性数据集。对这些条件下的阴性数据集进行预测评估,发现RegVar均表现出良好的预测性能,说明RegVar具有较好的稳健性与有效性(图1)。与以往方法相比,RegVar也表现出更高的预测准确性。

e36a26566c5a420ae81b1ce65227e75f.jpeg

图1  在不同条件下RegVar与已有方法在肝脏eQTL数据上的预测表现

RegVar应用性分析

在可应用性方面,采用RegVar对22号常染色体上所有SNP位点进行了调控概率的注释,结果显示其中存在大量具有高调控功能概率的变异位点,可能影响到特定靶基因的表达(图2)。在真实的eQTL研究中,这些位点并不能被成功检测出来,可能是由于这些位点的调控效应十分微弱而导致的,此外也可能受到样本量与统计效力等限制因素的影响。

be8c38c52ebec6c15c97e624f4c824f3.jpeg

图2  RegVar对22号常染色体上SNP位点进行调控概率预测

随后,使用RegVar模型对全基因组中随机选取的变异位点进行了组织特异性预测分析,鉴定到跨组织与组织特异性调控型突变位点(图3)。对其进行表观特征注释,结果显示,跨组织调控型突变位点往往带有多个组织的启动子表观修饰,而组织特异性调控型突变位点则大多带有组织特异性的增强子表观修饰(图3)。

d3427dfb5ede48505d9ccb4830ada8e0.jpeg

图3  RegVar在全基因组上鉴定跨组织与组织特异性调控型突变位点

为了进一步探究RegVar模型的可拓展性,利用人类基因突变数据库(human gene mutation database, HGMD)中的致病型突变位点信息,利用相似的研究框架构建了致病型突变预测模型。与已发表的同类方法相比,RegVar可达到同等程度的预测性能。RegVar同时提供了可在线访问的网页应用(https://regvar.omic.tech/)和可下载的模型程序包供相关领域的研究者使用和参考。

222c0378970fb154b13c9cbe2bf33ff9.png

扫描二维码获取链接

总结和讨论

非编码区突变能够通过多种复杂机制在许多疾病和复杂性状产生过程中发挥重要作用,然而如何将非编码区突变,尤其是长距离突变,与其靶基因联系起来一直是一个巨大挑战。目前已经有研究者开发了许多方法对非编码区突变进行功能注释,尽管这些方法在基本假设和具体算法框架上各不相同,但它们主要关注于致病型突变作用。因此,大量具有微弱调节作用的突变将被忽视。我们展示了RegVar在不同情景下对调控型突变进行功能预测的优异性能,RegVar有望应用于候选突变位点的筛选、靶基因的鉴定等研究中,为揭示基因组中复杂的调控关系以及阐明复杂性状的分子成因提供帮助。

审校人:

GPB青年编委侯娅丽

文章编译来源:

Lu H, Ma L, Quan C, Li L, Lu Y, Zhou G, Zhang C. RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants. Genomics Proteomics Bioinformatics 2023;21(2):385-395. 

英文全文详见:

https://www.sciencedirect.com/science/article/pii/S1672022921002564

作者资助信息:

军事科学院军事医学研究院辐射医学研究所张成岗研究员周钢桥研究员卢一鸣副研究员为论文的共同通讯作者,该所的路浩助理研究员为论文的第一作者,马露雨权诚李磊为文章共同作者。该研究得到了国家自然科学基金、北京市科技新星计划的资助。

GPB论文:

RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants

长按并识别二维码,阅读原文

0d2d8d1f9432680bffc382f92772c06e.png

97edc70b40fe26c9e67d6f12e55a8056.png

     相关推荐     

GPB | CARMEN:基因表达调控相关非编码变异的精准功能预测算法

GPB | NetGO 3.0: 蛋白语言大模型有效提升蛋白质功能预测性能

GPB | GREPore-seq:通过长片段PCR和纳米孔测序高效检测基因编辑后突变的实验流程

   About GPB   

Genomics, Proteomics & Bioinformatics(基因组蛋白质组与生物信息学报,简称GPB)于2003年创刊,是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,由牛津大学出版社金色开放获取(Gold Open Access)出版。刊载来自世界范围内组学、生物信息学及相关领域的优质稿件。现为中国科学引文数据库(CSCD)和中国科技论文与引文数据库(CSTPCD)核心期刊,被SCIE、PubMed/MEDLINE、Scopus等数据库收录。2023年公布的官方数据显示,CiteScore为11.7;2年和5年Impact Factor分别为9.5和10.1,分别排名WoS遗传学领域12/171和13/171;2022 JCI为2.08,排名WoS遗传学领域10/189。期刊由科技部等七部门联合实施的“中国科技期刊卓越行动计划“资助(2019–2023)。

高颜值免费 SCI 在线绘图(点击图片直达)

7aa93e641da47ad070832f2522b103c0.png

最全植物基因组数据库IMP (点击图片直达)

039899faa0c742f0b5067bbbc6262c9a.png

往期精品(点击图片直达文字对应教程)

ac7c826828c2457cc76ab0d594ca6213.jpeg

237ef6b61dee6dbbf028e03f008d6b6d.jpeg

d7087f423a71c7998ef382ca30756a3a.jpeg

6b303feb01902cf9b29c65590f3b35d3.jpeg

c0f9bffe5e87cd1747cbd79b49917a90.jpeg

57870c4f4f44d4493f607541213ff775.jpeg

a4ccffbbfbf477519b2ae4e55f2acb29.jpeg

0ad3737513b0516bcb3bf9dacfe1ca83.jpeg

4692884a59cefd8d19d67f8cef5e5599.jpeg

833b176a1faf81328a0116aee7ffbcce.jpeg

f52b7ef475cba95e5805174534186317.jpeg

7a5ea94f72dcdabbef67187dc01312d5.jpeg

7a8da0faf00cc63a842bed2890633971.png

64e2622433b30462763e0bdf3cbfc6c6.png

29877e1d03bc2db8a827bf5812dff3f4.png

ebe327c91d65063ae37abbb3dc88a2b8.png

da6ba79cd3c8a701512757a06edfb334.jpeg

fb54a88df76387b366320712b6c453a9.jpeg

590b2d63ac3b152bbafbffd71e2aaa28.jpeg

69d5a9cded79c59e4d2f5e7a79c9dd69.jpeg

c1c55a610fbbde6eb2cf5d11d150273d.png

7b31f8d0c5173e8f5acb31b75ab14ec1.png

3cace33fef0e7d123f6b75ab16a27455.jpeg

2252962a368a4694b6f0200e50820077.png

571c38b5caed88a3001c45a4e8074e25.png

10d746eefac37af09ab2c2448f7f0b63.jpeg

205064660d0a9bac6979ab766bbf2f4d.png

415f06f6e39310f30fe07b704e001adc.png

机器学习

605c74eb2f1103e3929f6d8cf2436fb4.jpeg

49177c2edb9dbef4b55703138758551e.jpeg

204c2baed2a886beb5d4d872936612da.png

这篇关于GPB | RegVar:基于深度神经网络的非编码区突变功能预测新方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/934808

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

Git中恢复已删除分支的几种方法

《Git中恢复已删除分支的几种方法》:本文主要介绍在Git中恢复已删除分支的几种方法,包括查找提交记录、恢复分支、推送恢复的分支等步骤,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录1. 恢复本地删除的分支场景方法2. 恢复远程删除的分支场景方法3. 恢复未推送的本地删除分支场景方法4. 恢复

Java中Springboot集成Kafka实现消息发送和接收功能

《Java中Springboot集成Kafka实现消息发送和接收功能》Kafka是一个高吞吐量的分布式发布-订阅消息系统,主要用于处理大规模数据流,它由生产者、消费者、主题、分区和代理等组件构成,Ka... 目录一、Kafka 简介二、Kafka 功能三、POM依赖四、配置文件五、生产者六、消费者一、Kaf

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

Window Server2016加入AD域的方法步骤

《WindowServer2016加入AD域的方法步骤》:本文主要介绍WindowServer2016加入AD域的方法步骤,包括配置DNS、检测ping通、更改计算机域、输入账号密码、重启服务... 目录一、 准备条件二、配置ServerB加入ServerA的AD域(test.ly)三、查看加入AD域后的变

Window Server2016 AD域的创建的方法步骤

《WindowServer2016AD域的创建的方法步骤》本文主要介绍了WindowServer2016AD域的创建的方法步骤,文中通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、准备条件二、在ServerA服务器中常见AD域管理器:三、创建AD域,域地址为“test.ly”

NFS实现多服务器文件的共享的方法步骤

《NFS实现多服务器文件的共享的方法步骤》NFS允许网络中的计算机之间共享资源,客户端可以透明地读写远端NFS服务器上的文件,本文就来介绍一下NFS实现多服务器文件的共享的方法步骤,感兴趣的可以了解一... 目录一、简介二、部署1、准备1、服务端和客户端:安装nfs-utils2、服务端:创建共享目录3、服

Java 字符数组转字符串的常用方法

《Java字符数组转字符串的常用方法》文章总结了在Java中将字符数组转换为字符串的几种常用方法,包括使用String构造函数、String.valueOf()方法、StringBuilder以及A... 目录1. 使用String构造函数1.1 基本转换方法1.2 注意事项2. 使用String.valu

Go语言实现将中文转化为拼音功能

《Go语言实现将中文转化为拼音功能》这篇文章主要为大家详细介绍了Go语言中如何实现将中文转化为拼音功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 有这么一个需求:新用户入职 创建一系列账号比较麻烦,打算通过接口传入姓名进行初始化。想把姓名转化成拼音。因为有些账号即需要中文也需要英

Python中使用defaultdict和Counter的方法

《Python中使用defaultdict和Counter的方法》本文深入探讨了Python中的两个强大工具——defaultdict和Counter,并详细介绍了它们的工作原理、应用场景以及在实际编... 目录引言defaultdict的深入应用什么是defaultdictdefaultdict的工作原理