揭秘PLNet:用泊松对数正态图网络分析助力单细胞RNA测序数据处理大突破

本文主要是介绍揭秘PLNet:用泊松对数正态图网络分析助力单细胞RNA测序数据处理大突破,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今天我们介绍一篇来自北京大学数学科学学院的肖飞轶、唐俊杰发表在NeurIPS 2022会议上的工作,该文章研究了用于计数数据的图形模型估计方法,应用于单细胞基因网络分析。文章介绍了PLN图形模型的概念及其在单细胞基因调控网络分析中的应用。研究表明,该图形模型能够较好地解释单细胞基因表达数据,有助于揭示基因网络的调控机制。文章还探讨了该模型的应用前景和改进方向。

cfcf347312d9aaea7e802ec6ff3604b3.png

背景介绍

高斯图模型已在许多不同领域广泛应用于直接交互推理。然而,在一些现代应用中,如单细胞RNA测序(scRNA-seq)研究,观察到的数据通常是计数数据,包含许多小计数。传统连续数据图模型不适用于计数数据网络推理。本文研究了泊松对数正态(PLN)图模型——PLNet,适用于计数数据,其中潜在正态分布的精度矩阵表示网络。我们提出了一种两步法估计精度矩阵:首先利用最大边际似然估计器(MMLE)估计潜在协方差矩阵,然后通过最小化套索惩罚d-trace损失函数估计精度矩阵。我们建立了MMLE协方差矩阵的收敛速度,并进一步建立了所提出的高维环境下PLNet精度矩阵估计的收敛速度和符号一致性。尽管PLN模型非亚高斯,但即使随着样本量增加,模型维数指数增长至无穷大,PLNet估计仍是一致的。通过模拟真实scRNA-seq数据和基因调控网络分析,我们评估了PLNet性能,并与现有方法进行了比较。

本文的创新与贡献:

  • 本文提出了一种针对计数数据的图模型估计方法,并将其应用于单细胞基因网络的建模。

  • 本文提出了一种基于Copula理论的半参数方法,有效地解决了传统的图模型估计方法难以处理计数数据的特殊性质这一问题。

  • 本文提出的方法在实际数据集上得到了验证,并取得了比现有方法更好的效果,为相关领域的研究提供了新思路和方法。

方法介绍

本文提出的两步法分为两步:

  1. 使用最大边际似然估计器(MMLE)估计潜变量协方差矩阵。具体来说,对于潜变量的每个维度,通过最大化其边际对数似然函数来估计其均值和方差。然后将这些均值和方差与协方差矩阵组合起来估计整个潜变量协方差矩阵。这个过程可以通过牛顿-拉夫逊算法来实现。此外,还可以通过一些方法来减小高维度估计中的数值积分计算。最后,对得到的协方差矩阵估计器进行投影操作,使其成为半正定矩阵,以保证在D-trace方法中使用时的凸性。

  2. 通过最小化带套索惩罚的D-trace损失函数来估计精度矩阵。

除此之外,作者证明了在高维设置下,MMLE的协方差矩阵估计的收敛速度,进一步证明了该方法估计精度矩阵的收敛速度和符号一致性。

实验介绍

数据集:本文使用了多组模拟数据集和真实的单细胞转录组数据集。模拟数据集是通过基于图形模型的方法生成的,其中数据维度从100到500不等,样本大小为100到200个。而真实数据集是从“大脑单细胞转录组”和“脂肪细胞单细胞转录组”中获得的,分别包括不同细胞类型的单细胞RNA测序数据。其中,“大脑单细胞转录组”包括来自小鼠额叶、海马、纹状体等部位的单细胞RNA测序数据,而“脂肪细胞单细胞转录组”则包括人类皮下脂肪细胞的数据。这些数据集都是公开可用的,作者提供了相关数据的链接和详细描述。同时,作者还对模拟数据集和真实数据集进行了不同程度的随机采样和过滤等处理,以验证算法的鲁棒性和效果。

实验过程:本文主要介绍了一种基于图模型的计数数据建模方法,并将其应用于单细胞基因网络的估计。实验部分包括两个方面:一是通过模拟数据进行了性能评估,二是利用真实的单细胞转录组数据进行了应用实例的展示。

对于模拟数据的实验,本文设置了四种不同的图结构,并根据这些结构生成数据集进行实验。在每个图结构下,本文分别生成了100个数据集进行评估,用平均绝对误差和平均相对误差来评价模型的性能。

14509a7c2ac84a340ecdcb707f422a6b.png

表1:PLNet, VPLN, glasso和PLNet - MOM在n = 500仿真结果的精度下面积和召回曲线(AUPR)方面的比较。结果为超过100次重复的平均值,括号内为标准差。

2a990c069e42c1872ceca12121db120d.png

表2:在n = 2000的模拟结果上,PLNet、VPLN、glasso和PLNet - MOM在精度下面积和召回曲线(AUPR)方面的比较。结果为超过100次重复的平均值,括号内为标准差。

a1c88e39163b32c375278f4c355e8bbc.png

图1:用PLNet、VPLN、glasso和PLNet - MOM对n = 2000的100个节点带状图预测的平均网络。假边用红色标注,真边用蓝色标注。左面板为真实网络矩阵,供参考。

在应用实例方面,本文选取了一个真实的单细胞转录组数据集,并按照本文提出的方法进行建模和估计。

实验结果:本文的实验结果主要涉及不同方法在模拟数据和真实数据上的表现。在模拟数据中,本文比较了PLNet、VPLN、glasso和PLNet-MOM这四种方法在不同数据维度和不同dropout水平下的表现,主要通过计算面积下的精确度和召回率曲线(AUPR)来进行评估。结果表明,PLNet在低和高dropout水平下均比其他三种方法表现更好。在真实数据中,本文将PLNet和VPLN应用于单细胞基因网络分析中,比较它们在DetectingEMT和MouseBrain数据集上的表现。实验结果表明,PLNet成功识别了已知的基因调控网络,并且能够发现新的潜在调控关系。此外,本文还可视化了通过四种方法在banded图上预测的平均网络,结果表明PLNet在发现真实网络拓扑结构方面表现优秀。综上,本文的实验结果表明,PLNet在探索单细胞基因网络方面有着很高的表现。

11e640a60c6cd579e2c374632e2a1a10.png

图2:PLNet (a)和VPLN (b)给出的4个GO模块中基因的部分相关性热图。红色:细胞因子介导的信号通路(模块M1);橙色:中性粒细胞介导免疫(模块M2);绿色:细胞蛋白质代谢过程(模块M3);蓝色:蛋白水解(模块M4)

82a9a776b4fbd5a455c96df324eb0bf0.png

表3:将PLNet和VPLN估计的网络中4个模块的内间连接率调优,使网络密度在5%左右

f232b16be372ee97f31ae03ad0dbeaec.png

表4:两种方法在不同密度水平下估计的真边数

结果与讨论

本文考虑了计数数据的PLN图形模型。该模型对单细胞基因调控网络分析有较直观的解释。泊松层用于捕捉9种技术噪声,对数正态层用于模拟单细胞的生物波动。基因调控网络用潜对数正态模型的精度矩阵表示。为了估计精度矩阵,本文提出了一个两步估计器PLNet,使用MMLE估计协方差矩阵,然后最小化惩罚d-trace损失来估计精度矩阵。这种估计过程的简单性使本文能够为所提出的PLNet估计器建立高维设置的一致性理论。数值分析也表明,PLNet方法优于现有方法。

参考资料

Xiao, Feiyi, Junjie Tang, Huaying Fang, and Ruibin Xi. "Estimating graphical models for count data with applications to single-cell gene network." Advances in Neural Information Processing Systems 35 (2022): 29038-29050.

这篇关于揭秘PLNet:用泊松对数正态图网络分析助力单细胞RNA测序数据处理大突破的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/180059

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

三国地理揭秘:为何北伐之路如此艰难,为何诸葛亮无法攻克陇右小城?

俗话说:天时不如地利,不是随便说说,诸葛亮六出祁山,连关中陇右的几座小城都攻不下来,行军山高路险,无法携带和建造攻城器械,是最难的,所以在汉中,无论从哪一方进攻,防守方都是一夫当关,万夫莫开;再加上千里运粮,根本不需要打,司马懿只需要坚守城池拼消耗就能不战而屈人之兵。 另一边,洛阳的虎牢关,一旦突破,洛阳就无险可守,这样的进军路线,才是顺势而为的用兵之道。 读历史的时候我们常常看到某一方势

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

客户案例:安全海外中继助力知名家电企业化解海外通邮困境

1、客户背景 广东格兰仕集团有限公司(以下简称“格兰仕”),成立于1978年,是中国家电行业的领军企业之一。作为全球最大的微波炉生产基地,格兰仕拥有多项国际领先的家电制造技术,连续多年位列中国家电出口前列。格兰仕不仅注重业务的全球拓展,更重视业务流程的高效与顺畅,以确保在国际舞台上的竞争力。 2、需求痛点 随着格兰仕全球化战略的深入实施,其海外业务快速增长,电子邮件成为了关键的沟通工具。

无线领夹麦克风什么牌子好用?揭秘领夹麦克风哪个牌子音质好!

随着短视频行业的星期,围绕着直播和视频拍摄的电子数码类产品也迎来了热销不减的高增长,其中除了数码相机外,最为重要的麦克风也得到了日益增长的高需求,尤其是无线领夹麦克风,近几年可谓是异常火爆。别看小小的一对无线麦克风,它对于视频拍摄的音质起到了极为关键的作用。 不过目前市面上的麦克风品牌种类多到让人眼花缭乱,盲目挑选的话容易踩雷,那么无线领夹麦克风什么牌子好用?今天就给大家推荐几款音质好的

负债不再是障碍?银行信贷“白名单“揭秘

谈及银行信贷产品,常闻有言称存在无需考量负债与查询记录之奇品,此等说法十有八九为中介诱人上钩之辞。轻信之下,恐将步入连环陷阱。除非个人资质出类拔萃,如就职于国央企或事业单位,工龄逾年,五险一金完备,还款能力卓越,或能偶遇线下产品对查询记录稍显宽容,然亦非全然无视。宣称全然不顾者,纯属无稽之谈。 银行非慈善机构,不轻易于困境中援手,更偏爱锦上添花之举。若无坚实资质,即便求助于银行亦难获青睐。反

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

生信圆桌x生信分析平台:助力生物信息学研究的综合工具

介绍 少走弯路,高效分析;了解生信云,访问 【生信圆桌x生信专用云服务器】 : www.tebteb.cc 生物信息学的迅速发展催生了众多生信分析平台,这些平台通过集成各种生物信息学工具和算法,极大地简化了数据处理和分析流程,使研究人员能够更高效地从海量生物数据中提取有价值的信息。这些平台通常具备友好的用户界面和强大的计算能力,支持不同类型的生物数据分析,如基因组、转录组、蛋白质组等。

单细胞降维聚类分群注释全流程学习(seruat5/harmony)

先前置几个推文~ 单细胞天地: https://mp.weixin.qq.com/s/drmfwJgbFsFCtoaMsMGaUA https://mp.weixin.qq.com/s/3uWO8AP-16ynpRQEnEezSw 生信技能树: https://mp.weixin.qq.com/s/Cp7EIXa72nxF3FHXvtweeg https://mp.weixin.qq.