二区5分纯生信|单细胞+非负矩阵+AlphaFold+机器学习组合

本文主要是介绍二区5分纯生信|单细胞+非负矩阵+AlphaFold+机器学习组合,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

说在前面

学文不看刊

这篇分析总体来说工作量不算大,scRNA联合bulkRNA分析,多种机器学习组合预测模型,最后用了AlphaFold2预测蛋白及AutoDock分子对接

非常适合小白学习和模仿,其次在筛选出核心基因后可以再加几个外部数据集观察表达表征,单细胞层次也可再次进行验证,堆上工作量


今天给大家分享的一篇文章:Unveiling the molecular complexity of proliferative diabetic retinopathy through scRNA-seq, AlphaFold 2, and machine learning

  • 标题:通过 scRNA-seq、AlphaFold 2 和机器学习揭示增生性糖尿病视网膜病变的分子复杂性
  • 期刊名称:Frontiers in Endocrinology
  • 影响因子:5.2
  • JCR分区:Q1
  • 中科院分区:医学2区
  • 小类:内分泌学与代谢2区

摘要

背景: 增生性糖尿病视网膜病变(PDR)是失明的主要原因,其发病机制复杂。本研究整合单细胞 RNA 测序(scRNA-seq)、非负矩阵分解(NMF)、机器学习和 AlphaFold 2 方法,探索 PDR 的分子水平。

方法: 我们分析了 PDR 患者和健康对照者的 scRNA-seq 数据,以确定不同的细胞亚型和基因表达模式。NMF 用于定义 PDR 中的特定转录程序。利用 Meta-Program 1 中确定的氧化应激相关基因 (ORG),使用 12 种机器学习算法构建预测模型。此外,我们使用 AlphaFold 2 预测蛋白质结构,并辅以分子对接以验证潜在治疗靶点的结构基础。我们还分析了蛋白质-蛋白质相互作用 (PPI) 网络和关键 ORG 之间的相互作用。

结果: 我们的 scRNA-seq 分析显示 PDR 患者有五种主要细胞类型和 14 种亚细胞类型,与对照组相比,基因表达存在显著差异。我们确定了三个关键元程序,强调了小胶质细胞在 PDR 发病机制中的作用。确定了三个关键 ORG(ALKBH1PSIP1ATP13A2),其中表现最佳的预测模型表现出较高的准确度(训练队列中的 AUC 为 0.989,验证队列中的 AUC 为 0.833)。此外,AlphaFold 2 预测与分子对接相结合显示白藜芦醇对 ALKBH1 具有很强的亲和力,表明其具有作为靶向治疗剂的潜力。PPI 网络分析揭示了中心 ORG 与其他基因之间复杂的相互作用网络,表明其在 PDR 发病机制中发挥着集体作用。

结论: 本研究深入了解了 PDR 的细胞和分子方面,并使用先进的技术方法确定了潜在的生物标志物和治疗目标。

关键词: ALKBH1;AlphaFold 2;NMF;PPI;糖尿病视网膜病变;机器学习;氧化应激;单细胞分析。

结果


图 1增生性糖尿病视网膜病变 (PDR) 样本与正常样本的单细胞 RNA 测序分析比较。

  • (A) PDR 和正常样本的单细胞 RNA 测序数据的质量控制。
  • (B)高度变异基因的鉴定。前 2000 个变异基因显示为红点。
  • ©主成分分析。据此,我们将细胞组分为两类。主成分的 ElbowPlot (D)和 JackStrawPlot (E) 。
  • 不同组(F)、8 个样本(G)、26 个簇(H)、5 种主要细胞类型(I)和 14 种亚细胞类型(J)的 t 分布随机邻域嵌入(t-SNE) 分析。


图 2 PDR 中细胞间通讯和基因表达的详细分析。

  • (A、B)基于所涉及基因数量(A)和相互作用权重/强度(B)的五种主要细胞类型的细胞间通讯网络图。
  • (C-F)小胶质细胞和间充质细胞的基因表达分析。两种细胞类型中上调(C)和下调(D)基因。(E)间充质细胞中下调的基因,但小胶质细胞中上调的基因。(F)间充质细胞中上调的基因,但小胶质细胞中下调的基因。


图 3小胶质细胞中的 PDR 基因模块目录。

  • (A)热图展示了小胶质细胞中 PDR 基因模块之间重叠的重要性,确定了三个共识模块:元程序 1、元程序 2 和元程序 3。
  • (B)从 Gene Ontology 和 PathCards 数据库中识别出元程序 1 和氧化应激相关基因 (ORG) 交叉处的 15 个基因。


图 4机器学习衍生的预测模型的开发。

  • (A)训练和验证队列中机器学习算法组合的 AUC 结果。训练队列为 GSE160306,验证队列为 GSE102485。
  • (B)性能最高的模型中包含的三个中心 ORG 的描述。
  • (C)使用 AlphaFold 2 预测的三个中心 ORG 的蛋白质结构。


图 5白藜芦醇与 ALKBH1 的分子对接。

  • (A) ALKBH1 蛋白的三维结构。
  • (B) ALKBH1 蛋白与白藜芦醇之间的结合相互作用图。
  • (C)白藜芦醇与 ALKBH1 的分子对接的近距离视图,突出显示局部扩增细节。


图 6蛋白质-蛋白质相互作用 (PPI) 网络的构建及三个枢纽 ORG 的功能富集分析。

  • (A)基于与三个枢纽 ORG 密切相关的 50 个基因构建 PPI 网络。
  • (B)使用七种分析算法确定了 PPI 网络中的前十个枢纽基因。
  • © UpSet 图显示所有算法确定的重叠基因。


图 7三种关键 ORG 与阴性对照基因 PXDNL 在各种疾病条件下的相互作用。

  • 分析使用比较毒理基因组学数据库 (CTD;http://ctdbase.org/ ) 进行。三个枢纽 ORG 与(A)糖尿病视网膜病变、(B)视网膜疾病、©眼部疾病、(D)血管疾病、(E)糖尿病并发症和(F)糖尿病之间的推断分数以条形图显示。

小结

  • 主要数据及方法:
TypesNotes
分析数据scRNA:GSE165784;bulkRNA:GSE102485、GSE160306;氧化应激相关基因:Gene Ontology、PathCards
分析方法单细胞标准流程;小胶质细胞非负矩阵;机器学习组合ORG预测模型;AlphaFold2蛋白结构预测;AutoDock分子对接;PPI多算法网络拓扑分析;CTD评分可视化

这篇关于二区5分纯生信|单细胞+非负矩阵+AlphaFold+机器学习组合的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1013613

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

hdu4869(逆元+求组合数)

//输入n,m,n表示翻牌的次数,m表示牌的数目,求经过n次操作后共有几种状态#include<iostream>#include<algorithm>#include<cstring>#include<stack>#include<queue>#include<set>#include<map>#include<stdio.h>#include<stdlib.h>#includ

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

hdu 4565 推倒公式+矩阵快速幂

题意 求下式的值: Sn=⌈ (a+b√)n⌉%m S_n = \lceil\ (a + \sqrt{b}) ^ n \rceil\% m 其中: 0<a,m<215 0< a, m < 2^{15} 0<b,n<231 0 < b, n < 2^{31} (a−1)2<b<a2 (a-1)^2< b < a^2 解析 令: An=(a+b√)n A_n = (a +