一文极速读懂UniProt数据库

2024-06-02 23:08

本文主要是介绍一文极速读懂UniProt数据库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

mark
注意!UniProt 数据库进行了较大幅度的版本更新,最新版教程查看:一文极速读懂UniProt数据库(2023最新版)

Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大数据库的资源。

  • EBI( European Bioinformatics Institute):欧洲生物信息学研究所(EMBL-EBI)是欧洲生命科学旗舰实验室EMBL的一部分。位于英国剑桥欣克斯顿的惠康基因组校园内,是世界上基因组学领域最强的地带之一。
  • SIB(the Swiss Institute of Bioinformatics):瑞士日内瓦的SIB维护着ExPASy(专家蛋白质分析系统)服务器,这里包含有蛋白质组学工具和数据库的主要资源。
  • PIR(Protein Information Resource):PIR由美国国家生物医学研究基金会(NBRF)于1984年成立,旨在协助研究人员识别和解释蛋白质序列信息。

目前,UniProt由主要由以下子库构成:

数据库名全名用途
UniProtKB/Swiss-ProtProtein knowledgebas (review)高质量的、手工注释的、非冗余的数据库
UniProtKB/TrEMBLProtein knowledgebase (unreview)自动翻译蛋白质序列,预测序列,未验证的数据库
UniParcSequence非冗余蛋白质序列数据库
UniRefSequence clusters聚类序列减小数据库,加快搜索的速度
ProteomesProtein sets from fully sequenced genomes为全测序基因组物种提供蛋白质组信息

他们的关系如下:

通过EMBL,GenBank,DDBJ等公共数据库得到原始数据,处理后存入UniParc的非冗余蛋白质序列数据库。UniProt作为数据仓库,再分别给UniProtKB,Proteomes,UNIRef提供可靠的数据集。其中在UniProtKB数据库中Swiss-Prot是由TrEMBL经过手动注释后得到的高质量非冗余数据库,也是我们今后常用的蛋白质数据库之一。

mark

UniProtKB/Swiss-Prot

高质量的、手工注释的、非冗余的数据集

Swiss-Prot旨在提供与高水平注释(例如,蛋白质功能,其域结构,翻译后修饰,变体等的描述)相关的可靠蛋白质序列,最小程度的冗余和高水平与其他数据库的集成级别。注释主要来自文献中的研究成果和E-value校验过计算分析结果,有质量保证的数据才被加入该数据库 。

Swiss-Prot由Amos Bairoch博士在1986年创建,由瑞士生物信息学研究所开发,随后由欧洲生物信息学研究所的Rolf Apweiler开发。也是说EBI和SIB共同制作了Swiss-Prot和TrEMBL数据库。

Swiss-Prot条目的注释中使用了一系列序列分析工具。包括手动评估,计算机预测,并选择结果包含在相应的条目中。这些预测包括翻译后修饰,跨膜结构域和拓扑,信号肽,结构域识别和蛋白质家族分类。

来自相同基因和相同物种的序列合并到相同的数据库条目中。确定序列之间的差异包含:可变剪接,自然变异,错误的起始位点,错误的外显子边界,移码,未识别的冲突。

注释会用相关出版物通过搜索数据库(例如PubMed)进行识别。阅读每篇论文的全文,然后提取信息并将其添加到条目中。科学文献中的注释包括但不限于:

  • 蛋白质和基因名称
  • 功能
  • 特定于酶的信息,例如催化活性,辅因子和催化残基
  • 亚细胞定位
  • 蛋白质相互作用
  • 表达方式
  • 重要域和站点的位置和角色
  • 离子,底物和辅因子结合位点
  • 通过自然遗传变异,RNA编辑,替代剪接,蛋白水解加工和翻译后修饰产生的蛋白质变异形式

使用:

mark

UniProtKB/Swiss-Prot

高质量的、手工注释的、非冗余的数据集

Swiss-Prot旨在提供与高水平注释(例如,蛋白质功能,其域结构,翻译后修饰,变体等的描述)相关的可靠蛋白质序列,最小程度的冗余和高水平与其他数据库的集成级别。注释主要来自文献中的研究成果和E-value校验过计算分析结果,有质量保证的数据才被加入该数据库 。

Swiss-Prot由Amos Bairoch博士在1986年创建,由瑞士生物信息学研究所开发,随后由欧洲生物信息学研究所的Rolf Apweiler开发。也是说EBI和SIB共同制作了Swiss-Prot和TrEMBL数据库。

Swiss-Prot条目的注释中使用了一系列序列分析工具。包括手动评估,计算机预测,并选择结果包含在相应的条目中。这些预测包括翻译后修饰,跨膜结构域和拓扑,信号肽,结构域识别和蛋白质家族分类。

来自相同基因和相同物种的序列合并到相同的数据库条目中。确定序列之间的差异包含:可变剪接,自然变异,错误的起始位点,错误的外显子边界,移码,未识别的冲突。

注释会用相关出版物通过搜索数据库(例如PubMed)进行识别。阅读每篇论文的全文,然后提取信息并将其添加到条目中。科学文献中的注释包括但不限于:

  • 蛋白质和基因名称

  • 功能

  • 特定于酶的信息,例如催化活性,辅因子和催化残基

  • 亚细胞定位

  • 蛋白质相互作用

  • 表达方式

  • 重要域和站点的位置和角色

  • 离子,底物和辅因子结合位点

  • 通过自然遗传变异,RNA编辑,替代剪接,蛋白水解加工和翻译后修饰产生的蛋白质变异形式

常用的操作

image

<1>:这里输入基因名,UniProt ID,或者感兴趣的关键字

<2>:筛选:Reviewed:存储在Swiss-Prot数据库中经过验证的蛋白数据,Unreviewed:存储在TrEMBL数据库中没有经过验证的蛋白数据

<3>:筛选某个物种,点击就好切换到该物种

<4>:通过基因名或蛋白名来筛选

<5>:依次是Unprot ID,该蛋白数据库命名,蛋白质名,基因名,物种,序列长

<6>:如果需要Blast来查看某个蛋白有哪些序列相似的蛋白序列,先选中感兴趣蛋白前的方框,点击Blast

<7>:如果需要多序列比对,先选中感兴趣蛋白前的方框,点击Align

<8>:如果要下载信息,先选中感兴趣蛋白前的方框,点击Download下载。这里不选择序列,默认会下载全部序列

下面以 PO5F1_HUMAN 为例,下载对应的fasta序列来看看:

image

下载到的序列:

>sp|Q01860|PO5F1_HUMAN POU domain, class 5, transcription factor 1 OS=Homo sapiens OX=9606 GN=POU5F1 PE=1 SV=1MAGHLASDFAFSPPPGGGGDGPGGPEPGWVDPRTWLSFQGPPGGPGIGPGVGPGSEVWGIPPCPPPYEFCGGMAYCGPQVGVGLVPQGGLETSQPEGEAGVGVESNSDGASPEPCTVTPGAVKLEKEKLEQNPEESQDIKALQKELEQFAKLLKQKRITLGYTQADVGLTLGVLFGKVFSQTTICRFEALQLSFKNMCKLRPLLQKWVEEADNNENLQEICKAETLVQARKRKRTSIENRVRGNLENLFLQCPKPTLQQISHIAQQLGLEKDVVRVWFCNRRQKGKRSSSDYAQREDFEAAGSPFSGGPVSFPLAPGPHFGTPGYGSPHFTALYSSVPFPEGEAFPPVSVTTLGSPMHSN

首先看 > 后的注释信息

  • sp:Swiss-Prot数据库的简称,也就是上面说的验证后的蛋白数据库

  • Q01860:UniProt ID号

  • PO5F1_HUMAN:是UniProt 的登录名

  • POU domain, class 5, transcription factor 1:蛋白质名称

  • OS=Homo sapiens:OS是Organism简称,Homo sapiens为人的拉丁文分类命名,也就是这是人的蛋白质

  • OX=9606:Organism Taxonomy,也就是物种分类数据库Taxonomy ID

  • GN=POU5F1:Gene name,基因名为POU5F1

  • PE=1:Protein Existence,蛋白质可靠性,对应5个数字,数字越小越可靠:

    • 1:Experimental evidence at protein level

    • 2:Experimental evidence at tranlevel

    • 3:Protein inferred from homology

    • 4:Protein predicted

    • 5:Protein uncertain

  • SV=1:Sequence Version,序列版本号

UniProtKB/TrEMBL

在认识到序列数据的生成速度超过了Swiss-Prot的注释能力时,为了给不在Swiss-Prot中的那些蛋白质提供自动注释,UniProt创建了TrEMBL(翻译的EMBL核苷酸序列数据库)。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都会被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。之前提到的PIR组织制作了蛋白质序列数据库(PIR-PSD)。

UniParc

UniProt Archive(UniParc)包含来自主要公共可用蛋白质序列数据库的所有蛋白质序列的非冗余数据集。蛋白质可能存在于几个不同的来源数据库中,并且在同一数据库中存在多个副本。 为了避免冗余,UniParc仅将每个唯一序列存储一次。 相同序列被合并,无论它们来自相同还是不同物种。 每个序列都有一个稳定且唯一的标识符(UPI),从而可以从不同的来源数据库中识别相同的蛋白质。

UniParc仅包含蛋白质序列,没有注释。 UniParc条目中的数据库交叉引用允许从源数据库检索有关该蛋白质的更多信息。 当源数据库中的序列发生更改时,UniParc将跟踪这些更改,并记录所有更改的历史记录。

UniRef

UniProt Reference Clusters(UniRef):聚类序列可显著减小数据库大小,从而加快序列搜索的速度。用于计算的蛋白质序列来自UniProtKB和部分UniParc记录的序列。UniRef100序列将相同的序列和序列片段(来自任何生物)合并到一个UniRef条目中,用于显示代表性蛋白质的序列。 使用CD-HIT算法对UniRef100序列进行聚类,并构建UniRef90和UniRef50。UniRef90和UniRef50分别代表每个簇由与最长序列分别具有至少90%或50%序列同一性的序列组成。

这篇关于一文极速读懂UniProt数据库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1025353

相关文章

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

C#实现文件读写到SQLite数据库

《C#实现文件读写到SQLite数据库》这篇文章主要为大家详细介绍了使用C#将文件读写到SQLite数据库的几种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录1. 使用 BLOB 存储文件2. 存储文件路径3. 分块存储文件《文件读写到SQLite数据库China编程的方法》博客中,介绍了文

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

SQL Server数据库磁盘满了的解决办法

《SQLServer数据库磁盘满了的解决办法》系统再正常运行,我还在操作中,突然发现接口报错,后续所有接口都报错了,一查日志发现说是数据库磁盘满了,所以本文记录了SQLServer数据库磁盘满了的解... 目录问题解决方法删除数据库日志设置数据库日志大小问题今http://www.chinasem.cn天发

一文带你搞懂Nginx中的配置文件

《一文带你搞懂Nginx中的配置文件》Nginx(发音为“engine-x”)是一款高性能的Web服务器、反向代理服务器和负载均衡器,广泛应用于全球各类网站和应用中,下面就跟随小编一起来了解下如何... 目录摘要一、Nginx 配置文件结构概述二、全局配置(Global Configuration)1. w

Oracle数据库执行计划的查看与分析技巧

《Oracle数据库执行计划的查看与分析技巧》在Oracle数据库中,执行计划能够帮助我们深入了解SQL语句在数据库内部的执行细节,进而优化查询性能、提升系统效率,执行计划是Oracle数据库优化器为... 目录一、什么是执行计划二、查看执行计划的方法(一)使用 EXPLAIN PLAN 命令(二)通过 S

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

深入理解数据库的 4NF:多值依赖与消除数据异常

在数据库设计中, "范式" 是一个常常被提到的重要概念。许多初学者在学习数据库设计时,经常听到第一范式(1NF)、第二范式(2NF)、第三范式(3NF)以及 BCNF(Boyce-Codd范式)。这些范式都旨在通过消除数据冗余和异常来优化数据库结构。然而,当我们谈到 4NF(第四范式)时,事情变得更加复杂。本文将带你深入了解 多值依赖 和 4NF,帮助你在数据库设计中消除更高级别的异常。 什么是