miRNA测序数据生信分析——第二讲,数据库下载整理

2023-10-10 23:28

本文主要是介绍miRNA测序数据生信分析——第二讲,数据库下载整理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

miRNA测序数据生信分析——第二讲,数据库下载整理

  • miRNA测序数据生信分析——第二讲,数据库下载整理
    • 1. Rfam数据库
      • 1.1 Rfam数据库——简单概述
      • 1.2 Rfam数据库——下载整理:两种情况
        • 1.2.1 用于注释基因组上的ncRNA基因序列
        • 1.2.2 用于注释ncRNA/sRNA测序中的tRNA和rRNA序列
    • 2. miRBase数据库
      • 2.1 miRBase数据库——简单概述
      • 2.2 miRBase数据库——下载整理
    • 3. miRTarBase数据库
      • 3.1 miRTarBase数据库——简单概述
      • 3.2 miRTarBase数据库——下载整理
    • 4. miRDB数据库
      • 4.1 miRDB数据库——简单概述
      • 4.2 miRDB数据库——下载整理
    • 5. TargetScan数据库
      • 5.1 TargetScan数据库——简单概述
    • 6. TargetMiner数据库
      • 6.1 TargetMiner数据库——简单概述

miRNA测序数据生信分析——第二讲,数据库下载整理

有六个Rfam、miRBase、miRTarBase、miRDB、TargetScan和TargetMiner
重点是前4个。
这一部分:在对数据库整理时,涉及到三个软件(infernal、blast、seqkit)、2个脚本的撰写以及对NCBI的Refseq和GENE数据库的使用

1. Rfam数据库

1.1 Rfam数据库——简单概述

一个非编码RNA的整合数据库,可用来识别鉴定各种类型的ncRNA。提供的是ncRNA在基因组上的基因序列,而非转录成熟ncRNA的序列。
官方网站:https://rfam.xfam.org/
指导手册:http://eddylab.org/infernal/Userguide.pdf
下载Rfam数据库文件地址:https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/
最新版:2022-11-02
Rfam数据库中ncRNA类型分三大类:Cis-reg和Gene和Intron。这三大类又有子类。
在这里插入图片描述

1.2 Rfam数据库——下载整理:两种情况

Rfam数据库使用的两种情况:
①用于注释基因组上的ncRNA基因序列
②用于注释ncRNA/sRNA测序中的tRNA和rRNA序列(miRNA、lncRNA转录会加工成mature miRNA,因此不能注释)
两种情况分析时准备的Rfam数据库文件和整理方法是不同的,这里分别阐述。

1.2.1 用于注释基因组上的ncRNA基因序列

需要的Rfam数据库文件:Rfam.clanin、Rfam.cm和family.txt
需要的软件:infernal

#软件infernal
#官网:http://eddylab.org/infernal/,下载最新安装包
#安装
cd /home/zhaohuiyao/Biosoft/ncRNA_soft
wget http://eddylab.org/infernal/infernal-1.1.4-linux-intel-gcc.tar.gz
tar -zxvf ./infernal-1.1.4-linux-intel-gcc.tar.gz
#已是编译好的版本。可执行文件位置:/home/zhaohuiyao/Biosoft/ncRNA_soft/infernal-1.1.4-linux-intel-gcc/binaries/cd /home/zhaohuiyao/Database/Rfam
wget https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.clanin
wget https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.cm.gz
wget https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/database_files/family.txt.gz
gunzip ./Rfam.cm.gz
gunzip ./family.txt.gz
#建立数据库索引
/home/zhaohuiyao/Biosoft/ncRNA_soft/infernal-1.1.4-linux-intel-gcc/binaries/cmpress /home/zhaohuiyao/Database/Rfam/Rfam.cm
1.2.2 用于注释ncRNA/sRNA测序中的tRNA和rRNA序列

需要的Rfam数据库文件:Rfam.fa、Rfam.full_region和family.txt
需要的软件:blast
需要自己写一个脚本:Deal_Rfam_full_region.py

cd /home/zhaohuiyao/Database/Rfam
wget https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/fasta_files/Rfam.fa.gz
wget https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/Rfam.full_region.gz
wget https://ftp.ebi.ac.uk/pub/databases/Rfam/CURRENT/database_files/family.txt.gz
gunzip ./Rfam.fa.gz
gunzip ./Rfam.full_region.gz
gunzip ./family.txt.gz#特别注意:Rfam.fa(保存ncRNA序列)和Rfam.full_region(ncRNA属于哪个RF家族),两者信息数量不对等,需要手动修正。
#最终拿到两者信息完美匹配的Rfam.fa和Rfam.full_region
python3 ./Deal_Rfam_full_region.py -i ./Rfam.fa -I ./Rfam.full_region -o ./

在这里插入图片描述

#结果文件Rfam.full_region.tmp和Rfam.fa.tmp替换原来的文件
mv Rfam.full_region.tmp Rfam.full_region
mv Rfam.fa.tmp Rfam.fa			#最终的Rfam.fa长度从19~10656bp
/home/zhaohuiyao/Biosoft/general/seqkit stat -j 16 -T ./Rfam.fa

在这里插入图片描述

#建立数据库索引
/home/zhaohuiyao/Biosoft/general/ncbi-blast-2.10.0+/bin/makeblastdb -in ./Rfam.fa -dbtype nucl -out ./Rfam

2. miRBase数据库

2.1 miRBase数据库——简单概述

一个提供包括miRNA序列数据、注释、预测基因靶标等信息的全方位数据库,是存储miRNA信息最主要的公共数据库之一。
官方网址:https://www.mirbase.org/
下载地址:https://www.mirbase.org/ftp/CURRENT/
最新版:2018-12-01

2.2 miRBase数据库——下载整理

cd /home/zhaohuiyao/Database/miRBase
wget https://www.mirbase.org/ftp/CURRENT/organisms.txt.gz
wget https://www.mirbase.org/ftp/CURRENT/mature.fa.gz
gunzip ./organisms.txt.gz
grep -v "#" ./organisms.txt | wc -l				#285个物种
gunzip ./mature.fa.gz

3. miRTarBase数据库

3.1 miRTarBase数据库——简单概述

一个保存miRNA靶基因信息的数据库,其中存在的MITs是经过实验验证的,包括reporter assay, western blot, microarray and next-generation sequencing experiments等实验方法。因此可信度高。最新版v9.0,时间2021-09,依据miRBase v22。
官方网址:https://mirtarbase.cuhk.edu.cn/~miRTarBase/miRTarBase_2022/php/index.php
包括物种:37种。有单独物种的文件(例:hsa_MTI.xlsx),也有全部物种的文件miRTarBase_MTI.xlsx。

3.2 miRTarBase数据库——下载整理

对miRTarBase_MTI.xlsx进行提取,仅保留三列。miRNA,Target Gene,Target Gene (Entrez ID)。并删除重复项。(重复原因,不同的实验方法对同一靶向关系验证),拿到最终文件miRTarBase_MTI.txt
这个处理可以在Windows下用excel完成,①直接删列;②将miRNA与Target Gene两列合并(=A1&“_”&B1),利用合并后的字符串进行去重复。
但是没有想到,文件里面有迷惑的地方。令人不解
请添加图片描述
miRNA的名称与物种之间不一致,这种情况,我就忽略了
cd /home/zhaohuiyao/Database/miRTarBase
#文件miRTarBase_MTI.txt
在这里插入图片描述
grep -v “#” ./miRTarBase_MTI.txt | awk ‘{split($0,arr,“-”);print arr[1]}’ | sort | uniq > miRTarBase.organism
wc -l miRTarBase.organism #26个物种

4. miRDB数据库

4.1 miRDB数据库——简单概述

一个保存miRNA靶基因信息的数据库。最新版v6.0,时间2019-06,依据miRBase v22。
六大模块:Target Search、Target Expression、Target Ontology、Target Mining、Custom Prediction、FuncMir Collection
官方网址:https://mirdb.org/
仅针对5个物种的靶基因信息进行分析。(人类,小鼠,褐家鼠,家狗,原鸡)
在这里插入图片描述

4.2 miRDB数据库——下载整理

cd /home/zhaohuiyao/Database/miRDB
wget https://mirdb.org/download/miRDB_v6.0_prediction_result.txt.gz
gunzip ./miRDB_v6.0_prediction_result.txt.gz
grep -v “#” ./miRDB_v6.0_prediction_result.txt | awk ‘{split($0,arr,“-”);print arr[1]}’ | sort | uniq > miRDB.organism #5个物种

出现问题:
举例如下
以cfa-miR-1185为例,在miRDB官网进行检索,点击Target Search,检索靶标基因,结果如下
在这里插入图片描述
在这里插入图片描述
#有714个靶基因,且有靶基因的Gene Symbol
但是呀,万万没有想到!!!在下载的数据库文件miRDB_v6.0_prediction_result.txt文件中进行检索,结果有2287个
grep -c “cfa-miR-1185” ./miRDB_v6.0_prediction_result.txt 在这里插入图片描述
#并且检索结果中是靶mRNA的检索号,而不是Gene Symbol

因此,需要我们自己提供Gene Symbol和靶mRNA检索号的对应关系,对miRDB_v6.0_prediction_result.txt进行整理。这个整理有点复杂

#第一步,下载Gene Entrez ID和mRNA检索号的对应关系文件。依据NCBI的RefSeq数据库
cd /home/zhaohuiyao/Database/RefSeq
wget https://ftp.ncbi.nlm.nih.gov/refseq/release/release-catalog/release218.accession2geneid.gz
gunzip ./release218.accession2geneid.gz
在这里插入图片描述
#该文件由四列组成,分别是Taxonomic ID、Entrez GeneID、Transcript accession.version 、Protein accession.version。若第三列转录本检索号由NR或XR开头,表示非编码基因,则第四列的值为na

#第二步,下载Entrez GeneID和Gene Symbol的对应关系文件。依据NCBI的GENE数据库
#可以下载NCBI上所有基因的文件,不分物种
https://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/All_Data.gene_info.gz
#但是不划算,我只需要分别下载5个物种的基因文件
#这里以Homo sapiens(hsa)为例
cd /home/zhaohuiyao/Database/miRDB
wget https://ftp.ncbi.nlm.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz
gunzip ./Homo_sapiens.gene_info.gz

#第三步,依据第一步和第二步下载的文件,对miRDB_v6.0_prediction_result.txt进行整理,拿到独属于指定物种的关系文件
python3 ./Deal_miRDB.py -i ./miRDB_v6.0_prediction_result.txt -db1 …/RefSeq/release218.accession2geneid -db2 ./Homo_sapiens.gene_info -s hsa -o ./
在这里插入图片描述
#结果文件miRDB_v6.0_prediction_result.txt.hsa(3351016)和miRDB_v6.0_prediction_result.txt.hsa.Error(0+24725)
在这里插入图片描述
在这里插入图片描述
#第四步,分在再完成物种Mus_musculus(mmu)、物种Rattus norvegicus(rno)、物种Canis familiaris(cfa)和物种Gallus gallus(gga)的整理工作
#第五步,将5个物种的结果进行整合。
cat miRDB_v6.0_prediction_result.txt.hsa miRDB_v6.0_prediction_result.txt.mmu miRDB_v6.0_prediction_result.txt.rno miRDB_v6.0_prediction_result.txt.cfa miRDB_v6.0_prediction_result.txt.gga > miRDB_v6.0_prediction_result.txt.final

5. TargetScan数据库

5.1 TargetScan数据库——简单概述

一个保存miRNA靶基因信息的数据库。最新版v7.2,时间2018-03。
官网:https://www.targetscan.org/vert_80/
没有一个完整的数据库,只有不同物种的各自数据库,若想本地进行检索,需要分别下载。
物种有:Human、Mouse、Rat、chimpanzee、Rhesus、Cow、Dog、Opossum、Chicken、Frog、Worm、Fly、Fish等。(但只有Human、Mouse、Worm、Fly、Fish能做本地检索,下载靶标信息文件)
#选择物种和靶基因的名称
在这里插入图片描述

6. TargetMiner数据库

6.1 TargetMiner数据库——简单概述

版本2012年,没有更新,且只有人类,不常使用
官网:https://www.isical.ac.in/

这篇关于miRNA测序数据生信分析——第二讲,数据库下载整理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/183840

相关文章

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间