bioinformatics小技巧

2024-02-08 04:30
文章标签 技巧 bioinformatics

本文主要是介绍bioinformatics小技巧,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1. 软件安装
        • 1.1 linux上python2的安装
        • 1.2 Mercurial 安装及使用
        • 1.3 tRNAscan的安装和使用
        • 1.4 Linux上安装miniconda
    • 2.数据下载
        • 2.1 linux上通过ftp下载一个文件夹下的全部文件
        • 2.2 GEO数据库数据下载
    • 3.操作系统
        • 3.1 Windows下将R设置为环境变量。
        • 3.2 Linux 下怎样快速查看一个超大文件夹的文件总大小?
        • 3.3 调节VNC Viewer的分辨率
        • 3.4 服务器上的jupyter notebook找不到服务器怎么办?
        • 3.5 服务器上如何使用matlab的可视化界面?
    • 4. Perl
        • 4.1 查看perl中已安装的包:
    • 5. Python
        • 5.1 ImportError: /lib64/libm.so.6: version `GLIBC_2.23' not found
        • 5.2 argparse模块用法实例详解
    • 6. 宏基因组分析流程技巧
        • 6.1 MetaPhlAn2数据库安装
        • 6.2 metagenemark的使用
        • 6.3 微生物组与PCA
        • 6.4 微生物组lefse分析
    • 7. R语言使用技巧
        • 7.1 根据两列来合并表格
        • 7.2 R语言绘图
        • 7.3 网络构建与分析初探
    • 8. 序列分析技巧
        • 8.1 序列平均长度和长度分布统计

1. 软件安装

1.1 linux上python2的安装

Installing a custom version of Python 2:
https://help.dreamhost.com/hc/en-us/articles/115000218612-Installing-a-custom-version-of-Python-2

1.2 Mercurial 安装及使用

参考:https://blog.csdn.net/moonspiritacm/article/details/80863421

1.3 tRNAscan的安装和使用

参考:https://www.plob.org/article/7905.html

1.4 Linux上安装miniconda

参考:https://docs.conda.io/projects/conda/en/latest/user-guide/install/linux.html

2.数据下载

2.1 linux上通过ftp下载一个文件夹下的全部文件

How to recursively download a folder via FTP on Linux [closed]
https://stackoverflow.com/questions/113886/how-to-recursively-download-a-folder-via-ftp-on-linux
代码为:

wget -r -nH --cut-dirs=5 -nc ftp://user:pass@server//absolute/path/to/directory

测试案例:

wget -r -nH --cut-dirs=5 -nc ftp://ftp.ebi.ac.uk/pub/databases/chembl/KinaseSARfari/latest/
2.2 GEO数据库数据下载

GEO 数据介绍及在线下载:https://www.jianshu.com/p/74d570cb8c29
Download Geo Tar File Automatically From Linux/Unix:https://www.biostars.org/p/61329/

3.操作系统

3.1 Windows下将R设置为环境变量。

参考:https://stackoverflow.com/questions/47539125/how-to-add-rtools-bin-to-the-system-path-in-r

library(devtools)
Sys.setenv(PATH = paste("F:/software/R-3.6.1/bin", Sys.getenv("PATH"), sep=";"))
Sys.setenv(BINPREF = "F:/software/R-3.6.1/mingw_$(WIN)/bin/")
3.2 Linux 下怎样快速查看一个超大文件夹的文件总大小?

参考:https://www.v2ex.com/t/515218

 du -h --max-depth=1
3.3 调节VNC Viewer的分辨率
xrandr -s 1360x768
3.4 服务器上的jupyter notebook找不到服务器怎么办?
ifconfig

输出结果中包含:inet 192.168.1.2 netmask 255.255.255.0 broadcast 192.168.1.255

jupyter notebook --no-browser --ip=192.168.1.2
3.5 服务器上如何使用matlab的可视化界面?
ssh -X node02  #以可视化界面的方式连接到node02
matlab         #启动matlab

4. Perl

4.1 查看perl中已安装的包:
find `perl -e 'print "@INC"'` -name '*.pm' -print

5. Python

5.1 ImportError: /lib64/libm.so.6: version `GLIBC_2.23’ not found
conda create -n tf-cpu tensorflow

安装了python3.6.10和tensorflow-base-2.2.

5.2 argparse模块用法实例详解

参考:https://zhuanlan.zhihu.com/p/56922793

6. 宏基因组分析流程技巧

6.1 MetaPhlAn2数据库安装

参考:https://groups.google.com/g/metaphlan-users/c/7TfY_h-SELQ

#下载数据库(已下载,位于/home1/jialh/tools/metaphlan2/metaphlan2/metaphlan2_databases/mpa_v20_m200.tar)
https://bitbucket.org/biobakery/metaphlan2/downloads/
#解压
tar -xvf mpa_v20_m200.tar
#再解压
bzip2 -dk mpa_v20_m200.fna.bz2
#建立bowtie2的索引
bowtie2-build --threads 4 mpa_v20_m200.fna mpa_v20_m200
6.2 metagenemark的使用

参考:
(1)metagenemark(注意-m后面有分隔):https://www.jianshu.com/p/f9b085e30d94
(2)MetaGeneMark秘钥更新:https://www.jianshu.com/p/bff284d04c3e

6.3 微生物组与PCA

参考:223.主成分分析PCA
https://blog.csdn.net/woodcorpse/article/details/106866501

6.4 微生物组lefse分析

参考:https://github.com/biobakery/biobakery/wiki/lefse
注意事项:
(1)lefse适用于python 2.7环境。
(2)部分代码名称发生变化,如下图所示:
在这里插入图片描述
工作目录:/home1/jialh/mNetwork/MNDnetwork/PRJEB17784/lefse

lefse-format_input.py 03biom_transform.txt 03biom_transform.in -c 2 -s -1 -u 1 -o 1000000run_lefse.py -l 3 03biom_transform.in 03biom_transform.reslefse-plot_res.py --dpi 300 --feature_font_size 12 03biom_transform.res 03biom_transform.png

注意可能的报错:

AttributeError: Unknown property axis_bgcolor

原因:matplotlib == 2.2.0 起把部分功能函数移除了,我们需要回退 matplotlib 版本。
解决办法: pip install matplotlib==1.5
参考:https://www.yuque.com/shenweiyan/cookbook/kefse-install

7. R语言使用技巧

重要学习资源:
(1)Data Analysis(R/Python/数据分析):https://www.zhihu.com/column/Data-AnalysisR
(2)R语言中文社区:https://www.zhihu.com/column/Ryuyanshequ
(3)林茂廷老師《ggplot2 介紹》: https://bookdown.org/tpemartin/minicourse_ggplot2/#section-1.1

7.1 根据两列来合并表格

参考:https://stackoverflow.com/questions/6709151/how-do-i-combine-two-data-frames-based-on-two-columns

7.2 R语言绘图

(1)ggraph的使用

  • 一文读懂 ggraph 的使用: https://r.bio-spring.info/2019/12/04/ggraph-manual/
  • ggraph画网络图: https://www.shenxt.info/zh/post/2019-11-27-r-ggraph/

(2)分层边缘捆绑标签图增加标签(Add labels to Hierarchical Edge Bundling)
参考:

  • 分层边聚合图:https://www.r-graph-gallery.com/311-add-labels-to-hierarchical-edge-bundling.html
  • R数据可视化21:Edge Bundling图: https://www.jianshu.com/p/3990496e7e47
7.3 网络构建与分析初探

(1)Correlation matrix : R function to do all you need: http://www.sthda.com/english/wiki/wiki.php?id_contents=7572
(2)将edge lists转化为有权的邻接矩阵:https://stackoverflow.com/questions/16584948
(3)Correlation between OTUs with SparCC: https://rachaellappan.github.io/16S-analysis/correlation-between-otus-with-sparcc.html

8. 序列分析技巧

8.1 序列平均长度和长度分布统计

参考:https://bioinformatics.stackexchange.com/questions/4911/calculating-read-average-length-in-a-fastq-file-with-bioawk-awk/4918

awk '{if(NR%4==2) {count++; bases += length} } END{print bases/count}' <fastq_file>

参考:https://www.biostars.org/p/72433/

awk 'NR%4 == 2 {lengths[length($0)]++} END {for (l in lengths) {print l, lengths[l]}}' file.fastq

这篇关于bioinformatics小技巧的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/689896

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10

小技巧绕过Sina Visitor System(新浪访客系统)

0x00 前言 一直以来,爬虫与反爬虫技术都时刻进行着博弈,而新浪微博作为一个数据大户更是在反爬虫上不遗余力。常规手段如验证码、封IP等等相信很多人都见识过…… 当然确实有需要的话可以通过新浪开放平台提供的API进行数据采集,但是普通开发者的权限比较低,限制也比较多。所以如果只是做一些简单的功能还是爬虫比较方便~ 应该是今年的早些时候,新浪引入了一个Sina Visitor Syst

PMP–一、二、三模–分类–14.敏捷–技巧–看板面板与燃尽图燃起图

文章目录 技巧一模14.敏捷--方法--看板(类似卡片)1、 [单选] 根据项目的特点,项目经理建议选择一种敏捷方法,该方法限制团队成员在任何给定时间执行的任务数。此方法还允许团队提高工作过程中问题和瓶颈的可见性。项目经理建议采用以下哪种方法? 易错14.敏捷--精益、敏捷、看板(类似卡片)--敏捷、精益和看板方法共同的重点在于交付价值、尊重人、减少浪费、透明化、适应变更以及持续改善等方面。

OpenStack:Glance共享与上传、Nova操作选项解释、Cinder操作技巧

目录 Glance member task Nova lock shelve rescue Cinder manage local-attach transfer backup-export 总结 原作者:int32bit,参考内容 从2013年开始折腾OpenStack也有好几年的时间了。在使用过程中,我发现有很多很有用的操作,但是却很少被提及。这里我暂不直接

PMP–一、二、三模–分类–14.敏捷–技巧–原型MVP

文章目录 技巧一模14.敏捷--原型法--项目生命周期--迭代型生命周期,通过连续的原型或概念验证来改进产品或成果。每个新的原型都能带来新的干系人新的反馈和团队见解。题目中明确提到需要反馈,因此原型法比较好用。23、 [单选] 一个敏捷团队的任务是开发一款机器人。项目经理希望确保在机器人被实际建造之前,团队能够收到关于需求的早期反馈并相应地调整设计。项目经理应该使用以下哪一项来实现这个目标?

VB项目中必需的几点技巧

1.    点击右上角的关闭按钮,要弹出“提示”,是否关闭,但用右键关闭时,不能重复提示 在vb中找到这个事件Private Sub Form_QueryUnload(Cancel As Integer, UnloadMode As Integer)If MsgBox("是否要退出", vbYesNo + vbDefaultButton2, "提示") = vbNo ThenCancel

编程技巧集--持续更新

windows ==> preferences ==> General ==> Editors ==> file Associations, 在开发中,我们打开文件时,默认的不是我们需要的打开方式. 所以我们就用右键文件,选择打开方式,时间长了很麻烦,其实我们可以设置文件(jsp,xml...)默认打开方式 eclipse一直build project,特别是编译js的时候更慢

idea 常用快捷键以及技巧

修改方法如下: 点击 文件菜单(File) –> 点击 设置(Settings… Ctrl+Alt+S), –> 打开设置对话框。 在左侧的导航框中点击 KeyMap。 接着在右边的树型框中选择 Main menu –> Code –> Completion. 接着需要做两件事: 1. 移除原来的Cycle Expand Word 的 Alt+/ 快捷键绑定。 2. 在 Basic 上点击右键,