【哈佛大学生物信息学与计算生物学】视频笔记

2024-01-20 13:10

本文主要是介绍【哈佛大学生物信息学与计算生物学】视频笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 生物信息学研究浪潮
  • Bioinfo vs Computational Biology
  • Levels of Bioinfo / Comp Bio
  • 生物信息学相关学科 & 技术
  • FASTQ File
  • fastqc对原始测序reads质控
    • Per Base Sequence Quality
    • Per Sequence Quality Distribution
    • Nucleotide Content Per Position
    • Per Sequence GC Content
  • 局部比对算法
  • RPKM、FPKM 、TPM
  • RNA-Seq Read Distribution
  • independent filtering
  • FDR
  • 聚类

生物信息学研究浪潮

  1. 研究蛋白序列和结构
  2. 基因表达(微阵列技术)
  3. DNA测序

基因组测序成本下降非常快,可以用于个性化诊断,eg:肿瘤序列-靶向疗法

Bioinfo vs Computational Biology

  1. 第一代测序:桑格测序 Sanger sequencing(需要扩增dna,并且每次只扩增一个分子,所以需要扩增很多次同一单链DNA的多个拷贝)

  2. 第二代测序:大规模平行测序 Illumina Sequencing Cluster Generation(不需要将不同DNA分装到不同的管子当中进行扩增,可以将很多很多个分子倒在流动池上进行原位扩增,边合成边测序)如果需要产生很多很多的片段,需要了解定量水平,第二代测序更符合要求。
    在这里插入图片描述

  3. 第三代测序:真正的单分子测序,甚至再也不需要扩增dna。一般来讲,会使用聚合酶或微孔进行测序,然后根据acgt当中哪个核苷酸被结合或通过微孔而发出不同的信号。
    在这里插入图片描述

Levels of Bioinfo / Comp Bio

在这里插入图片描述
学无止境!!!

生物信息学相关学科 & 技术

FASTQ File

  1. 第一行 序列id
  2. 第二行 真实序列
  3. 第三行 序列名称,与第一行不同的前缀分别是@和+,@所在行代表路序列的名称(以及可选的描述内容)
    +后面可以是序列名,也可以为空
  4. 第四行 序列值,由33个不同的ASCII字符表示
    ASCII数值所大致代表的Phred质量的计算公式是-10*log10 Pr(碱基对出错的概率)
    通常来说,质量值的数字越大,质量就越高,出错的概率越小。

fastqc对原始测序reads质控

Per Base Sequence Quality

高质量序列的碱基其实是高质量并连续出现的。

在这里插入图片描述

Per Sequence Quality Distribution

碱基对应质量值的分布

Nucleotide Content Per Position

在全基因组水平进行测序,每一种类型的碱基其占比应在25%左右。

在这里插入图片描述

Per Sequence GC Content

将实际的GC content与期望的GC content进行对比,右图意味着测序也许出现了问题。

在这里插入图片描述

局部比对算法

局部比对是一种序列比对技术,在该技术中,我们对比两个序列之间具有较高相似性的区域,即具有最高匹配密度的序列的延伸,这适用于更多部分相似且在序列之间具有保守区域的转向序列。

smith waterman算法是最常见的局部比对,属于动态规划,讲一个问题分解为更小更简单的子问题。

全局比对试图将整个序列彼此比对,而局部比对仅比对这些具有最高相似性。全局比对比对来自查询序列和目标序列的所有字母,而局部比对将目标序列的子串与查询序列的子串对齐。
因此,全局比对更适合密切相关的序列,而局部对比更适合发散或远相关的序列。

序列最常见的全局比对算法是needleman-wunsch,而局部比对是smith-waterman

RPKM、FPKM 、TPM

三者都是衡量基因相对表达量
RPKM(Reads Per Kilobase per Million)
FPKM(Fragments Per Kilobase per Million)
TPM:Transcripts Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
RPKM和FPKM的计算方法:第一步先将测序深度标准化,第二步是基因长度的标准化,即将第一步的read per million直接除以基因长度即可。
TPM的不同在于它的处理顺序是不同的。即先考虑基因长度,再考虑测序深度。
在这里插入图片描述

RNA-Seq Read Distribution

在芯片时代,RNA-Seq测序的reads分布,一般被认为是正态分布
RNA-Seq测序得到的reads分布,一般符合泊松分布

independent filtering

检测差异基因表达的方法是进行对每一个基因进行统计检验。

所谓的independent filtering,意思是在进行统计检验之前,筛掉那些不能或是很可能不能通过显著性检验的探针。independent filtering就是为了降低假设检验的假阴性。

FDR

在这里插入图片描述

与GO富集分析的差异在于GSEA分析不需要指定阈值(p值或FDR)来筛选差异基因

聚类

heatmap(热力图),通过颜色的深浅程度来判断不同类别间的差异,呈现不同特征间的聚类关系,通常用做聚类分析(如层次聚类,kmeans聚类等)。

Hierarchical Clustering(层次聚类)
自上而下:分裂法,初始时将所有的样本归为一个类簇,然后依据某种准则进行逐渐的分裂,直到达到某种条件或者达到设定的分类数目。
自下而上:凝聚法,初始时将每个样本点当做一个类簇,所以原始类簇的大小等于样本点的个数,然后依据某种准则合并这些初始的类簇,直到达到某种条件或者达到设定的分类数目。

K-means Clustering(k均值聚类),基于样本集合划分的聚类算法。

Consensus Clustering(一致性聚类),被广泛用于基于亚群鉴定和癌症分型等研究方向,采用重抽样方法打乱原始数据集,对每一次聚类的样本进行聚类分析,最后再综合评估多次聚类分析的结果给出一致性。

在这里插入图片描述

在这里插入图片描述

这篇关于【哈佛大学生物信息学与计算生物学】视频笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/626116

相关文章

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项

使用C#代码计算数学表达式实例

《使用C#代码计算数学表达式实例》这段文字主要讲述了如何使用C#语言来计算数学表达式,该程序通过使用Dictionary保存变量,定义了运算符优先级,并实现了EvaluateExpression方法来... 目录C#代码计算数学表达式该方法很长,因此我将分段描述下面的代码片段显示了下一步以下代码显示该方法如

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu