一种特征选择算法TriVote(An OMIC biomarker detection algorithm TriVote and its application )

本文主要是介绍一种特征选择算法TriVote(An OMIC biomarker detection algorithm TriVote and its application ),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 摘要

    转录组和甲基化组模式是受可遗传信息和环境因素影响的两大主要基因组数据来源,已被广泛用作疾病诊断和预后的生物标志物。现代转录组和甲基化组分析技术可以检测到人类基因组中数以万计甚至数以百万计的探测残留物的状态,并对现有的特征选择算法提出了一个重大的计算挑战。本研究提出一种三步特征选择算法,TriVote,以检测具有高精确度的二分类性能的转录组或甲基化组子集。TriVote在17个转录组和2个甲基化组上均优于其它特征选择算法,具有更高的分类精度和更小的特征数。此外,文章还讨论了TriVote检测的甲基化生物标记物的生物学功能及其疾病相关性。还发布了一个易于使用的Python包,以方便以后的应用程序。
在这里插入图片描述

2. 介绍

    现有的特征选择研究大多集中在转录组生物标志物的检测上。有两大类特征选择算法:过滤器和包装器。特征选择是一个非确定性多项式时间困难(NP-hard)问题,换句话说,在多项式运行时间内找到全局最优解是计算不可能的。所以除了对小数据集的穷尽筛选之外,所有的特征选择算法都是近似算法。过滤器利用统计检验来计算每个特征与表型的关联显著性,并根据它们的关联显著性对特征进行排序。包装器试图通过优化特征子集的目标函数来评估一个启发式选择的特征子集,通常是一个预定义的分类算法的精确度。包装器通常比过滤器获得更好的分类性能,因为过滤器假设特征之间相互独立,并且没有直接优化分类准确率。混合特征选择算法利用了来自过滤器和包装器的模式。

    本研究提出了一种新的特征选择算法TriVote,该算法能够高效、准确地对转录组和甲基体进行特征选择。

3. 材料和方法

3.1 数据集总结

    为了对TriVote和现有特征选择算法的表现进行无偏研究,本研究选择了17个转录组和2个甲基组数据集进行比较。这17个转录组数据集都是广泛使用和公开的。包括DLBCL、Pros、Colon、Leuk、Mye、ALL1、ALL2、ALL3、ALL4、CNS、Lym、Adeno、Gas,、Gas1、Gas2 、T1D和Stroke。此外还有两个甲基化数据GEO ID: GSE80417和GEO ID: GSE42861。

3.2分类性能测量

    本文主要研究二值分类问题。也就是说,这个问题中的数据集有两类样本。样本通常分为正样本和负样本,缩写为P = {P1, P2,…, Pn}, N = {N1, N2,…,Nm}。正样本数和负样本数分别为n和m。数据集中的每个样本都是一个k维数据向量X = <F1(x),F2(x),…,Fk(x)>。二值分类器的目标是确定分配一个类标签给样本X。

    采用三种广泛使用的指标来评价二值分类器的预测性能,即灵敏性(Sn)、特异性(Sp)和准确性(Acc)。让正确预测的阳性样本的数量为TP(真阳性),其余的数量为FN(假阴性)。同样,正确预测的负样本的数量定义为TN(真阴性),而假阳性样本的数量定义为FP。在本例中,敏感性计算为Sn = TP/ (TP + FN),特异性定义为Sp = TN/ (TN + FP)。整体精度Acc公式为Acc = (TP + TN)/(TP + FN + TN + FP)。这些性能测量值是交叉验证策略的20次随机运行的平均值。随机运行的次数是用户指定的参数。

3.3 特征选择性能度量

    “大p小n”范式存在于大尺度生物医学数据集中,大多数基于组学数据的生物标志物检测研究都试图使用最小数量的特征来实现最大的预测精度。同时优化两个目标是困难的。因此,本研究首先试图提高分类精度。选择多种分类算法来评估一个特征子集在分类问题上的表现如何。如果两个分类器的性能相似,那么根据Occam 's razor的规则,选择功能更少、模型结构更简单的分类器。

    用支持向量机(SVM)、朴素贝叶斯(NBayes)、决策树(DTree)和最近邻(NN)四种代表性分类算法对给定的特征子集进行评价。性能度量mAcc (maximum accuracy)定义为四个分类器在给定特征子集上所达到的最大精度。

3.4 提出的算法TriVote

    TriVote使用一系列三个选择步骤迭代筛选特征,直到满足用户定义的特征号和mAcc的界限为止。TriVote的伪代码在框1中描述。

在这里插入图片描述
由于文章在服务器上,全文详见:
http://bbit.vip/service/main.php?version=1&type=article&id=86

这篇关于一种特征选择算法TriVote(An OMIC biomarker detection algorithm TriVote and its application )的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/432419

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

dp算法练习题【8】

不同二叉搜索树 96. 不同的二叉搜索树 给你一个整数 n ,求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种?返回满足题意的二叉搜索树的种数。 示例 1: 输入:n = 3输出:5 示例 2: 输入:n = 1输出:1 class Solution {public int numTrees(int n) {int[] dp = new int

Codeforces Round #240 (Div. 2) E分治算法探究1

Codeforces Round #240 (Div. 2) E  http://codeforces.com/contest/415/problem/E 2^n个数,每次操作将其分成2^q份,对于每一份内部的数进行翻转(逆序),每次操作完后输出操作后新序列的逆序对数。 图一:  划分子问题。 图二: 分而治之,=>  合并 。 图三: 回溯:

最大公因数:欧几里得算法

简述         求两个数字 m和n 的最大公因数,假设r是m%n的余数,只要n不等于0,就一直执行 m=n,n=r 举例 以18和12为例 m n r18 % 12 = 612 % 6 = 06 0所以最大公因数为:6 代码实现 #include<iostream>using namespace std;/