Shark源码分析(六):k-means算法

2024-04-27 00:48
文章标签 算法 分析 源码 means shark

本文主要是介绍Shark源码分析(六):k-means算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Shark源码分析(六):k-means算法

k-means算法是原型聚类算法中一个非常典型的算法。关于聚类算法,我之后应该会在博客中进行详细说明。

对于整个聚类算法来说,可以分为两类:硬聚类与软聚类。对于硬聚类,每一个数据点只能属于某一个簇。对于软聚类来说,则没有这一限制。

首先还是来看一下整个聚类算法基类。

ClusteringModel类

ClusteringModel类定义在<include/shark/Models/Clustering/ClusteringModel.h>文件中。

template <class InputT, class OutputT>
class ClusteringModel : public AbstractModel<InputT, OutputT>
{
public:typedef AbstractModel<InputT, OutputT> base_type;typedef AbstractClustering<InputT> ClusteringType;typedef typename base_type::BatchInputType BatchInputType;typedef typename base_type::BatchOutputType BatchOutputType;ClusteringModel(ClusteringType* clustering): mep_clustering(clustering){ SHARK_CHECK(clustering, "[ClusteringModel] Clustering must not be NULL"); }//稍后你可能会发现AbstractClustering类其实并没有parameterVector这一函数,其子类中是含有的,那么编译起来不会报错吗//注意到这里mep_clustering的定义类型是ClusteringType*,那么它肯定会使用到多态//只要其传入的对象中定义有parameterVector这一函数即可RealVector parameterVector() const{ return mep_clustering->parameterVector(); }void setParameterVector(RealVector const& newParameters){ mep_clustering->setParameterVector(newParameters); }std::size_t numberOfParameters() const{ return mep_clustering->numberOfParameters(); }void read(InArchive& archive){ archive & *mep_clustering; }void write(OutArchive& archive) const{ archive & *mep_clustering; }using base_type::eval;//计算数据所属簇的标签void eval(BatchInputType const& patterns, BatchOutputType& outputs,  State& state)const{eval(patterns,outputs);}protected:ClusteringType* mep_clustering; // 使用的是基类指针,方便使用多态
};

AbstractClustering类

在ClusteringModel类中你可能发现了AbstractClustering这个类,那么这个类又是干什么的呢?如果你熟悉基于原型的聚类算法的话,你应该知道,其中最重要的一点就是计算各个簇的中心,Shark中将聚类中心也包装成为一个类,而AbstractClustering类就是聚类中心类的基类。

ClusteringModel类包含了AbstractModel类和AbstractClustering类。其中只是提供了一些访问的接口,主要的数据是存储在AbstractClustering类中。

该类的定义位于<include/shark/Models/Clustering/AbstractClustering.h>文件中。

template <class InputT>
class AbstractClustering : public INameable, public IParameterizable, public ISerializable
{
public:typedef InputT InputType;typedef unsigned int OutputType;typedef typename Batch<InputType>::type BatchInputType;typedef Batch<OutputType>::type BatchOutputType;enum Feature {HAS_SOFT_MEMBERSHIP = 1,};SHARK_FEATURE_INTERFACE;//表示该聚类方法是否能进行软聚类bool hasSoftMembershipFunction()const{return m_features & HAS_SOFT_MEMBERSHIP;}//返回聚类结果中簇的数目virtual std::size_t numberOfClusters() const = 0;//计算一个数据所对应的簇的标号,有batch与非batch的重载版本//这个函数是针对硬聚类来说的,对于软聚类也有同样的版本virtual unsigned int hardMembership(InputType const& pattern) const{typename Batch<InputType>::type b = Batch<InputType>::createBatch(pattern);get(b,0) = pattern;return hardMembership(b)(0); //将非batch形式转换为batch形式进行处理}// 默认语意是返回softMembership函数返回值的最大值// 可以看出,硬聚类也是建立在软聚类之上的,只是输出最可能的簇virtual BatchOutputType hardMembership(BatchInputType const& patterns) const{std::size_t numPatterns = boost::size(patterns);RealMatrix f = softMembership(patterns); // 函数返回的应该是对每个簇的隶属度SHARK_ASSERT(f.size2() > 0);SHARK_ASSERT(f.size1() == numPatterns);BatchOutputType outputs(numPa

这篇关于Shark源码分析(六):k-means算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/939111

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL