(毫米波雷达数据处理中的)聚类算法(3) – K-means算法及其实践

2024-05-15 10:28

本文主要是介绍(毫米波雷达数据处理中的)聚类算法(3) – K-means算法及其实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

说明

    读者在阅读本文前,建议先看看本系列的前两篇文章:[1]:(毫米波雷达数据处理中的)聚类算法(1) --- 概述-CSDN博客  [2]:(毫米波雷达数据处理中的)聚类算法(2) – DBSCAN算法及其实践-CSDN博客

    K-means算法因为需要提前给出簇的数量,(这在车载雷达的实际应用上是不可取的:我们无法确定在行车过程中车辆前方有多少个目标物,相反地,我们是聚类之后才知道有多少个目标物..),正因如此,该算法无法在车载雷达上实践,不过就像在[1]中所说,本系列文章其实也不只针对车载毫米波雷达的数据处理,加之该算法似乎在其它的领域应用还蛮多的(而且相对比较简单、容易实现),所以我在本系列中也加入了该算法。

Blog

2024.5.15 博文第一次撰写

目录

说明

目录

一、K-means算法介绍

二、基于K-means的Iris数据集聚类实践

2.1 关于Iris数据集

2.2 基于K-means算法的处理结果

三、基于K-means的自生成二维平面点簇数据集聚类实践

3.1 二维平面点簇生成结果

3.2 基于K-means算法的处理结果

四、总结

五、参考资料

六、参考代码与数据集


一、K-means算法介绍

    K-means聚类算法是一种迭代求解的聚类分析算法。网上有很多的参考资料,比如[3]。 该算法的基本思想是,通过迭代寻找K个簇的一种聚类方案,使得聚类结果对应的损失函数最小。其中,损失函数可以定义为各个样本距离所属簇中心点的误差平方和:

                                         (1-1)

    式中,表示第i个样本,表示第i个样本所在簇的簇中心点,N是总的样本数。 该算法典型的流程图如下:

图1.1  典型的K-means算法处理流程图

该算法表现依赖于簇数量的预设以及初始样本中心的选取是否合适。

二、基于K-means的Iris数据集聚类实践

2.1 关于Iris数据集

    关于Iris数据集的介绍我已经在文章[2]中有过比较详细的说明,这里不再赘述。Iris数据集经过降维后,结果如下:

图2.1  对Iris数据集进行降维后的结果

    从图中可以看到两个明显分离的点簇,右上角的点簇细看似乎也可以分成两个,Iris数据集给每个点都有一个预设的分类,这里再基于上图画出其原始的分类:

图2.2  降维后的Iris数据集各点所属分类

我们期望使用K-means聚类后可以得到与图2.2相近的效果

2.2 基于K-means算法的处理结果

    本次仿真中,我预设簇的个数为3,迭代20次,以各个样本距离所属簇中心点的误差平方和作为损失函数,初始中心点是随机选取的。得到的结果如下:

图2.3  不同迭代次数下损失值的变化

    从图中可以看到,实际上迭代3次后,聚类的结果就已经趋于平稳。聚类的结果如下:

图2.4  K-means算法聚类结果

    对比图2.2,聚类的效果是符合预期的。计算该聚类结果的各评价指标得到:

图2.5  K-means聚类结果的客观评价指标计算结果

【为方便与DBSCAN算法比较,我在代码中对两聚类算法使用的是同一组数据】

读者可以结合博文[2]的结果、以及博文[1]中对这几个客观评价指标的描述做一些更深入的对比和分析。

三、基于K-means的自生成二维平面点簇数据集聚类实践

3.1 二维平面点簇生成结果

    关于二维平面点簇的介绍我在博文[1]中已经有过说明,这里不再赘述。和[1]中同样的参数设计下,生成的点簇如下图所示:

图3.1  随机生成的待聚类点簇

    原始点的各所属分类如下:

图3.2  随机生成的点簇各点的所属分类示意图

    图中,三种不同颜色的圆点对应三个簇,品红色的矩形方块对应噪声点。在后续的聚类实践中,我们期望聚类的结果应尽可能符合本图。

3.2 基于K-means算法的处理结果

    仿真中,预设簇的个数为3,迭代20次,以各个样本距离所属簇中心点的误差平方和作为损失函数,初始中心点是随机选取的。得到的结果如下:

图3.3  不同迭代次数下损失值的变化

    可以看到,迭代到第3次时聚类的结果就已经趋于平稳。聚类的结果如下:

图3.4  K-means聚类结果

    结果符合预期,不过K-means相较于[2]中的DBSCAN算法,K-means无法“筛选出”噪点,所以在图1.1对于该算法的处理流程介绍中,有一个数据预处理(清除异常点)的操作,不过在本文的两次实践中我都没有做。

   前述聚类结果下的客观评价指标的值计算如下:

图3.5  K-means聚类结果的客观评价指标计算结果

【为方便与DBSCAN算法比较,我在代码中对两聚类算法使用的是同一组数据】

读者可以结合博文[2]的结果、以及博文[1]中对这几个客观评价指标的描述做一些更深入的对比和分析。

在第一章对该算的介绍中就提到:该算法表现依赖于簇数量的预设以及初始样本中心的选取是否合适。虽然本章的仿真下初始点是随机选取的,且聚类的结果也达到了预期的效果,但如果多次试验,是会遇到类似下图这种情况的(有两个初始点落在了同一个簇里面):

图3.6  初始点选取不合适导致聚类效果差

    读者可以基于后文提供的代码自行尝试和理解。

四、总结

    本文对K-means算法进行了实践。首先对K-means算法进行了简单的介绍,并给出了其典型的算法流程图。随后分别给出了基于K-means算法对Iris数据集、自己生成的二维平面点簇形数据集的聚类结果。

五、参考资料

[1] (毫米波雷达数据处理中的)聚类算法(1) --- 概述-CSDN博客

[2] (毫米波雷达数据处理中的)聚类算法(2) – DBSCAN算法及其实践-CSDN博客

[3] KMeans聚类算法详解 - 知乎 (zhihu.com)

六、参考代码与数据集

我将本聚类算法系列的三篇博文所涉及的代码和数据集打包成了一份,其内含如下内容:

图中,UCI聚类数据集包含了多个可用于聚类算法实践的数据集;前四个m文件为[1]中第4章所介绍的四种客观评价指标的计算函数;funcDBSCAN为基于DBSCAN算法的聚类函数,funcKmeans为基于K-means算法的聚类函数;Gendata_Cluster.m为主函数,该函数首先生成点簇数据集,然后分别调用funcDBSCAN.m、funcKmeans.m完成聚类以及聚类结果的展示,最后再分别调用前面的四个客观指标计算函数完成客观评价指标的计算;Irisdata_Cluster.m则是另一个主函数,该函数获取UCI的Iris数据集,并对该数据集做一些处理(包括降维),随后和Gendata_Cluster.m函数一样,完成聚类、客观指标计算等流程。读者可以自行下载参考,链接为(抱歉,要收费):

(毫米波雷达数据处理中的)聚类算法系列博文对应的代码和数据集资源-CSDN文库

这篇关于(毫米波雷达数据处理中的)聚类算法(3) – K-means算法及其实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/991572

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

Python xmltodict实现简化XML数据处理

《Pythonxmltodict实现简化XML数据处理》Python社区为提供了xmltodict库,它专为简化XML与Python数据结构的转换而设计,本文主要来为大家介绍一下如何使用xmltod... 目录一、引言二、XMLtodict介绍设计理念适用场景三、功能参数与属性1、parse函数2、unpa

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或

Docker集成CI/CD的项目实践

《Docker集成CI/CD的项目实践》本文主要介绍了Docker集成CI/CD的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、引言1.1 什么是 CI/CD?1.2 docker 在 CI/CD 中的作用二、Docke

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M