《机器学习》 DBSCAN算法 原理、参数解析、案例实现

2024-08-28 20:04

本文主要是介绍《机器学习》 DBSCAN算法 原理、参数解析、案例实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、先看案例

1、对K-mean算法

1)优点:

2)缺点:

2、使用DBSCAN去分类

二、DBSCAN算法

1、什么是DBSCAN

2、实现过程

三、参数解析

1、用法

2、参数

        1)eps: 邻域的距离阈值

        2)min_samples: 样本点要成为核心对象所需要的ϵϵ-邻域的样本数阈值

        3)metric:最近邻距离度量参数

        4)algorithm:最近邻搜索算法参数

        5)属性

四、案例实现

1、文件内容

2、代码实现

3、运行结果


一、先看案例

1、对K-mean算法

        有一堆数据点,用K-mean聚类去分类,最终得到以下图形,其中小点点为数据点

        按照肉眼去观察可以知道外围一圈为一个类别,中间的一团一团为另外的一个个类别,但是K-mean无法这么分类,此时就可以使用DBSCAN来分类

1)优点:

        简单、快捷、适合常规

2)缺点:

        k值难以确定、很难发现任意形状的簇

2、使用DBSCAN去分类

        此时可以得到以下分类状态

二、DBSCAN算法

1、什么是DBSCAN

        DBSCAN是一种密度聚类算法,用于发现数据集中的有意义的聚类和异常点。与传统的基于距离的聚类算法(如K-means)不同,DBSCAN是基于密度的带噪声的空间聚类应用算法,它是将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并在噪声的空间数据集中发现任意形状的聚类

        DBSCAN算法将样本点分为三类核心对象、边界对象和噪声点

                核心对象是指样本点周围密度达到一定阈值的点

                边界对象是指与核心对象相邻但密度不足以成为核心对象的点

                噪声点是指既不是核心对象也不是边界对象的点。

例如下图:

2、实现过程

 输入数据集 -> 指定半径 -> 指定密度阈值(半径范围内有制定个数以上的数据个数) 

        有上述几个数据点,随机以A为核心对象,给定半径范围内,有3个数据点,首先第一个圈包围了A,其内有四个数据点,额外的三个点叫直接密度可达,这满足要求,继续分别对每个点进行划定上述范围及密度阈值,最终画到B点和C点,此时B点和C点指定范围内没有要求个数的点,所以不再继续扩散,那么B、C点就叫边界点,同一个簇内,除了直接密度可达点外,其余的叫密度可达点,而外面有一个划分不到的点N,叫离群点

三、参数解析

1、用法

class sklearn.cluster.DBSCAN(eps=0.5, min_samples=5, metric=’euclidean’, metric_params=None, algorithm=’auto’, leaf_size=30, p=None, n_jobs=None)

2、参数

        1)eps 邻域的距离阈值

                默认值是0.5,一般需要通过在多组值里面选择一个合适的阈值。eps过大,则更多的点会落在核心对象的ϵϵ-邻域,此时我们的类别数可能会减少, 本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大,本来是一类的样本却被划分开。

        2)min_samples: 样本点要成为核心对象所需要的ϵϵ-邻域的样本数阈值

                默认值是5. 一般需要通过在多组值里面选择一个合适的阈值。通常和eps一起调参。在eps一定的情况下,min_samples过大,则核心对象会过少,此时簇内部分本来是一类的样本可能会被标为噪音点,类别数也会变多。反之min_samples过小的话,则会产生大量的核心对象,可能会导致类别数过少。

        3)metric:最近邻距离度量参数

                可以使用的距离度量较多,一般来说DBSCAN使用默认的欧式距离(即p=2的闵可夫斯基距离)就可以满足我们的需求。可以使用的距离度量参数有:

                a) 欧式距离 “euclidean”:

                b) 曼哈顿距离 “manhattan”

                c) 切比雪夫距离“chebyshev”

        4)algorithm:最近邻搜索算法参数

                算法一共有三种,第一种是蛮力实现,第二种是KD树实现,第三种是球树实现。对于这个参数,一共有4种可选输入,‘brute’对应第一种蛮力实现,‘kd_tree’对应第二种KD树实现,‘ball_tree’对应第三种的球树实现, ‘auto’则会在上面三种算法中做权衡,选择一个拟合最好的最优算法。

        5)属性

                Labels_:每个点的分类标签

四、案例实现

1、文件内容

2、代码实现

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metrics# 读取文件
beer = pd.read_table('data.txt',sep=' ',encoding='utf8',engine='python')
# 传入变量需要训练的四列数据
x = beer[['calories','sodium','alcohol','cost']]
# 建立一个空列表,用于存放下方for循环遍历的不同的聚类质量评分
scores = []
for i in range(1,10):labels = DBSCAN(eps=20,min_samples=i).fit(x).labels_  # 设置半径为20,最小样本点个数为iscore = metrics.silhouette_score(x,labels)  # 输出聚类质量评分存入scorescores.append(score)
k = scores.index(max(scores))+1  # 得到最优聚类质量评分对应的最小样本数# dbscan聚类分析
# eps:半径,min_samples:最小密度,就是园内最少几个样本点
# labels 分类结果  自动分类,-1为离群点
db = DBSCAN(eps=20,min_samples=k).fit(x)  # 使用上述的最优k值进行训练
labels = db.labels_  # 打印数据对应类别标签# 增加结果至原始数据框
beer['cluster_db'] = labels   # 将类别标签存入原始数据,新建一个列,列名为cluster_db
beer.sort_values('cluster_db')   # 对cluster_db中的值进行排序score = metrics.silhouette_score(x,beer.cluster_db)   # 打印评估聚类质量的指标

3、运行结果

这篇关于《机器学习》 DBSCAN算法 原理、参数解析、案例实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1115743

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java实现检查多个时间段是否有重合

《Java实现检查多个时间段是否有重合》这篇文章主要为大家详细介绍了如何使用Java实现检查多个时间段是否有重合,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录流程概述步骤详解China编程步骤1:定义时间段类步骤2:添加时间段步骤3:检查时间段是否有重合步骤4:输出结果示例代码结语作

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

如何通过Python实现一个消息队列

《如何通过Python实现一个消息队列》这篇文章主要为大家详细介绍了如何通过Python实现一个简单的消息队列,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录如何通过 python 实现消息队列如何把 http 请求放在队列中执行1. 使用 queue.Queue 和 reque

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import