基于Python的机器学习系列(16):扩展 - AdaBoost

2024-08-31 06:20

本文主要是介绍基于Python的机器学习系列(16):扩展 - AdaBoost,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

        在本篇中,我们将扩展之前的AdaBoost算法实现,深入探索其细节并进行一些修改。我们将重点修复代码中的潜在问题,并对AdaBoost的实现进行一些调整,以提高其准确性和可用性。

1. 修复Alpha计算中的问题

        在AdaBoost中,如果分类器的错误率 e 为0,则计算出的权重 α 将是未定义的。为了解决这个问题,我们可以在计算过程中向分母中添加一个非常小的值,以避免除零错误。

2. 调整学习率

    sklearn的AdaBoost实现中包含一个learning_rate参数,这实际上是1/2​在α计算中的一部分。我们将这个参数重命名为eta,并尝试不同的eta值,以观察其对模型准确性的影响。sklearn的默认值为1。

3. 自定义决策桩

    sklearn中的DecisionTreeClassifier使用加权基尼指数来评估分裂,而我们学到的是加权错误率。我们将实现一个自定义的DecisionStump类,它使用加权错误率来替代基尼指数。为了验证自定义桩的有效性,我们将检查其是否能够与sklearn的实现提供相似的准确性。需要注意的是,如果不将标签 y 更改为-1,准确性可能会非常差。

代码示例

        以下是扩展AdaBoost实现的代码示例:

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.metrics import classification_report# 生成数据集
X, y = make_classification(n_samples=500, random_state=1)
y = np.where(y == 0, -1, 1)  # 将标签0转换为-1X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 自定义决策桩类
class DecisionStump():def __init__(self):self.polarity = 1self.feature_index = Noneself.threshold = Noneself.alpha = Nonedef fit(self, X, y, weights):m, n = X.shapemin_error = float('inf')for feature_index in range(n):feature_values = np.unique(X[:, feature_index])for threshold in feature_values:for polarity in [-1, 1]:predictions = np.ones(m)predictions[X[:, feature_index] < threshold] = -1predictions *= polarityerror = np.dot(weights, predictions != y)if error < min_error:min_error = errorself.polarity = polarityself.threshold = thresholdself.feature_index = feature_indexdef predict(self, X):predictions = np.ones(X.shape[0])if self.polarity == -1:predictions[X[:, self.feature_index] < self.threshold] = -1else:predictions[X[:, self.feature_index] >= self.threshold] = -1return predictions# 自定义AdaBoost类
class AdaBoost():def __init__(self, S=5, eta=0.5):self.S = Sself.eta = etadef fit(self, X, y):m, n = X.shapeW = np.full(m, 1/m)self.clfs = []for _ in range(self.S):clf = DecisionStump()clf.fit(X, y, W)predictions = clf.predict(X)error = np.dot(W, predictions != y)if error == 0:error = 1e-10  # 避免除零错误alpha = self.eta * 0.5 * np.log((1 - error) / error)clf.alpha = alphaW *= np.exp(alpha * (predictions != y))W /= np.sum(W)self.clfs.append(clf)def predict(self, X):clf_preds = np.zeros((X.shape[0], len(self.clfs)))for i, clf in enumerate(self.clfs):clf_preds[:, i] = clf.predict(X)return np.sign(np.dot(clf_preds, [clf.alpha for clf in self.clfs]))# 训练和评估自定义AdaBoost模型
ada_clf = AdaBoost(S=50, eta=0.5)
ada_clf.fit(X_train, y_train)
y_pred = ada_clf.predict(X_test)print("自定义AdaBoost模型的分类报告:")
print(classification_report(y_test, y_pred))

结语

        在本篇中,我们扩展了AdaBoost的实现,解决了计算中的潜在问题,并尝试了不同的学习率以优化模型性能。与决策树、Bagging和随机森林相比,AdaBoost通过加权组合多个弱分类器,能够进一步提高分类性能。决策树为基础分类器提供了简单有效的分裂方式,而AdaBoost则通过提升算法强化了模型的准确性。与Bagging和随机森林不同,AdaBoost侧重于通过关注分类错误的样本来提升弱分类器的性能,从而在许多复杂任务中表现出色。

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

这篇关于基于Python的机器学习系列(16):扩展 - AdaBoost的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1123133

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很