机器学习笔记(二)梯度下降法实现对数几率回归(Logistic Regression)

本文主要是介绍机器学习笔记(二)梯度下降法实现对数几率回归(Logistic Regression),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 前言
  • 一、 梯度下降法(Gradient Descent)
    • 1.1 Python简单实现
  • 二、对数几率回归模型
  • 三、 梯度下降法实现对数几率回归
    • 3.1 西瓜数据集展示
    • 3.2 Python实践
      • 3.2.1 数据准备
      • 3.2.2数据处理
      • 3.2.3模型训练
      • 3.2.3模型展示
  • 总结
  • 参考文献


前言

在之前的机器学习笔记(一)对数几率回归模型(Logistic Regression)中详细介绍了对数几率回归模型,而本篇文章则是使用梯度下降法实现对数几率回归模型的实践。本文将详细介绍梯度下降算法的内容与知识点,以及使用其求解对数几率回归模型参数最优解的过程。


以下是本篇文章正文内容

一、 梯度下降法(Gradient Descent)

梯度下降算法是常用的一阶优化算法,是求解无约束优化问题最简单、也是最经典的数值优化算法之一。
考虑无约束优化问题:求解x使得 f ( x ) f(x) f(x)最小,其中 f ( x ) f(x) f(x)为连续可微函数,若能构造一个序列 x 0 , x 1 , x 2 , . . . x^{0}, x^{1}, x^{2},... x0,x1,x2,...满足
f ( x t + 1 ) < f ( x t ) , t = 0 , 1 , 2 , . . . (1.1) f(x^{t+1})<f(x^{t}),t=0, 1, 2, ... \tag{1.1} f(xt+1)<f(xt)t=0,1,2,...(1.1)
则不断执行该过程即可收敛到局部极小点,欲满足式(1.1), 根据泰勒展开式有
f ( x + Δ x ) ≃ f ( x ) + Δ x ∇ f ( x ) (1.2) f(x+\Delta x) \simeq f(x) + \Delta x \nabla f(x) \tag{1.2} f(x+Δx)f(x)+Δxf(x)(1.2)
于是欲满足 f ( x + Δ x ) < f ( x ) f(x+\Delta x)<f(x) f(x+Δx)<f(x), 可选择
Δ x = − γ ∇ f ( x ) \Delta x = - \gamma \nabla f(x) Δx=γf(x)
其中步长 γ \gamma γ是一个小常数, 这就是梯度下降法

1.1 Python简单实现

代码展示了使用python实现梯度下降法求解函数 f ( x ) = x 2 + 3 x − 1 f(x)=x^{2} + 3x - 1 f(x)=x2+3x1最小值的完整过程。

class GradientDescent:def __init__(self, x0, step=0.01):self.x0 = x0self.step = stepdef function(self, x):return x * x - 3 * x - 1def fisrt_order(self, x):return 2 * x - 3def run(self):x = self.x0gradient = self.fisrt_order(x)while abs(gradient) > 1e-6:delta_x = -self.step * gradientx = x + delta_xgradient = self.fisrt_order(x)minimum = self.function(x)return minimumgd = GradientDescent(0)
minimum = gd.run()

二、对数几率回归模型

对数几率回归模型的相关知识已在机器学习笔记(一)对数几率回归模型(Logistic Regression)一章中详细展开描述, 这里笔者不加以赘述, 只列出模型优化过程中需要用到的主要公式.

对率函数中 ω \omega ω b b b是我们需要进行优化并算出最优值的参数, 如式2.1所示
y = 1 1 + e − ( ω T x + b ) (2.1) y = \frac{1}{1+e^{-(\omega^Tx+b)}} \tag{2.1} y=1+e(ωTx+b)1(2.1)
式2.2是关于 β \beta β的高阶连续可导凸函数, 其中 β = ( ω ; b ) \beta=(\omega;b) β=(ω;b), 在这里使用梯度下降法求其最优解, 即可确定参数 ω \omega ω b b b最优值
l ( β ) = ∑ 1 m − y i ⋅ β T x ^ i + l n ( 1 + e β T x ^ i ) (2.2) l(\beta)=\sum_{1}^{m}-y_{i}\cdot\beta^{T}\hat{x}_{i} + ln(1+e^{\beta^{T}\hat{x}_{i}})\tag{2.2} l(β)=1myiβTx^i+ln(1+eβTx^i)(2.2)
根据梯度下降法的数学原理,使用梯度下降法求解函数最优值时,需要对目标函数进行一阶求导以计算梯度,在这里,我们对式2.2中的 β \beta β进行一阶求导, 得到
∂ l ∂ β = − ∑ 1 m x ^ i ⋅ ( y i − e β T 1 + e β T x ^ i ) (2.3) \frac{\partial {l}}{\partial {\beta}} = -\sum_{1}^{m}\hat{x}_{i}·(y_{i}-\frac{e^{\beta^{T}}}{1+e^{\beta^{T}\hat{x}_{i}}}) \tag{2.3} βl=1mx^i(yi1+eβTx^ieβT)(2.3)

三、 梯度下降法实现对数几率回归

在这里笔者使用周志华老师《机器学习》一书中的西瓜数据集,作为训练数据集。使用西瓜数据集训练模型,建立通过西瓜的密度以及含糖率来预测西瓜是否为好瓜的对数几率回归模型。

3.1 西瓜数据集展示

编号密度含糖率好瓜
10.6970.4601
20.7740.3761
30.6340.2641
40.6080.3181
50.5560.2151
60.4030.2371
70.4810.1491
80.4370.2111
90.6660.0910
100.2430.2670
110.2450.0570
120.3430.0990
130.6390.1610
140.6570.1980
150.3600.3700
160.5930.0420
170.7190.1030

注意:好瓜一列中为1则是好瓜,为0则是坏瓜。

3.2 Python实践

3.2.1 数据准备

这里笔者将3.1中的西瓜数据集,存储为csv文件,供程序读取和处理。

import numpy as np# load dataset
data_file = './watermelon_data.csv'
data = np.loadtxt(data_file, skiprows=1, delimiter=",")
print(data)

读取到的数据集如下图所示:
西瓜数据集

3.2.2数据处理

在数据处理这一步,需要将式2.2中的 x ^ i \hat{x}_{i} x^i y i y_{i} yi以矩阵的形式从数据集中分离开来。注意 x ^ i = ( x i ; 1 ) \hat{x}_{i}=(x_{i};1) x^i=(xi;1)

X = data[:,1:3] # 取数据集中的密度和含糖率两列
y = data[:,3:] # 取数据集中的好瓜判断一列
X0 = np.ones(np.shape(X)[0]) # 生成相同行数的数据1
X = np.c_[X, X0.T] # 生成矩阵(xi, 1)

生成的 x ^ i \hat{x}_{i} x^i矩阵如图所示
xi矩阵
生成的 y i y_{i} yi矩阵如图所示yi矩阵

3.2.3模型训练

def gradient_function_l(beta_T_X, X, y):"""对数几率回归模型中需要优化的函数l(β)的一阶导数"""p1 = np.exp(beta_T_X) /  (1 + np.exp(beta_T_X))return -np.sum(X * (y-p1), axis=0, keepdims=True)def gradient_descent(tranning_times=500):"""梯度下降法求解函数l(β)最优时的β值"""dataset_n = np.shape(X)[0]# 设置步长为0.01alpha = 0.01# 初始化beta值beta = np.zeros((1,3))for i in range(tranning_times):# (x, beta)beta_T_X = np.dot(X, beta.T)# 计算梯度gradient = gradient_function_l(beta_T_X, X ,y)# 更新beta值beta = beta - alpha * gradientreturn beta

在这里笔者主要用python实现了使用数据集对对数几率回归模型进行训练,求出式2.2最小时的参数 β \beta β的值。

3.2.3模型展示

最后将训练得到的参数 β \beta β代入线性回归模型产生预测值

w1, w2, b = gradient_descent().tolist()[0]def function_y(x):return (-b-w1*x)/w2y_0 = y==0
y_1 = y==1plt.title('watermelon_dataset')
plt.xlabel('density')
plt.ylabel('sugar content')
plt.scatter(X[y_0[:,0],0], X[y_0[:,0], 1], label = 'low quality')
plt.scatter(X[y_1[:,0],0], X[y_1[:,0], 1], label = 'high quality')
left_point = function_y(0.1)
right_point = function_y(0.9)
plt.plot([0.1, 0.9], [left_point, right_point], label='y', color='green')
plt.legend(loc="upper left")
plt.show()

在这里笔者令线性回归模型 y = ω x + b = 0 y = \omega x+b=0 y=ωx+b=0, 并绘制出该线。在该线之上, 则表示该点代入线性回归模型预测值大于0, 分类为正例。在该线之下,则表示该点代入线性回归模型预测值小于0, 分类为反例。
使用梯度下降法做模型训练, 得到的分类结果如图所示:
在这里插入图片描述

总结

本文详细介绍了梯度下降算法的内容与知识点,以及使用python求解对数几率回归模型参数最优解的过程。作为在学习周志华老师《机器学习》一书中的读书以及实践笔记, 其中包含笔者对该内容的主观理解,若有错误之处,望读者指出。

参考文献

机器学习-周志华
泰勒公式-维基百科
梯度下降法-维基百科
对数几率函数(logistic function)-维基百科

这篇关于机器学习笔记(二)梯度下降法实现对数几率回归(Logistic Regression)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/410596

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount