大数据HCIE成神之路之数学(4)——最优化实验

2023-12-01 04:15

本文主要是介绍大数据HCIE成神之路之数学(4)——最优化实验,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最优化实验

    • 1.1 最小二乘法实现
      • 1.1.1 算法介绍
      • 1.1.2 代码实现
    • 1.2 梯度下降法实现
      • 1.2.1 算法介绍
      • 1.2.2 代码实现
    • 1.3 拉格朗日乘子法
      • 1.3.1 实验
      • 1.3.2 实验操作步骤

1.1 最小二乘法实现

1.1.1 算法介绍

最小二乘法(Least Square Method),做为分类回归算法的基础,有着悠久的历史。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的参数,并使得预测的数据与实际数据之间误差的平方和为最小。

通俗地解释:最小二乘法是一种数学方法,它可以帮助我们找到一条直线,使得这条直线与一些散点数据的距离之和最小。这就像是在一堆点中找到一条最合适的线,使得这条线与所有点的距离之和最小。

1.1.2 代码实现

代码输入:

import numpy as np  
import scipy as sp  
import pylab as pl  
from scipy.optimize import leastsq  # 引入最小二乘函数  n = 9  # 多项式次数  # 定义目标函数:  
def real_func(x):  #目标函数:sin(2*pi*x)return np.sin(2 * np.pi * x)  # 定义多项式函数,用多项式去拟合数据:  
def fit_func(p, x):  f = np.poly1d(p)  # 构造一个多项式return f(x)  # 定义残差函数,残差函数值为多项式拟合结果与真实值的差值:  
def residuals_func(p, y, x):  ret = fit_func(p, x) - y  # 计算残差return ret  x = np.linspace(0, 1, 9)  # 随机选择9个点作为x  
x_points = np.linspace(0, 1, 1000)  # 画图时需要的连续点  
y0 = real_func(x)  # 目标函数  
y1 = [np.random.normal(0, 0.1) + y for y in y0]  # 在目标函数上添加符合正态分布噪声后的函数  
p_init = np.random.randn(n)  # 随机初始化多项式参数  # 调用scipy.optimize中的leastsq函数,通过最小化误差的平方和来寻找最佳的匹配函数
#func是一个残差函数,x0是计算的初始参数值,把残差函数中除了初始化以外的参数打包到args中
plsq = leastsq(func=residuals_func, x0=p_init, args=(y1, x))  print('Fitting Parameters: ', plsq[0])  # 输出拟合参数  # 绘制图像
pl.plot(x_points, real_func(x_points), label='real')  # 绘制真实函数
pl.plot(x_points, fit_func(plsq[0], x_points), label='fitted curve')  # 绘制拟合函数
pl.plot(x, y1, 'bo', label='with noise')  # 绘制带有噪声的数据点
pl.legend()  # 显示图例
pl.show()  # 显示图像

结果输出:

Fitting Parameters:   [-4.43705803e+03  1.82907420e+04 -3.09056669e+04  2.74461105e+04-1.36135812e+04  3.70056478e+03 -5.14095149e+02  3.29570051e+01-5.85714263e-02]

可视化图像:
在这里插入图片描述
解释1:

# 定义多项式函数,用多项式去拟合数据:  
def fit_func(p, x):  f = np.poly1d(p)  # 构造一个多项式return f(x)  

这个函数 fit_func 的作用是计算多项式的值。在这个函数中,np.poly1d(p) 用于构造一个多项式。p 是一个一维数组,代表多项式的系数,从高次项到低次项。例如,如果 p=[1,2,3],那么 np.poly1d(p) 就会构造一个多项式 f(x) = 1*x^2 + 2*x + 3。然后,f(x) 会计算这个多项式在 x 处的值。

举个例子,如果我们有一个二次多项式 f(x) = 2*x^2 + 3*x + 4,我们可以用 p=[2,3,4] 来表示。如果我们想要计算 x=5 时这个多项式的值,我们可以调用 fit_func([2,3,4], 5),这将返回 2*5^2 + 3*5 + 4 = 69。所以,fit_func([2,3,4], 5) 的返回值就是 69,这就是这个函数的作用。

解释2:

plsq = leastsq(func=residuals_func, x0=p_init, args=(y1, x)) 

leastsq 是 SciPy 库中的一个函数,用于执行最小二乘拟合。最小二乘拟合是一种数学优化技术,它通过最小化预测值和实际值之间的平方差来找到数据的最佳函数匹配。

在这段代码中,leastsq 函数有三个参数:

  • func 是计算误差的函数,这里使用的是 residuals_func,它计算的是拟合函数和实际数据之间的差值。
  • x0 是待优化的参数的初始猜测值,这里使用的是 p_init,它是一个随机初始化的多项式参数。代码上面有 p_init = np.random.randn(n) ,n=9,所以p_init将会有9个数的数组。 p_init 其实就是 np.poly1d(p) 函数的参数 p
  • args 是传递给 func 的额外参数,在这里是 (y1, x),其中 y1 是带有噪声的目标函数值,x 是自变量的值。

leastsq 函数会返回两个值,但在这里我们只关心第一个值,即最优参数值,所以我们用 plsq 来接收这个值。

举个例子,假设我们有一组数据 x=[1,2,3,4,5]y=[2.2, 2.8, 3.6, 4.5, 5.1],我们想要找到一个最佳的线性函数 y=ax+b 来拟合这组数据。我们可以先随机初始化 ab 的值,然后调用 leastsq 函数来找到最佳的 ab 值。这就是这段代码的作用,其实上面的args里的y1相当于这个例子里的y,args里的x相当于这个例子的x。

1.2 梯度下降法实现

1.2.1 算法介绍

梯度下降法(gradient descent),又名最速下降法,是求解无约束最优化问题最常用的方法,它是一种迭代方法,每一步主要的操作是求解目标函数的梯度向量,将当前位置的负梯度方向作为搜索方向(因为在该方向上目标函数下降最快,这也是最速下降法名称的由来)。

梯度下降法特点:越接近目标值,步长越小,下降速度越慢。

1.2.2 代码实现

代码输入:

训练集 (x,y) 共5个样本,每个样本点有3个分量 (x0,x1,x2)

# 定义数据集
x = [(1, 0., 3), (1, 1., 3), (1, 2., 3), (1, 3., 2), (1, 4., 4)]  
# 输入数据
y = [95.364, 97.217205, 75.195834, 60.105519, 49.342380]  # 对应的真实值  
epsilon = 0.0001  # 迭代阀值,当两次迭代损失函数之差小于该阀值时停止迭代  
alpha = 0.01  # 学习率
diff = [0, 0]  # 初始化残差
max_itor = 1000  # 最大迭代次数
error1 = 0  # 初始化误差,表示后一次误差,需减去前一次误差看是否在迭代阈值之内,之内则停止迭代
error0 = 0  # 初始化误差,表示前一次误差
cnt = 0  # 初始化迭代计数
m = len(x)  # 数据集大小,m=5# 初始化参数  
theta0 = 0  
theta1 = 0  
theta2 = 0  # 开始迭代
while True:  cnt += 1  # 迭代计数加1# 参数迭代计算(m=5)for i in range(m):  # 拟合函数为 y = theta0 * x[0] + theta1 * x[1] +theta2 * x[2]  # 计算残差,即拟合函数值-真实值  diff[0] = (theta0 * x[i][0] 

这篇关于大数据HCIE成神之路之数学(4)——最优化实验的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/439763

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.