自研贝叶斯优化算法遇到的坑

2024-04-20 23:38

本文主要是介绍自研贝叶斯优化算法遇到的坑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

自研贝叶斯优化算法,如何判断算法能拟合?我目前是在一个tiny的数据集上跑一下,看算法能否收敛正确的的局部最小值。这里要有两个关键词:

  1. 收敛。算法是需要收敛的。黑盒优化的本质就是增加在优势样本附近的采样率。如果算法如同随机搜索不收敛,那么是有问题的。
  2. 正确。收敛点是正确的,如果收敛到错误的点,那还不如随机搜索。

文章目录

  • 自研SMAC
    • 代理模型
    • 获益函数
    • 遇到过的坑
  • TPE
    • 遇到的坑
    • 随机采样次数的影响
    • bw_method 的影响
    • TS+TPE 跳出局部最优解

自研SMAC

代理模型

SMAC的本质是用随机森林作为代理模型。这个代理模型调包就好了(前提是你熟读开源代码千百遍,知道调什么)

from skopt.learning.forest import RandomForestRegressor, ExtraTreesRegressor

众所周知,RandomForestRegressor不仅会对行做采样,也会对列做采样。ExtraTreesRegressor只会对行做采样。就我使用的经验来看,特征>样本的情况适合用RF,其余情况一般用ET。SMAC的论文提到,他使用的随机森林会用所有的样本,但特征的采样率是83%. (SMAC源码分析->代理模型的构建)

skopt文档来看,一般来说ET要比RF表现好。

获益函数

就我的经验来看,EI肯定要比PI好,因为EI算的是期望,利用的比重其实比探索要大。PI更注重探索,更发散。

skopt实现了EI, PI, LCB, EIPS等。我目前实现了EI,LogEI。

LogEI的代码可以看SMACRoBO

就实验来看,感觉LogEI和EI差别不大。个人感觉上,无loss_transform+EI == log_scaled loss_transform+LogEI

SMAC的LogEI貌似就是搭配 log_scaled loss_transform的。

RoBO的LogEI与SMAC的实现有很大不同。

使用上来看,EI+ log_scaled loss_transform即可,xi( ξ \xi ξ) 这个参数设0.010好像都没什么区别

class EI():def __init__(self, xi=0.01):# in SMAC, xi=0.0,# smac/optimizer/acquisition.py:341# par: float=0.0# in scikit-optimize, xi=0.01# this blog recommend xi=0.01# http://krasserm.github.io/2018/03/21/bayesian-optimization/self.xi = xidef __call__(self, model, X, y_opt):mu, std = model.predict(X, return_std=True)values = np.zeros_like(mu)mask = std > 0improve = y_opt - self.xi - mu[mask]scaled = improve / std[mask]cdf = norm.cdf(scaled

这篇关于自研贝叶斯优化算法遇到的坑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/921635

相关文章

uniapp接入微信小程序原生代码配置方案(优化版)

uniapp项目需要把微信小程序原生语法的功能代码嵌套过来,无需把原生代码转换为uniapp,可以配置拷贝的方式集成过来 1、拷贝代码包到src目录 2、vue.config.js中配置原生代码包直接拷贝到编译目录中 3、pages.json中配置分包目录,原生入口组件的路径 4、manifest.json中配置分包,使用原生组件 5、需要把原生代码包里的页面修改成组件的方

代码随想录算法训练营:12/60

非科班学习算法day12 | LeetCode150:逆波兰表达式 ,Leetcode239: 滑动窗口最大值  目录 介绍 一、基础概念补充: 1.c++字符串转为数字 1. std::stoi, std::stol, std::stoll, std::stoul, std::stoull(最常用) 2. std::stringstream 3. std::atoi, std

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

大林 PID 算法

Dahlin PID算法是一种用于控制和调节系统的比例积分延迟算法。以下是一个简单的C语言实现示例: #include <stdio.h>// DALIN PID 结构体定义typedef struct {float SetPoint; // 设定点float Proportion; // 比例float Integral; // 积分float Derivative; // 微分flo

服务器雪崩的应对策略之----SQL优化

SQL语句的优化是数据库性能优化的重要方面,特别是在处理大规模数据或高频访问时。作为一个C++程序员,理解SQL优化不仅有助于编写高效的数据库操作代码,还能增强对系统性能瓶颈的整体把握。以下是详细的SQL语句优化技巧和策略: SQL优化 1. 选择合适的数据类型2. 使用索引3. 优化查询4. 范式化和反范式化5. 查询重写6. 使用缓存7. 优化数据库设计8. 分析和监控9. 调整配置1、

AI学习指南机器学习篇-朴素贝叶斯处理连续特征和离散特征

AI学习指南机器学习篇-朴素贝叶斯处理连续特征和离散特征 在机器学习领域,朴素贝叶斯是一种常用的分类算法,它的简单性和高效性使得它在实际应用中得到了广泛的应用。然而,在使用朴素贝叶斯算法进行分类时,我们通常会面临一个重要的问题,就是如何处理连续特征和离散特征。因为朴素贝叶斯算法基于特征的条件独立性假设,所以对于不同类型的特征,我们需要采取不同的处理方式。 在本篇博客中,我们将探讨如何有效地处理

Java中如何优化数据库查询性能?

Java中如何优化数据库查询性能? 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将深入探讨在Java中如何优化数据库查询性能,这是提升应用程序响应速度和用户体验的关键技术。 优化数据库查询性能的重要性 在现代应用开发中,数据库查询是最常见的操作之一。随着数据量的增加和业务复杂度的提升,数据库查询的性能优化显得尤为重

LeetCode 算法:二叉树的中序遍历 c++

原题链接🔗:二叉树的中序遍历 难度:简单⭐️ 题目 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root = [1,null,2,3] 输出:[1,3,2] 示例 2: 输入:root = [] 输出:[] 示例 3: 输入:root = [1] 输出:[1] 提示: 树中节点数目在范围 [0, 100] 内 -100 <= Node.

【Java算法】滑动窗口 下

​ ​    🔥个人主页: 中草药 🔥专栏:【算法工作坊】算法实战揭秘 🦌一.水果成篮 题目链接:904.水果成篮 ​ 算法原理 算法原理是使用“滑动窗口”(Sliding Window)策略,结合哈希表(Map)来高效地统计窗口内不同水果的种类数量。以下是详细分析: 初始化:创建一个空的哈希表 map 用来存储每种水果的数量,初始化左右指针 left

注册机CAD2020激活遇到激活错误 0015.111的解决办法

这里写自定义目录标题 注册机下载位置破解要点 注册机下载位置 https://download.csdn.net/download/Stephen___Qin/89476691 破解要点 1.要以管理员身份运行CAD2020软件和注册机 2.要先点击注册的patch(中文版本为“补丁”)按键