机器学习算法实践-SVM中的SMO算法

2024-06-16 13:32
文章标签 算法 学习 实践 机器 svm smo

本文主要是介绍机器学习算法实践-SVM中的SMO算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

前两篇关于SVM的文章分别总结了SVM基本原理和核函数以及软间隔原理,本文我们就针对前面推导出的SVM对偶问题的一种高效的优化方法-序列最小优化算法(Sequential Minimal Optimization, SMO)的原理进行总结并进行相应的Python实现。

坐标上升算法(Coordinate Ascent)

在SMO算法之前,还是需要总结下坐标上升算法,因为SMO算法的思想与坐标上升算法的思想类似。

坐标上升算法每次通过更新多元函数中的一维,经过多次迭代直到收敛来达到优化函数的目的。简单的讲就是不断地选中一个变量做一维最优化直到函数达到局部最优点。

假设我们需要求解的问题形式为(类似我们SVM的对偶形式):

\max \limits_{\alpha} W(\alpha_{1}, \alpha_{2}, …, \alpha_{N})

算法过程伪码:

 

例子

若我们的优化目标为一个二元函数:

arg \min \limits_{x_{1}, x_{2}} f(x_{1}, x_{2}) = -x_{1}^{2} - 3x_{2}^{2} + 2x_{1}x_{2} + 6

我们先给一个 (x_{1}, x_{2}) 的初值然后开始迭代。

  1. 先固定 x_1 ,把 f 看做 x_2 的一元函数求最优值,可以简单的进行求导获取解析解:
    \frac{\partial{f}}{\partial{x_{1}}} = -2x_{1} + 2x_{2} = 0 \rightarrow x_{1} = x_{2}
  2. 在固定x2x2, 把ff看成x1x1的一元函数求最优值,得到x1x1的解析解:
    \frac{\partial{f}}{\partial{x_{2}}} = -6x_{2} + 2x_{1} \rightarrow x_{2} = \frac{1}{3}x_{1}

按照上面两个过程不断交替的优化 x_1 和 x_2 ,直到函数收敛。

通过下面的图就可以看出,优化的过程,因为每次只优化一个变量,每次迭代的方向都是沿着坐标轴方向的。

因为每次只是做一维优化,所以每个循环中的优化过程的效率是很高的, 但是迭代的次数会比较多。

序列最小优化算法(SMO)

SMO算法介绍

SMO的思想类似坐标上升算法,我们需要优化一系列的αα的值,我们每次选择尽量少的 \alpha 来优化,不断迭代直到函数收敛到最优值。

来到SVM的对偶问题上,对偶形式:

arg \max \limits_{\alpha} \sum_{i=1}^{N} \alpha_{i} - \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}y_{i}y_{j}\alpha_{i}\alpha_{j}\langle x_{i}, x_{j} \rangle

subject to \alpha_{i} \ge 0 , \sum_{i=1}^{N}\alpha_{i}y_{i}=0

其中我们需要对 (\alpha_{1}, \alpha_{2}, …, \alpha_{N}) 进行优化,但是这个凸二次优化问题的其他求解算法的复杂度很高,但是Platt提出的SMO算法可以高效的求解上述对偶问题,他把原始问题的求解 N 个参数二次规划问题分解成多个二次规划问题求解,每个字问题只需要求解2各参数,节省了时间成本和内存需求。

与坐标上升算法不同的是,我们在SMO算法中我们每次需要选择一对变量 (\alpha_i, \alpha_j) , 因为在SVM中,我们的 \alpha 并不是完全独立的,而是具有约束的:

\sum_{i=1}^{N}\alpha_{i}y_{i} = 0

因此一个 \alpha 改变,另一个也要随之变化以满足条件。

SMO算法原理

获得没有修剪的原始解

假设我们选取的两个需要优化的参数为 \alpha_1, \alpha_2 , 剩下的 \alpha_{3}, \alpha_{4}, …, \alpha_{N} 则固定,作为常数处理。将SVM优化问题进行展开就可以得到(把与 \alpha_{1}, \alpha_{2} 无关的项合并成常数项 C ):

W(\alpha_{1}, \alpha_{2}) = \alpha_{1} + \alpha_{2} - \frac{1}{2}K_{1,1}y_{1}^{2}\alpha_{1}^{2} - \frac{1}{2}K_{2,2}y_{2}^{2}\alpha_{2}^{2} - K_{1,2}y_{1}y_{2}\alpha_{1}\alpha_{2} - y_{1}\alpha_{1}\sum_{i=3}^{N}\alpha_{i}y_{i}K_{i,1} - y_{2}\alpha_{2}\sum_{i=3}^{N}\alpha_{i}y_{i}K_{i, 2} + C

于是就是一个二元函数的优化:

arg \max \limits_{\alpha_{1}, \alpha_{2}} W(\alpha_{1}, \alpha_{2})

根据约束条件 \sum_{i=1}^{N}\alpha_{i}y_{i} = 0 可以得到 \alpha_1 与 \alpha_2 的关系:

\alpha_{1}y_{1} + \alpha_{2}y_{2} = -\sum_{i=3}^{N}\alpha_{i}y_{i} = \zeta

两边同时乘上 y_1 , 由于 y_{i}y_{i} = 1 得到:

\alpha_{1} = \zeta y_{1} - \alpha_{2}y_{1}y_{2}

令 v_{1} = \sum_{i=3}^{N}\alpha_{i}y_{i}K_{i, 1} , v_{2} = \sum_{i=3}^{N}\alpha_{i}y_{i}K_{i, 2} , \alpha_1 的表达式代入得到:

W(\alpha_{2}) = -\frac{1}{2}K_{1, 1}(\zeta - \alpha_{2}y_{2})^{2} - \frac{1}{2}K_{2, 2}\alpha_{2}^{2} - y_{2}(\zeta - \alpha_{2}y_{2})\alpha_{2}K_{1, 2} - v_{1}(\zeta - \alpha_{2}y_{2}) - v_{2}y_{2}\alpha_{2} + \alpha_{1} + \alpha_{2} + C

后面我们需要对这个一元函数进行求极值, W 对 \alpha 的一阶导数为0得到:

\frac{\partial{W(\alpha_{2})}}{\partial{\alpha_{2}}} = -(K_{1, 1} + K_{2, 2} - 2K_{1, 2})\alpha_{2} + K_{1, 1}\zeta y_{2} - K_{1, 2}\zeta y_{2} + v_{1}y_{2} - v_{2}y_{2} - y_{1}y_{2} + y_{2}^{2} = 0

下面我们稍微对上式进行下变形,使得 \alpha_{2}^{new} 能够用更新前的 \alpha_{2}^{old} 表示,而不是使用不方便计算的 \zeta 。

因为SVM对数据点的预测值为: f(x) = \sum_{i=1}^{N}\alpha_{i}y_{i} K(x_{i}, x) + b

则 v_1 以及 v_2 的值可以表示成:

v_{1} = \sum_{i=3}^{N}\alpha_{i}y_{i}K_{1, i} = f(x_{1}) - \alpha_{1}y_{1}K_{1, 1} - \alpha_{2}y_{2}K_{1, 2} - b

v_{2} = \sum_{i=3}^{N}\alpha_{i}y_{i}K_{2, i} = f(x_{2}) - \alpha_{1}y_{1}K_{1, 2} - \alpha_{2}y_{2}K_{2, 2} - b

已知 \alpha_{1} = (\zeta - \alpha_{2}y_{2})y_{2} , 可得到:

v_{1} - v_{2} = f(x_{1}) - f(x_{2}) - K_{1, 1}\zeta + K_{1, 2}\zeta + (K_{1, 1} + K_{2, 2} - 2K_{1, 2})\alpha_{2}y_{2}

将 v_{1} - v_{2} 的表达式代入到 \frac{\partial{W(\alpha_{2})}}{\partial{\alpha_{2}}} 中可以得到: \frac{\partial{W(\alpha_{2})}}{\partial{\alpha_{2}}} = -(K_{1, 1}) + K_{2, 2} - 2K_{1, 2})\alpha_{2}^{new} +(K_{1, 1}) + K_{2, 2} - 2K_{1, 2})\alpha_{2}^{old} + y_{2}\left[ y_{2} - y_{1} + f(x_{1}) - f(x_{2}) \right]

我们记 E_i 为SVM预测值与真实值的误差: E_{i} = f(x_{i}) - y_{i}

令 \eta = K_{1, 1} + K_{2, 2} - 2K_{1, 2} 得到最终的一阶导数表达式:

\frac{\partial{W(\alpha_{2})}}{\partial{\alpha_{2}}} = -\eta \alpha_{2}^{new} + \eta \alpha_{2}^{old} + y_{2}(E_{1} - E_{2}) = 0

得到:

\alpha_{2}^{new} = \alpha_{2}^{old} + \frac{y_{2}(E_{1} - E_{2})}{\eta}

这样我们就得到了通过旧的 \alpha_2 获取新的 \alpha_2 的表达式, \alpha_{1}^{new} 便可以通过 \alpha_{2}^{new} 得到。

对原始解进行修剪

上面我们通过对一元函数求极值的方式得到的最优 \alpha_{i}, \alpha_{j} 是未考虑约束条件下的最优解,我们便更正我们上部分得到的 \alpha_{2}^{new} 为 \alpha_{2}^{new, unclipped}, 即:

\alpha_{2}^{new, unclipped} = \alpha_{2}^{old} + \frac{y_{2}(E_{1} - E_{2})}{\eta}

但是在SVM中我们的 \alpha_i 是有约束的,即:

\alpha_{1}y_{1} + \alpha_{2}y_{2} = -\sum_{i=3}^{N}\alpha_{i}y_{i} = \zeta

0 \le \alpha_{i} \le C

此约束为方形约束(Bosk constraint), 在二维平面中我们可以看到这是个限制在方形区域中的直线(见下图)。

(如左图) 当 y_{1} \ne y_{2} 时,线性限制条件可以写成: \alpha_{1} - \alpha_{2} = k ,根据 k 的正负可以得到不同的上下界,因此统一表示成:

    • 下界: L = \max(0, \alpha_{2}^{old} - \alpha_{1}^{old})
    • 上界: H = \min(C, C + \alpha_{2}^{old} - \alpha_{1}^{old})

(如右图) 当 y_{1} = y_{2} 时,限制条件可写成: \alpha_{1} + \alpha_{2} = k , 上下界表示成:

    • 下界: L = \max(0, \alpha_{1}^{old} + \alpha_{2}^{old} - C)
    • 上界: H = \min(C, \alpha_{2}^{old} + \alpha_{1}^{old})

根据得到的上下界,我们可以得到修剪后的 \alpha_{2}^{new} :

\alpha_{2}^{new} = \begin{cases} H & \alpha_{2}^{new, unclipped} > H \\ \alpha_{2}^{new, unclipped} & L \le \alpha_{2}^{new, unclipped} \le H \\ L & \alpha_{2}^{new, unclipped} < L \end{cases}

得到了 \alpha_{2}^{new} 我们便可以根据 \alpha_{1}^{old}y_{1} + \alpha_{2}^{old}y_{2} = \alpha_{1}^{new}y_{1} + \alpha_{2}^{new}y_{2} 得到 \alpha_{1}^{new} :

\alpha_{1}^{new} = \alpha_{1}^{old} + y_{1}y_{2}(\alpha_{2}^{old} - \alpha_{2}^{new})

 

OK, 这样我们就知道如何将选取的一对 \alpha_{i}, \alpha_{j} 进行优化更新了。

更新阈值b

当我们更新了一对 \alpha_{i}, \alpha_{j} 之后都需要重新计算阈值 b ,因为 b 关系到我们 f(x) 的计算,关系到下次优化的时候误差 E_i 的计算。

为了使得被优化的样本都满足KKT条件,

当 \alpha_{1}^{new} 不在边界,即 0 < \alpha_{1}^{new} < C , 根据KKT条件可知相应的数据点为支持向量,满足 y_{1}(w^{T} + b) = 1 , 两边同时乘上 y_1 得到 \sum_{i=1}^{N}\alpha_{i}y_{i}K_{i, 1} + b = y_{1} , 进而得到 b_{1}^{new} 的值:

b_{1}^{new} = y_{1} - \sum_{i=3}^{N}\alpha_{i}y_{i}K_{i, 1} - \alpha_{1}^{new}y_{1}K_{1, 1} - \alpha_{2}^{new}y_{2}K_{2, 1}

其中上式的前两项可以写成:

y_{1} - \sum_{i=3}^{N}\alpha_{i}y_{i}K_{i, 1} = -E_{1} + \alpha_{1}^{old}y_{1}K_{1, 1} + \alpha_{2}^{old}y_{2}K_{2, 1} + b^{old}

当 0 < \alpha_{2}^{new} < C , 可以得到bnew2b2new的表达式(推导同上):

b_{2}^{new} = -E_{2} - y_{1}K_{1, 2}(\alpha_{1}^{new} - \alpha_{1}^{old}) - y_{2}K_{2, 2}(\alpha_{2}^{new} - \alpha_{2}^{old}) + b^{old}

当 b_1 和 b_2 都有效的时候他们是相等的, 即 b^{new} = b_{1}^{new} = b_{2}^{new} 。

当两个乘子 \alpha_{1}, \alpha_{2} 都在边界上,且 L \ne H 时, b1, b2 之间的值就是和KKT条件一直的阈值。SMO选择他们的中点作为新的阈值:

b^{new} = \frac{b_{1}^{new} + b_{2}^{new}}{2}

简化版SMO算法实现

这里我主要针对SMO中已选取的一对 \alpha_{i}, \alpha_{j} 值的优化过程进行下Python实现,其中 \alpha_{i}, \alpha_{j} 的选取直接使用傻瓜的遍历方式,并使用100数据点进行训练。

首先是一些辅助函数,用来帮助加载数据,修剪 \alpha 的值以及随机选取 \alpha

def load_data(filename):dataset, labels = [], []with open(filename, 'r') as f:for line in f:x, y, label = [float(i) for i in line.strip().split()]dataset.append([x, y])labels.append(label)return dataset, labels
def clip(alpha, L, H):''' 修建alpha的值到L和H之间.'''if alpha < L:return Lelif alpha > H:return Helse:return alpha
def select_j(i, m):''' 在m中随机选择除了i之外剩余的数'''l = list(range(m))seq = l[: i] + l[i+1:]return random.choice(seq)

为了能在最后绘制SVM分割线,我们需要根据获取的 \alpha ,数据点以及标签来获取 w 的值:

def get_w(alphas, dataset, labels):''' 通过已知数据点和拉格朗日乘子获得分割超平面参数w'''alphas, dataset, labels = np.array(alphas), np.array(dataset), np.array(labels)yx = labels.reshape(1, -1).T*np.array([1, 1])*datasetw = np.dot(yx.T, alphas)return w.tolist()

简化版SMO算法的实现,即便没有添加启发式的 \alpha 选取,SMO算法仍然有比较多的公式需要实现,我本人按照上文的推导进行实现的时候就因为写错了一个下标算法一直跑不出想要的结果。

此实现主要包含两重循环,外层循环是控制最大迭代步数,此迭代步数是在每次有优化一对αα之后进行判断所选取的 \alpha 是否已被优化,如果没有则进行加一,如果连续max_iter步数之后仍然没有 \alpha 被优化,则我们就认为所有的 \alpha 基本已经被优化,优化便可以终止了.

def simple_smo(dataset, labels, C, max_iter):''' 简化版SMO算法实现,未使用启发式方法对alpha对进行选择.:param dataset: 所有特征数据向量:param labels: 所有的数据标签:param C: 软间隔常数, 0 <= alpha_i <= C:param max_iter: 外层循环最大迭代次数'''dataset = np.array(dataset)m, n = dataset.shapelabels = np.array(labels)# 初始化参数alphas = np.zeros(m)b = 0it = 0def f(x):"SVM分类器函数 y = w^Tx + b"# Kernel function vector.x = np.matrix(x).Tdata = np.matrix(dataset)ks = data*x# Predictive value.wx = np.matrix(alphas*labels)*ksfx = wx + breturn fx[0, 0]while it < max_iter:pair_changed = 0for i in range(m):a_i, x_i, y_i = alphas[i], dataset[i], labels[i]fx_i = f(x_i)E_i = fx_i - y_ij = select_j(i, m)a_j, x_j, y_j = alphas[j], dataset[j], labels[j]fx_j = f(x_j)E_j = fx_j - y_jK_ii, K_jj, K_ij = np.dot(x_i, x_i), np.dot(x_j, x_j), np.dot(x_i, x_j)eta = K_ii + K_jj - 2*K_ijif eta <= 0:print('WARNING  eta <= 0')continue# 获取更新的alpha对a_i_old, a_j_old = a_i, a_ja_j_new = a_j_old + y_j*(E_i - E_j)/eta# 对alpha进行修剪if y_i != y_j:L = max(0, a_j_old - a_i_old)H = min(C, C + a_j_old - a_i_old)else:L = max(0, a_i_old + a_j_old - C)H = min(C, a_j_old + a_i_old)a_j_new = clip(a_j_new, L, H)a_i_new = a_i_old + y_i*y_j*(a_j_old - a_j_new)if abs(a_j_new - a_j_old) < 0.00001:#print('WARNING   alpha_j not moving enough')continuealphas[i], alphas[j] = a_i_new, a_j_new# 更新阈值bb_i = -E_i - y_i*K_ii*(a_i_new - a_i_old) - y_j*K_ij*(a_j_new - a_j_old) + bb_j = -E_j - y_i*K_ij*(a_i_new - a_i_old) - y_j*K_jj*(a_j_new - a_j_old) + bif 0 < a_i_new < C:b = b_ielif 0 < a_j_new < C:b = b_jelse:b = (b_i + b_j)/2pair_changed += 1print('INFO   iteration:{}  i:{}  pair_changed:{}'.format(it, i, pair_changed))if pair_changed == 0:it += 1else:it = 0print('iteration number: {}'.format(it))return alphas, b

Ok, 下面我们就用训练数据对SVM进行优化, 并对最后优化的分割线以及数据点进行可视化

if '__main__' == __name__:# 加载训练数据dataset, labels = load_data('testSet.txt')# 使用简化版SMO算法优化SVMalphas, b = simple_smo(dataset, labels, 0.6, 40)# 分类数据点classified_pts = {'+1': [], '-1': []}for point, label in zip(dataset, labels):if label == 1.0:classified_pts['+1'].append(point)else:classified_pts['-1'].append(point)fig = plt.figure()ax = fig.add_subplot(111)# 绘制数据点for label, pts in classified_pts.items():pts = np.array(pts)ax.scatter(pts[:, 0], pts[:, 1], label=label)# 绘制分割线w = get_w(alphas, dataset, labels)x1, _ = max(dataset, key=lambda x: x[0])x2, _ = min(dataset, key=lambda x: x[0])a1, a2 = wy1, y2 = (-b - a1*x1)/a2, (-b - a1*x2)/a2ax.plot([x1, x2], [y1, y2])# 绘制支持向量for i, alpha in enumerate(alphas):if abs(alpha) > 1e-3:x, y = dataset[i]ax.scatter([x], [y], s=150, c='none', alpha=0.7,linewidth=1.5, edgecolor='#AB3319')plt.show()

优化最后我们可以看到针对100个数据的 \alpha 只有少部分是大于零的,即对应的数据点就是支持向量:

为了能直观的显示支持向量,我将其标注了出来,最终可视化的效果如下图:

总结

本文从坐标上升算法开始介绍,并对SMO算法的原理进行了简单的推导,针对SMO算法中对αα对的优化并使用了Python进行了简化版的SMO实现,并针对小数据集进行了训练得到了对应优化后的SVM。

实现代码以及训练数据链接: https://github.com/PytLab/MLBox/tree/master/svm

原文链接:https://zhuanlan.zhihu.com/p/29212107

这篇关于机器学习算法实践-SVM中的SMO算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1066584

相关文章

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或

Docker集成CI/CD的项目实践

《Docker集成CI/CD的项目实践》本文主要介绍了Docker集成CI/CD的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、引言1.1 什么是 CI/CD?1.2 docker 在 CI/CD 中的作用二、Docke

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;