支持向量机 Part 1:完全线性可分下的支持向量分类与python实现——机器学习笔记

本文主要是介绍支持向量机 Part 1:完全线性可分下的支持向量分类与python实现——机器学习笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

* * *  The Machine Learning Noting Series  * * *

导航

1. 概述:支持向量分类

2. 原理:完全线性可分下的支持向量分类

3. 求解:参数的拉格朗日乘数法求解

4. 预测:支持向量分类的预测

5. 应用:python实例与代码

1. 概述:支持向量分类

        支持向量机(Support Vector Machine, SVM)是在统计学习理论上发展起来的一种机器学习方法,在解决小样本、非线性和高维的分类、回归预测问题上有很多优势。

        支持向量机分为支持向量分类机和支持向量回归机,分别用于输入变量和二分类/数值型输出变量间的数量关系和分类预测,简称支持向量分类(Support Vector Classification, SVC);同理,支持向量回归(Support Vector Regression, SVR)用于输入变量和输出变量间的数量关系和回归预测。

       支持向量分类主要有2情况:①完全线性可分样本指两类样本不重合,能被超平面百分百完全分开;而广义线性可分则找不到一个超平面完全将其分开;② 线性不可分样本找不到一个超平面将其线性分开,只能使用曲面,此类型的支持向量分类是支持向量机的灵魂,通过核函数解决。

2. 原理:完全线性可分下的支持向量分类

       分类预测时,将训练集中的N个样本看成p维输入变量空间中的N个点(以点的不同形状或颜色代表输出变量的不同类别取值)。支持向量分类的目的是在p维空间中找到能将两类样本有效分开的超平面。

      以二维空间为例,如上右侧两图,分类超平面为两种背景颜色的分界线,此时超平面方程为b+w_{1}X_{1}+w_{2}X_{2}=0,其中,X_{1},X_{2}为两个维度。

      拓展到p维空间,则超平面方程变为b+w_{1}X_{1}+w_{2}X_{2}+\cdots +w_{p}X_{p}=0,即b+w^{T}X=0,分类超平面的位置由待估参数b和w确定。

      预测时,将某个待预测点代入包含参数估计值的式子\widehat{b}+\widehat{w}^{T}X中,该预测点因式子大于或小于0而分别位于超平面两侧,因此输出变量分别为-1或1.

上左两图中的分界线为使用三层神经网络得到的分界面,对比来说,支持向量分类确定的超平面是具有最大边界的超平面,因此,它的优点在于:① 由较高预测置信度,因为超平面距两侧边缘点比一般的预测更远;② 最大边界超平面仅取决于两类的边缘观测点,从而有利于克服过拟合问题,具有很强的鲁棒性(Robustness)。

3. 求解:参数的拉格朗日乘数法求解

完全线性可分下的二维空间为例,步骤为:

1)找出可能的超平面。分别将两类最外侧样本观测点连线,形成两个多边形,称为两类样本集的凸包(Convex Hull),然后,以一类的凸包边界维基准线,找另一类凸包边界上的点,过该点做基准线的平行线,得到一对平行线,该平行线垂线的中垂线为对应的超平面。显然,可以找出很多个这样的超平面,下面找出平行线相距最远的对应的最大边界超平面。

2)若以y_{i}=1类凸包边界b+w^{T}X^{+}=1为基准线,超平面方程为b+w^{T}X=0,则平行线为b+w^{T}X^{-}=-1,那么平行线间的距离\lambda =\frac{2}{\left \| w \right \|},\left \| w \right \|=\sqrt{w^{T}w}

3) 若要使y_{i}=1/-1预测正确,则有b+w^{T}X_{i}\geq/\leq 1,因此有y_{i}(b+w^{T}X_{i})\geq 1.要使平行线间距离最大,则要\left \| w \right \|最小,为求解方便,即为\tau \left ( w \right )=\frac{1}{2}\left \| w \right \|^{2}=\frac{1}{2}w^{T}w最小,因此有超平面参数求解的凸二次型规划问题:

\left\{\begin{matrix} \underset{min}{\tau} (w)=\frac{1}{2}\left \| w \right \|^{2}=\frac{1}{2}w^{T}w\\s.t.\, \: \; \; y_{i}(b+w^{T}X_{i})-1\geq 0,i=1,2,...,N\end{matrix}\right.

此规划问题使用拉格朗日乘数法求解。假设目标函数为f(X)=X_{1}^{2}+X_{2}^{2},g(X)=X_{1}+X_{2}-1\leq 0g(X)=X_{1}+X_{2}+1\leq 0,f(X)的等高线图和g(X)≤0的图像如下图所示,

4. 预测:支持向量分类的预测

对新样本进行预测时,只需将样本X代入式子b+w^{T}X并且关注其符号:

h(X)=Sign(b+w^{T}X)=Sign\left [ b+\sum_{i=1}^{L}\left ( a_{i}y_{i}X_{i}^{T} \right )X \right ]=Sign\left [ b+\sum_{i=1}^{L} a_{i}y_{i}(X_{i}^{T}X) \right ]

其中Xi为支持向量,共有L个支持向量。若h(X)>0,则y^hat=1;若h(X)<0,则y^hat=-1.

5. 应用:python实例与代码

通过生成的模拟数据,展示完全线性可分下的最大边界超平面。

#导入模块
import numpy as np
from numpy import random
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import warnings
warnings.filterwarnings(action = 'ignore')
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=False
from sklearn.datasets import make_classification,make_circles,make_regression
from sklearn.model_selection import train_test_split,KFold
import sklearn.neural_network as net
import sklearn.linear_model as LM
from scipy.stats import multivariate_normal
from sklearn.metrics import r2_score,mean_squared_error,classification_report
from sklearn import svm
import os
# 生成模拟数据并可视化
N=100
X,Y=make_classification(n_samples=N,n_features=2,n_redundant=0,n_informative=2,class_sep=1,random_state=1,n_clusters_per_class=1)plt.figure(figsize=(9,6))
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,train_size=0.85, random_state=123)
markers=['^','o']
for k,m in zip([1,0],markers):plt.scatter(X_train[Y_train==k,0],X_train[Y_train==k,1],marker=m,s=50)
plt.title("训练集中样本观测点的分布")
plt.xlabel("X1")
plt.ylabel("X2")
plt.grid(True,linestyle='-.')
plt.show()   

模拟数据的分布情况为:

接下来使用支持向量机求出最大边界超平面:

N=100
X,Y=make_classification(n_samples=N,n_features=2,n_redundant=0,n_informative=2,class_sep=1,random_state=1,n_clusters_per_class=1)
X_train, X_test, Y_train, Y_test = train_test_split(X,Y,train_size=0.85, random_state=123)
X1,X2= np.meshgrid(np.linspace(X_train[:,0].min(),X_train[:,0].max(),500),np.linspace(X_train[:,1].min(),X_train[:,1].max(),500))
X0=np.hstack((X1.reshape(len(X1)*len(X2),1),X2.reshape(len(X1)*len(X2),1)))
modelSVC=svm.SVC(kernel='linear',random_state=123,C=2) #modelSVC=svm.LinearSVC(C=2,dual=False)
modelSVC.fit(X_train,Y_train)
print("超平面的常数项b:",modelSVC.intercept_)
print("超平面系数W:",modelSVC.coef_)
print("支持向量的个数:",modelSVC.n_support_)
Y0=modelSVC.predict(X0)
plt.figure(figsize=(6,4)) 
plt.scatter(X0[np.where(Y0==1),0],X0[np.where(Y0==1),1],c='lightgray')
plt.scatter(X0[np.where(Y0==0),0],X0[np.where(Y0==0),1],c='mistyrose')
for k,m in [(1,'^'),(0,'o')]:plt.scatter(X_train[Y_train==k,0],X_train[Y_train==k,1],marker=m,s=40)plt.scatter(X_test[Y_test==k,0],X_test[Y_test==k,1],marker=m,s=40,c='',edgecolors='g')plt.scatter(modelSVC.support_vectors_[:,0],modelSVC.support_vectors_[:,1],marker='o',c='b',s=120,alpha=0.3)
plt.xlabel("X1")
plt.ylabel("X2")
plt.title("线性可分下的支持向量机最大边界超平面")
plt.grid(True,linestyle='-.')
plt.show()   

结果为:

参考文献

《Python机器学习 数据建模与分析》,薛薇 等/著

这篇关于支持向量机 Part 1:完全线性可分下的支持向量分类与python实现——机器学习笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/409006

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

Java实现Excel与HTML互转

《Java实现Excel与HTML互转》Excel是一种电子表格格式,而HTM则是一种用于创建网页的标记语言,虽然两者在用途上存在差异,但有时我们需要将数据从一种格式转换为另一种格式,下面我们就来看看... Excel是一种电子表格格式,广泛用于数据处理和分析,而HTM则是一种用于创建网页的标记语言。虽然两

Java中Springboot集成Kafka实现消息发送和接收功能

《Java中Springboot集成Kafka实现消息发送和接收功能》Kafka是一个高吞吐量的分布式发布-订阅消息系统,主要用于处理大规模数据流,它由生产者、消费者、主题、分区和代理等组件构成,Ka... 目录一、Kafka 简介二、Kafka 功能三、POM依赖四、配置文件五、生产者六、消费者一、Kaf

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

使用Python实现在Word中添加或删除超链接

《使用Python实现在Word中添加或删除超链接》在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能,本文将为大家介绍一下Python如何实现在Word中添加或... 在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能。通过添加超

windos server2022里的DFS配置的实现

《windosserver2022里的DFS配置的实现》DFS是WindowsServer操作系统提供的一种功能,用于在多台服务器上集中管理共享文件夹和文件的分布式存储解决方案,本文就来介绍一下wi... 目录什么是DFS?优势:应用场景:DFS配置步骤什么是DFS?DFS指的是分布式文件系统(Distr

NFS实现多服务器文件的共享的方法步骤

《NFS实现多服务器文件的共享的方法步骤》NFS允许网络中的计算机之间共享资源,客户端可以透明地读写远端NFS服务器上的文件,本文就来介绍一下NFS实现多服务器文件的共享的方法步骤,感兴趣的可以了解一... 目录一、简介二、部署1、准备1、服务端和客户端:安装nfs-utils2、服务端:创建共享目录3、服