手推支持向量机01-硬间隔SVM-模型定义(最大间隔分类器)

2024-02-28 05:48

本文主要是介绍手推支持向量机01-硬间隔SVM-模型定义(最大间隔分类器),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

1.写在前面

2.硬间隔SVM(hard-margin SVM)


1.写在前面

        支持向量机SVM是机器学习中非常流行的分类算法,最近朋友推荐了机器学习-白板推导系列(六)-支持向量机SVM(Support Vector Machine)视频,感觉这个大佬讲的非常棒,之前写的关于svm的东西太浅显了,于是重新整理,方便以后复习。我们主要是从理论推导SVM是怎么一步一步演化到一个优化问题。从核心概念上讲,有一个口头禅:SVM有三宝,间隔、对偶、核技巧

        首先核技巧和svm没有一个具体的绑定关系,在svm之前核函数已经有一套单独的理论体系了,只不过是核技巧能够让svm从普通特征空间映射到高维空间,可以实现一定的非线性分类。

        从类别上我们可以分为硬间隔SVM(hard-margin SVM)、软间隔SVM(soft-margin SVM)、kernel SVM。根据不同的情况我们使用不同的SVM算法。我们首先讲一下最基础的硬间隔SVM(hard-margin SVM)。

2.硬间隔SVM(hard-margin SVM)

        我们先从几何角度上看待SVM算法,首先SVM首次提出是为了解决二分类问题的,比如我们可以画一个平面,横纵坐标为x1,x2。我们在图中表示两个类别,一般情况下,我们需要找到一个线,让这两个类别正确的分割开。我们定义这个线是一个超平面w^{T}x+b,那么我们模型可以表示为f(w)=sign(w^{T}x+b),sign是一个符号函数,当后面大于0时,属于+1;当后面小于等于0时,属于-1。所以SVM本质上是一个纯粹的判别模型,跟概率没有关系

        我们可以知道能够正确把+1和-1分开的线是有好多条,可以说是有无数条的。我们在感知机学习算法PLA(Percetron Learning Algorithm)中根据初始值不同可以找到对应的超平面,从而将分类问题解决掉。这个SVM到底有什么特别之处呢?我们知道有那么多条可以分类的直线,哪一条才是最好的呢?SVM从几何意义上讲就是从这么多可以正确分类的超平面之中找到最好的一个。因为我们机器学习算法不仅仅要关注训练误差,我们更要关注期望损失,或者说测试误差

        假设我们找到上面这样一条线,它的鲁棒性是非常差的,也就是说这条直线对于噪声是非常的敏感。加入有一个样本在直线附近,很大概率出现误判,所以其泛化误差是非常差的。这个就是我们的出发点,找到最中间的一条超平面,让它离样本点都足够的大。

        硬间隔SVM,别称是最大间隔分类器。我们从这几个字出发,用数学语言将刚才几何意义表达出来。最大我们用max表示,间隔我们用margin表示,w,t都是相关的,样本点用这样表示:\{(x_{i},y_{i})\}_{i=1}^{N},x_{i}\euro R^{\Phi },y_{i}\euro \{-1,1\}  ,约束条件st满足:

        对于上面这个公式,我们可以进一步写做下面形式,同时我们最大间隔分类器通过数学语言表达出来了:

        下面我们看一下我们自己定义的间隔margin函数,我们把margin定义为样本点到超平面的最小距离distance。从N个样本distance里面,找到最小的那个distance。点到直线距离,我们重新复习一下:

        这样的话,margin和max margin就可以表示为:

        因为y_{i}(w^{T}x_{i}+b)>0,所以上面\left | w^{T}x_{i}+b \right |绝对值可以去掉。变成了下面形式:

        我们继续观察上面的式子,我们知道min是和Xi相关,和w是没有关系的。所以我们可以把w往前提,得到下面的式子:

        我们继续观察我们的约束st:y_{i}(w^{T}x_{i}+b)>0,可以讲一定存在一个 r>0,使得最小的y_{i}(w^{T}x_{i}+b)=r。并且把上面公式中替换成r。

        而且,这个 r 我们可以定义为1,其实是为了简化运算。为什么是可行的呢?这个是函数间隔和几何间隔的问题,(w^{T}x_{i}+b)是那个超平面,如果同时将w和b放大2倍,(2w^{T}x_{i}+2b),它们指的是同一个超平面。比如我们规定x的范数 \left \| w \right \|=1,2或者100,就是将它固定下来,这样我们指定一个超平面(w^{T}x_{i}+b)的时候,值是能够确定下来的。不然这个值是有无穷多的,因为可以随意缩放。r是一个大于0的数子,我们可以以任意比例缩放为1,对整个等式是没有影响的,仅仅为了简化运算。而且最大化可以转化为最小化。

        我们整个式子可以简化为:

        所以硬间隔SVM最后转化为了上面一个优化问题,并且是一个凸优化的问题。一共有N个约束,目标函数是二次的。整个几何意义转化为了凸优化问题,关于求解整个公式,我们会单独分析。如果样本数目不多,维数不多,就是一个简单的QP问题(二次规划问题),直接利用套件求解,如果复杂的话,需要引入对偶和kernel方法,用来求解该优化问题

这篇关于手推支持向量机01-硬间隔SVM-模型定义(最大间隔分类器)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/754536

相关文章

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

如何提高Redis服务器的最大打开文件数限制

《如何提高Redis服务器的最大打开文件数限制》文章讨论了如何提高Redis服务器的最大打开文件数限制,以支持高并发服务,本文给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录如何提高Redis服务器的最大打开文件数限制问题诊断解决步骤1. 修改系统级别的限制2. 为Redis进程特别设置限制

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

hdu 2602 and poj 3624(01背包)

01背包的模板题。 hdu2602代码: #include<stdio.h>#include<string.h>const int MaxN = 1001;int max(int a, int b){return a > b ? a : b;}int w[MaxN];int v[MaxN];int dp[MaxN];int main(){int T;int N, V;s

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费