NLP10_逻辑回归

2024-04-09 12:48
文章标签 逻辑 回归 nlp10

本文主要是介绍NLP10_逻辑回归,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
逻辑回归是经典的baseline
在这里插入图片描述
要想通过线性回归来表示概率,那概率必须是(0,1)范围,但是显然等式右边是负无穷到正无穷的范围
在这里插入图片描述

逻辑函数

使用逻辑函数作为激活函数
通过sigmoid函数,把条件概率的值限定在0-1的范围
在这里插入图片描述

原始条件概率的范围是不符合概率的定义的,所以要经过逻辑函数,也就是这里用的sigmoid函数,将其概率的范围修改为0-1,满足了概率的定义

通过训练已有的数据,得到参数w和b,这样我将特征x输入,经过激活函数处理,就可以得到一个概率
在这里插入图片描述
二分类条件概率
将两个分类写到一个公式
在这里插入图片描述

逻辑回归是线性的分类器

判断是线性还是非线性,是看他最终的训练后的一个决策边界,
在这里插入图片描述
在这里插入图片描述
因为落在边界上的点既可以属于0分类,也可以属于1分类,也就是属于0还是属于1的概率相同,即概率比值为1,由上式证明可知,逻辑回归是线性的

当数据是线性可分的,那么参数w会趋近于无穷大、

原因:要达到分类的效果,我们希望条件概率y=1越大越好,或者y=0越大越好。
假如我是正样本,那么y=1的条件概率我希望是趋向于1,那么此时e的指数这一项趋近于0,推出wx+b这一项趋向于无穷大,
也就是w趋向于无穷大,w是这个回归方程的系数,所以w无穷大对应的就是垂直于x轴的那条分割线
同样,,假如是负样本,w也是无穷大
这其实就是一个过拟合的问题
在这里插入图片描述

如何避免w无穷大呢?

L2 Norm,控制参数不要变的特别大

在原来的目标函数的基础上加了一个正则项,来调节w
λ是超参数,它为0,w无限制
λ大的时候,w变的更小,它小的时候,w变的更大,达到了调节w的目的
在这里插入图片描述

为了选择合适的λ,一般会使用交叉验证来选出

简单模型可以更好避免过拟合
在这里插入图片描述

泛化能力

我们要的是训练集上训练出来的模型,在测试集中也有很好的表现。在这里插入图片描述
泛化能力越好,那么我的模型复杂度可能变高,泛化能力差,就会产生过拟合的现象。所以我们要选择一个复杂度适中,泛化能力又好的模型

模型复杂度

发生过拟合现象的四个原因
1、模型的选择:简单模型适合用于简单环境,复杂模型用于复杂环境,简单模型有LR、SVM
2、参数个数:减少参数个数
3、参数空间的选择:正则的作用就是从参数空间中选择出简单的参数空间,加正则项
4、拟合过少的样本:获取更多样本
在这里插入图片描述
如图,x轴为模型复杂度,y为错误率
可以看出,到达红线处,测试集中的错误率最低,
而在红线左边,模型复杂度低,错误率也比较高,这是错误率还是可以通过增加模型复杂度来降低的,这是欠拟合
而在红线右边,模型复杂度继续增加,测试集上的表现却开始变差,错误率变高,这就是过拟合
我们要找到那个测试集上错误率最低的点时的模型复杂度,确定这个模型是最好的模型

正则

L2 Norm
在这里插入图片描述
还有不同的范数用在正则项,
L1 Norm计算的是绝对值和
L2计算的是平方和
L1和L2都会控制参数w,使其不会变得太大
L1Norm存在稀疏性,经常用于将很多参数变为0,遇到跟稀疏相关的模型,会用到L1Norm

Nuclear norm:用于去除矩阵中很大的那些秩
在这里插入图片描述

这篇关于NLP10_逻辑回归的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/888198

相关文章

✨机器学习笔记(二)—— 线性回归、代价函数、梯度下降

1️⃣线性回归(linear regression) f w , b ( x ) = w x + b f_{w,b}(x) = wx + b fw,b​(x)=wx+b 🎈A linear regression model predicting house prices: 如图是机器学习通过监督学习运用线性回归模型来预测房价的例子,当房屋大小为1250 f e e t 2 feet^

逻辑表达式,最小项

目录 得到此图的逻辑电路 1.画出它的真值表 2.根据真值表写出逻辑式 3.画逻辑图 逻辑函数的表示 逻辑表达式 最小项 定义 基本性质 最小项编号 最小项表达式   得到此图的逻辑电路 1.画出它的真值表 这是同或的逻辑式。 2.根据真值表写出逻辑式   3.画逻辑图   有两种画法,1是根据运算优先级非>与>或得到,第二种是采

UMI复现代码运行逻辑全流程(一)——eval_real.py(尚在更新)

一、文件夹功能解析 全文件夹如下 其中,核心文件作用为: diffusion_policy:扩散策略核心文件夹,包含了众多模型及基础库 example:标定及配置文件 scripts/scripts_real:测试脚本文件,区别在于前者倾向于单体运行,后者为整体运行 scripts_slam_pipeline:orb_slam3运行全部文件 umi:核心交互文件夹,作用在于构建真

用Python实现时间序列模型实战——Day 14: 向量自回归模型 (VAR) 与向量误差修正模型 (VECM)

一、学习内容 1. 向量自回归模型 (VAR) 的基本概念与应用 向量自回归模型 (VAR) 是多元时间序列分析中的一种模型,用于捕捉多个变量之间的相互依赖关系。与单变量自回归模型不同,VAR 模型将多个时间序列作为向量输入,同时对这些变量进行回归分析。 VAR 模型的一般形式为: 其中: ​ 是时间  的变量向量。 是常数向量。​ 是每个时间滞后的回归系数矩阵。​ 是误差项向量,假

深度学习与大模型第3课:线性回归模型的构建与训练

文章目录 使用Python实现线性回归:从基础到scikit-learn1. 环境准备2. 数据准备和可视化3. 使用numpy实现线性回归4. 使用模型进行预测5. 可视化预测结果6. 使用scikit-learn实现线性回归7. 梯度下降法8. 随机梯度下降和小批量梯度下降9. 比较不同的梯度下降方法总结 使用Python实现线性回归:从基础到scikit-learn 线性

【python因果推断库11】工具变量回归与使用 pymc 验证工具变量4

目录  Wald 估计与简单控制回归的比较 CausalPy 和 多变量模型 感兴趣的系数 复杂化工具变量公式  Wald 估计与简单控制回归的比较 但现在我们可以将这个估计与仅包含教育作为控制变量的简单回归进行比较。 naive_reg_model, idata_reg = make_reg_model(covariate_df.assign(education=df[

什么是GPT-3的自回归架构?为什么GPT-3无需梯度更新和微调

文章目录 知识回顾GPT-3的自回归架构何为自回归架构为什么架构会影响任务表现自回归架构的局限性与双向模型的对比小结 为何无需梯度更新和微调为什么不需要怎么做到不需要 🍃作者介绍:双非本科大四网络工程专业在读,阿里云专家博主,专注于Java领域学习,擅长web应用开发,目前开始人工智能领域相关知识的学习 🦅个人主页:@逐梦苍穹 📕所属专栏:人工智能 🌻gitee地址:x

【Java编程的逻辑】原子变量 CAS 显示锁

原子变量 在理解synchronized中有使用synchronized保证原子更新操作,但是使用synchronized成本太高了,需要先获取锁,最后还要释放锁,如果获取不到锁还需要等到。这些成本都是比较高的,对于这种情况,可以使用原子变量。 Java并发包中的基本原子变量类型有以下几种: AtomicBoolean:原子Boolean类型,常用来在程序中表示一个标志位 AtomicIn

【Java编程的逻辑】容器类的总结

抽象容器类 用法和特点 容器类有两个根接口,分别是Collection 和 Map ,Collection表示单个元素的集合,Map表示键值对的集合 。 Collection Collection表示的数据集合有基本的增、删、查、遍历等方法,但没有定义元素间的顺序或位置,也没有规定是否有重复元素。 List: 是Collection的子接口,表示有顺序或位置的数据集合,增加了根据

【Java编程的逻辑】堆与优先级队列PriorityQueue

完全二叉树 & 满二叉树 & 堆 基本概念 满二叉树是指除了最后一层外,每个节点都有两个孩子,而最后一层都是叶子节点,都没有孩子。 满二叉树一定是完全二叉树,但完全二叉树不要求最后一层是满的,但如果不满,则要求所有节点必须集中在最左边,从左到右是连续的,中间不能有空的。 特点 在完全二叉树中,可以给每个节点一个编号,编号从1开始连续递增,从上到下,从左到右 完全二叉树有一