场景文本检测识别学习 day08(无监督的Loss Function、代理任务、特征金字塔)

本文主要是介绍场景文本检测识别学习 day08(无监督的Loss Function、代理任务、特征金字塔),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

无监督的Loss Function(无监督的目标函数)

  • 根据有无标签,可以将模型的学习方法分为:无监督、有监督两种。而自监督是无监督的一种
  • 无监督的目标函数可以分为以下几种:
    1. 生成式网络的做法,衡量模型的输出和固定的目标之间的差距,主要考虑输入数据是怎么分布的,即 “给定Y,如何生成X”。如auto-encoder:输入一张干扰过的图,通过编码器-解码器,然后得出一张还原后的图,通过对比原图和生成的还原后的图之间的差异
    2. 判别式网络的做法,衡量模型的输出和固定的目标之间的差异,主要考虑输入和输出的映射关系,不考虑输入数据是怎么分布的,即 ”给定X,预测Y“ 。如eight positions:将一张输入图片分成九宫格,按顺序标好序号,并给中间的5号格,然后随机在剩下的格中挑一个,预测出这个随机的格是在中间格的哪一个方位
    3. 对比学习的做法:在一个特征空间中,衡量各个样本对之间的相似性,从而达到,相似的物体之间的特征尽量接近,不相似的物体之间的特征尽量远,如有三张图片,两张人和一张狗,对比学习只需要区分出两张人的图片是相似的,一张狗的图片是单独的即可,而不需要区分出它们分别是人和狗。对比学习和生成式网络、判别式网络的区别:后两者的目标都是固定的目标(找到一个能很好表示原图像,或输入图像的特征空间,这个特征空间是固定的),但是对比学习的目标是在训练过程中不断改变。(不断优化特征空间,来让正样本对更加接近,负样本对更加远离)
    4. 对抗学习的做法:衡量两个概率分布之间的差异,即生成数据分布和真实数据分布的差异。对抗学习包含两个模型:生成模型和判别模型。生成模型的任务是尽可能生成接近真实数据分布的数据样本,判别模型的任务是区分输入的样本是真是数据集还是来自生成模型的。对抗学习可以用来做无监督数据生成,特征学习。

代理任务

在这里插入图片描述

  • 如果有一个输入X,通过一个模型,得到Y
  • 那么在有监督学习中,我们是通过真实值GT和Y进行比较,并通过一个目标函数(Loss Function)来衡量这个比较的结果
  • 在无监督学习中,由于没有GT的存在,那么就需要自己造一个GT。主要是通过代理任务来生成一个自监督的信号,用来充当GT,之后仍然是将GT和Y进行比较,并通过一个目标函数(Loss Function)来衡量这个比较的结果

特征金字塔、图像金字塔

在这里插入图片描述

  • (a) 是图像金字塔,通过将输入图像缩放到不同的尺度来构成了图像金字塔。然后将这些不同不同尺度的图像输入到模型中(可以共享权重,也可以独立权重),最后得到每个尺度的预测结果。图像金字塔的问题是:推理速度慢,因为每张输入图像都要推理很多遍
  • (b) 是Faster R-CNN、YOLO算法的网络结构,只使用CNN的最后一层的结果用作预测。这个结构的问题在于:对小尺寸物体的预测效果不理想,因为小尺寸的物体特征回随着卷积层的加深快速流失,到最后一层只有很少的特征支持小尺寸物体的预测了。
  • © 是SSD采用的结构,使用不同层的Feature Map来预测,但是SSD只是单纯的从每一层都输出一个预测结果,并没有进行不同层之间的特征复用和特征融合。
  • (d) 是U-Net的结构,虽然使用了不同层之间的特征复用和特征融合,但是没有使用多层预测,仍然只是在模型的最后一层进行了预测。
    在这里插入图片描述
  • 上图为特征金字塔网络FPN的结构,跟U-Net不相同的是,FPN在每一层都进行了输出预测。

这篇关于场景文本检测识别学习 day08(无监督的Loss Function、代理任务、特征金字塔)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/960034

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

在JS中的设计模式的单例模式、策略模式、代理模式、原型模式浅讲

1. 单例模式(Singleton Pattern) 确保一个类只有一个实例,并提供一个全局访问点。 示例代码: class Singleton {constructor() {if (Singleton.instance) {return Singleton.instance;}Singleton.instance = this;this.data = [];}addData(value)

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]