人类视觉神经科学助力音视频产业革命 - 弱网下的极限实时通信

本文主要是介绍人类视觉神经科学助力音视频产业革命 - 弱网下的极限实时通信,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

人类视觉神经科学助力音视频产业革命-弱网下的极限实时通信

一、什么是弱网?
1.1 弱网概念

弱网从字面意思看就是网络比较弱, 我们通称为信号差, 网速慢, 随着移动互联网火热发展的这些年, 大量用户会在地铁, 隧道, 电梯和车库等特殊场景下使用移动端 APP 。这些场景下, 网络会出现延迟、中断、抖动、超时等情况。

1.2 网络形态

网络形态包含有线连接, 2G/3G/4G/5G/Edge/Wifi 等多种网络连接形式, 从测试的角度说, 也包含断网, 网络故障等情况, 对于弱网的数据定义, 不同的应用所界定的含义也是不一样且不清晰的, 一般来说低于 2G 速率的都属于弱网, 也可以将 3G 划分为弱网, 除此之外, 极低宽带 < 50kbps, 弱信号的 Wifi 等也是弱网。

1.3 研究背景

有一些特殊场景, 例如 : 森林救灾, 边防监控, 等场景, 这些场景往往关乎国家安全与生命安全, 更加需要严苛的实时通信, 但是这些场景依赖的基站往往会受到自然因素的干扰, 例如地震等自然灾害。

二、尝试了哪些技术尝试?
2.1 AI 控制

在观看直播过程中听到马老师提出了一个新的概念, 人眼在感知图像的时候, 处理大概是 100B/s, 然后通过视网膜上的细胞进行分离之后, 大概压缩了 100 倍, 然后经过一系列的细胞处理, 最后只有大约 40b/s, 并且人眼关注的区域分辨率相对高一点, 人眼不关注的区域相对分辨率就低一点. 并且人眼对于某些区域, 某些颜色特别的敏感, 叫做注意力机制。

传统的流控技术在进行音视频编码和传输的过程中往往无法根据具体的网络环境选择适合的算法和码率控制, AI 控制模块(相当于人脑)会收集视频会话经验(人眼关注的东西), 包括视频编码器、接收端的编码状态、网络、播放状态, 根据这些特征, 对抗网络波动, 作出编码参数的设置决策。

2.2 强化网络主动决策(压缩和融合)

根据不同用户, 也就是播放端进行一种个性化的丢帧, 但整体感观并不会有大差异, 这项技术利用的是多帧视频时空一致性原理, 基于人的细胞对于不同的图像的特征敏感度不一样这一现象, 有些细胞对于颜色敏感, 有些细胞对于运动敏感, 有的细胞对于方向性比较敏感, 有些细胞对于纹理比较敏感, 所以人的大脑对所感知到的音视频信息并不是像解码器一样一个 bit, 一个 bit 来解码的, 而是部分解码的, 所以, 对于任何一个视频输入结构, 主要拆分成两部分, 一部分用来存储空间上纹理细节的保留, 另一部分对于运动的细节不是那么敏感, 所以另外一路空间就可以不用占用那么高了。当然在融合和重建的过程中, 还需要智能学习进行补偿和转化。所以最后输出的音视频感觉才不会有很大差异。

2.3 基于强化学习的视频码率自适应

根据视频分类, 网络分类进行在线学习模型训练, 例如, 大部分男生喜欢游戏类视频, 大部分女生喜欢淘宝购物类视频, 不同分类视频所返回的视频码率和精度不同, 基于此提出, 能否对不同类型的视频进行模型训练, 用户端在播放不同类型的视频时会选择不同的算法。基于在线学习平台相对于离线模型效率有一定的提升。

三、个人感悟
3.1 有哪些具体的弱网环境应用落地场景(1 药网/重庆 120 急救)

1 药网是在疫情期间紧急开辟了面向武汉的免费线上问诊通道, 并以将范围扩展至湖北省全境, 视频问诊, 电子处方和远程买药功能采用了声网 Agora 的实时音视频技术,在视频问诊的场景中, 由于医生与患者处于不同的网络环境, 以上所说的弱网环境均有可能出现, 在这些环境下, 声网 Agora 具备优秀的弱网传输和抗丢包算法, 依然可在 60%的丢包情况下保障音视频流畅, 70%的丢包网络环境下保障语音的流畅。

120 急救则是通过视频远程指导+急救教学视频指导, 真正做到了为生命争取机会和时间。但是同样患者有可能处于弱网环境中, 如何保证音视频传输质量, 依然尤为重要。并且, 急救更讲究争分夺秒, 并且要保证连通率, 接通失败则可能意味着耽误急救, 根据官网数据资料显示声网在全球有超过 200 个数据中心, 基于此搭建的软件定义实时网, 在网络较差的环境下, 也能保证稳定可靠, 高质量的传输和 99.9%的高连通率。

3.2 心得体会

业务形态在变, 技术必须跟上, 原本以为, 随着技术的不断发展与进步, 例如 5G, GPU, 芯片等硬件设备的更新升级, 对于软件研发人员来说, 可以忽略网络抖动或者硬件环境的制约, 更加不会想到, 是否会有一天自己开发的软件可能需要运行在一个比较苛刻的环境之中, 或者, 所提供的服务, 用户用用的设备太老不兼容等情况, 所以, 平时很不注重代码的健壮性, 能用就行, 凑合用着, 这些习惯竟然已经不知不觉潜移默化影响了我, 不知道有没有同学是像我一样, 有则改之, 无则加勉。

之前对于音视频的概念一直停留在比较传统的编解码, 直播拉流, 视频点播等常见应用之中, 并没有深思, 每一个用户所在网络环境的差异化; 所以说研究 弱网下的极限视频通信 并非吹毛求疵, 其有很重要的现实意义, 大到国防安全, 小到人民生活的方方面面。

人工智能风口下, 结合 AI, 以及人类视觉神经科学, 音视频领域也可借一把东风, 寻求技术的突破与革新。除此以外, 个人认为, 如边缘计算, 雾计算等概念的兴起与应用, 缩短了用户与服务之间的距离, 以前多在中心节点部署服务, 现在以微服务的方式部署会更加高效, 比如 WebRTC 的服务到边缘节点。除此之外, 边缘节点部署服务成本更低, 节省带宽。

这篇关于人类视觉神经科学助力音视频产业革命 - 弱网下的极限实时通信的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/293899

相关文章

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

客户案例:安全海外中继助力知名家电企业化解海外通邮困境

1、客户背景 广东格兰仕集团有限公司(以下简称“格兰仕”),成立于1978年,是中国家电行业的领军企业之一。作为全球最大的微波炉生产基地,格兰仕拥有多项国际领先的家电制造技术,连续多年位列中国家电出口前列。格兰仕不仅注重业务的全球拓展,更重视业务流程的高效与顺畅,以确保在国际舞台上的竞争力。 2、需求痛点 随着格兰仕全球化战略的深入实施,其海外业务快速增长,电子邮件成为了关键的沟通工具。

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【STM32】SPI通信-软件与硬件读写SPI

SPI通信-软件与硬件读写SPI 软件SPI一、SPI通信协议1、SPI通信2、硬件电路3、移位示意图4、SPI时序基本单元(1)开始通信和结束通信(2)模式0---用的最多(3)模式1(4)模式2(5)模式3 5、SPI时序(1)写使能(2)指定地址写(3)指定地址读 二、W25Q64模块介绍1、W25Q64简介2、硬件电路3、W25Q64框图4、Flash操作注意事项软件SPI读写W2

vue2 组件通信

props + emits props:用于接收父组件传递给子组件的数据。可以定义期望从父组件接收的数据结构和类型。‘子组件不可更改该数据’emits:用于定义组件可以向父组件发出的事件。这允许父组件监听子组件的事件并作出响应。(比如数据更新) props检查属性 属性名类型描述默认值typeFunction指定 prop 应该是什么类型,如 String, Number, Boolean,

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

linux中使用rust语言在不同进程之间通信

第一种:使用mmap映射相同文件 fn main() {let pid = std::process::id();println!(

生信圆桌x生信分析平台:助力生物信息学研究的综合工具

介绍 少走弯路,高效分析;了解生信云,访问 【生信圆桌x生信专用云服务器】 : www.tebteb.cc 生物信息学的迅速发展催生了众多生信分析平台,这些平台通过集成各种生物信息学工具和算法,极大地简化了数据处理和分析流程,使研究人员能够更高效地从海量生物数据中提取有价值的信息。这些平台通常具备友好的用户界面和强大的计算能力,支持不同类型的生物数据分析,如基因组、转录组、蛋白质组等。

C++编程:ZeroMQ进程间(订阅-发布)通信配置优化

文章目录 0. 概述1. 发布者同步发送(pub)与订阅者异步接收(sub)示例代码可能的副作用: 2. 适度增加缓存和队列示例代码副作用: 3. 动态的IPC通道管理示例代码副作用: 4. 接收消息的超时设置示例代码副作用: 5. 增加I/O线程数量示例代码副作用: 6. 异步消息发送(使用`dontwait`标志)示例代码副作用: 7. 其他可以考虑的优化项7.1 立即发送(ZMQ_IM

三.海量数据实时分析-FlinkCDC实现Mysql数据同步到Doris

FlinkCDC 同步Mysql到Doris 参考:https://nightlies.apache.org/flink/flink-cdc-docs-release-3.0/zh/docs/get-started/quickstart/mysql-to-doris/ 1.安装Flink 下载 Flink 1.18.0,下载后把压缩包上传到服务器,使用tar -zxvf flink-xxx-