5位音视频技术专家热议WebRTC、Qos、AI、4K

2023-12-19 08:08

本文主要是介绍5位音视频技术专家热议WebRTC、Qos、AI、4K,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

9月15日,由即构科技ZEGO主办的2018音视频技术嘉年华在来到上海。这次,我们邀请到了即构科技、TutorABC、咪咕视讯、触宝科技、Intel的5位音视频技术专家,就音视频圈热议的WebRTC、Qos、AI、4K,以及新一代视频技术,和现场70多名技术爱好者共同交流讨论。

考虑到有些朋友没有到现场,小极狗特摘取了部分精彩内容,和大家分享。

AI技术在实时语音通信的探索
在这里插入图片描述
分享嘉宾:吴威麒,触宝科技staff data scientist

现场,吴威麒老师跟大家介绍了VOIP语音技术,以及语音处理与机器学习之间的关系,重点从三个技术方向介绍了AI技术如何跟传统的语音技术结合。

一是回声消除, VOIP技术是比较传统的技术,首当其冲的就是回声消除。我们可以把回声消除的非线性处理和AI技术结合,尝试解决多极值点、收敛速度和回声路径的问题,由于数据量问题,并不能直接套用DNN(深层神经网络)方法,所以采用局部模块结合机器学习,能产生一定的作用,但不能完全解决。

二是语音降噪,吴威麒提出了深度学习降噪的新思路,除了常用的mapping方法,像GF-TPS、MASK和RDAE(去噪编码器)都是值得学习的。而基于深度学习的降噪方法,在非平稳情况下效果突出,但仍需改进增强方法的稳定性。

三是端点检测,传统的信号分析法需要遍历全部数据,而结合AI技术的VAD更加适合分类学习的方法,或者将语音信号看作图像使用CNN(卷积神经网络)进行学习,在性能上比传统方法有显著提高。

最后,吴威麒老师表示,在语音通信领域中,传统的信号处理方法依然存在且有效,而结合AI技术的语音处理也有其优势,在实时语音的降噪和VAD处理上有更好的效果。

Zego WebRTC网关服务器实践与Qos策略
在这里插入图片描述
分享嘉宾:黄开宁,即构科技音视频资深架构师

黄开宁老师和大家分享了音视频圈的热点技术——WebRTC技术,结合即构WebRTC网关服务器的实践,介绍了WebRTC架构的设计和网关实现以及Qos策略。主要包含了四方面内容。

第一部分,黄开宁老师给大家介绍了WebRTC的发展历程,并从教育、医疗、直播等不同应用场景介绍了WebRTC的接入使用。

第二部分是WebRTC网关架构的设计,作为平台商,他表示需要根据用户实际需求选择合适的网关架构,因为网关的作用是将现有系统和WebRTC进行打通。黄开宁老师还和大家分享了不同的拓扑方案,并详细地介绍了Mesh、SFU、MCU方案的优缺点和即构WebRTC网关架构。在即构的架构中,由于考虑转码和混流对于服务器的要求比较高,所以即构的架构是分布式的,通过架构性调整输出以保证质量。

第三部分是WebRTC网关的实现方式,一般可以选择现有的开源项目、自主研发或者第三方SDK。作为技术主导型的公司,即构的方案是自主研发的,他表示在自研WebRTC网关过程中遇到了不少的困难,首先是WebRTC的连通性,由于WebRTC 的连通性能是有问题的,所以需要自行打通,另外是RTT计算,在传输过程中RTT是重要的指标,即构的方案中是通过ICE协议的标准特点更准确地获取RTT数据,最后是关键帧的请求,由于WebRTC协议特点,需要增加对关键帧的获取。

第四部分是有关Qos策略,其中包括丢包重传和码率控制,具体策略有ARQ、FEC、GCC等。

最后,黄开宁老师总结到,目前在WebRTC标准下,实现程度不一,我们仍需解决的不同平台的兼容性问题,以及不断优化Qos策略。

支持复杂交付的实时互动云课堂

分享嘉宾:董海冰,TutorABC研发总监

与前两位老师演讲的角度不一样,董海冰老师给我们分享的是如何通过自主研发获得实时音视频互动的能力。

首先,他给大家介绍了WebRTC的相关知识,包括WebRTC的架构、浏览器支持的情况、WebRTC协议栈和连通性等,在连通性的介绍中着重分享了SDP协议、SFU、MCU的优缺点,另外还介绍了几个WebRTC的开源项目。

接着,他分享了TutorMeet+的概况,这个项目是使用Go语言进行开发,目前已经是2.0版本,底层的路由器也是自主研发的。在自主研发的过程中面临了不少的挑战:

一是前端布局、设备获取等交互设计随着业务模块的增多变得复杂,加上前端技术也是蓬勃发展,导致版本快速更新迭代;

二是不同网络情况下的控制算法需要灵活选择,因为网络情况是很复杂的,相应的控制算法也不少,重点是如何选择合适的控制算法进行匹配;

三是数据和服务上怎样排查故障,他表示Tutor是采取半自动化系统进行检测,绝大部分故障能够通过AI方式判断然后做相应的处理,其他故障则由人工分析解决;

四是灰度和分区策略,他表示为了避免出现故障,在区域内先进行测试,没问题才进行区域扩张。

最后,董海冰老师表示,未来,在在线教育领域,像互动编程交互、电子笔支持、AI技术、AR/VR技术和IoT产品等都是值得期待的。

Intel CS for WebRTC媒体服务器架构设计与实践
在这里插入图片描述
分享嘉宾:戴建辉,英特尔多媒体架构师

戴建辉老师从产品的角度给大家介绍的是基于WebRTC的通讯架构套件——英特尔CS,但是在原有的基础上,加入了其他转码服务、AI服务和流媒体服务,所以说这已经不仅是局限于WebRTC的产品。

英特尔CS主要包含三大模块的内容:客户端、服务端和云上的分布式部署。客户端通过SDK接入,支持多终端平台;服务端主要基于底层硬件加速服务对视频处理、编解码、图像增强等进行加速;云上的英特尔CS分布式架构支持多种WebRTC部署方式。

服务端中对音视频主要有四种处理方式:转发、转码、混流和视频分析。在视频分析中,主要根据在客户端接到的视频流分发到不同设备而选择不同的方式,其中有直接转发、经过转码后再转发,或者是经过混流后转发。

在传统的视频会议中,英特尔CS的混流支持多种定制化模式,可以根据设备能力选择合适的视频帧率,接入媒体服务端后还可以进行视频分析。他表示,目前英特尔CS支持软硬件加速。转码相对比较简单,都是基于英特尔的Media SDK 进行硬件加速。

在新加入的视频分析功能中,通过识别的人像推导边界信息,加上试点通知,可以推测出当前画面的人数,这个是通过openVINO对于神经网络进行加速得到。目前,英特尔CS的加速主要通过DNN对CPU进行加速和通过实现架构对CPU进行加速。

最后,戴建辉老师表示,目前英特尔CS的媒体处理部分是开源的,WebRTC产品也是逐渐实现开源,欢迎大家下载试用。

4K实践及下一代视频技术探讨

分享嘉宾:王琦,咪咕视讯技术总监

王琦老师给我们带来的是《4K实践及下一代视频技术探讨》的主题演讲,首先他给我们介绍了今年世界杯直播中,中国移动咪咕熟悉使用了4K技术进行直播,将传统直播中的25帧提升到50帧,加上多视角多机位,给大家带来了全新的直播新体验。

他表示,目前4K技术依然是通信领域关注的热点所在,随着4K技术的逐渐普及,中国也有了第一个4K频道,而未来视频产业在4K技术方面,对于分辨率、交互性、多终端的提高也是有所要求,他也期待在VR、医疗诊断、教育培训等多种应用场景中能更好地融入4K技术。

接下来,王琦老师给我们从分辨率、动态范围、色度、帧率和色深5个方面简单地介绍了HDR的相关知识,另外还介绍了目前移动网络的现状。随着5G网络的提出,其突出的下载速度、连接密度和时延数据,吸引了不少关注,目前各大运营商也在积极地准备,预计2020年能够投入使用。在5G网络新场景下,随着组网架构和业务要求的变化,在基础资源、架构、带宽、时延、同步等需求会有所不同,相关标准也需要进行重构。

他表示,在超高清技术和网络状况良好发展的大环境下,对于视频转码也提出了新的要求。目前使用的HEVC和H.265在标准专利收费上尚不明确,而随着5G网络的发展,大家可以关注我们国家自己定制的AVS标准。从数据上看,AVS标准的编码效率和质量等都是优于HAVC的,而AVS2也逐渐被国际组织所接受,大家也可以持续关注。
在这里插入图片描述
活动留影

关注“即构科技ZEGO”公众号,回复“zego”即可获取嘉宾演讲PPT。

继深圳、北京、上海举办音视频技术嘉年华,后续我们还将在杭州、广州等地举办。想参加的朋友,可随时关注搜狐号发出的活动消息哦。

这篇关于5位音视频技术专家热议WebRTC、Qos、AI、4K的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/511469

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti