记一次因为丢帧导致视频播放花屏问题的排查

2024-02-20 14:38

本文主要是介绍记一次因为丢帧导致视频播放花屏问题的排查,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

记一次因为丢帧导致视频播放花屏问题的排查
问题背景:
最近开发了一个HLS服务,主要是满足用户在浏览器上播放直播和点播视频的需求,特别像小程序或者微信这种,只有有链接就能查看视频,也不用装APP,还是方便不少。在开发过程中排查了一次花屏问题,感觉比较典型,分享下排查思路,其实这种问题排查思路在前文讲过,这篇就是对这篇文章中提出思路的实践。
问题现象:
HLS服务上线后,用VLC或者浏览器播放视频时,总是在首屏出现局部花屏或者马赛克现象,虽然后面偶尔也会出现一下,但是概率远远没有首屏这么高。首屏出现不仅仅影响了首屏速度,影响体验也不好,用户刚打开链接就看到花屏,也有点说不过去。
当时时间比较紧张,就是将一个切片丢掉,然后从第二个开始播放。虽然花屏绿屏问题消失了,但是首屏速度影响非常大,所以还是要彻底解决,不能使用这个临时规避方案。
分析思路:
为了让大家看清排查过程,画个简单示意图,说明下码流的传输过程:
注:
=1. 设备侧主要是就是推流端,各种摄像头IPC、国标平台、NVR等能产生码流的软硬件设备和服务器,码流格式的RTP+PS+H.264俗称国标流;
2. 公有云就是开发平台上的各种流媒体服务器,其中GB接入服务器通过标准协议对接软硬件设备,将国标流转成我们公司私有流,流媒体服务器做私有流分发,HLS服务支持客户端浏览器HLS协议拉流,同时将私有Raw流转成TS流;
3. 用户侧凡是支持HLS协议的浏览器或者小程序都可以使用正确的URL来进行拉流观看视频。
既然码流在用户侧的浏览器播放存在花屏问题,那么通过上面示意图我们将设备上来的码流各个传输阶段写成码流文件进行分析,如果在哪一步出现问题,则将问题定位在具体的码流处理模块中,再结合代码分析出码流到底在哪一步出现了问题。
排查步骤:
下面我在各个模块增加了写文件调试功能,将码流每个过程中生成的文件写下来,用分析工具进行播放和分析。我们摄像机设备端配置的帧率是25,I帧间隔是50,那就意味着2s一个GOP。实际TS切片时,也是以GOP为单元进行切片,一个TS文件大小在两个GOP左右,既然首屏的第一个TS文件出现大概率花屏问题,那就先分析前两个GOP的帧情况:
步骤1:
既然HLS服务返回给客户端播放的视频出现了花屏和绿屏,那先分析生成的第一个TS文件码流是否正常:
发现逐帧播放时,从第5帧开始出现花屏,同时发现TS里面的PTS时间从13500增加到36000,实际每个增加正常情况是3600左右,基本初步判断有视频帧丢掉导致,因为P帧的播放可能要参考前面的I帧和P帧,假设参考帧丢掉,后面P帧播放就会出现花屏,同时再用StreamEye工具分析这个TS的确如此:
工具分析发现每个GOP里面只有43帧,和设备端配置的50帧一个GOP缺少7帧,下面就继续在分析GOP里面为50时出现在那个模块,这样将问题缩小化;
步骤2:
PS流是国标接入服务器收到码流后,除去RTP头后些下来的文件,用专业软件逐帧播放和Elecard StreamEye分析:
通过分析发现前两个GOP文件播放都是正常的,那说明设备送上来的国标流是没有啥大问题的
步骤3:
PS流后面就是国标接入服务器转化成我们内部的私有流,分析同样也是正常的,因为这块已经把H264文件提取出来了,分析后发现都是可以正常播放的。
步骤4:
既然国标接入服务器收流和转封装私有流都正常,但是HLS拉流切片出来的第一个TS切片缺少了几帧,那么问题肯定出现在国标接入服务器以上到HLSTS拉流服务器之间。
步骤5:
通过流媒体分发服务器同学定位,说自己收到国标接入服务器的第一个GOP就是43帧,而且几乎必现,后面通过回溯国标接入网关向流媒体分发服务器推流这块的代码发现内部在推流过程中做了是否有音频的判断,其中这块判断逻辑影响了前几帧视频的发送,最终调整这块处理逻辑问题得到解决。
结论:
这种因为网络或者音视频数据本身导致的花屏、绿屏问题,排查起来基本思路就是分阶段排查,摸清码流的传输路径,在关键地方写文件或者打日志,通过专业音视频分析工具,把问题定位到模块内部或者模块之间的边界上。模块内部一般分析代码对码流的具体处理,模块之间通过抓包把问题因为传输导致的原因排除掉,通过以上定位问题思路就能分析出视频播放的各种疑难杂症。

这篇关于记一次因为丢帧导致视频播放花屏问题的排查的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/728547

相关文章

解决systemctl reload nginx重启Nginx服务报错:Job for nginx.service invalid问题

《解决systemctlreloadnginx重启Nginx服务报错:Jobfornginx.serviceinvalid问题》文章描述了通过`systemctlstatusnginx.se... 目录systemctl reload nginx重启Nginx服务报错:Job for nginx.javas

Redis缓存问题与缓存更新机制详解

《Redis缓存问题与缓存更新机制详解》本文主要介绍了缓存问题及其解决方案,包括缓存穿透、缓存击穿、缓存雪崩等问题的成因以及相应的预防和解决方法,同时,还详细探讨了缓存更新机制,包括不同情况下的缓存更... 目录一、缓存问题1.1 缓存穿透1.1.1 问题来源1.1.2 解决方案1.2 缓存击穿1.2.1

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言

解决Cron定时任务中Pytest脚本无法发送邮件的问题

《解决Cron定时任务中Pytest脚本无法发送邮件的问题》文章探讨解决在Cron定时任务中运行Pytest脚本时邮件发送失败的问题,先优化环境变量,再检查Pytest邮件配置,接着配置文件确保SMT... 目录引言1. 环境变量优化:确保Cron任务可以正确执行解决方案:1.1. 创建一个脚本1.2. 修

Python 标准库time时间的访问和转换问题小结

《Python标准库time时间的访问和转换问题小结》time模块为Python提供了处理时间和日期的多种功能,适用于多种与时间相关的场景,包括获取当前时间、格式化时间、暂停程序执行、计算程序运行时... 目录模块介绍使用场景主要类主要函数 - time()- sleep()- localtime()- g

SpringBoot项目删除Bean或者不加载Bean的问题解决

《SpringBoot项目删除Bean或者不加载Bean的问题解决》文章介绍了在SpringBoot项目中如何使用@ComponentScan注解和自定义过滤器实现不加载某些Bean的方法,本文通过实... 使用@ComponentScan注解中的@ComponentScan.Filter标记不加载。@C

VMWare报错“指定的文件不是虚拟磁盘“或“The file specified is not a virtual disk”问题

《VMWare报错“指定的文件不是虚拟磁盘“或“Thefilespecifiedisnotavirtualdisk”问题》文章描述了如何修复VMware虚拟机中出现的“指定的文件不是虚拟... 目录VMWare报错“指定的文件不是虚拟磁盘“或“The file specified is not a virt

Mybatis提示Tag name expected的问题及解决

《Mybatis提示Tagnameexpected的问题及解决》MyBatis是一个开源的Java持久层框架,用于将Java对象与数据库表进行映射,它提供了一种简单、灵活的方式来访问数据库,同时也... 目录概念说明MyBATis特点发现问题解决问题第一种方式第二种方式问题总结概念说明MyBatis(原名

Redis连接失败:客户端IP不在白名单中的问题分析与解决方案

《Redis连接失败:客户端IP不在白名单中的问题分析与解决方案》在现代分布式系统中,Redis作为一种高性能的内存数据库,被广泛应用于缓存、消息队列、会话存储等场景,然而,在实际使用过程中,我们可能... 目录一、问题背景二、错误分析1. 错误信息解读2. 根本原因三、解决方案1. 将客户端IP添加到Re