Apple HEVC Stereo Video

2024-06-05 05:12
文章标签 apple video stereo hevc

本文主要是介绍Apple HEVC Stereo Video,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 前言

为左眼和右眼携带立体视频视图的能力产生了更丰富的用户体验。 立体视频(有时称为“3D 视频”)向用户的左眼呈现一个图像,向用户的右眼呈现另一幅图像(通常是相关的)以产生立体效果,定义为:大脑接收双眼视觉刺激而产生的深度知觉; 双眼视觉。

如下图,左眼一幅图,右眼一幅图,同时播放在加上apple眼镜的渲染,就形成3D效果。

Apple的立体视频也是以上的模式,这里介绍Apple定义的HEVC在mp4中的3D视觉如何构造格式box和其特点。

主视觉可以是左眼,也可以是右眼。下面为了方便叙述,左眼为主视觉,右眼为子视觉。

1.1 Apple HEVC Nalu

HEVC NALU头:

+---------------+---------------+
|0|1|2|3|4|5|6|7|0|1|2|3|4|5|6|7|
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|F|     Type   | LayerId  | TID |
+---------------+---------------+

F: forbid,如果使能,该nalu就无效,一般f都为0;

type: nalu类型

layerId: 空间层,常规都是0,但是在apple hevc stereo中,主视觉layerId=0, 子视觉layerId=1

tid: 时间层

两个连续nalu的例子:

video data dts:50, pts:133, len: 2280, hevc header:{"forbid":0,"nalu_type":1,"layer_id":0,"tid":1}
video data dts:50, pts:133, len: 1981, hevc header:{"forbid":0,"nalu_type":1,"layer_id":1,"tid":1}

如上:
主视觉,dts=50,layer_id=0
子视觉,dts=50,layer_id=1
两个nalu的dts和pts一样,通过layer_id的不一样,来标识主视觉和子视觉。

注意: 通过layer_id的不同来标识主视觉和子视觉,这样能实现播放器的前后兼容。

新播放器(支持apple hevc stereo, vision pro),能通过layerId=0和1,来识别主视觉和子视觉;

旧播放器(不支持apple hevc stereo),只能识别layerId=0,只能识别主视觉,也就是当作普通的视频来播放,从而实现前后兼容。

2. mp4中的hevc stereo

2.1 stsd box中的hvc1

stsd box主要用于存放音频/视频的sequenc header信息,如果是H264编码,其中就是存放的avc1格式的sps+pps;如果是H265编码,这里就是存放的是hvc1,其包含vps+sps+pps;

如上stsd box中,包含hvc1 box,hvc1 box自身的关键信息有:

//字段顺序如下,字段大小也如下
typedef struct
{uint32_t reserved1_ = 0;uint16_t reserved2_ = 0;uint16_t data_reference_index_ = 0;uint16_t codec_stream_version_ = 0;//Reserveduint16_t codec_stream_reversion_ = 0;//Reserveduint32_t reserved3_[3];uint16_t width_ = 0;uint16_t height_ = 0;uint32_t horizontal_resolution_ = 0;uint32_t vertical_resolution_ = 0;uint32_t data_size_ = 0;//Reserveduint16_t frame_count_ = 0;//frame cout == 1char compressorname_[32];//0 for defaultuint16_t alpha_ = 0x18;uint16_t reserved4_ = 0xffff;
} HVC1_INFO;

hvc1 box中包含的子box比较多,其中比较中要的有:

  • hvcC box:主视觉的vps+sps+pps,比如:左眼视觉
  • lhvC box(新增): 子视觉的sps+pps,比如:右眼视觉
  • vexu box(新增): apple hevc stereo独有的box,后面单独介绍

重要信息:lhvC box和vexu box都是apple新增的box,主要用于hevc stereo(3D视觉),这里支持对旧版本播放器的兼容,因为旧版本播放器(不支持3d)并不认识lhvC和vexu这两个box,所以仅仅只解析hvcC box,也就是主视觉的vps+sps+pps,这样旧的播放器一样能播放该视频文件(当作2d的视频来播放,也就是只播放左眼视觉的图片)

总结: 这种格式是能对2d和3d都兼容播放

  • 新播放器(支持apple hevc stereo, vision pro):同时解析hvcC(左眼)和lhvC(右眼),最后播放的是3D效果;
  • 旧播放器(不支持apple hevc stereo):仅仅解析hvcC,把视频当作是2d普通视频来播放,一样能看。

2.1.1 hvcC box

该box包含的关键信息:

//具体的vps或sps或pps数据信息
typedef struct HEVC_NALU_DATA_S {std::vector<uint8_t>  nalu_data;
} HEVC_NALU_DATA;typedef struct HEVC_NALUnit_S {uint8_t  array_completeness;
// nal type一般为: vps(32), sps(33), pps(34)uint8_t  nal_unit_type; 
//vps或sps或pps的个数uint16_t num_nalus; std::vector<HEVC_NALU_DATA> nal_data_vec;
} HEVC_NALUnit;typedef struct HEVC_DEC_CONF_RECORD_S {uint8_t  configuration_version;uint8_t  general_profile_space;uint8_t  general_tier_flag;uint8_t  general_profile_idc;uint32_t general_profile_compatibility_flags;uint64_t general_constraint_indicator_flags;uint8_t  general_level_idc;uint16_t min_spatial_segmentation_idc;uint8_t  parallelism_type;uint8_t  chroma_format;uint8_t  bitdepth_lumaminus8;uint8_t  bitdepth_chromaminus8;uint16_t avg_framerate;uint8_t  constant_frameRate;uint8_t  num_temporallayers;uint8_t  temporalid_nested;//mdat box中前面多少字节为长度,一般是4字节(lengthsize_minusone+1)uint8_t  lengthsize_minusone;std::vector<HEVC_NALUnit> nalu_vec;
} HEVC_DEC_CONF_RECORD;

为了支持左右立体眼睛视图,SPS和PPS,它们几乎相同,仅在立体眼睛分配和绑定到 nuh_layer_id 值方面有所不同。

两个SPS(主视觉与子视觉):

  • 两个sps的 sps_video_parameter_set_id 均应等于 0。
  • 两个sps应指示两个立体眼睛视图的相同特征,例如width, height, bitDepth, chromaFormat 和 conformanceWindow。 这可以在第二层中通过使用 update_rep_format=1 或通过为相应的 seq_parameter_set_rbsp 字段显式设置相同的值来完成
  • 基础层SPS 可以具有指示video_full_range_flag = 0 或video_full_range_flag = 1 的vui_parameters。两个层应具有相同的标志
  • 两个序列参数集应指示相同的亮度和色度位深度,但可以是 8 位或 10 位

两个PPS(主视觉与子视觉):

  • 一个用于主视觉,nuh_layer_id 等于0,pps_seq_parameter_set_id 等于0,pps_pic_parameter_set_id 等于0。这对应于主眼视觉。
  • 一个用于子视觉,其中 nuh_layer_id 等于副眼 nuh_layer_id,一般为1,并且 pps_seq_parameter_set_id 等于副眼层 SPS ID,并且 pps_pic_parameter_set_id 等于非零数字,此处称为副眼层 PPS ID。
  • 所有参考帧必须与引用它们的图片具有相同的 CTB 大小

VPS(仅仅在hvcC中有,lvcC中没有):

主要用传输视频分级信息,有利于兼容可分级视频以及3D视频,如视频包含最大的层级,也可包含profile,level等信息。一个给定的视频序列,无论它的SPS是否相同,都参考相同的VPS.

一个视频参数集 (VPS),nuh_layer_id 等于 0,vps_video_parameter_set_id 等于 0,并且包含 vps_extension.

  • vps_max_layers_minus1 应至少为 1,表示两层,一层用于左眼,一层用于右眼。 仅支持纹理层。
  • 基础层应出现在 MV-HEVC 比特流中,VPS 中的 vps_base_layer_internal_flag 和 vps_base_layer_available_flag 应具有值 1。
  • vps_extension具有左眼和右眼的viewID,指示出layer_id_in_nuh[]、scalability_mask_flag[]、dimension_id [][]、view_id_val[]和direct_dependency_flag[][]语法元素的值,以将纹理层与左眼和右眼相关联,并映射到在 三维_reference_displays_info SEI 消息。 有关如何根据 nuh_layer_ids 建立 left_view_id[0] 和 right_view_id[0] 的描述,具体在后面的附录中给出。

2.1.2 lhvC box

lhvC中

SPS: 

  • nuh_layer_id 应等于副眼 nuh_layer_id(一般为1),并且 sps_seq_parameter_set_id 等于非零数字,此处称为副眼 SPS ID(一般为1)
  • 推荐SPSID为1标识右眼
  • 接受副眼层 SPS ID 的非零值,并识别副眼 PPS 的 pps_seq_parameter_set_id 字段中的值

PPS:

  • nuh_layer_id 应等于子视觉 nuh_layer_id(一般为1),并且pps_seq_parameter_set_id 等于子视觉SPS ID,并且 pps_pic_parameter_set_id 等于非零数字,此处称为子视觉PPS ID;
  • 推荐子视觉PPS ID为1;
  • 接受副眼 PPS ID 的非零值,并在视频切片 slice_pic_parameter_set_id 字段中识别视频帧的副眼部分中的值

2.1.3 小结

如上,

主视觉,nah_layer_id = 0; 子视觉nah_layer_id = 1;

hvcC box中含vps, sps, pps, 和3d sei。

其中VPS中vps_video_para_set_id = 0; SPS中sps_seq_para_set_id = 0; PPS中pps_pic_param_set_id = 0;

lhvC(子视觉), SPS中sps_seq_para_set_id = 1; PPS中pps_pic_param_set_id = 1;

在mdat box中的具体数据,

主视觉帧: dts:50, pts:133, len: 2280, hevc header:{"forbid":0,"nalu_type":1,"layer_id":0,"tid":1}
子视觉帧: dts:50, pts:133, len: 1981, hevc header:{"forbid":0,"nalu_type":1,"layer_id":1,"tid":1}

也就是通过nalu header中的layer_id的不同来标识该帧是主视觉,还是子视觉;

2.2 Video Extended Usage (‘vexu’) box

vexu box仅仅在stereo的3d播放时有用,其余的时候可以忽略。

vexu box内部包含的子box:

2.2.1 must box

aligned(8) class RequiredBoxTypesBox extends FullBox(‘must’, 0, 0 ) {unsigned int(32) required_box_types[];
}

这个box不是必须的;

2.2.2 stri box

必须有。

aligned(8) class StereoViewInformationBox extends FullBox(‘stri’, 0, 0) {unsigned int(4) reserved;       // reserved, set to 0unsigned int(1) eye_views_reversed;unsigned int(1) has_additional_views;unsigned int(1) has_right_eye_view;//video contains a right-eye viewunsigned int(1) has_left_eye_view;//video contains a left-eye view
}

has_left_eye_view:表示立体左眼出现在视频帧中 has_right_eye_view:表示立体右眼出现在视频帧中
has_additional_views:表示除了立体左眼和立体右眼之外,可能还存在一个或多个其他视图(例如,“中心线”视图)
eye_views_reversed:表示立体左眼和立体右眼的顺序与默认的左眼第一右眼第二顺序相反

2.2.3 hero box

这个box不是必须

aligned(8) class HeroStereoEyeDescriptionBox extends FullBox(‘hero’, 0, 0)
{unsigned int(8) hero_eye_indicator; // 0 = none, 1 = left, 2 = right, >=
3 reserved
}

hero_eye_indicator:用于 HeroStereoEyeDescriptionBox,用于指示指定了哪个英雄眼(如果有)。

这篇关于Apple HEVC Stereo Video的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1032163

相关文章

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作 摘要 由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以

Segmentation简记-Multi-stream CNN based Video Semantic Segmentation for Automated Driving

创新点 1.RFCN & MSFCN 总结 网络结构如图所示。输入视频得到图像分割结果。 简单粗暴

Attribute Recognition简记1-Video-Based Pedestrian Attribute Recognition

创新点 1.行人属性库 2.行人属性识别的RNN框架及其池化策略 总结 先看看行人属性识别RNN结构: backbone是ResNet50,输出是每一帧的空间特征。这组特征被送到两个分支,分别是空间池化和时间建模。最后两种特征拼接。然后分类(FC)。 LSTM关注帧间变化。受cvpr《Recurrent Convolutional Network for Video-Based Person

php 苹果登录 Sign In with Apple 服务端处理

苹果登录会验证用户:identityToken 的合法性,验证方法是JWT验证。   完整的验证identityToken的代码可参考:https://github.com/GriffinLedingham/php-apple-signin  use AppleSignIn\ASDecoder; $identityToken = Request::instance()->param('id

Apple 重發iOS 17.6.1 修正版

蘋果又再次替 iPhone 和 iPad 用戶釋出 iOS 17.6.1更新(21G101),這次更新與8日所推出的 iOS 17.6.1 正式版相同,官方在更新說明內也沒有提到任何修改,依舊是維持修正進階資料保護的問題 iOS 17.6.1 更新修正版內容重點整理 1. 系統內部版本號不同 最早 iOS 17.6.1 正式版是在8月8日當天推出,最初內部版本號為 21G93 ,如今蘋果又再

apple watch

1:  需要蓝牙连接到iPhone才可以打电话 不然他就是一个表(网络  手机)    是全新的不到2000  全新5s也就3000多点 2:  现在最新的是 IOS8, 但视频时IOS5.0的,(移动设备)  MAc是。。。 清明节: 1:  请我吃套餐, people’s squire 2: 为啥你不知道:买个菠萝, 梁伟   法国人送2个苹果   教师