本文主要是介绍5.音视频基础 FLV,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
简说FLV
FLV Header
FLV Body
Tag Header
编辑Tag Data
Audio Data
Video Data
Script Data
简说FLV
FLV格式可以包含音频、视频和文本数据,并且可以在网络上进行流媒体传输。优点是文件大小较小,压缩效率高,并且可以在较低的带宽条件下实现较好的视频品质。
FLV的组成部分大致可以说是数据头与数据组成的,如下面导图
FLV Header
Header 部分记录了FLV的类型、版本、流信息、Header 长度等。一般整个Header占用9个字节,大于9个字节则表示头部信息在这基础之上还存在扩展数据。FLV Header 的信息排布如下所示:
前三个字节是固定,第四个字节为版本,然后就是留信息,长度。
下面就是对Flv视频解析
FLV Body
Body 是由一个个Tag组成的,每个Tag下面有一块4个字节的空间,用来记录这个Tag 的长度。这个后置的PreviousTagSize用于逆向读取处理,表示的是前面的Tag的大小。FLV Body 的信息排布如下:
- PreviousTagSize0 总是为0;
- tag 由tag header、tag body组成;
- 对FLV版本1,tag header固定为11个字节,因此,PreviousTagSize(除第1个)的值为 11 + 前一个tag 的 tag body的大小;
Tag Header
每个Tag 也是由两部分组成的:Tag Header 和 Tag Data。Tag Header 存放了当前Tag的类型,数据长度、时间戳、时间戳扩展、StreamsID等信息,然后再接着数据区Tag Data。Tag的排布如下:第一个tag的Timestamp为0
Tag Data
分成 Audio,Video,Script 三种。
Audio Data
音频的Tag Data又分为 AudioTagHeader (1个字节)和 Data 数据区,其排布结构如下图所示:
字段类型 | 字段含义 | |
---|---|---|
SoundFormat | UB[4] | 音频格式,重点关注 **10 = AAC ** 0 = Linear PCM, platform endian 1 = ADPCM 2 = MP3 3 = Linear PCM, little endian 4 = Nellymoser 16-kHz mono 5 = Nellymoser 8-kHz mono 6 = Nellymoser 7 = G.711 A-law logarithmic PCM 8 = G.711 mu-law logarithmic PCM 9 = reserved 10 = AAC 11 = Speex 14 = MP3 8-Khz 15 = Device-specific sound |
SoundRate | UB[2] | 采样率,对AAC来说,永远等于3 0 = 5.5-kHz 1 = 11-kHz 2 = 22-kHz 3 = 44-kHz |
SoundSize | UB[1] | 采样精度,对于压缩过的音频,永远是16位 0 = snd8Bit 1 = snd16Bit |
SoundType | UB[1] | 声道类型,对Nellymoser来说,永远是单声道;对AAC来说,永远是双声道; 0 = sndMono 单声道 1 = sndStereo 双声道 |
SoundData | UI8[size of sound data] | 如果是AAC,则为 AACAUDIODATA; 其他请参考规范; |
当 SoundFormat 为10时,表示音频采AAC进行编码,此时,SoundData的定义如下:
字段 | 字段类型 | 字段含义 |
---|---|---|
AACPacketType | UI8 | 0: AAC sequence header 1: AAC raw |
Data | UI8[n] | 如果AACPacketType为0,则为AudioSpecificConfig 如果AACPacketType为1,则为AAC帧数据 |
Video Data
Video Tag 由一个字节的VideoTagHeader 和 Video数据区部分组成
字段 | 字段类型 | 字段含义 |
---|---|---|
FrameType | UB[4] | 重点关注1、2: 1: keyframe (for AVC, a seekable frame) —— 即H.264的IDR帧; 2: inter frame (for AVC, a non- seekable frame) —— H.264的普通I帧; 3: disposable inter frame (H.263 only) 4: generated keyframe (reserved for server use only) 5: video info/command frame |
CodecID | UB[4] | 编解码器,主要关注 7(AVC) 1: JPEG (currently unused) 2: Sorenson H.263 3: Screen video 4: On2 VP6 5: On2 VP6 with alpha channel 6: Screen video version 2 7: AVC |
VideoData | 取决于CodecID | 实际的媒体类型,主要关注 7:AVCVIDEOPACKE 2: H263VIDEOPACKET 3: SCREENVIDEOPACKET 4: VP6FLVVIDEOPACKET 5: VP6FLVALPHAVIDEOPACKET 6: SCREENV2VIDEOPACKET 7: AVCVIDEOPACKE |
AVCVIDEOPACKE
当 CodecID 为 7 时,VideoData 为 AVCVIDEOPACKE,也即 H.264媒体数据。
AVCVIDEOPACKE 的定义如下:
字段 | 字段类型 | 字段含义 |
---|---|---|
AVCPacketType | UI8 | 0: AVC sequence header 1: AVC NALU 2: AVC end of sequence |
CompositionTime | SI24 | 如果AVCPacketType=1,则为时间cts偏移量;否则,为0 |
Data | UI8[n] | 1、如果如果AVCPacketType=1,则为AVCDecoderConfigurationRecord 2、如果AVCPacketType=1=2,则为NALU(一个或多个) 3、如果AVCPacketType=2,则为空 |
这里有几点稍微解释下:
- NALU:H.264中,将数据按照特定规则格式化后得到的抽象逻辑单元,称为NALU。这里的数据既包括了编码后的视频数据,也包括视频解码需要用到的参数集(PPS、SPS)。
- AVCDecoderConfigurationRecord:H.264 视频解码所需要的参数集(SPS、PPS)
- CTS:当B帧的存在时,视频解码呈现过程中,dts、pts可能不同,cts的计算公式为 pts - dts/90,单位为毫秒;如果B帧不存在,则cts固定为0;
PPS、SPS这里先不展开。
Script Data
是 flv 的第一个 Tag,跟在 flv header 后,用于存放 flv 视频和音频的元信息,比如 duration、audiodatarate、creator、width 等。一般来说,Script Tag Data结构包含两个 AMF 包(AMF(Action Message Format)是 Adobe 设计的一种通用数据封装格式,第一个AMF包封装字符串类型数据,第二个AMF包封装一个数组类型。在 Adobe 的很多产品中应用,简单来说,AMF 将不同类型的数据用统一的格式来描述)。
通常用来存放跟FLV中音视频相关的元数据信息
上图为第一个AMF包
- type=
0x02
对应String - size=
0A
=10 -
value=onMetaData 正好是10个字节
上图为第二个AMF
- type=
0x08
对应ECMA array type。
表示数组,类似Map。后面4个字节为数组的个数。然后是键值对,第一个为键,2个字节为长度。后面跟具体的内容。接着1个字节表示值的类型,然后根据类型判断长度。
上图我们可以判断,总共有13个键值对。
- 第一个长度为8个字节是duration。值类型是
0x004073
,第一个字节是00,所以是double,8个字节4073A7851EB851EC
,通过计算Double.longBitsToDouble(0x4073A7851EB851ECL)
得到314.47与视频信息里一致 00:05:14.47。 - 第二个长度5个字节是width。值也是double类型,8个字节。
依次解析下去...
这篇关于5.音视频基础 FLV的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!