|
网站内容均来自网络,本站只提供信息平台,如有侵权请联系删除,谢谢!
https://www.cnblogs.com/shakin/p/4831986.html
1. 常用的基本知识
基本概念
编解码
编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者 程序。这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流 中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。
容器
很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视 频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通 常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。
FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来 编码的。因此wav、avi大量存在等于“IDP3”的FourCC。
视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面 包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。
参数介绍
采样率
采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称“位速率”)相混淆。
采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特 频率必须大于被采样信号的带宽。如果信号的带宽是 100Hz,那么为了避免混叠现象采样频率必须大于 200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。
对于语音采样:
- 8,000 Hz - 电话所用采样率, 对于人的说话已经足够
- 11,025 Hz
- 22,050 Hz - 无线电广播所用采样率
- 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
- 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率
- 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率
- 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
- 50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率
- 50,400 Hz - 三菱 X-80 数字录音机所用所用采样率
- 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、Blu-ray Disc(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率
- 2.8224 MHz - SACD、 索尼 和 飞利浦 联合开发的称为 Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。
在模拟视频中,采样率定义为帧频和场频,而不是概念上的像素时钟。图像采样频率是传感器积分周期的循环速度。由于积分周期远远小于重复所需时间,采样频率可能与采样时间的倒数不同。
- 50 Hz - PAL 视频
- 60 / 1.001 Hz - NTSC 视频
当模拟视频转换为数字视频的时候,出现另外一种不同的采样过程,这次是使用像素频率。一些常见的像素采样率有:
- 13.5 MHz - CCIR 601、D1 video
分辨率
分辨率,泛指量测或显示系统对细节的分辨能力。此概念可以用时间、空间等领域的量 测。日常用语中之分辨率多用于图像的清晰度。分辨率越高代表图像品质越好,越能表现出更多的细节。但相对的,因为纪录的信息越多,文件也就会越大。目前个 人电脑里的图像,可以使用图像处理软件,调整图像的大小、编修照片等。例如 photoshop,或是photoimpact等软件。
图像分辨率:
用以描述图像细节分辨能力,同样适用于数字图像、胶卷图像、及其他类型图像。常用' 线每毫米'、 '线每英吋'等来衡量。通常,“分辨率”被表示成每一个方向上的像素数量,比如640x480等。而在某些情况下,它也可以同时表示成“每英吋像素” (pixels per inch,ppi)以及图形的长度和宽度。比如72ppi,和8x6英吋。
视频分辨率:
各种电视规格分辨率比较视频的画面大小称为“分辨率”。数位视频以像素为度量单位,而类 比视频以水平扫瞄线数量为度量单位。标清电视频号分辨率为 720/704/640x480i60(NTSC)或768/720x576i50(PAL/SECAM)。新的高清电视(HDTV)分辨率可达 1920x1080p60,即每条水平扫瞄线有1920个像素,每个画面有1080条扫瞄线,以每秒钟60张画面的速度播放。
画面更新率fps
Frame rate中文常译为“画面更新率”或“帧率”,是指视频格式每秒钟播放的静态画面数量。典型的画面更新率由早期的每秒6或8张(frame per second,简称fps),至现今的每秒120张不等。PAL (欧洲,亚洲,澳洲等地的电视广播格式) 与 SECAM (法国,俄国,部分非洲等地的电视广播格式) 规定其更新率为25fps,而NTSC (美国,加拿大,日本等地的电视广播格式) 则规定其更新率为29.97 fps。电影胶卷则是以稍慢的24fps在拍摄,这使得各国电视广播在播映电影时需要一些复杂的转换手续(参考Telecine转换)。要达成最基本的视 觉暂留效果大约需要10fps的速度。
压缩方法
有损压缩和无损压缩
在视频压缩中有损(Lossy )和无损(Lossless)的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损 压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩 的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压 缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。
- 无损格式,例如WAV,PCM,TTA,FLAC,AU,APE,TAK,WavPack(WV)
- 有损格式,例如MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC
帧内压缩和帧间压缩
帧内(Intraframe)压缩也称为空间压缩(Spatial compression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压缩算法, 由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。
采用帧间(Interframe)压缩是基于许多视频或动画的连续前后两帧具有很大 的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量, 减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。 帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。
对称编码和不对称编码
对称性(symmetric)是压缩编码的一个关键特征。对称意味着压缩和解压缩占 用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般 是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解 压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间要多得多。例如,压缩一段三分 钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。
2. 常用的音视频编解码方式
常见的编解码见下表,在以后会分类论述:
上面的表格,查看某个具体的codec,可以在中文的wiki中查找,但是英文的wiki咨询更为丰富,见下表
Multimediacompression formatsVideo compression ISO/IECMJPEG ·Motion JPEG 2000 · MPEG-1 · MPEG-2 (Part 2) ·MPEG-4 (Part 2/ASP ·Part 10/AVC) · HEVCITU-TH.120 · H.261 · H.262 · H.263 ·H.264 · HEVCOthersAMV ·AVS · Bink ·CineForm · Cinepak · Dirac · DV · Indeo · Microsoft Video 1 · OMS Video · Pixlet ·RealVideo ·RTVideo · SheerVideo · Smacker · Sorenson Video & Sorenson Spark · Theora · VC-1 · VP3 · VP6 · VP7 · VP8 · WMVAudio compression Image compression Media containers
3.Mpeg系列——Mpeg 1和Mpeg 2详解
MPEG 是Moving Picture Experts Group的简称。这个名字本来的含义是指一个研究视频和音频编码标准的小组。现在我们所说的MPEG泛指又该小组制定的一系列视频编码标准。该小组于 1988年组成,至今已经制定了MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7等多个标准,MPEG-21正 在制定中。
MPEG到目前为止已经制定并正在制定以下和视频相关的标准:
- MPEG-1: 第一个官方的视訊音訊压缩标准,随后在Video CD中被采用,其中的音訊压缩的第三级(MPEG-1 Layer 3)简称MP3, 成为比较流行的音訊压缩格式。
- MPEG-2: 广播质量的视訊、音訊和传输协议。被用于無線數位電視-ATSC、DVB以及ISDB、数字卫星电视(例如DirecTV)、 数字有线电视信号,以及DVD视频光盘技术中。
- MPEG-3: 原本目标是为高解析度电视(HDTV)设计,随后發現MPEG-2已足夠HDTV應用,故 MPEG-3的研發便中止。
- MPEG- 4:2003 年发布的视訊压缩标准,主要是扩展MPEG-1、MPEG-2等標準以支援視訊/音訊物件(video/audio "objects")的編碼、3D內容、低位元率編碼(low bitrate encoding)和數位版權管理(Digital Rights Management),其中第10部分由ISO/IEC和ITU-T联合发布,称为H.264/MPEG-4 Part 10。参见H.264。
- MPEG-7:MPEG-7并不是一个视訊压缩标准,它是一个多媒体内容的描述标准。
- MPEG-21:MPEG-21是一个正在制定中的标准,它的目标是为未来多媒体的应用提供一个完整的平台。
媒体codec在于MPEG-1,MPEG-2,MPEG-4,如上图所示。
图中名称解释:在图中DVD地球人都知道,何为DVB?
DVB:数字视频广播(DVB, Digital Video Broadcasting),是由“DVB Project”维护的一系列为国际所承认的数字电视公开标准。DVB系统传输方式有如下几种:
- 卫星电视(DVB-S 及 DVB-S2)
- 有线电视(DVB-C)
- 无线电视(DVB-T)
- 手持地面无线(DVB-H)
这些标准定义了传输系统的物理层与数据链路层。设备通过同步并行接口 (synchronous parallel interface, SPI),同步串行接口(synchronous serial interface, SSI),或异步串行接口(asynchronous serial interface, ASI)与物理层交互。数据以MPEG-2传输流的方式传输,并要求符合更严格的限制(DVB-MPEG)。对移动终端即时压缩传输数据的标准(DVB- H)目前正处于测试之中。
这些传输方式的主要区别在于使用的调制方式,因为不同它们应用的频率带宽的要求不同。利用高频载波的DVB-S使用QPSK调制方式,利用低频载波的DVB-C使用QAM-64 调制方式,而利用VHF 及 UHF载波的DVB-T使用COFDM调制方式。
除音频与视频传输外,DVB也定义了带回传信道(DVB-RC)的数据通信标准(DVB-DATA)。
DVB的codec,视频为:MPEG-2,MPEG-4 AVC;音频为:MP3,AC-3,AAC,HE-AAC。
MPEG-1
MPEG-1作为ISO/IEC11172正式发布。
MPEG-1较早的视频编码,质量比较差,主要用于 CD-ROM 存储视频,国内最为大家熟悉的就 是 VCD(Video CD),他的视频编码就是采用 MPEG-1。它是为CD光盘介质定制的视频和音频压缩格式。一张70分钟的CD光盘传输速率大约在1.4Mbps。而 MPEG-1采用了块方式的运动补偿、离散余弦变换(DCT)、量化等技术,并为1.2Mbps传输速率进行了优化。MPEG-1 随后被Video CD采用作为内核技术。MPEG-1的输出质量大约和传统录像机VCR,信号质量相当,这也许是Video CD在发达国家未获成功的原因。
MPEG-1音频分三层,就是MPEG-1 Layer I, II, III,其中第三层协议也就是MPEG- 1 Layer 3,简称MP3。MP3目前已经成为广泛流传的音频压缩技术。
MPEG-1有下面几个部分:
- 第一部分(Part 1):系统;
- 第二部分(Part 2):视频;
- 第三部分(Part 3):音频;定义level1,level2,level3,并在MPEG-2中定义了扩展。
- 第四部分(Part 4):一次性测试;
- 第五部分(Part 5):参考软件;
MPEG-1的缺点:
- 1个音频压缩系统限于两个通道(立体声)
- 没有为隔行扫描视频提供标准化支持,且压缩率差
- 只有一个标准化的“profile” (约束参数比特流),不适应更高分辨率的视频。MPEG - 1可以支持4k的视频,但难以提供更高分辨率的视频编码并且标识硬件的支持能力。
- 支持只有一个颜色空间,4:2:0。
MPEG-2
MPEG-2内容介绍
MPEG-2作为ISO/IEC 13818正式发布,通常用来为广播信号提供视频和音频编码, 包括卫星电视、有线电视等。MPEG-2经过少量修改后,也成为DVD产品的内核技术。
MPEG-2有11部分,具体如下:
第一部(Part 1):系统-描述视频和音频的同步和多路技术
正式名称是ISO/IEC 13818-1或 ITU-T中的H.222.0
MPEG-2的系统描述部分(第1部分)定义了传输流,它用来一套在非可靠介质上传输数字视频信号和音频信号的机制,主要用在广播电视领域。
定义了两个不同但相关的容器格式,MPEG transport stream和MPEG program stream,也就是图中的TS和PS。MPEG传输流(TS)为携带可损数字视频和音频,媒体流的开始和结束可以不标识出来,就像广播或者磁带,其中的 例子包括ATSC,DVB,SBTVD 和HDV。MPEG-2系统还定义了MPEG节目流(PS),它为以文件为基础的媒体设计一个容器格式,用于硬盘驱动器,光盘和闪存。
MPEG-2 PS(节目流)是为在存储介质保存视频信息而开发的。MPEG-2 TS(传输流)是为在网络传输视频信息而开发的。目前,MPEG-2 TS最广泛地应用是DVB系统。TS流与PS流的区别在于TS流的包结构是固定 度的,而PS流的包结构是可变长度。 PS包与TS包在结构上的这种差异,导致了它们对传输误码具有不同的抵抗能力,因而应用的环境也有所不同。TS码流由于采用了固定长度的包结构,当传输误 码破坏了某一TS包的同步信息时,接收机可在固定的位置检测它 后面包中的同步信息,从而恢复同步,避免了信息丢失。而PS包由于长度是变化的,一旦某一PS包的同步信息丢失,接收机无法确定下一包的同步位置,就会造 成失步,导致严重的信息丢失。因此,在信道环境较为恶劣,传输误码较高时,一般采用TS码流;而在信道环境较好,传输误码较低时,一般采用PS码流由于 TS码流具有较强的抵抗传输误码的能力,因此目前在传输媒体中进行传输的MPEG-2码流 基本上都采用了TS码流的包格。
第二部(Part 2):视频-视频压缩
正式名称是ISO/IEC 13818-2或 ITU-T H.262。
提供隔行扫描和非隔行扫描视频信号的压缩编解码器。
MPEG-2的第二部分即视频部分和MPEG-1类似,但是它提供对隔行扫描视频显 示模式的支持(隔行扫描广泛应用在广播电视领域)。MPEG-2视频并没有对低位速率(小于1Mbps)进行优化,在 3Mbit/s及以上位速率情况下,MPEG-2明显优于MPEG-1。 MPEG-2向后兼容,也即是说,所有符合标准的MPEG-2解码器也能够正常播放MPEG-1视频流。
MPEG-2技术也应用在了HDTV传输系统中。MPEG-2 不光运用于 DVD-Video ,现在大部 分 HDTV(高清电视)也采用 MPEG-2 编码,分辨率达到了 1920x1080。由于 MPEG-2 的普及,本来为 HDTV 准备 的 MPEG-3 最终宣告放弃。
MPEG-2视频通常包含多个GOP(Group Of Pictures),每一个GOP包含多个帧(frame)。帧的帧类(frame type)通常包括I-帧(I-frame)、P-帧(P-frame)和B-帧(B-frame)。其中I-帧采用帧内编码,P-帧采用前向估计,B- 帧采用双向估计。一般来说输入视频格式是25(CCIR标准)或者29.97(FCC)帧/秒。
MPEG-2支持隔行扫描和逐行扫描。在逐行扫描模式下,编码的基本单元是帧。在隔行扫描模式下,基本编码可以是帧,也可以是场(field)。
原始输入图像首先被转换到YCbCr颜色空间。其中Y是亮度,Cb和Cr是两个色度通道。Cb指蓝色色度,Cr指红色色度。对 于每一通道,首先采用块分区,然后形成“宏块”(macroblocks),宏块构成了编码的基本单元。每一个宏块再分区成8x8的小块。色度通道分区成 小块的数目取决于初始参数设置。例如,在常用的4:2:0格式下,每个色度宏块只采样出一个小块,所以三个通道宏块能够分区成的小块数目是4+1+1=6 个。
对于I-帧,整幅图像直接进入编码过程。对于P-帧和B-帧,首先做运动补偿。通常 来说,由于相邻帧之间的相关性很强,宏块可以在前帧和后帧中对应相近的位置找到相似的区域匹配的比较好,这个偏移量作为运动向量被记录下来,运动估计重构 的区域的误差被送到编码器中编码。
对于每一个8×8小块,离散余弦变换把图像从空间域转换到频域。得到的变换系数被量化并重新组织排列顺序,从而增加长零的可能性。之后做游程编码(run-length code)。最后作哈夫曼编码(Huffman Encoding)。
I帧编码是为了减少空间域冗余,P帧和B帧是为了减少时间域冗余。
GOP是由固定模式的一系列I帧、P帧、B帧组成。常用的结构由15个帧组成,具有 以下形式IBBPBBPBBPBBPBB。GOP中各个帧的比例的选取和带宽、图像的质量要求有一定关系。例如因为B帧的压缩时间可能是I帧的三倍,所以 对于计算能力不强的某些实时系统,可能需要减少B帧的比例。
MPEG-2输出的比特流可以是匀速或者变速的。最大比特率,例如在DVD应用上,可达10.4 Mbit/s。如果要使用固定比特率,量化尺度就需要不断的调节以产生匀速的比特流。但是,提高量化尺度可能带来可视的失真效果。比如马赛克现象。
第三部(Part 3):音频-音频压缩
MPEG-2的第三部分定义了音频压缩标准。MPEG-2 BC(Backwards compatible),后向兼容MPEG-1音频。该部分改进了MPEG-1的音频压缩,支持两通道以上的音频,可高达5.1多声道。MPEG-2音频 压缩部分也保持了向后兼容的特点(也称为MPEG - 2 BC),允许的MPEG - 1音频解码器解码两个主立体声组件。还定义音频MPEG-1 Layer I, II ,III额外的比特率和采样频率。
例如mp2,是MPEG-1 Audio level 2,标准有:ISO/IEC 11172-3, ISO/IEC 13818-3。MPEG-1 Layer II 定义在 ISO/IEC 11172-3,也就是MPEG-1的第三部分,在ISO/IEC 13818-3,也就是MPEG-2的第3部分定义扩展。
第四部(Part 4):测试规范
描述测试程序。
第五部(Part 5):仿真软件
描述软件仿真系统。
第六部(Part 6):DSM-CC(Digital Storage Media Command and Control)扩展
描述DSM-CC(数字存储媒体命令及控制)扩展。
第七部(Part 7):Advanced Audio Coding (AAC)
MPEG-2的第七部分定义了不能向后兼容的音频压缩(也成为MPEG-2 NBC)。也成为MPEG-2 NBC(not-backwards compatible MPEG-1 Audio)。该部分提供了更强的音频功能。通常我们所说的MPEG-2 AAC指的就是这一部分。AAC即Advanced Audio Coding。 AAC是比以前的MPEG音频标准的效率,并在某个程度上没有它的前任MPEG-1 Layer3(MP3)复杂,它没有复杂的混合滤波器(hybrid filter bank)。它支持从1到48个通道,采样率从8-96千赫,多渠道,多语种和多节目(multiprogram)能力。AAC也在MPEG-4标准的第 3部分描述。
第八部(Part 8):
已取消。
第九部(Part 9):实时接口扩展
实时接口扩展。
第十部(Part 10):DSM-CC一致性扩展
DSM-CC一致性扩展。
第十一部(Part 11):IP
知识产权管理(IPMP)。XML定义在ISO/IEC 23001-3。MPEG-2内核技术大约涉及640个专利,这些专利主要集中在20间公司和一间大学。
MPEG-2音频
MPEG-2提供新的音频编码方式。在第3部分和第7部分介绍。
第三部分
MPEG-2 BC (backward compatible with MPEG-1 audio formats),使用一半的取样速率处理低位速率的音频,(MPEG-1 Layer 1/2/3 LSF),多通道编码达到5.1个通道。
第七部分
MPEG-2 NBC (Non-Backward Compatible),提供MPEG-2 AAC,且不能向后兼容,多通道编码达到 48个通道。
MPEG-2 profile和level
MPEG-2提供广泛的应用,对于大部分的应用,即不现实的也过于 昂贵,去支持整个标准,通常只支持子集,因此标准定义了profile和level来表示这些子集。profile定义特性相关,例如压缩算法,色度格式 等。level定义性能相关,例如最大比特率,最大帧大小等。一个应用程序应当通过profile和level来表示他的能力。profile和 level的组合构成MPEG-2视频编码标准在某种特定应用下的子集。对某一输入格式的图像,采用特定集合的压缩编码工具,产生规定速率范围内的编码码 流。 例如一台DVD播放机可以说,它支持最多的主要profile和主要level(通常写为MP@ML)。
MPEG-2主要的profile:
名称 | 英文 | 中文 | 图像编码类型 | 色度格式YCbCr | 长宽比 | 伸缩模式 | SP | Simple Profile | 简单类 | I帧、P帧 | 4:2:0 | 4:3或16:9 | | MP | Main Profile | 主类 | I帧、P帧、B帧 | 4:2:0 | 4:3或16:9 | | SNR | SNR Scalable profile | 信噪比分层类 | I帧、P帧、B帧 | 4:2:0 | 4:3或16:9 | 信噪比可伸缩 | Spatial | Spatially scalable profile | 空间可分层类 | I帧、P帧、B帧 | 4:2:0 | 4:3或16:9 | 信噪比或空间可伸缩 | 442P | 4:2:2 Profile | | I帧、P帧、B帧 | 4:2:2 | | | HP | High profile | 高类 | I帧、P帧、B帧 | 4:2:0或4:2:2 | 4:3或16:9 | 信噪比或空间可伸缩 | MPEG-2主要的level:
名称 | 英文 | 帧频 | 最大长×最大宽 | 每秒最大亮度样本(约为高×宽×帧频率) | 最大比特率(Mbit/s) | LL | Low Level | 23.976, 24, 25, 29.97, 30 | 352×288 | 3,041,280 | 4 | ML | Main Level | 23.976, 24, 25, 29.97, 30 | 720×576 | 10,368,000,例外为:HP中4:2:0为14,475,600,4:2:2为11,059,200 | 15 | H-14 | High-1440 level | 23.976, 24, 25, 29.97, 30, 50, 59.94, 60 | 1440×1152 | 47,001,600,例外为:HP中4:2:0为62,668,800 | 60 | HL | High level | 23.976, 24, 25, 29.97, 30, 50, 59.94, 60 | 1920×1152 | 62,668,800,例外为:HP中4:2:0为83,558,400 | 80 | 组合例子
Profile @ LevelResolution (px)Framerate max. (Hz)SamplingBitrate (Mbit/s)Example ApplicationSP@LL176 × 144154:2:00.096Wireless handsetsSP@ML352 × 288154:2:00.384PDAs320 × 24024MP@LL352 × 288304:2:04Set-top boxes (STB)MP@ML720 × 480304:2:015 (DVD: 9.8)DVD, SD-DVB720 × 57625MP@H-141440 × 1080304:2:060 (HDV: 25)HDV1280 × 72030MP@HL1920 × 1080304:2:080ATSC 1080i, 720p60, HD-DVB (HDTV). (Bitrate for terrestrial transmission is limited to 19.39Mbit/s)
1280 × 72060422P@LL 4:2:2 422P@ML720 × 480304:2:250Sony IMX using I-frame only, Broadcast "contribution" video (I&P only)720 × 57625422P@H-141440 × 1080304:2:280Potential future MPEG-2-based HD products from Sony and Panasonic1280 × 72060422P@HL1920 × 1080304:2:2300Potential future MPEG-2-based HD products from Panasonic1280 × 72060MPEG-2在DVD上的应用
DVD中采用了 MPEG-2标准并引入如下技术参数限制:
* 分辨率
o 720 x 480, 704 x 480, 352 x 480, 352 x 240 像素(NTSC制式)
o 720 x 576, 704 x 576, 352 x 576, 352 x 288 像素(PAL制式)
* 纵横比
o 4:3
o 16:9
* 帧率(帧播放速度)
o 59.94 场/秒,23.976帧/秒,29.97帧/秒(NTSC)
o 50 场/秒,25帧/秒(PAL)
* 视频+音频 比特率
o 平均最大缓冲区 9.8 Mbit/s
o 峰值 15 Mbit/s
o 最小值 300 Kbit/s
* YUV 4:2:0
* 字幕支持
* 内嵌字幕支持(NTSC only)
* 音频
o LPCM编码:48kHz或96kHz;16或24-bit;最多可达6声道
o MPEG Layer 2 (MP2):48 kHz,可达5.1声道
o 杜比数字-Dolby Digital(DD,也称为AC-3):48 kHz,32-448 kbit/s,可达5.1声道
o 数字家庭影院系统-Digital Theater Systems (DTS):754 kbit/s或1510 kbit/s
o NTSC制式DVD必须包含至少一道LPCM或Dolby Digital
o PAL制式DVD必须包含至少一道MPEG Layer 2、LPCM或者Dolby Digital
* GOP结构
o 必须为GOP提供串行的头信息
o GOP最大可含帧数目:18 (NTSC) / 15 (PAL)
MPEG-2在DVB上的应用
DVB-MPEG相关技术参数:
* 必须符合以下一种分辨率:
o 720 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 640 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 544 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 480 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 352 × 480 像素,24/1.001,24,30/1.001或30帧/秒
o 352 × 240 像素,24/1.001,24,30/1.001或30帧/秒
o 720 × 576 像素,25帧/秒
o 544 × 576 像素,25帧/秒
o 480 × 576 像素,25帧/秒
o 352 × 576 像素,25帧/秒
o 352 × 288 像素,25帧/秒
MPEG-2和NTSC
必须符合以下一种分辨率:
o 1920 × 1080 像素,最多60帧/秒(1080i)
o 1280 × 720 像素,最多60帧/秒(720p)
o 720 × 576 像素,最多50帧/秒,25帧/秒(576i,576p)
o 720 × 480 像素,最多60帧/秒,30帧/秒(480i,480p)
o 640 × 480 像素,最多60帧/秒
注:1080i按 1920×1088像素编码,但是最后8行在显示时抛弃。
对YCbCr的补充资料
YCbCr不是一种绝对色彩空间,是YUV压缩和偏移的版本。右图为UV色版。
Y(Luma,Luminance)视讯,也就是灰阶值。UV 视作表示彩度的 C(Chrominance或Chroma)。主要的采样(subsample)格式有YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1和 YCbCr 4:4:4。YUV的表示法称为 A:B:C 表示法:
* 4:4:4 表示完全取样。
* 4:2:2 表示 2:1 的水平取样,没有垂直下采样。
* 4:2:0 表示 2:1 的水平取样,2:1 的垂直下采样。
* 4:1:1 表示 4:1 的水平取样,没有垂直下采样。
最常用Y:UV记录的比重通常 1:1 或 2:1,DVD-Video 是以 YUV 4:2:0 的方式记录,也就是我们俗称的I420,YUV4:2:0 并不是说只有U(即 Cb), V(即 Cr)一定为 0,而是指U:V互相援引,时见时隐,也就是说对于每一个行,只有一个U或者V份量,如果一行是4:2:0的话,下一行就是4:0:2,再下一行是 4:2:0...以此类推。
4.Mpeg系列——Mpeg 4
MPEG-4
总体介绍
MPEG-4是一套用于音频、视频信息的压缩编码标准, 由国际标准化组织(ISO) 和国际电工委员会(IEC)下属的“動態影像专家组”(Moving Picture Experts Group,即MPEG) 制定,第一版在1998年10月通過,第二版在1999年12月通過。MPEG-4格式的主要用途在於網上流媒体、光碟、 語音傳送(視訊電話),以及電視廣播。MPEG-4作为ISO/IEC 14496正式发布。ISO/IEC 14496-Coding of audio-visual object (AV对象编码)。
为了应对网络传输等环境,传统的 MPEG-1/2 已经不能适应,所以促使了 MPEG-4 的诞生。与MPEG-1和MPEG-2相比,MPEG-4的特点是其更适于交互AV服务以及远程监控。MPEG-4是第一个使你由被动变为主动(不再只是 观看,允许你加入其中,即有交互性)的动态图像标准,它的另一个特点是其综合性。从根源上说,MPEG-4试图将自然物体与人造物体相溶合 (视觉效果意义上的)。MPEG-4的设计目标还有更广的适应性和更灵活的可扩展性。MPEG-4 采用了一系列新技术,来满足在低带宽下传输较高视频质量的需求。DivX,XviD,MS MPEG4 都是采用的 MPEG-4 视频编码,除了在 DVDRip 上面的应用,3GPP 现在也接纳了 MPEG-4 作为视频编码方案。
最初MPEG-4的主要目的是用于低比特率下的视频通信,但是作为一个多媒体的编码标准,它的范围最后得到了扩展。在技术方面MPEG-4允许不同的软件/硬件开发商创建多媒体对象来提供更好的适应性、灵活性,为数字电视,动态图像,互联网等业务提供更好的质量。
MPEG-4提供范围从每秒几k比特到每秒数十兆比特的,它具有下面功能:
- 改善MPEG-2的编码效率
- MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比,在相同的 比特率下,它基于更高的视觉听觉质量,这就使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多 视角或多声道数据流可以高效、同步地合成为最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等。
- 提供混合媒体数据(视频,音频,语音)的编码能力
- 差错容忍使得内容稳定传输。
- 当在传输有误码或丢包现象时,MPEG4受到的影响很小,并且能迅速恢复。
- 提供受众视听场景的互动能力,MPEG-4终端用户提供不同的对象支持各种互动要求。
- MPEG-4提供了基于内容的多媒体数据访问工具,如索引、超级链接、上传、下 载、删除等。利用这些工具,用户可以方便地从多媒体数据库中有选择地获取自己所需的与对象有关的内容,并提供了内容的操作和位流编辑功能,可应用于交互式 家庭购物,淡入淡出的数字化效果等。MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。
- MPEG-4对传输数据网是透明的,它可以兼容各种网络。
- MPEG-4提供了易出错环境的鲁棒性,来保证其在许多无线和有线网络以及存储介质中的应用,此外,MPEG-4还支持基于内容的的可分级性,即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求,支持具有不同带宽,不同存储容量的传输信道和接收端。
- 这 些特点无疑会加速多媒体应用的发展,从中受益的应用领域有:因特网多媒体应用;广播电视;交互式视频游戏;实时可视通信;交互式存储媒体应用;演播室技术 及电视后期制作;采用面部动画技术的虚拟会议;多媒体邮件;移动通信条件下的多媒体应用;远程视频监控;通过ATM网络等进行的远程数据库业务等。
MPEG-4视频编码核心思想
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是 采用第一代压缩编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像 又分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷:
- 将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应;
- 不能对图像内容进行访问、编辑和回放等操作;
- 未充分利用人类视觉系统(HVS,Human Visual System)的特性。
MPEG-4则代表了基于模型/对象的第二代压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。
AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形 状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些 不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原 始AV对象具有高效编码、高效存储与传输以及可交互操作的特性,它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编 码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。
MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视频对象分割,是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点。
MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。
MPEG-4各部分
MPEG-4由一系列的子标准组成,被称为部,包括以下的部分。对于媒体编解码,重点关注Part2, Part 3, Part 10。
第一部(ISO/IEC 14496-1):系统
描述视訊和音訊的同步以及混合方式(Multiplexing,简写为MUX)。定义了 MP4 容器格式, 支持类似 DVD 菜单这样的直观和互动特性等。
第二部(ISO/IEC 14496-2):视频
定义了一个对各种视觉信息(包括视訊、静止纹理、计算机合成图形等等)的编解码器。 对视訊部分来说,众多”Profiles”中很常用的一种是Advanced Simple Profile (ASP),例如XviD编码就 属于MPEG-4 Part 2。包括 3ivx, DivX4/Project Mayo, DivX 5, Envivio, ffmpeg/ffds, mpegable, Nero Digital, QuickTime, Sorenson, XviD 等常见的视频格式, 需要注意的是 Divx 3.11, MS MPEG-4, RV9/10, VP6, WMV9 并不属于标准的 MPEG-4 标准。
第三部(ISO/IEC 14496-3):音频
定义了一个对各种音訊信号进行编码的编解码器的集合。包括高级音訊编码 (Advanced Audio Coding,缩写为AAC) 的若干变形和其他一些音频/语音编码工具。即 AAC 音频标准, 包括 LC AAC, HE AAC 等, 支持 5.1 声道编码, 可以用更低的码率实现更好的效果 (相对于 MP3, OGG 等) 。
第四部(ISO/IEC 14496-4):一致性
定义了对本标准其他的部分进行一致性测试的程序。
第五部(ISO/IEC 14496-5):参考软件
提供了用于演示功能和说明本标准其他部分功能的软件。
第六部(ISO/IEC 14496-6):多媒体传输集成框架
即DMIF:Delivery Multimedia Integration Framework
第七部(ISO/IEC 14496-7):优化的参考软件
提供了对实现进行优化的例子(这裡的实现指的是第五部分)。
第八部(ISO/IEC 14496-8):在IP网络上传输
定义了在IP网络上传输MPEG-4内容的方式。
第九部(ISO/IEC 14496-9):参考硬件
提供了用于演示怎样在硬件上实现本标准其他部分功能的硬件设计方案。
第十部(ISO/IEC 14496-10):进阶视频编码,也即ITU H.264,常写为H.264/AVC
或称高级视频编码(Advanced Video Coding,缩写为AVC):定义了一个视频编解码器(codec),AVC和XviD都属于MPEG-4编码,但由于AVC属于MPEG-4 Part 10,在技术特性上比属于MPEG-4 Part2的XviD要先进。另外从技术上讲,它和ITU-T H.264标准是一致的,故全称为MPEG-4 AVC/H.264。
第十一部(ISO/IEC 14496-11):场景描述和应用引擎
可用于多种profile(包括2D和3D版本)的互交互媒体。修订了MPEG-4 Part 1:2001以及Part1的两个修订方案。它定义了应用引擎(交付,生命周期,格式,可下载Java字节代码应用程序的行为),二进制场景格式 (BIFS:Binary Format for Scene),可扩展MPEG-4文本格式(一种使用XML描述MPEG-4多媒体内容的文本格式)系统level表述。也就是MPEG-4 Part21中的BIFS,XMT,MPEG-J。
第十二部(ISO/IEC 14496-12):基于ISO的媒体文件格式
定义了一个存储媒体内容的文件格式。
第十三部(ISO/IEC 14496-13):IP
知识产权管理和保护(IPMP for Intellectual Property Management and Protection)拓展。
第十四部(ISO/IEC 14496-14):MPEG-4文件格式
定义了基于第十二部分的用于存储MPEG-4内容的視訊檔案格式。
第十五部(ISO/IEC 14496-15):AVC文件格式
定义了基于第十二部分的用于存储第十部分的视频内容的文件格式。
第十六部(ISO/IEC 14496-16):动画框架扩展
动画框架扩展(AFX : Animation Framework eXtension)。
第十七部(ISO/IEC 14496-17):同步文本字幕格式
尚未完成-2005年1月达成”最终委员会草案”,FCD: Final Committee Draft。
第十八部(ISO/IEC 14496-18):字体压缩和流式传输(针对公开字体格式)。
第十九部(ISO/IEC 14496-19):综合用材质流(Synthesized Texture Stream)。
第二十部(ISO/IEC 14496-20):简单场景表示
LASeR for Lightweight Scene Representation,尚未完成-2005年1月达成”最终委员会草案”,FCD for Final Committee Draft。
第二十一部(ISO/IEC 14496-21):用于描绘(Rendering)的MPEG-J拓展
尚未完成-2005年1月达成“委员会草案”,CD for Committee Draft)。
Profile和Level
MPEG-4提供大量的编码方式和丰富的设置。和 MPEG-2一样,应用一般不可能支持MPEG-4全集,通过profile和level来描述子集。这些子集,通过“profile”来表明解码器要 求,为了避免计算的复杂,每个profile都有一个或者多个“level”。profile和level的有效组合使得编码生成器只需实现标准中所需的 子集,同时保持与其他MPEG-4设备的互通。(解码支持范围通常比编码支持范围大),检查其他MPEG-4设备是否符合标准,即一致性测试。
对于H.264/AVC(也就是MPEG-4 Part 4)提供下面的profile:
Feature support in particular profiles
FeatureCBPBPXPMPHiPHi10PHi422PHi444PPI and P slicesYesYesYesYesYesYesYesYesB slicesNoNoYesYesYesYesYesYesSI and SP slicesNoNoYesNoNoNoNoNoFlexible macroblock ordering (FMO)NoYesYesNoNoNoNoNoArbitrary slice ordering (ASO)NoYesYesNoNoNoNoNoRedundant slices (RS)NoYesYesNoNoNoNoNoData partitioningNoNoYesNoNoNoNoNoInterlaced coding (PicAFF, MBAFF)NoNoYesYesYesYesYesYesMultiple reference framesYesYesYesYesYesYesYesYesIn-loop deblocking filterYesYesYesYesYesYesYesYesCAVLC entropy codingYesYesYesYesYesYesYesYesCABAC entropy codingNoNoNoYesYesYesYesYes8×8 vs. 4×4 transform adaptivityNoNoNoNoYesYesYesYesQuantization scaling matricesNoNoNoNoYesYesYesYesSeparate Cband Cr QP controlNoNoNoNoYesYesYesYesMonochrome (4:0:0)NoNoNoNoYesYesYesYesChroma formats4:2:04:2:04:2:04:2:04:2:04:2:04:2:0/4:2:24:2:0/4:2:2/4:4:4Sample depths (bits)888888 to 108 to 108 to 14Separate color plane codingNoNoNoNoNoNoNoYesPredictive lossless codingNoNoNoNoNoNoNoYes level用来表明一个profile的解码器的性能要求的范围,例如最大图片分配 了,帧频,比特率等等。对于解码器,一个指定的level要求可以对该level以及低于该level的码流进行解码。(A decoder that conforms to a given level is required to be capable of decoding all bitstreams that are encoded for that level and for all lower levels. 来源:http://en.wikipedia.org/wiki/H.264/MPEG-4_AVC)
Levels with maximum property values
LevelMax macroblocksMax video bit rate (VCL)Examples for high resolution @
frame rate
(max stored frames)per secondper frameBP, XP, MP
(kbit/s)HiP
(kbit/s)Hi10P
(kbit/s)Hi422P, Hi444PP
(kbit/s)11,485996480192256128×96@30.9 (8)
176×144@15.0 (4)1b1,48599128160384512128×96@30.9 (8)
176×144@15.0 (4)1.13,000396192240576768176×144@30.3 (9)
320×240@10.0 (3)
352×288@7.5 (2)1.26,0003963844801,1521,536320×240@20.0 (7)
352×288@15.2 (6)1.311,8803967689602,3043,072320×240@36.0 (7)
352×288@30.0 (6)211,8803962,0002,5006,0008,000320×240@36.0 (7)
352×288@30.0 (6)2.119,8007924,0005,00012,00016,000352×480@30.0 (7)
352×576@25.0 (6)2.220,2501,6204,0005,00012,00016,000352×480@30.7(10)
352×576@25.6 (7)
720×480@15.0 (6)
720×576@12.5 (5)340,5001,62010,00012,50030,00040,000352×480@61.4 (12)
352×576@51.1 (10)
720×480@30.0 (6)
720×576@25.0 (5)3.1108,0003,60014,00017,50042,00056,000720×480@80.0 (13)
720×576@66.7 (11)
1280×720@30.0 (5)3.2216,0005,12020,00025,00060,00080,0001,280×720@60.0 (5)
1,280×1,024@42.2 (4)4245,7608,19220,00025,00060,00080,0001,280×720@68.3 (9)
1,920×1,080@30.1 (4)
2,048×1,024@30.0 (4)4.1245,7608,19250,00062,500150,000200,0001,280×720@68.3 (9)
1,920×1,080@30.1 (4)
2,048×1,024@30.0 (4)4.2522,2408,70450,00062,500150,000200,0001,920×1,080@64.0 (4)
2,048×1,080@60.0 (4)5589,82422,080135,000168,750405,000540,0001,920×1,080@72.3 (13)
2,048×1,024@72.0 (13)
2,048×1,080@67.8 (12)
2,560×1,920@30.7 (5)
3,680×1,536@26.7 (5)5.1983,04036,864240,000300,000720,000960,0001,920×1,080@120.5 (16)
4,096×2,048@30.0 (5)
4,096×2,304@26.7 (5)
5.
更新至QuickTime 7
[/td][/tr][tr][td] 释出日期
[/td][td] 版本
[/td][td] 平台
[/td][td] 特色
[/td][/tr][tr][td] 2005 年5月31日
[/td][td] QuickTime 7.0.1
[/td][td] Mac OS X
[/td][td] 修复一个关于Quartz Composer外挂模块 的安全性问题
[/td][/tr][tr][td] 2005 年7月15日
[/td][td] QuickTime 7.0.2
[/td][td] Mac OS X
[/td][td] 修复程序错误与兼容性的增进
[/td][/tr][tr][td] 2005 年9月7日
[/td][td] QuickTime 7.0.2
[/td][td] Windows 2000/XP
[/td][td] 第一个非预览版本释出
[/td][/tr][tr][td] 2005年10月12日
[/td][td] QuickTime 7.0.3
[/td][td] Mac OS X & Windows 2000/XP
[/td][td] 流 与H.264的程序错误修复。
需要通过iTunes Music Store支持视频的购买。
[/td][/tr][tr][td] 2005 年10月29日
[/td][td] QuickTime 7.0.3.50
[/td][td] Windows 2000/XP
[/td][td]
[/td][/tr][tr][td] 2006 年1月10日
[/td][td] QuickTime 7.0.4
[/td][td] Mac OS X & Windows 2000/XP
[/td][td] 第一个通用二进制版本。
众多的程序错误修复与H.264效能的改善。
[/td][/tr][tr][td] 2006 年5月11日
[/td][td] QuickTime 7.1
[/td][td] Mac OS X & Windows 2000/XP
[/td][td] 众多的程序错误修复、对于iLife '06的支持、以及H.264效能的改善
[/td][/tr][tr][td] 2006 年5月31日
[/td][td] QuickTime 7.1.1
[/td][td] Mac OS X
[/td][td]
[/td][/tr][tr][td] 2006 年6月28日
[/td][td] QuickTime 7.1.2
[/td][td] Mac OS X
[/td][td] Addresses an issue previewing iDVD projects.
[/td][/tr][tr][td] 2006 年9月12日
[/td][td] QuickTime 7.1.3
[/td][td] Mac OS X & Windows 2000/XP
[/td][td] 程序错误修复与严重的安全性问题。
[/td][/tr][/table]
现时QuickTime的最新版本是QuickTime 7.6,但Windows 2000可以使用的最高版本却是7.1.6。在7.5.5之前的版本,都存在Cross site scriping的安全性问题。
QuickTime的历史:QuickTime X
QuickTime X(读作Quicktime Ten,当中 的"X"是罗马数字的十)是下一世代的QuickTime,在2008年6 月9日的WWDC上 发表。产品预期会在2009年的年中随同Mac OS X v10.6推出[3]。 Version X会使用与iPhone OS相同的媒体技术,并支持更新的编码及更具效益的媒体播放功能。
Sorenson Video
Sorenson Video 2:
Sorenson Media 公 司开发的编码器,主要用于 QuickTime 4 的视频编码,质量较差。
Sorenson Video 3:
Sorenson Media 公 司随 QuickTime 5 发布的编码器,质量很不错,已经成为 QuickTime 的标准视频编码,网络上大部分电影预告片都采用这种编码。
Apple MPEG-4
Apple 公司自己开发的 MPEG-4 编码器,随 QuickTime 6 发布,质量很差。
Apple H.264
Apple 公司自己开发的 H.264 编码器,随 QuickTime 7 发布,支持 HDTV。
Audio QDesign Music
QDesign Music 1
QDesign 公司开发的音频编码器,这个版本现在已经开不到它的身影了。
QDesign Music 2
QDesign Music 的 第二个版本,也是最后一个版本,在时下这些先进的音频编码面前,它已经没有生命力了,主要应用于网上的电影预告片。
Audio Apple MPEG-4 AAC
Apple 公司自己开发 的 AAC 编码器,质量非常好,是最优秀的 AAC 编码器之一,随 QuickTime 6 发布。
Apple Lossless
Apple 公司开 发的无损音频编码,主要应用于 iTunes 抓取 CD。Apple Lossless(Apple Lossless Audio Codec、ALAC)为苹果的无损音频压缩编码格式。 在 iTunes 上名称为 Apple Lossless。
可将非压缩音频格式(WAV、AIFF)压缩至原先容量的40%至60%左右,编译码速度很快。也因为是无损压缩,听起来与原档案完全一样,不会因解压缩和压缩而改变。
它在2004年4月28日公布的iTunes4.5和QuickTime6.5.1 的其中一部份。目前携带型数字多媒体播放器中只有 iPod 可播放。
虽为非自由软件或开放原始码软件、但 Apple Lossless 的开放原始码译码器已经释出。
10.
<a name="t5"> Ogg系列
Ogg是一个自由且开放标准的容器格式,由Xiph.Org 基金会所维护。Ogg格式并不受到软件专利的限制,并设计用于有效率地串流媒体和处理高质量的数字多媒体。
Ogg意指一种文件格式,可以纳入各式各样自由和开放源代码的编解码器,包含音效、视频、 文字(像字幕)与元数据的处理。
Ogg Theora
Theora是一个免权利金、开放格式的有损影像压缩技术,由Xiph.Org 基金会开发,该基金会还开发了著名的声音编码技术Vorbis, 以及多媒体容器档案Ogg。Theora 是由 On2 Technologies 公司专属的 VP3 编码器经过开放源代码后衍生而来。Theora 的命名来自于一个电视节目Max Headroom。
Theora是一个可 变位速率、以DCT为基础的影像压缩格式。和多 数的影像编码格式一样,Theora 使用了色度抽样、block based motion compensation 和 8×8 DCT block,也支援视 讯压缩图像类型 和 视 讯压缩图像类型,但是不支持使用在 H.264 和 VC-1 的 bi-predictive frames(B-frame),Theora 也不支援 隔 行扫描, variable frame rates, 或 bit-depths larger than 8 bits per component。
Theora 的影像流可以储存在任何的容器档案格式中,最常用的是和声音编码Vorbis一起储存在Ogg档案格式中,这种方式可以提供完全开放、免权利金的多媒体档案。此外Theora影像也可以储存在Matroska档 案中。
Google官方blog称,Web视频目前没有一个标准,有些网站使用Flash,但这要求用户有Flash播放 器;有些使用Java播放器,但为了在JVM虚拟机中解码视频和音频用户需要一个配置很高的机器;等等诸如此类。
好消息是新一代的 HTML 5标准引入了视频元素,Web开发者可以用一种标准的方式指定视频的外观。现在问题变成了使用哪一种视频格式。
Google 认为开放标准格式可以成为目前无序的视频格式之争的底线。最后的权益方案不需要最复杂的格式,或者是最大张旗鼓宣传,几乎已成为行业标准的格式,因此他们决定选择支持使用广泛的开源Ogg Theora格式。
Theora是On2 Technologies 公司的 VP3 编码器的开源衍生版,Google于去年收购了On2公司。
资料来源:http://tech.it168.com/a2010/0412/872/000000872493.shtml
在2002年3月,On2将许可改为下周VP3开源代码为LGPL。在2002年6 月,On2将VP3作为Xiph.Org仅仅和下的一个类似BSD的开源许可。On2还制定了一个不可更改的免版权费的声明,任何人可以用于任何软件,任 何的衍生产品以及任何目的。2002年88月,On2与Xiph.Org签订一项协议,将VP3作为一个新的,免费的视频编解码,成为Theora。 On2宣称Theora是VP3的一个继任者。在2002年10月3日,On2和Xiph宣布Theora最早的Alpha代码释放。
比特流格式在2004年冻结(version 1.0 alpha3),有经过了几年的beta版本,Theora第一稳定版本(v1.0)在2008年11月释放。Theora任何版本的视频编码在格式冻结 后都与未来的播放器兼容。目前的工作集中在“Thusnelda”分支的bug修复,目前为beta版本,将最后作为Theora1.1版本释放。
Theora视频压缩格式基本上与VP3视频压缩格式兼容,包含一个后先兼容的超 集。Theora是VP3和VP3流(有小量语法修订)的超集,VP3流可以不经过重新压缩改为Theora流,但是反过来把成立。VP3视频压缩可以由 Theora来实现解码,但是Theora视频演示通常不能够使用古老的VP3来进行解码。
Theora将视频格式建立在开源的基础上,并作为基百科视频内容选择的编码格式。然而,Theora缺少商业支持,并正努力获取分销商尤其是网络分销商接受。
Mozilla使用这项技术在Firefox上提供HTML5视频。苹果和微软的HTML5视频都准备采用 MPEG LA管理的H.264。该团体的成员包括微软和苹果,及许多科技公司。
这里面的争议关键在于license的问题,H.264是需要给license的。
Mozilla则发出以下声明:“我们相信,HTML5视频在多方、开放和无权利金 的编/解码器,以同于W3C授权标准之方式支持下,才符合公众利益。如 果MPGA LA愿意根据W3C标准定义的开放网络条件提供H.264,我们绝对会考虑采用这项技术。本组织坚持我们对Theora的立场。”
Opera首席技术官Hakon Wium Lie也提供下列声明;“为了开放网络的成长茁壮,所有媒体(包括视频),必须在无需支付编/解码器授权费的前提下使用。真正支持一个开放网络的浏览器制造商,必须努力建造一个无授权费的基本影音编/解码器。”
微软的公司博客写道:“源代码能否取得,与知识产权之间的区别,在于可取用的源代码是极度必要的。目前,H.264的知识产权,可通过MPEG LA管理的一个定义明确的方案取得。其它编/解码器的权利通常较不清楚。”
Ogg Vorbis
Ogg 的音频编码, 质量非常优秀,特别是低码率下,支持多声道。最高码率能够达到 500kbps,是 AAC 的有力竞争者。
「Ogg」这个词汇通常意指Ogg Vorbis此一音频文件格式,也就是将Vorbis编码的音效包含在Ogg的容器中所成的格式。在以往,.ogg此一扩展名曾经被用在任何Ogg支持格 式下的内容,但在2007年,Xiph.Org基金会为了向后兼容的考虑,提出请求,将.ogg只留给Vorbis格式来使用。 Xiph.Org基金会决定创造一些新的扩展名和媒体格式来描述不同类型的内容,像是只包含音效所用的.oga,包含或不含声音的影片(涵盖 Theora)所用的.ogv和程序所用的.ogx。
Vorbis的是一个 开源自由软件 项目负责人是 Xiph.Org 基金会。该项目产生的数位音频格式规范和软件实施(编译码器)为有损音频压缩。 Vorbi是最常用的结合与Ogg容器格式,因此通常被称为 Ogg Vorbis格式.
Vorbis是一个延续的音频压缩的开发始于 1993年 克里斯蒙哥马利.集约发展始于1998年9月后,信弗劳恩霍夫协会 该公司宣布将收取许可费为 MP3音频格式。Vorbis的项目开始作为公司的一部分,Xiph.Org 基金会的Ogg项目(也称为 OggSquish多媒体项目)。克里斯蒙哥马利开始工作的项目,并协助越来越多的其它开发商。他们继续完善 源代码 直到Vorbis的文件格式被冻结 2000年5月为 1.0 和一个稳定的版本(1.0)的参考软件发布于 2002年7月19日。
Ogg Speex
Ogg 的语音编码,专门针对低码率的语音编码。
Ogg FLAC
Ogg 的无损音频编码。
On2 VPX 系列
On2 公司开发了一系列优秀的视频编码,现在应用得最多的恐怕是 Nullsoft Video 的视频,它们就采用了 VP3,VP5,VP6 视频编码。
VP3
已经作为开放源代码公布,现在 是 Ogg Theora 项目,当然,Theora 的质量可比 VP3 好多了。
VP4
On2 公司当年吹牛全球最好的视频编码,后来证明质量很一般。
VP5
至今还很神秘,On2 并没有放出来,只在 Nullsoft Video 里面见到他的身影。
VP6
从一开始,On2 就把这个编码器提供给大家下载,质量还是不错的。不过最近似乎又关闭了,主页上只有一个解码器。On2 TrueMotion VP6是一个专有的有损视频编解码格式和视频编解码器。它是TrueMotion视频编解码的具体体现,是一系列由On2开发的视频编解码,通产个用于 Adobe flash,Flash Video和JavaFX媒体文件。
VP7
On2 最新的编码器,在 VP6 上有不少进步。在2005年1月,On2宣布推出比VP6有更好的压缩比的新的编解码VP7。在2005ian4月,On2公司许可On2视频编码器9包 括VP6和VP7)用于Macromedia Flash。在2005年8月,Macromedia宣布他们选择VP6作为新的Flash Player8的视频回放的旗舰式编解码。
VP8
Google在2009年收购了On2 Technologies,并于2010年5月19日在Google I/O会议上宣布将VP8以BSD许可证的形式开源。。VP8是On2 Technologies继VP3之后宣布开源的第二个编解码器。(Xiph.Org 基金会于2002年接手VP3并将之冠名以Theora,之后以BSD许可证的形式将Theora开源)。要求Google将VP8开源的最大呼声来自于 自由软件基金会。2010年3月12日,自由软件基金会给Google发了一封公开信,请求Google逐渐用开源形式的VP8和HTML 5取代YouTube上的Adobe Flash和H.264。
2010年5月19日,WebM启动。WebM包含了来自于Mozilla、Opera、Google以及其他四十多家出版商和计算机软硬件供应商 (包括AMD、NVIDIA)的贡献,旨在大力倡导在HTML5中使用VP8。Internet Explorer 9在安装了适合的编解码器之后也能支持VP8。
11.
在Flash Player和Flash Video中支持的音视频压缩格式
[/td][/tr][tr][td] Flash Player version
[/td][td] Released
[/td][td] File format
[/td][td] Video compression formats
[/td][td] Audio compression formats
[/td][/tr][tr][td] 6
[/td][td] 2002
[/td][td] SWF
[/td][td] Sorenson Spark, Screen video
[/td][td] MP3, ADPCM, Nellymoser
[/td][/tr][tr][td] 7
[/td][td] 2003
[/td][td] SWF, FLV
[/td][td] Sorenson Spark, Screen video
[/td][td] MP3, ADPCM, Nellymoser
[/td][/tr][tr][td] 8
[/td][td] 2005
[/td][td] SWF, FLV
[/td][td] On2 VP6, Sorenson Spark, Screen video, Screen video 2
[/td][td] MP3, ADPCM, Nellymoser
[/td][/tr][tr][td] 9.0.115.0
[/td][td] 2007
[/td][td] SWF, FLV
[/td][td] On2 VP6, Sorenson Spark, Screen video, Screen video 2, H.264
[/td][td] MP3, ADPCM, Nellymoser, AAC
[/td][/tr][tr][td] [/td][td] [/td][td] SWF, F4V, ISO base media file format
[/td][td] H.264
[/td][td] AAC, MP3
[/td][/tr][tr][td] 10
[/td][td] 2008
[/td][td] SWF, FLV
[/td][td] On2 VP6, Sorenson Spark, Screen video, Screen video 2, H.264
[/td][td] MP3, ADPCM, Nellymoser, Speex, AAC
[/td][/tr][tr][td] [/td][td] [/td][td] SWF, F4V, ISO base media file format
[/td][td] H.264
[/td][td] AAC, MP3
[/td][/tr][/table]
在FLV文件格式中使用H.264和AAC压缩有一些限制,Flash Player的作者强烈推荐大家使用新的F4V文件格式。
Flash传递的几种方式
一、作为一个标准的flv文件。
二、嵌入SWF文件,使用Flash认证工具(在Flash Player 6及以后的版本支持)。
三、通过HTTP的渐进流下载(progressive download)。这种方式使用ActionScript,包括客户端侧的一个外部托管Flash Video文件用于播放。然而,和使用RTMP的媒体流不一样,HTTP“流”不支持实时广播。HTTP流要求一个定制的播放器以及包含每个关键帧精确开 始字节位置以及时间码的特定Flash Video元数据的加入。使用这些特定的信息,定制Flash Video播放器可以要求在任何指定的关键帧中开始播放。例如,Google Video,Youtube和BitGravity支持渐进流下载,可以在缓存满之前查看视频的任何部分。在服务器侧,这种“假HTTP流“方式实现相当 简单,例如可以采用Apache的PHP模块,使用lighttpd。
四、采用RTMP协议的流,可提供的有Flash媒体服务器(以前称为Flash Communication Server),VCS,Electro Server,Helix Universal Serval,Wowza Pro,用于.NET的WebORB,用于Java的WebORB,以及开源的Red5服务器。在2008年4月,这个协议有流录像提供,不需要重新编码 的screencast软件。
RTMP,实时消息协议,Real Time Message Protocol是一个有Adobe System为在互联网的音频,视频和数据流开发的私有协议,运行在Flash播放器和服务器之间。RTMP协议有三个方式:
1、 通过在TCP上,使用1935端口的“纯”协议。
2、 用于在穿越防火墙时,在HTTP请求中封装的RTMPT。
3、 在HTTPS的安全连接中使用的RTPMS。
12.其他常见的编解码
M-JPEG
M-JPEG(Motion- JoinPhotographicExpertsGroup)技术即运动静止图像(或逐帧)压缩技术,广泛应用于非线性编辑领域可精确到帧编辑和多层图像 处理,把运动的视频序列作为连续的静止图像来处理,这种压缩方式单独完整地压缩每一帧,在编辑过程中可随机存储每一帧,可进行精确到帧的编辑,此外M- JPEG的压缩和解压缩是对称的,可由相同的硬件和软件实现。
同样格式的MPEG视 频压缩不同于帧间压缩,因为压缩比特率比较低,所以编码与 解码相对比较容易,并不需要过多的运算能力,也使得软件或者芯片可以十分容易地对Motion JPEG进行编辑。也因为此,一些移动设备,如数码相机使用Motion JPEG来进行短片的编码。
Motion JPEG 2000
JPEG2000是基于小波变换的图像压缩标准,由Joint Photographic Experts Group组织创建和维护。JPEG2000通常被认为是未来取代JPEG(基于离散余弦变换)的下一代图像压缩标准。JPEG2000文件的副档名通常 为.jp2,MIME类型是image/jp2。
虽然JPEG2000在技术上有一定的优势,但是到目前为止(2006年),互联网 上采用JPEG2000技术制作的图像文件数量仍然很少,并且大多数的浏览器仍然没有缺省支持JPEG2000图像文件的显示。但是,由于 JPEG2000在无损压缩下仍然能有比较好的压缩率,所以JPEG2000在图像品质要求比较高的医学图像的分析和处理中已经有了一定程度的广泛应用。
DivX
- 文件名扩展: .divx
- 类型:DIVX
- 开发者: DivX,Inc
- 格式类型:媒体容器,用于MPEG-4 Part 2–compliant video
- 扩展来源:AVI
这是由MPEG-4衍生出的另一种视频编码(压缩)标准,也即通常所说的 DVDrip格式,它采用了MPEG4的压缩算法同时又综合了MPEG-4 与MP3各方面的技术,说白了就是使用DivX压缩技术对DVD盘片的视频图像进行高质量压缩,同时用MP3或AC3对音频进行压缩,然后再将视频与音频 合成并加上相应的外挂字幕文件而形成的视频格式。其画质直逼DVD并且体积只有DVD的数分之一。这种编码对机器的要求也不高,所以DivX视频编码技术 可以说是一种对DVD造成威胁最大的新生视频压缩格式,号称DVD杀手或DVD终结者。
DivX,是DivX公司(前身是DivXNetworks公司)的著名品牌,是一种MPEG-4技术视频编译码器(codec),2007年秋以2200万美元收购德国Main Concept。
ISO公布了“超低比特率活动图像和语音压缩标准 ”,排序MPEG-4,1998年10月批准第一版,1994年4月又公布了第二版及其校验模型(VM),MPEG-4正式编号是ISO/IEC国际标准 14496,它是一种新型的多媒体标准,它与前标准一个重要区别就在于,是一个基于对象的视编码压缩标准,所定义的码率控制的目标就是获得在给定码率下的 最优质量,它为互联网上传输高质量的多媒体视频提供了很好的技术平台。
1998年微软开发了第一个在PC上使用的MPEG-4编码器,它包括MS MPEG4V1、MS MPEG4V2、MS MPEG4V3的系列编码内码,其中V1和V2用来制作AVI文件,一直到现在它都是作为Windows的默认组件,不过V1和V2的编码质量不是很好, 一直到MS MPEG4V3才开始有好转,画质有了显着的进步,但是不知微软出于什么目的,却将这个MS MPEGV3的视频编码内核封闭,仅仅使其应用于Windows Media流媒体技术上,也就是我们熟悉的ASF流媒体文件中。ASF文件虽然有一些优势,但是由于过分的封闭不能被编辑,末得到广泛应用,这便惹怒了那 些个不怕天不怕地的视频黑客和致力于钻研视频编码的高手,后来,这些小组不仅破解了微软的视频编码,而且经过他们的修改,一种新的视频编码诞生了:那就是 广为流传的MPEG编码器-DivX3.11。
DivX采用了MS的MPEGV3,改良后并加入自己功能称之为DivX3.11, 也是目前互联网上普通采用的MPEG-4编码器之一。很快,DivX被传得红得发紫,几乎成了业界的标准,但是,同样很快地出现了,DivX的基础技术是 非法盗用微软的,微软声称将对所有推动DivX发展的人、企业进行追究,可是DivX技术的创造者之一罗达(Rota)正全面申请将DivX合法化,这是 基于DivX虽然是从Window的发明出来的,但却没有用过任何微软的技术,更组建新公司DivXNetworks全力推广DivX,看来DivX(俗 称压缩电影)蓬勃发展的大潮是势不可挡了。
看来任何吸引眼球的故事在关键时刻都会发生转折,DivX的发展竟也不能脱离这一俗 套,就在DivX顺利发展时期,DivX的技术逐渐成熟,商机无限的时候,一台好戏上演了,DivXNetworks成立初衷就是摆脱微软的技术封闭,因 而发起一个完全开放源码的项目,名为 “ Projet Mayo ”,目标是开发一套全新的、开放源码的MPEG4编码软件,由于它完全符合ISO MPEG标准,又是完全开放源代码,OpenDivXCODEC吸引了 很多软件,视频高手参与,很快便开发出具有更高性能的编码器Encore2等等,就在DivX最辉煌的时期,DXN公司突然封闭了DivX的源代码,并在 Encore2的基础上发布了自有产品DivX4,原来DXN早就给自己留了后门,DivX采取的是LGPL协议,而不是GPL协议,虽说它们都是公共许 可证协议,保障自由使用和修改软件或源码的权利,但LGPL允许私有,DXN就是利用这一协议初其不备的耍出了大刀。
接着,很多被DXN公司狠狠涮了一回的软件、视频团体另起门户,逐渐重新聚拢开发力量,高举复仇大旗,在OpenDivX版本基础上,再次开发出一种新的MPEG-4编码--XviD,名字的顺序和DviX刚好相反,仅仅从名字就可以看出Xvid充满了复仇的力量。
DivX是近一两年来称霸网络视频的图像压缩编码标准。起初它是以微软MPEG 4视频编码标准为基础修改和开发的,并以免费方式发布。其特点是具有十分不错的压缩比率,可以将一整套DVD质量的影片压缩存放到一张CD-R光盘中。现 在的DivX分为普通版和Pro版,其中后者还有收费版和Adware(广告)版两种,自带DivX Player程序进行播放。用户如果安装了免费的DivX Codec后,也可用Windows Media player观看DivX影片。
13.
<a name="t7"> 编解码数据存放的仓库 ——————容器(上篇)
视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面 包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。
FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来 编码的。因此wav、avi大量存在等于“IDP3”的FourCC。
3GP和3G2容器
3GP(3GPP文件格式)是一个多媒体容器由第三代合作伙伴计划(3GPP)针对 3G UMTS多媒体服务定义。它用于3G移动电话,但也可以用于某些2G和4G的电话。3GP在ETSI 3GPP技术规范中定义,他是视频文件格式,并带有讲话/音频媒体类型和带时间信息的文本,用于IMS,MMS,多媒体广播/多播服务(MBMS)和传输 端到端的包交换流媒体服务(PSS)。
3G2(3GPP2文件格式)是一个多媒体容器有3GPP2为3G CDMA 2000多媒体服务定义。她与3GP文件格式非常相似,但与之相比存在一些扩展和限制。3G2在3GPP2技术规范中定义。
3GP和3G2文件格式都是基于在ISO/IEC 14496-12(MPEG-4 Part 12)定义的ISO基础媒体文件格式,但是老板不的3GP文件格式不具有其中某些属性。3GP和3G2与MP4(MPEG-4 Part 14)相似,MP4也是基于MPEP-4 Part 12。3GP和3G2设计目的是为移动电话减少存储和带宽要求,它们是非常相似的标准,但有区别:
- 3GPP 文件格式用于GSM类电话,文件扩展名:.3gp
- 3GPP2文件格式用于CDMA类电话,并具有文件扩展名:.3g2
3GP文件存贮视频流:MPEG-4 Part2,H.263,MPEG-4 Part 10(AVC/H.264),音频流 AMR-NB, AMR-WB, AMR-WB+, AAC-LC, HE-AAC v1 和 Enhanced aacPlus (HE-AAC v2)。3GPP允许ISO基础文件格式(MPEG-4 Part12)中使用AMR和H.263编解码,因为3GPP在ISO基础文件格式中规定了采样条目和模板字段的使用,可以为编解码定义新的box。这些 扩展在ISO基础媒体文家格式(“MP4家族”文件)中由登记授权登记为code-point。对于在3GP文件中存贮MPEG-4媒体,3GP规定参加 了MP4和AVC文件格式规范,它们也是基于ISO基础媒体文件格式。MP4和AVC文件格式规范描述在ISO基础媒体文件格式中使用MPEG-4内容。 有些手机使用.mp4作为3GP视频的扩展。
3G2文件格式可以存贮与3GP文件格式相同的视频流和觉得部分的音频流。此外3G2可以存在音频流还包括EVRC,EVRC-B,EVRC- WB,13K(QCELP),SMV,和VMR-WR。3G2规范还定义了在3GPP带时间文件的某些货站。3G2文件格式不支持Enhanced aacPlus (HE-AAC v2) 和AMR-WB+ audio streams。对于在3G2文件中存在MPEG-4媒体(AAC音频,MPEG-4 Part 2音频,MPEG-4 Part 10/H.264/AVC),3G2规范提及了MP4 文件格式和AVC文件格式规范,在那里描述了如果在ISO基础媒体文件格式中使用这些内容。对于在3G2中存储H.263和AMR内容,3G2规范参见了 3GP文件格式规范。
3GP格式视频有两种分辨率:
- 分辨率176×144,适合市面上所有支持3GP格式的手机。
- 分辨率320×240,清晰,适合高档手机、MP4播放器、PSP以及苹果iPod.
ANIM
ANIM标准的多媒体文件用于经典的Commodore Amiga的数字动画。它遵循IFF ILBM主规范,他是第一个动画格式被操作系统正式采纳。
ASF
微软WMA和WMV的标准容器。
WMV(Windows Media Video)是微软公司开发的一组数字视频编解码格式的通称,ASF(Advanced Systems Format)是其封装格式。ASF封装的WMV档具有"数字版权保护"功能。扩展名:wmv/asf、wmvhd。
ASF (Advanced Streaming format高级流格式)。ASF 是 MICROSOFT为了和现在的 Real player 竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。ASF使用了 MPEG4 的压缩算法,压缩率和图像的质量都很不错。因为 ASF 是以一个可以在网上即时观赏的视频"流"格式存在的,所以它的图像质量比 VCD 差一点点并不出奇,但比同是视频"流"格式的 RAM 格式要好。
- 文件扩展名 :.asf .wma .wmv
- 互联网媒体类型: video/x-ms-asf, application/vnd.ms-asf
- 类型码 : 'ASF_'
- 唯一类型码 :Identifier com.microsoft.advanced-systems-format
- Magic number :30 26 b2 75
- 开发者 :Microsoft
- 格式类型 :Container format
- 容器容纳 :WMA, WMV, MPEG4 etc.
AVI
AVI (the standard Microsoft Windows container, also based on RIFF)。AVI是英语Audio Video Interleave("音频视频交织"或译为"音频视频交错")的首字母缩写,由微软在 1992年11月推出的一种多媒体文件格式,用于对抗苹果Quicktime的技术。现在所说的AVI多是指一种封装格式。
比较早的AVI是Microsoft开发的。其含义是Audio Video Interactive,就是把视频和音频编码混合在一起存储。AVI也是最长寿的格式,已存在10余年了,虽然发布过改版(V2.0于1996年发 布),但已显老态。AVI格式上限制比较多,只能有一个视频轨道和一个音频轨道(现在有非标准插件可加入最多两个音频轨道),还可以有一些附加轨道,如文 字等。AVI格式不提供任何控制功能。扩展名:avi。
AVI能使用的编码:
- 视频名称(括号内表示的是此视频的FourCC)
o MPEG-1/-2 (MPEG/MPG1/MPG2)
o MPEG-4 (MP4V/XVID/DX50/DIVX/DIV5/3IVX/3IV2/RMP4)
o MS-MPEG4 (MPG4/MP42/MP43)
o WMV7/WMV8/WMV9 (WMV1/WMV2/WMV3)
o DV(DVSD/DVIS)
o Flash Video (FLV1/FLV4)
o Motion JPEG (MJPG)
o LossLess JPEG (LJPG)
o H.264 (AVC1/DAVC/H264/X264)
o H.263 (H263/S263)
o H.261 (H261)
o Huffyuv (HFYU)
o AVIzlib (ZLIB)
o AVImszh (MSZH)
o Theora (THEO)
o Indeo Video (IV31/IV32)
o Cinepak (cvid)
o Microsoft Video 1 (CRAM)
o On2VP3 (VP30/VP31)
o On2VP4 (VP40)
o On2 VP6 (VP60/VP61/VP62)
o VC-1 (WVC1)
- 音频
o PCM
o MP3 (0x0055)
o AC-3 (0x0092)
o AAC
- HE-AAC
- LC-AAC
o FLAC
o Indeo Audio
o TrueSpeech
o WMA
o Vorbis
编码组合能根据以下的例子自由选择。
- (DivX或XviD+MP3).avi,
- (H.264+MP3).avi
- (WMV9+MP3).avi
以XviD+MP3构成的AVI最为常见。
DVB-MS
DVR-MS (Microsoft Digital Video Recording,微软数字视频录制)是一种专用的视频和音频文件容器格式,有微软开发,用于存储由Windows XP Media Center Edition,Windows Vista和Windows 7录制的电视内容。多个数据流(视频和音频)在带有DVR-MS扩展的ASF容器中封装。视频使用MPEG-2标准编码,音频使用MPEG-1 Layer II或者杜比数字AC-3(ATSC A/52)。扩展的格式包括内容和数字版权管理的元数据。这些格式的文件有流缓存引擎(SBE.dll)生成,这是一个在Windows XP Service Pack 1的DirectShow组件。
MPEG/MPG/DAT
MPEG格 式:MPEG(Moving Picture Experts Group),是一个国际标准组织(ISO)认可的媒体封装形式,受到大部份机器的支持。其存储方式多样,可以适应不同的应用环境。MPEG-4档的档容 器格式在Part 1(mux)、14(asp)、15(avc)等中规定。MPEG的控制功能丰富,可以有多个视频(即角度)、音轨、字 幕(位图字幕)等等。MPEG的一个简化版本3GP还广泛的用于准3G手机上。扩展名:dat(用于VCD)、vob、mpg/mpeg、3gp /3g2(用于手机)等。
MPEG也是Motion Picture Experts Group 的缩写。这类格式包括了 MPEG-1, MPEG-2 和 MPEG-4在内的多种视频格式。MPEG-1相信是大家接触得最多的了,因为目前其正在被广泛地应用在 VCD 的制作和一些视频片段下载的网络应用上面,大部分的 VCD 都是用 MPEG1 格式压缩的 ( 刻录软件自动将MPEG1转为 .DAT格式 ) ,使用 MPEG-1 的压缩算法,可以把一部 120 分钟长的电影压缩到 1.2 GB 左右大小。MPEG-2 则是应用在 DVD 的制作,同时在一些 HDTV(高清晰电视广播)和一些高要求视频编辑、处理上面也有相当多的应用。使用 MPEG-2 的压缩算法压缩一部 120 分钟长的电影可以压缩到 5-8 GB 的大小(MPEG2的图像质量MPEG-1 与其无法比拟的)。
MPEG-PS:MPEG节目流(program stream),是MPEG-1和MPEG-2基准流的标准容器,用于在可靠介质上,例如磁盘,也用于DVD-Video光碟。
MPEG-TS:MPEG传输流,是数字广播和在非可靠媒体传输的标砖容器,也在蓝光光碟使用,通常携带多个视频和音频流以及一个电子节目指南。
n AVI
如果你发现原来的播放软件突然打不开此类格式的AVI文件,那你就要考虑是不是碰到 了n AVI。n AVI是 New AVI 的缩写,是一个名为 Shadow Realm 的地下组织发展起来的一种新视频格式。它是由Microsoft ASF 压缩算法的修改而来的(并不是想象中的 AVI),视频格式追求的无非是压缩率和图像质量,所以 NAVI 为了追求这个目标,改善了原始的 ASF 格式的一些不足,让 NAVI 可以拥有更高的帧率。可以这样说,NAVI 是一种去掉视频流特性的改良型 ASF 格式。
14.
编解码数据存放的仓库 ——————容器(下篇)
Matroska(MKV)
MKV ,不是任何的编解码或者系统的标准,但实际上可封装任何的东西。是一个开放以及开源的容器格式。
扩展名 .mkv .mka .mks
互联网媒体类型 video/x-matroska audio/x-matroska 开
发者 Matroska.org
格式 视频文件格式
专门属 多媒体
自由文件格式? Yes: GNU LGPL
Matroska,很多人把它当作为MKV, 其实MKV只 是Matroska媒体系列的其中一种文件。Matroska是一种新的多媒体封装格式,这个封装格式可把多种不同编码的视频及16条或以上不同格式的音 频和语言不同的字幕封装到一个Matroska Media档内。它也是其中一种开放源代码的多媒体封装格式。
多媒体封装格式,简称MCF、多媒体容器,是一个开放(没有身份规限,免费)及自由把数据存放的格式。开发者承诺大家可以自 由地使用这种格式和经这种格式所开发的软件;又不会在这种格式普遍的时候变成一个商业的科研项目。
Matroska媒体定义了三种类型的档:
- MKV (Matroska Video File) :视频档,可以包含音频和字幕;
- MKA (Matroska Audio File) :单一的音频档,可以有多条及多种类型的音轨;
- MKS (Matroska Subtitles) :字幕文件。
这三种文件中以MKV最为常见。
Matroska最大的特点就是能容纳多种不同类型的视频编码、音频编码及字幕流,并且它能把非常高密的RealMedia及QuickTime文 件也容纳在内,同时将它们的音频和视频重新组织起来,从而达到一个更好和鲜明的效果。
Matroska的开发是对多种传统媒体格式的一次大挑战,虽则如此,Matroska也被开发成一个多功能的多媒体容器。
MP4
MP4,是MPEG-4定义的标准音视频容 器,基于ISO基础媒体文件格式(在MPEG-4 Part 12以及JPEG 2000 Part 12中定义),在MPEG-4 Part 14中描述。是一种使用MPEG-4的多媒体电脑档案格式,副档名为.mp4,以储存数码音讯及数码视讯为主。
扩展名 .mp4
互联网媒体类型 video/mp4, audio/mp4, application/mp4
类型代码 mpg4
开发者 ISO
格式 视频文件格式
专门属 Audio, video, text
延伸自 QuickTime .mov and MPEG-4 Part 12
标准 ISO/IEC 14496-14
MOD
MOD格式是JVC生产的 硬盘摄录机所采用的存储格式名称。
MOV
MOV是评估公司的标准QuickTime视 频容器。QuickTime Movie是由苹果公司 开发的容器,由于苹果电脑在专业图形领域的统治地位,QuickTime格式格式基本上成为电影制作行业的通用格式。1998年2月11 日,国际标准组织(ISO)认可QuickTime文件格式作为MPEG-4标准的基础。QT可存储的内容相当丰富,除了视频、音频以外还可支持图片、文 字(文本字幕)等。扩展名:mov
使用过Mac机的朋友应该多少接触过 QuickTime。QuickTime原本是Apple公司用于Mac计算机上的一种图像视频处理软件。 Quick-Time提供了两种标准图像和数字视频格式 , 即可以支持静态的PIC和JPG图像格式,动态的基于Indeo压缩法的MOV和基于MPEG压缩法的MPG视频格式。
Ogg
Ogg是Xiph.org音频编解码 Vorbis和视频编解码Theora的标砖容器,Ogg Media一个完全开放性的多媒体系统计划,OGM(Ogg Media File)是其容器格式。OGM可以支持多视频、音频、字幕(文本字幕)等多种轨道。扩展名:ogg。
OGM
OGM(Ogg Media),是Xiph.ofg的视频编解码容器,已经不再支持,并不鼓励使用。
RealMedia
RealMedia是RealVideo和 RealAudio的标准容器。Real Video或者称Real Media(RM)档是由RealNetworks开发的一种档容器。它通常只能容纳Real Video和Real Audio编码的媒体。该档带有一定的交互功能,允许编写脚本以控制播放。RM,尤其是可变比特率的RMVB格式,体积很小,非常受到网络下载者的欢迎。 扩展名:rm/rmvb
RM
Real Networks公司所制定的音频/视频压缩规范Real Media中的一种,Real Player能做的就是利用Internet资源对这些符合Real Media技术规范的音频/视频进行实况转播。在Real Media规范中主要包括三类文件:RealAudio、Real Video和Real Flash (Real Networks公司与Macromedia公司合作推出的新一代高压缩比动画格式)。REAL VIDEO (RA、RAM)格式由一开始就是定位就是在视频流应用方面的,也可以说是视频流技术的始创者。它可以在用 56K MODEM 拨号上网的条件实现不间断的视频播放,可是其图像质量比VCD差些,如果您看过那些RM压缩的影碟就可以明显对比出来了。
RMVB
这是一种由RM视频格式升级延伸出的新视频格 式,它的先进之处在于RMVB视频格式打破了原先RM格式那种平均压缩采样的方式,在保证平均压缩比的 基础上合理利用比特率资源,就是说静止和动作场面少的画面场景采用较低的编码速率,这样可以留出更多的带宽空间,而这些带宽会在出现快速运动的画面场景时 被利用。这样在保证了静止画面质量的前提下,大幅地提高了运动图像的画面质量,从而图像质量和文件大小之间就达到了微妙的平衡。另外,相对于DVDrip 格式,RMVB视频也是有着较明显的优势,一部大小为700MB左右的DVD影片,如果将其转录成同样视听品质的RMVB格式,其个头最多也就400MB 左右。不仅如此,这种视频格式还具有内置字幕和无需外挂插件支持等独特优点。要想播放这种视频格式,可以使用RealOne Player2.0或RealPlayer8.0加RealVideo9.0以上版本的解码器形式进行播放。
VOB
VOB文件(video Object)是一个DVD视频媒体的容器格式。VOB可以包含视频,音频,字母和菜单整合在一个流格式中。VOB是基于MPEG PS格式,但是有额外的限制和私有流的规范。MPEG PS提供非标准数据称为私有流。VOB文件是MEPG PS表站中非常严格的子集。经所有的VOB文件都是MPEG PS,但不是所有的MPEG PS都遵守VOB文件的定义。
与MPEG的PS相似,VOB文件可以包含 H.262/MPEG-2 Part2或者MPEG-1 Part 2视频,MPEG-1 Audio LayerII或者MOEG-2 Audio Layer II音频,但是和MPEG PS相比,在VOB文件中使用这些压缩格式有某些限制。此外,VOB可以包括线性PCM,AC-3或者DTS视频以及字母。VOB文件不能包含AAC音频 (MPEG-2 Part 7),MPEG-4压缩格式或者其他,而这些在MPEG PS标准中是允许的。
文件扩展名 .VOB
开发者: DVD Forum
类型: 媒体容器
包含: 音频,视频,字母
用于: DVD-Video
从何扩展: MPEG program stream, ISO/IEC 13818-1
标准规范: DVD-Video Book
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
免责声明
1. 本论坛所提供的信息均来自网络,本网站只提供平台服务,所有账号发表的言论与本网站无关。
2. 其他单位或个人在使用、转载或引用本文时,必须事先获得该帖子作者和本人的同意。
3. 本帖部分内容转载自其他媒体,但并不代表本人赞同其观点和对其真实性负责。
4. 如有侵权,请立即联系,本网站将及时删除相关内容。
|