常见的视频编码技术和标准
基础知识讲座
常见的视频编码技术和标准(II)
◇祖 晟
[上接第15页]
3. MPEG-4标准
运动图像专家组MPEG于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版本,同年年底MPEG-4第二版亦告确定,并于2000年年初正式成为国际标准。
MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4并不只是具体的压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(WWW、资料获取与分散)等整合及压缩技术的需求而制定的国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立一种在多媒体传输、存储、检索等应用领域普遍采用的统一的数据格式。
MPEG-4标准同以前编码标准的最显著差别在于它采用了基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相互联系的音视频对象,分别编码后经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。这样既方便我们对不同的对象采用不同的编码方法和表示方法,又有利于不同数据类型的融合,并且可以方便的实现对于各种对象的操作及编辑。基于MPEG-4编码,我们可以将一个卡通人物放在真实的场景中,或者将真人置于一个虚拟的演播室里,还可以在互联网上方便的实现交互,根据自己的需要有选择的组合各种音视频以及图形文本对象。
下面简要介绍MPEG-4标准中采用的多项新技术。(1) 形状编码
形状信息的获得首先要对图形进行分析和分割,把各个代表不同内容的目标分割后再用形状表示。形状信息通常用二值Alpha平面和灰度Alpha平面来表示,二值Alpha平面可用临近信息进行算术编码(CAE);灰度Alpha平面可用运动补偿加DCT变换方式类似纹理编码一样进行编码。和MPEG-1/2一样,MPEG-4选择了离散Fourier变换(DFT)用于图像压缩。对于纹理编码,MPEG-4选择了把游程编码、矢量量化和Huffman编码进行混合编程编码(VLC)。
(2) 伸屈性
视频的伸屈性,包括空间伸屈性和时间伸屈性。空间伸屈性可以得到不同的空间分辨率,时间伸屈性可得到不同的时间分辨率。每种伸屈都有多层,在只有高低2层的情况下,底层指的是基本层,而高层指的是增强层。
(3) 差错回避
VLC码中的一个比特错误会引起同步丢失,而运动补偿则会引起错误传递。MPEG-4的差错回避有三个方面:重同步、数据恢复和错误隐藏。
重同步是指差错被检测后,解码器和码流之间重新同步的技术。一般来说,这种方法会将错误之前的同步点到重建的同步点之间的数据丢弃。不过这些丢弃的数据可以用其它的技术进行恢复和实施错误隐藏。
数据恢复工具在解码器和码流重新建立起同步后用来恢复丢弃的数据。这些工具不是简单的内容错码恢复,而是用一种差错回避手段,即用可逆VLC码字进行VLC编码。
错误隐藏,在重同步有效的将错误定位后可以很容易处理。为了进一步提高错误隐匿的能力,有必要增加错误定位能力,特别是用数据分割来提高错误定位能力。
与MPEG-1、MPEG-2相比,MPEG-4具有如下优点:(1) 基于内容的交互性
MPEG-4提供了基于内容的多媒体数据访问工具,如索引、超级链接、上传下载、删除等。利用这些工具,用户可以方便地从多媒体数据库中有选择地获取自己所需的与对象有关的内容。这些工具还提供了内容的操作和位流编辑功能,可应用于交互式家庭购物,淡入淡出的数字化效果等。MPEG-4提供了高效的自然或合成的多媒体数据编码方法,它可以把自然场景或对象组合为合成的多媒体数据。
(2) 高效的压缩性
MPEG-4采用了更高的编码效率。同已有的或即将形成的其它标准相比,在相同的比特率下,它基于更高的视觉听觉质量,这就使得在低带宽的信道上传送视频、音频成为可能。MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步的合成为最终数据流,这可用于虚拟三维游戏、三维电影、飞行仿真练习等。
(3) 通用的访问性
MPEG-4提供了不同环境的适应性,来保证其在许多无线和有线网络以及存储介质中的应用。此外,MPEG-4还支持基于内容的的可分级性,即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求,支持具有不同带宽、不同存储容量的传输信道和接收端。
上述特点无疑会加速MPEG-4标准在多媒体应用领域的发展。事实上,MPEG-4标准的应用范围相当庞大,具有广泛的适应性和可扩展性。
(1) 应用于因特网音视频广播
由于上网人数与日俱增,传统电视广播的观众逐渐减少,随之而来的便是广告收入的减少,所以现在的固定式电视广播最终将转向基于TCP/IP的因特网广播,观众的收看方式也由简单的遥控器选择频道转为网上视频点播。视频点播的概念不是先把节目下载到硬盘,然后再播放,而是采用流媒体视频技术,点击后边传输边播放。
现在因特网中播放音视频的软件有Real Networks公司的Real Media、微软公司的Windows Media以及苹果公司的QuickTime,它们定义的音视频格式互不兼容,有可能导致媒体流的混乱,而MPEG-4为因特网视频应用提供了一系列的标准工具,使音视频码流具有一致的规范。因此在因特网播放音视频采用MPEG-4,可以说是一个安全的选择。
(2) 应用于无线通信
MPEG-4高效的码率压缩、交互和分级特性尤其适合于在窄带移动网上实现多媒体通信,未来的手机将变成多媒体
62
2006 NO.11&12 记录媒体技术
基础知识讲座
移动接收机,不仅可以用于移动电视电话、移动上网,还可以移动接收多媒体广播和收看电视节目。
(3) 应用于静止图像压缩
静止图像(图片)在因特网中大量使用,现在网上的图片压缩多采用JPEG技术。MPEG-4中的静止图像(纹理)压缩是基于小波变换的,在同样质量条件下,压缩后的文件大小约是JPEG文件的十分之一。把因特网上使用的JPEG图片转换成MPEG-4格式,可以大大提高图片在网络中的传输速度。
(4) 应用于电视电话
传统用于窄带电视电话业务的压缩编码标准,如H.261采用了帧内压缩、帧间压缩、减少象素和抽帧等办法来降低码率,但编码效率和图像质量都难以令人满意。MPEG-4的压缩编码可以做到以极低码率传送质量可以接受的声像信号,使电视电话业务可以在窄带的公用电话网上实现。
(5) 应用于计算机图形、动画与仿真
MPEG-4特殊的编码方式和强大的交互能力,使得基于MPEG-4的计算机图形和动画可以从各种来源的多媒体数据库中获取素材,并实时组合出所需要的结果。因而未来的计算机图形可以在MPEG-4语法所允许的范围内向所希望的方向无限发展,产生出今天无法想象的动画及仿真效果。
(6) 应用于电子游戏
MPEG-4可以进行自然图像与声音同人工合成的图像与声音的混合编码,在编码方式上具有前所未有的灵活性,并且能及时从各种来源的多媒体数据库中调用素材。这使得在将来可以制作象电影一样的电子游戏,实现极高自由度的交互式操作。
到性能提高和功能扩展的作用。MPEG-7将提供内容的描述而不是内容本身,它不能替代已有的MPEG标准(MPEG-1、MPEG-2、MPEG-4),仅仅是已有3个标准的补充。我们可以也利用MPEG-7的描述来增强其他MPEG标准的功能。
MPEG-7的应用范围很广泛,既可应用于存储(在线或离线),也可用于流式应用(如广播、将模型加入Internet等)。它还可以在实时或非实时环境下应用,例如数字图书馆(图像目录、音乐字典等)、多媒体名录服务(如黄页)、广播媒体选择(无线电信道、TV信道等)等。未来MPEG-7将会在教育、新闻、导游信息、娱乐、等各方面将发挥巨大的作用。
MPEG-1的出现使VCD取代了录像带,MPEG-2的出现使数字电视逐步取代模拟电视,MPEG-4的出现使多媒体系统的交互性和灵活性大为增强,而MPEG-7的出现将带我们进入一个互动多媒体的网络时代。
三、我国自主制定的音视频编码
技术标准——AVS
AVS是由我国自主制定的音视频编码技术标准,主要面向高清晰度电视、高密度光存储媒体等应用。AVS标准以当前国际上最先进的MPEG-4 AVC/H.264框架为基础,强调自主知识产权,同时充分考虑了实现的复杂度。AVS国家标准将对数字电视、IPTV、手机电视、高清光盘播放机等行业的发展产生深远影响。目前,上述行业使用的都是国外标准,需要交纳巨额的专利费。AVS是中国拥有自主知识产权的音视频编码标准,可使中国相关企业避免专利费问题,这也是AVS批准为国家标准的重要背景。
AVS是达到世界水平的音视频标准,其目的是解决标准和知识产权的平衡问题。在全球范围内,由于该领域的标准和知识产权的问题解决不好,从而给产业的发展带来了一些问题。H.264的技术非常优越,由于专利收费问题造成无休止的争议,使产业的发展受到阻碍。MPEG-4也是由于专利问题,到2005年没有形成大规模的产业利用,就是这个利益关系扯来扯去,6、7年时间不能变成真正的产业应用。
MPEG-4 AVC/H.264标准,目前是按时间收费,有17家拥有专利的公司加入MPEG LA的专利池收费。另外是VIA这个公司,有5家公司加入了VIA专利池进行收费。还有汤姆逊公司单独收费不加入上述任何一个。目前H.264标准是17C+5C+1C宣称要收费,但是没有解决H.264所有要收费问题,这有点类似于DVD的情况。AVS音视频国家标准的发布就是为了解决目前专利问题困扰产业发展的被动局面,推动产业的快速健康发展。
AVS是一个中国国家标准,同时也努力与国际上的标准组织进行合作,把它变成一个国际标准。从技术上来说,AVS标准压缩效率高,整个技术方案实现复杂度低、技术方案的知识产权比较清晰,这是AVS标准的三大特点。基于这个标准可以促进国内的音视频产业以及国际的数字媒体产业的发展。
相对于H.264,AVS的主要技术特点如下:(1)8×8的整数变换与64级量化;
(2)亮度和色度帧内预测都是以8×8块为单位,亮度块采用5种预测模式,色度块采用4种预测模式;
(3)采用16×16、16×8、8×16和8×8四种块模式进行运动
4. MPEG-7标准
继MPEG-4之后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜索。1998年10月基于这种设想的MPEG-7标准被提出,它的正式名称是“多媒体内容描述接口”,将对各种不同类型的多媒体信息进行标准化的描述,并与所描述的内容相联系,以实现快速有效的搜索。
MPEG-7定义了一个描述符标准集,用于描述各种类型的多媒体信息,与之相应的描述方案可用于规范多媒体描述符的生成和不同描述符之间的有机联系。这些描述符与指定的多媒体对象的内容紧密联系,采用提取对象特征的方法为实现基于内容和语义的准确检索提供接口。在此基础上,MPEG-7定义了一种描述定义语言(DDL: Description Definition Language)用于指定和生成描述方案,即希望提出新的视频、音频信息表示方式。它既不同于基于波形和基于压缩的表示方式(如MPEG-1和MPEG-2),又不同于基于对象的表示方式(MPEG-4)。这一表示方式允许对信息的含义进行一定程度的解释,它可以被一个设备或计算机解码器存取。MPEG-7的目的在于提供一个标准化的核心技术,以便描述多媒体环境下的视频和音频内容,最终使视频和音频搜集文本检索一样简便。
MPEG-7可以描述的多媒体对象范围极其广泛,其核心部分DDL语言将充分吸收现有的各种媒体描述语言的特点,以达到对多媒体数据的普遍适应性。MPEG-4提出的基于对象编码的思想将成为对多媒体数据库中的视频、音频对象进行处理(包括特征提取、压缩编码等)的基本手段,而MPEG-7的多媒体内容描述功能将对MPEG-1、MPEG-2、MPEG-4起
2006 NO.11&12 记录媒体技术
63
基础知识讲座
补偿;
(4)在1/4象素运动估计方面,采用不同的四抽头滤波器进行半象素插值和1/4象素插值;
(5)P帧可以利用最多2帧的前向参考帧,而B帧采用前后各一个参考帧。
在编码效率方面,AVS标准与MPEG-4 AVC接近。而在达到与H.264同样性能的情况下,AVS的复杂度要比H.264的复杂度低,其解码器是H.264解码器复杂度的70%,这将有利于降低芯片成本和提高可靠性。
从专利方面来讲,AVS里面只有50多项专利,所有必要专利的数量是50项左右,90%是国内的企业和机构共享的。另外有30%会员来自跨国企业,跨国企业愿意贡献技术,他们的提案也得到了认可。
基于这个标准可以发展AVS产业,包括软件芯片、整机和运营。目前,AVS标准正在推动几个领域的应用,例如卫星直播电视,明年我国将要发射一颗卫星,首先覆盖的是边远的、经济收入差一些的地区,满足这些地方收不到电视的问题。最终的目标是希望北京奥运会举办的时候采用AVS标准做高清的视频转播。
四、结束语
数字视频技术广泛应用于通信、计算机、广播电视等领域,带来了会议电视、可视电话及数字电视、媒体存储等一系列应用,促使了许多视频编码标准的产生。ITU-T与
ISO/IEC是制定视频编码标准的两大组织,国际电信标准化部门ITU-T的标准包括H.261、H.263和H.264,主要应用于实时视频通信领域。MPEG系列标准是由ISO/IEC制定的,主要应用于视频存储(DVD)、广播电视、因特网或无线网上的流媒体等。
近年来,数字技术得到了飞速发展,音视频技术也正在走向数字化。随着高清视频技术的引入,迫切需要高压缩比编码技术的出现。为了适应发展的需要,国际电信标准化组织ITU-T和国际标准化组织ISO/IEC联合开发了H.264标准。这是视频编码标准的一次重要进步,它与现有的编码格式相比具有明显的优越性,特别是在编码效率上的提高,使之能用于许多新的领域。尽管H.264的算法复杂度是现有压缩编码标准的4倍以上,随着集成电路技术的快速发展,H.264的应用将成为现实。
标准化是产业化成功的前提,H.261、H.263推动了电视电话、视频会议的发展。MPEG-1成功地在中国推动了VCD产业,MPEG-2标准带动了DVD及数字电视等多种消费电子产业,而Real-Networks的Real Video、微软公司的WMT以及Apple公司的QuickTime带动了网络流媒体的发展。可喜的是我国自主知识产权的视频编码技术国家标准已经公布,它将有助于我国的信息产业的快速发展和走向国际化。未来是信息化的社会,各种多媒体数据的传输和存储是信息处理的基本问题,因此,视频压缩编码标准将发挥越来越大的作用。(全文完)◆
64
2006 NO.11&12 记录媒体技术