基于压缩感知理论的视频编解码器
文章编号:1002-8692(2010)05-0014-04
基于压缩感知理论的视频编解码器*
谢晓春1,2,赖昭胜1,杨汉祥1
【摘
实用技术··
(1.赣南师范学院物理与电子信息学院,江西赣州341000;2.中国科学院空间科学与应用研究中心,北京100190)要】结合压缩感知理论和传统的视频编解码技术,提出了一种基于压缩感知理论的视频编解码器。其编码过程可看成是将
高维信号投影到低维空间的过程,解码过程不再是传统方式下的编码的逆过程,而可看作是求解欠定方程组的过程。该编解码器结构比较简单,不仅所需图像的样本数很少,样本数可根据不同的编码模式进行选择,而且能获得较高的压缩比和较好的重构图像质量。
【关键词】压缩感知;视频编码;编码器;解码器【中图分类号】TN919.81
【文献标识码】A
VideoCodecFrameworkBasedonCompressiveSensing
XIEXiao-chun1,2,LAIZhao-sheng1,YANGHan-xiang1
(1.SchoolofPhysicsandElectronicInformation,GannanNormalUniversity,JiangxiGanzhou341000,China;
2.CenterforSpaceScienceandAppliedResearch,ChineseAcademyofSciences,Beijing100190,China)
【Abstract】Inthispaper,anewvideocodecwhichcombinescompressivesensingtheoryandsomecriticalideasoftraditional
videocodecsisproposed.Theencoderworksasaprojector,whichprojectsahighdimensionalsignaltoalowdimensionaldomain,
whilethedecoderwhichisnolongertheinverseofencoderworksforthesolutionofunderdeterminedequations.
butalsohighcompression
Comparedwithtraditionalcodecs,thenewcodecissimpler.Notonlysamplesneededinthenewcodecarefewerthanintraditionalcodecsandthenumberofsamplescanbechangedaccordingtotheencodingmode,ratioandgoodqualityofreconstructedvideoareobtained.
【Keywords】compressivesensing;videocoding;encoder;decoder
1
引言
现有的视频压缩编码标准是基于传统的香农采样
则可通过少量的测量样本进行重构。假定实的离散信号
x[n],n=1,2,…,N,在N×N的稀疏基Ψ=[ψ1,ψ2,…,ψN]下具有稀疏性,即
N
定理。在该定理要求下,信号的采样率必须大于信号带宽的2倍,才能实现信号的准确重构。因此,要实现视频图像的准确重构所需要的样本数较多。此外,视频编码过程中,图像变换后大部分的系数被舍弃,造成了数据和系统资源的浪费。近年来出现的压缩感知(Compres-
x=Σψkαk=Ψα
k=1
(1)
式中:系数α仅有K垲N个元素非零,其余N-K个元素为零或接近于零。
在上述稀疏条件的假设下,对该信号进行采样或测量,设测量矩阵用M×N(K
siveSensing,CS)理论指出,在已知信号具有稀疏性或可压缩性的前提下,用于重构的样本数可以远远低于传统的香农采样定理下的样本数[1-4]。由于视频图像通常在某些变换域上具有可压缩性,而且视频残差图像具有较强的稀疏性,所以CS理论在视频编码中有着良好的应用前景[5-8]。
y=Φx
将式(1)代入式(2)可得,
(2)(3)
y=ΦΨα=Θα
2
2.1
压缩感知理论和传统的编解码核心技术
压缩感知理论
压缩感知理论下,信号若具有稀疏性或可压缩性,
由于M垲N,所以方程组是欠定方程组,从测量样本
y重构信号x的过程是病态的,但是如果测量矩阵Φ和稀疏矩阵Ψ能满足RIP[1-4]或者两者非相关时,则可实现精确的重构。一种常用的算法是基于l1极小范数求解系数α
*江西省自然科学基金项目(2009GQS0008)
14
2010年第34卷第05期(总第342期
)
minα
‖α‖l
1
s.t.y=ΦΨα(4)再将稀疏系数α代入式(1)即可重构原信号。
2.2视频编解码核心技术
传统的视频编解码器是基于宏块操作的,编码模式
包括帧内模式和帧间模式。下面以H.264为例,简单分析传统视频编解码的核心技术[9]。
H.264的编码器如图1所示。在帧内模式下,当前宏块的像素的预测是基于对帧内已经编码并解码重构后的宏块进行的。将当前宏块与参考宏块求残差后进行变换,再将得到的系数中少数重要部分保留,并对其幅度和位置进行量化、熵编码。在帧间模式下,当前宏块的预测块是基于对参考帧进行运动估计和补偿得到,再将当前帧和预测帧的宏块求残差,最后对残差进行量化、熵编码,得到编码码流用于传输或存储。由于编码器中需要参考帧,所以编码器内包含了部分解码器。
当前帧Fn
变量运动估计
换
化
熵编码
NAL
Fn-1
运动补偿帧间选择
帧内预测
帧内
逆重构帧Fn′
滤波器
变换
图1H.264编码器
H.264的解码器如图2所示,整个解码的过程是编码的逆过程。接收的码流先经过熵解码、逆量化、逆变换得到残差图像,再加上根据帧内编码或帧间编码的参数得到的预测图像即为重构的图像。
参考帧F帧间n-1
运动补偿帧内预测
帧内
Fn′
滤波器
逆变换逆量化熵解码
NAL
图2
H.264解码器
从上述过程看,传统的编码过程复杂,解码简单,对编码端的要求更为严格。编码过程中,图像变换后的系数大部分被抛弃,造成数据和内存资源的浪费。
3
基于压缩感知理论的编解码器
结合上节中的压缩感知理论和传统的视频编解码
核心技术,本节将设计一种基于压缩感知理论的视频编解码器。
3.1基于压缩感知理论的编码器
基于压缩感知理论的编码原理如图3所示。编码
前,先将视频序列分成图像组。编码时,如果当前帧采用
帧内编码(记为I帧),则它的编码方法是直接对该帧进行预处理和编码测量,其中,预处理过程是个可选的步骤;如果当前帧采用帧间编码(记为P帧),编码方法是用前面解码重构帧作为参考帧,并与当前帧求残差,再对残差进行预处理和编码测量。由于残差图像的稀疏性更强,所需的测量样本数可以更少。两种模式下得到的编码测量值再经量化、熵编码便可得到编码码流。和传统的视频编码器一样,编码器内有个局部的解码器,目的是得到用于帧间编码的参考帧。
帧内
预处理测量量化熵编码
视频苓
帧间
输出图像
码流
帧存储
帧内
后处理重构反量化
帧间
图3
基于压缩感知理论的编码器
和传统的视频编码器相比,存在以下几个不同点:
1)传统方式下是以块作为处理单元的,而基于压缩感知理论的编码器是对整幅图像进行处理的;2)传统方式下所需的图像样本数远远大于压缩感知理论下的情况;
3)基于压缩感知编码中的测量过程是将高维信号投影
到低维空间的一个非自适应过程,事实上,它可对应于传统方式下的采样和变换过程,由于得到的每个测量值包含了传统方式下的所有样本的部分信息,所以它能避免传统方式下因丢弃高频分量而带来图像细节丢失的现象;4)传统方式下的帧间编码需进行运动估计和补偿,而基于压缩感知的帧间编码不需这些过程,有利于降低运算的复杂度。
3.2基于压缩感知理论的解码器
基于压缩感知理论的解码原理如图4所示。解码时,
接收的码流先进行熵解码、反量化后,用求欠定线性方程组解的方法(即求解表达式(3))进行重构,接着进行后处理。得到的如果是I帧图像,则该图像即是重构图像;如果是P帧,则该图像是残差图像,此时需要将帧存储内保存的参考图像与残差图像通过加法器相加,进一步得到重构图像。两种模式下的重构图像需送入帧存储,作为后面帧的参考帧。
重构帧存储
帧内后处理重构
反量化
熵解码
图像
帧间
接收码流
图4基于压缩感知理论的解码器
基于压缩感知理论的解码器与传统解码器的主要区别在于,传统解码过程是编码的逆过程,解码器相对简
No.05Vol.342010(SumNo.342)
VIDEOENGINEERING
15
单,编码器较为复杂,而基于压缩感知理论的解码不再是编码的逆过程,而是一个求欠定线性方程组解的过程,相对于编码器来说,解码器较为复杂。这种情况有利于环境恶劣或条件较为严格时的编码测量。
总之,基于压缩感知理论的视频编解码器结构比传统的更简单,且编码达到的压缩比和解码重构图像的质量都较高。
4
实验结果及分析
为了验证基于CS理论的视频编码器的有效性,对
两组视频序列进行处理,考虑不同I帧采样数N与P帧采样数N1组合下的视频重构质量。编码测量过程中的稀疏基采用Daubechies9/7小波基,测量矩阵选用32×32的随机扰动分块Hadamard矩阵[10]。重构算法采用GPSR算法
[11]
。由于量化(反量化)和熵编码(熵解码)技术在
传统的视频编解码技术中非常成熟,所以实验中没有加以考虑。
对第一组尺寸为176×144像素的“carphone”视频序列进行处理时,连续的12帧被分成3组,每组4帧。每组的第一帧进行I帧编码,而组内的其余帧采用P帧编码方式,参考帧选用当前帧的前面已解码重构的帧。当I帧的测量样本数N由10000增至25000,P帧的测量样本数N1由1000增至25000时,重构视频图像的平均
PSNR随N和N1的变化如图5所示。实验结果表明,当I帧测量样本数N较大时,重构的视频图像的平均PSNR较高,此时,即使P帧测量样本数N1增加很大,平均
PSNR的改善很小。原因是帧间编码的残差图像的稀疏性很强,在压缩感知理论下,很少的测量值已经足够得到一定质量的重构图像。但是,如果当I帧测量样本数N较小,即使P帧的测量样本数N1很高,重构的视频图像的平均PSNR仍是很低,这是由于I帧的重构误差扩散所造成的。
3433B
d32/RN31SP均30平29N=2500028N=20000N=1500027N=10
000
0.0
0.5
1.0
1.52.02.5
N1/10
4
图5
N和N1对视频图像重构质量的影响
图6a为视频源序列中的第7帧图像。当N为10000且N1为100时,整个视频的压缩率为9.8,平均PSNR为
26.26dB。当N仍为10000而N1为10000时,视频压缩率
2010年第34卷第05期(总第342期
)
为2.5,平均PSNR为26.88dB。在这两种情况下,第7帧图像的重构情况分别如图6b,6c所示。当N变为25000,
N1为100时,视频压缩率变为4,平均PSNR为32.48dB;N不变,N1改为10000时,视频压缩率为1.8,平均PSNR为33.83dB。这两种情况下的第7帧图像重构情况分别如图6e,6f所示。由此可见,测量样本数和视频的平均
PSNR之间可以根据实际需要进行合理的折中,以达到合理的压缩率和重构质量的平衡。例如设置N为15000,N1为100,视频压缩率可以达到6.6,而平均PSNR接近30dB。此时,第7帧重构如图6d所示。
(a)源图像(b)N=10000,N1=100(c)N=10000,N1=10000
(d)N=15000,N1
=100(e)N=25000,N1=100(f)N=25000,N1=10000
图6第7帧源图及其重构图
第二组实验中,连续的80帧视频序列“salesman”被分成8组,每组10帧。每组的第一帧进行I帧编码,组内的其余帧采用P帧编码方式,参考帧选用当前帧的前面已解码重构的帧。当I帧的采样数N从10000到65000进行变化,对每种I帧的情况,P帧的采样数N1从5000到
65000变化。各种情况下,重构视频图像的平均PSNR随N和N1的变化如图7所示。
3028N=10000B
N=15000dN=20000/R26N=25000NSN=30000PN=35000均24N=40000平N=4500022N=50000N=55000N=6000020
N=65
000
1
2
3
456
N1/10
4
图7
N和N1对视频图像重构质量的影响
图8a为视频源序列中的第31帧图像。当N为
10000且N1为1000时,视频压缩率为34.5,平均PSNR为19.6dB。当N仍为10000而N1为10000时,视频压缩
率降为6.6,平均PSNR为19.81dB。在这两种情况下,第
31帧的重构情况分别如图8b,8c所示。当N变为60000,N1为1000时,视频压缩率为9.5,平均PSNR为27.65dB;N不变,N1改为10000时,视频压缩率为4.4,平均PSNR为28.77dB。这两种情况下的第31
帧重构情况分别如图
16
8e,8f所示。若考虑测量样本数和重构质量之间的平衡,Magazine,2007,24(7):118-121.
设置N为30000,N1为1000,那么压缩率可以达到16.8,[4]喻玲娟,谢晓春.压缩感知理论简介[J].电视技术,2008,32(12):
而平均PSNR能够高于24dB。此时,重构的图像如图8d16-18.
所示。
[5]
DUARTEM,DAVENPORTM,TAKHARD,etal.Single-pixelimagingviacompressivesampling[J].IEEESignalProcessingMagazine,2008,25(2):83-91.[6]
STANKOVICV,STANKOVICL,CHENGS.Compressivevideosampling[C/OL]//ProceedingsoftheEuropeanSignalProcessingConf.,Lausanne,Switzerland,2008[2009-11-02].
http://www.eurasip.org/
Proceedings/Eusipco/Eusipco2008/papers/1569099804.pdf.
(a)源图像(b)N=10000,N1=100(c)N=10000,N1=10000
[7]MARCIAR,WILLETTR.Compressivecodedaperturevideoreconstruc-tion[C/OL]//ProceedingsoftheEuropeanSignalProcessingConf.,Lausanne,Switzerland,2008[2009-11-02].http://www.ee.duke.edu/~willett/papers/MarciaEUSIPCO2008.pdf.
[8]PARKJY,WAKINMB.Amultiscaleframeworkforcompressivesensingofvideo[C/OL]//ProceedingsofPictureCodingSymposium,(d)N=30000,N1=1000(e)N=60000,N1=1000(f)N=60000,N1=10000
Chicago,Illinois,2009[2009-11-12].http://inside.mines.edu/~mwakin/图8第31帧源图及其重构图
papers/jyp-mbw-videocs-pcs2009.pdf.
[9]
WIEGANDT,SULLIVANGJ,BJONTEGAARDG,etal.Overviewof5
小结
theH.264/AVCvideocodingstandard[J].IEEETrans.Circ.Syst.结合压缩感知理论和传统的视频编解码技术,笔者
VideoTechnol.,2003,13(7):560-576.
[10]
GANL,DOTT,TRANTD.Fastcompressiveimagingusing提出了一种结构较为简单的基于压缩感知理论的视频编scrambledblockHadamardensemble[C/OL]//Proceedingsofthe解码器。该编解码器充分利用了视频图像的相邻帧间的EuropeanSignalProcessingConf.,Lausanne,Switzerland,2008[2009-残差具有较强的稀疏性的特点,在样本数很少的情况下,11-11].http://www.eurasip.org/Proceedings/Eusipco/Eusipco2008/仍取得了较高的压缩比和较好的图像重构效果。实验验papers/1569104824.pdf.
证时采用的是对视频图像固定分组形式,若采用根据图[11]
FIGUEIREDOMAT,NOWAKRD,WRIGHTSJ.Gradient像稀疏度变化情况自适应地分组形式,效果将会更好。projectionforsparsereconstruction:applicationtocompressedsensingandotherinverseproblems[J].IEEEJournalofSelectedTopicsinSignalProcessing,2007,1(4):586-597.
参考文献:
笕
[1]
CANDESE,ROMBERGJ,TAOT.Robustuncertaintyprinciples:Exact作者简介:
signalreconstructionfromhighlyincompletefrequencyinformation[J].谢晓春(1975-),副教授,主研信号与信息处理;IEEETrans.Inform.Theory,2006,52(2):489-509.赖昭胜(1966-
),教授,主研视频图像处理;[2]DONOHOD.Compressedsensing[J].IEEETrans.Inform.Theory,杨汉祥(1950-),教授,主研视频图像处理。2006,52(4):1289-1306.
责任编辑:哈宏疆
收稿日期:2010-03-01
[3]
BARANIUKRG.Compressivesensing[J].IEEESignalProcessing
[***********][***********][***********][***********][***********][***********][1**********]
(上接第13页)
于上层应用之间相对独立,使数字电视功能升级有了更[2]杨晓宏.我国数字电视发展与展望[J].中国有线电视,2002(14):
大的自由度和可扩展范围;消息驱动作为系统中的关键10-12.
技术,使系统各模块的交互和通信更加高效和简化,系统[3]
郭敏强.基于AVS的高清晰度数字电视设计[J].电视技术,2006的资源利用也相对合理,满足了数字电视用户的需求。该(5):52-53.
嵌入式消息模式已经应用于数字电视产品中。随着数字笕
作者简介:
电视的全面普及,该系统模式的应用将越来越广泛。文
闻,硕士生,主研多媒体通信、数字电视;
门爱东,教授,博士生导师,主研多媒体通信、数字电视;参考文献:
蒋
飞,硕士生,主研多媒体通信、嵌入式Linux、数字电视。
[1]
马立欣.数字电视概述[J].电视技术,2000(6):5-8.
责任编辑:哈宏疆
收稿日期:2010-02-28
No.05Vol.342010(SumNo.342)
VIDEOENGINEERING
17