
dct变换
情绪实验-鹤壁市委书记
2023年2月22日发(作者:支气管图片)DCT变换的原理及算法
离散傅立叶变换(DiscreteFourierTransform)
离散傅立叶变换概述
傅立叶分析以法国数学家和物理学家JeanBaptisteJosephFourier命名,是一种
将信号分解为谐波的方法。如下三图所示,一个包含16个点的离散信号可以用9个余弦
和9个正弦波来表示。在表达任意一个离散信号时,这些三角波的周期是一定的,不同的
只是振幅(amplitude)。
图1-1离散信号与对应的三角波
信号可以是连续的或离散的,同时也可以是周期性的或非周期性的,根据信号的这两
个特点,傅立叶变换可以分为四种类型:
傅立叶变换(FourierTransform),处理非周期性的连续信号(Aperiodic-
Continuous)。
傅立叶序列(FourierSeries),处理周期性的连续信号(Periodic-
Continuous)。
离散时间域傅立叶变换(DiscreteTimeFourierTransform),处理非周期性
的离散信号(Aperiodic-Discrete)。
离散傅立叶变换(DiscreteFourierTransform),处理周期性的离散信号
(Periodic-Discrete)。计算机只能处理离散的和有限长度的信号,因此只有离散傅立
叶变换(DFT)能在计算
机中以算法实现。
图1-2四种不同类型的傅立叶分析
实数离散傅立叶变换(RealDFT)的格式和表示
如图1-3所示,离散傅立叶变换将包含N个点的输入波转为两个包含N/2+1个点的输
出波。输入波常被称作时间域,因为信号的波形基本上都是随时间变化,输出波常被称
作频率域。
时间域与频率域中存储的信息是一样的,只是表现方式不一样。将时间域转为频率域的
过程叫离散傅立叶变换(DFT),将频率域转换为时间域的过程叫反变换(IDFT)。频率
域可以分为两部分,实数部分ReX[]和虚数部分ImX[],分别存放余弦函数
(Cosine)的振幅和正弦函数(Sine)的振幅。
图1-3实数傅立叶变换示意图
DFT基函数
DFT中使用的正弦和余弦函数统称为基函数(BasisFunction),这些三角函数的周
期是固定的,变化的只是振幅。DFT基函数的表达式:
Ck[i]=cos(2ki/N)
Sk[i]=sin(2ki/N)
公式1-1
其中,Ck[i]和Sk[i]表示由N个点组成的离散正弦曲线,i的取值范围是张倒N-1。k
决定了曲线的周期,取值范围是0到N/2。
多余的系数
完成DFT后,系数由原来的N个变为N+2个,似乎产生了两个多余的系数。在频率
域中,的确有两个系数是多余的,它们是ImX[0]和ImX[n/2]。它们的存在使得频率域中
的其他系数相互独立,并且它们的值永远为0,因此不会影响反变换。
反变换的计算(IDFT)
公式1-2
在上面的公式中,振幅使用的是和,而不是ImX[k]和Re
X[k]。两者的关系可以用下面的公式来表示:
公式1-3
反变换的算法实现
下面是反变换算法的伪代码实现:
100'THEINVERSEDISCRETEFOURIERTRANSFORM
110'Thetimedomainsignal,heldinXX[],iscalculatedfromthefrequency
domainsignals,
120'heldinREX[]andIMX[].
130'
140DIMXX[511]'XX[]holdsthetimedomainsignal
150DIMREX[256]'REX[]holdstherealpartofthefrequencydomain
160DIMIMX[256]'IMX[]holdstheimaginarypartofthefrequency
domain
170'
180PI=3.14159265'Settheconstant,PI
190N%=512'N%isthenumberofpointsinXX[]
200'
210GOSUBXXXX'MythicalsubroutinetoloaddataintoREX[]and
IMX[]
220'
230
240'
'FindthecosineandsinewaveamplitudesusingEq.1-3
250FORK%=0TO256
260REX[K%]=REX[K%]/(N%/2)
270IMX[K%]=-IMX[K%]/(N%/2)
280NEXTK%
290'
300REX[0]=REX[0]/2
310REX[256]=REX[256]/2
320'
330'
340FORI%=0TO511
'ZeroXX[]soitcanbeusedasanaccumulator
350XX[I%]=0
360NEXTI%
370'
380'Eq.1-2SYNTHESISMETHOD#rougheach
390'frequencygeneratingtheentirelengthofthesineandcosine
400'waves,andaddthemtotheaccumulatorsignal,XX[]
410'
420FORK%=0TO256'K%loopsthrougheachsampleinREX[]and
IMX[]
430FORI%=0TO511'I%loopsthrougheachsampleinXX[]
440'
450XX[I%]=XX[I%]+REX[K%]*COS(2*PI*K%*I%/N%)
460XX[I%]=XX[I%]+IMX[K%]*SIN(2*PI*K%*I%/N%)
470'
480NEXTI%
490NEXTK%
500'
510END
图1-4IDCT示意图
图1-4解释了IDCT的过程以及频率域与反变换时振幅的不同。图1-4a中是我们需要
进行转换的时间域曲线,在0点坐标处振幅为32的一条曲线;图1-4b是进行DFT变换后
的曲线,实数部分(ReX)的值为32,虚数部分的值全部为0,因此这里没有画虚数部分
的曲线;公式1-3将频率域信号(图1-4b所示)转换为余弦函数的振幅(图1-4c所示)。
虚数部分(用正弦函数表示)的系数全部为0,因此这里没有显示。
频率域与三角函数振幅之所以不同,是因为频率域被定义为谱密度(spectral
density)。
图1-4显示的是一个由32个点组成的信号在频率域中的实数部分,由编号从0到16
的17个采样点组成。谱密度是指单位带宽所能表达的信号量(振幅),其计算方法是使用
三角函数的振幅除以相应的带宽(bandwidth)。
图1-4中的虚线解释了带宽的计算,即在采样点之间进行平均分割。采样点0和16的
带宽为1/N,其他采样点(1-15)的带宽为2/N。这就是公式1-3中ReX[0]和Re
X[N/2]与其他ReX不同的原因。
图1-5频率域的带宽(bandwidth)
DFT的分析与计算
DFT的计算有三种方法:第一种是解线性方程祖,这种方法简单但计算量很大,实
际应用中很少使用;第二种是关联法(correlation),基于已知的另一条的曲线;第三
中方法是快速傅立叶变换(FFT),FFT算法将对一条含N个点曲线的计算转为对N条
含1个点的曲线的计算,从而大大降低了计算量。
线性方程组求解DFT
使用这种方法来计算DFT是很自然的,从N个方程求解N个未知数。但这种方法
计算量很大,实际应用中很少使用。
关联法(correlation)求解DFT
通过correlation求解DFT是求解DFT的标准方法,下面使用一个例子来说明这
种方法。求解一个包含64个点的信号的DFT,意味着我们要计算频率域中实数部分的
33个系数和虚数部分的33个系数。在这个例子中,我们只解一个系数,ImX[3]。
ImX[3]是一条包含三个完整周期的正弦函数的振幅,这个正弦函数曲线分布在点
0到点63之间,如图1-6a所示。
在图1-6中,a和b是两个时间域的示例信号,在这里分别称之为x1[]和x2[]。曲
线x1[]是一个包含3个完整周期、分布在0到63之间的正弦函数曲线;x2[]由多条正弦
函数曲线和余弦函数曲线混合而成,在组成x2[]的三角函数曲线中,没有任何一条在0
到63之间有完整的三个周期。
通过这两条曲线可以解释算法要实现的功能:当输入函数为x1[]时,算法的计算结
果应该是32,也就是信号中正弦曲线的振幅;而当输入函数为x2[]时,算法的计算结果
应该为0,因为x2[]所表示的曲线并不在这个信号中。
之所以非x1[]的曲线与x1[]相乘结果为0,是因为除x1[]外的任意一个函数与正弦
函数相乘时,在0到63(3个完整周期)上的积分都为0。在图1-6中,图e是图a和
图c相乘的结果,将各个点的值相加即可得到32;图f是图b和图d相乘的结果,将各
个点的值相加得到的结果为0。
上面的计算过程可以用公式1-4来表示。
公式1-4
图1-6关联法(correlation)求DFT
下面是关联法计算DFT的算法伪代码:
100'THEDISCRETEFOURIERTRANSFORM
110'Thefrequencydomainsignals,heldinREX[]andIMX[],are
calculatedfrom
120'thetimedomainsignal,heldinXX[].
130'
140DIMXX[511]'XX[]holdsthetimedomainsignal
150DIMREX[256]'REX[]holdstherealpartofthefrequencydomain
160DIMIMX[256]'IMX[]holdstheimaginarypartofthefrequency
domain
170'
180PI=3.14159265'Settheconstant,PI
190N%=512'N%isthenumberofpointsinXX[]
200'
210GOSUBXXXX'MythicalsubroutinetoloaddataintoXX[]
220'
230'
240FORK%=0TO256'ZeroREX[]&IMX[]sotheycanbeusedas
accumulators
250REX[K%]=0
260IMX[K%]=0
270NEXTK%
280'
290''CorrelateXX[]withthecosineandsinewaves,Eq.8-4
300'
310FORK%=0TO256'K%loopsthrougheachsampleinREX[]and
IMX[]
320FORI%=0TO511'I%loopsthrougheachsampleinXX[]
330'
340REX[K%]=REX[K%]+XX[I%]*COS(2*PI*K%*I%/N%)
350IMX[K%]=IMX[K%]-XX[I%]*SIN(2*PI*K%*I%/N%)
360'
370NEXTI%
380NEXTK%
390'
400END
二元性(Duality)
DFT和IDFT变换公式很类似。从一个域到另一个域,都是用已有的值乘以基函数,
然后将相应的值相加。实际上,DFT和IDFT的区别仅仅是时间域中包含N个点,而频
率域中包含N/2+1个点。在复数傅里叶变换中,时间域和频率域中的信号都包含N个点,
这使得两个域具有一种对称的性质,而在两个域之间的转换公式也就几乎一样了。
时间域和频率域的这种对称被称之为对称性(Duality),二元性可以产生很多有趣
的性质。例如:在频率域中的一个单点对应于时间域中的一条三角函数曲线,由于
Duality,这种性质反过来也成立,在时间域中的一个点对应于频率域中的一条三角函数曲
线。
快速傅立叶变换(FastFourierTransform)
FFT算法是由和在论文”Analgorithmforthe
machinecalculationofcomplexFourierSeries”中提出的。FFT是基于Complex
DFT来实现的。
通过ComplexDFT来计算RealDFT
尽管FFT算法是基于ComplexDFT实现的,但我们仍可以用其来计算Real
DFT,因为RealDFT可以方便地转换为ComplexDFT。从图2-1中可以看出Real
DFT和ComplexDFT的区别。在RealDFT中,时间域是一个包含N个点的信号,
频率域则包括实数部分和虚数部分两个长度为N/2+1的信号;在ComplexDFT中,时
间域也有两个部分,分别是实数部分和虚数部分,长度为N。频率域的实数部分和虚数
部分则长度增至N。
如图2-1所示,RealDFT和ComplexDFT的区别仅在于后者在时间域增加了一
个虚数部分,频率域长度的变化正是由这个虚数部分引起的。
图2-1RealDFT和ComplexDFT的区别
产生这个区别的原因是实数的虚数部分为0,因此将实数表达为虚数很简单,加上一
个系数为0的虚数部分即可。例如在图2-1中的ComplexDFT,若将时间域的虚数部
分设为0,频率域中多出的部分也置为0,那么图2-1中的RealDFT和ComplexDFT
就相等了。当包含负频率时,DFT的频率域会具有周期性。在ComplexDFT中,
频率域中0到N/2为正频率,N/2+1到N-1为负频率。
与使用ComplexDFT计算RealDFT相比,使用ComplexInverseDFT计算
RealInverseDFT更为困难。这是因为频率域中N/2+1到N-1部分的系数需要计算。
其计算过程也不复杂,系数N/2+1对应系数N/2-1的相反数,N/2+2对应N/2-2的相反
数,即:
系数(N/2+1)=—系数(N/2-1)
系数(N/2+2)=—系数(N/2-2)
注意,0与N/2没有相应的点与之对应。进行RealInverseDFT计算时,首先将
0到N/2复制到complexDFT的系数0到N/2,然后使用一个子过程来计算系数
N/2+1到N-1。这个子过程的伪代码实现如下:
6000'NEGATIVEFREQUENCYGENERATION
6010'Thissubroutinecreatesthecomplexfrequencydomainfromthe
realfrequencydomain.
6020'Uponentrytothissubroutine,N%containsthenumberofpointsin
thesignals,and
6030'REX[]andIMX[]containtherealfrequencydomaininsamples0
toN/2.
6040'Onreturn,REX[]andIMX[]containthecomplexfrequency
domaininsamples0toN-1.
6050'
6060FORK%=(N%/2+1)TO(N%-1)
6070REX[K%]=REX[N%-K%]
6080IMX[K%]=-IMX[N%-K%]
6090NEXTK%
6100'
6110RETURN
FFT的实现原理
FFT算法很复杂,本文不讨论细节,只描述其实现原理。在虚数域中,时间域和频
率域表达的都是由N个虚数点组成的信号,每个虚数点都由实数部分和虚数部分的两个
数字来表达。例如虚数点X[6],就是由实数部分ReX[6]和虚数部分ImX[6]组成。
FFT算法的核心思想是将时间域中一个包含N个点的信号分解为N个包含一个点
的信号。然后分别计算这N个信号的频率域对应值,最后将这N个频率域的信号综合为
频率域中的一个信号。
图2-2描述了一个包含12个点的示例信号在FFT中的分解过程。
图2-2FFT中的分解(decompose)过程
图2-2中的过程看似复杂,实际上可以通过如图2-3所示的位反转算法(bit
reversalsorting)来实现。算法将各点的二进制位反转为对称的形式,即可完成N个点
的信号到N个单点信号的分解过程。
图2-3位反转排序
FFT算法的下一步是分别求出这N个单点信号在频率域的振幅。这是算法中最容易
的一步,单点的振幅等于它自己本身的值,这意味着在这一步什么也不必做。算法的
最后一步是将这N个频率域的点按在时间域分解时的反序结合(combine)起
来,这里不能使用位反转算法,这一步是算法中最复杂的部分。
图2-4展现了两个长度为4的频率域信号组合为一个长度为8的频率域信号的过
程。组合(synthesis)的顺序必须与在时间域中分解(decompose)的过程完全相逆。以时
间域的信号abcd和信号efgh为例,要将其整合为一个包含8个点的信号需要经过这两
步:首先将这两个信号进行稀释(dilute),即用0填充为长度为8的信号,然后两者相
加即可得到新的信号。如abcd稀释后得到a0b0c0d0,efgh稀释后得到0e0f0g0h,
两者相加可得abcdefgh。
图2-4FFT组合(synthesis)
当时间域用0稀释时,对应的频率域会复制自己。
当时间域先移位再用0填充时,对应的频率域会乘以一个三角函数,然后再复制自己。
abcd与efgh的稀释方法并不相同,abcd稀释为a0b0c0d0,其偶数位为0;efgh
稀释为0e0f0g0h,其奇数位为0。也就是说efgh向右移动了一位,这个在时间域的移
位对应于频率域乘以一个三角函数。
图2-5展示了在两个频率域中长度为4的信号组合的过程。左侧的Odd-Four
PointFrequencySpectrum指的是对应奇数位为0的时间域信号的频率域信号,如
EFGH;右侧的Even-FourPointFrequencySpectrum指的是对应偶数位为0的时间
域信号的频率域信号,如ABCD。
为了更清楚地表达这个过程,图2-6将其中的两个点拿出来,因为这个图形很想一只
张开翅膀的蝴蝶,因此人们也将这个图所代表的过程称之为butterfly。
图2-5FFT组合过程
图2-6Butterfly
图2-7显示了FFT变换的流程图,包含了FFT变换的三个部分。1.时间域的分解过程可以通过位
变换算法来实现。2.将时间域分解后得到的N个单点转换为频率域并不需要任何计算,因为对于单点而
言,在频率域的振幅等于时间域的振幅。3.第三部分是整个算法的核心,是图中重点要表达的部分。
图2-7FFT流程图
在图2-7中,最外面的循环表示要在lgN个层次上进行组合(synthesis),中间那层
循环指在每一层上的组合过程,最内部的循环表示butterfly过程。
下面是FFT算法的一段Basic代码:
1000'THEFASTFOURIERTRANSFORM
1010'Uponentry,N%containsthenumberofpointsintheDFT,REX[]and
1020'IMX[]turn,
1030'REX[]andIMX[]nalsrunfrom0toN%-1.
1040'
1050PI=3.14159265'Setconstants
1060NM1%=N%-1
1070ND2%=N%/2
1080M%=CINT(LOG(N%)/LOG(2))
1090J%=ND2%
1100'
1110FORI%=1TON%-2'Bitreversalsorting
1120IFI%>=J%THENGOTO1190
1130TR=REX[J%]
1140TI=IMX[J%]
1150REX[J%]=REX[I%]
1160IMX[J%]=IMX[I%]
1170REX[I%]=TR
1180IMX[I%]=TI
1190K%=ND2%
1200IFK%>J%THENGOTO1240
1210J%=J%-K%
1220K%=K%/2
1230GOTO1200
1240J%=J%+K%
1250NEXTI%
1260'
1270FORL%=1TOM%'Loopforeachstage
1280LE%=CINT(2^L%)
1290LE2%=LE%/2
1300UR=1
1310UI=0
1320SR=COS(PI/LE2%)'Calculatesine&cosinevalues
1330SI=-SIN(PI/LE2%)
1340FORJ%=1TOLE2%'LoopforeachsubDFT
1350JM1%=J%-1
1360FORI%=JM1%TONM1%STEPLE%'Loopforeachbutterfly
1370IP%=I%+LE2%
1380TR=REX[IP%]*UR–IMX[IP%]*UI'Butterflycalculation
1390TI=REX[IP%]*UI+IMX[IP%]*UR
1400REX[IP%]=REX[I%]-TR
1410IMX[IP%]=IMX[I%]-TI
1420REX[I%]=REX[I%]+TR
1430IMX[I%]=IMX[I%]+TI
1440NEXTI%
1450TR=UR
1460UR=TR*SR-UI*SI
1470UI=TR*SI+UI*SR
1480NEXTJ%
1490NEXTL%
1500'
1510RETURN
更快的FFT算法
有多种方法可以加速FFT算法,但也只能达到20%–40%的加速比。例如在时间
域分解时,提前两步、在每个信号包含四个点时结束分解。
另一种方法是将时间域的虚数部分设为0,从而使得频率域的振幅具有对称的性质,
即将复数FFT算法转换为实数FFT算法。下面是实数InverseFFT算法的伪代码:
4000'INVERSEFFTFORREALSIGNALS
4010'Uponentry,N%containsthenumberofpointsintheIDFT,REX[]and
4020'IMX[]containtherealandimaginarypartsofthefrequencydomainrunningfrom
4030'index0toN%/ainingsamplesinREX[]andIMX[]areignored.
4040'Uponreturn,REX[]containstherealtimedomain,IMX[]containszeros.
4050'
4060'
4070FORK%=(N%/2+1)TO(N%-1)'Makefrequencydomainsymmetrical
4080REX[K%]=REX[N%-K%]'(asinTable12-1)
4090IMX[K%]=-IMX[N%-K%]
4100NEXTK%
4110'
4120FORK%=0TON%-1'Addrealandimaginarypartstogether
4130REX[K%]=REX[K%]+IMX[K%]
4140NEXTK%
4150'
4160GOSUB3000‘CalculateforwardrealDFT(TABLE12-6)
4170'
4180FORI%=0TON%-1'Addrealandimaginarypartstogether
4190REX[I%]=(REX[I%]+IMX[I%])/N%'anddividethetimedomainbyN%
4200IMX[I%]=0
4210NEXTI%
4220'
4230RETURN
图2-8展示了FFT中使用的对称性原理。a和b分别表示同一个时间域信号,虚数部
分全部为0,c和d分别是对应在频率域实数部分和虚数部分。c具有偶对称的性质,d
具有奇对称的性质。
图2-8DFT中实数部分的对称
图2-9DFT中虚数部分的对称
图2-9与图2-8类似,其时间域实数部分a为0,虚数部分b非0,对应的频率域曲
线c和d分别具有奇对称和偶对称的性质。
上面介绍了时间域的某个部分为0的情况,如果时间域的实数部分和虚数部分都不
为0情况会怎样?频率域可以通过两个或多个频谱的相加获得。关键点在于:频率域具有
这两种对称性质(奇对称和偶对称)的波谱可以完美地分为两个分量。输入信号被分为来
两个部分,N/2个奇数位信号被放置在时间域信号的实数部分,N/2个偶数位信号被放
置在时间域信号的虚数部分,从而使得长度为N的FFT变换转化为长度为N/2的FFT
变换。频率域此时有两个长度为N/2的信号,将其组合起来(使用FFT中的方法)即可
得到RealFFT变换的结果。下面是这种算法的伪代码实现:
3000'FFTFORREALSIGNALS
3010'Uponentry,N%containsthenumberofpointsintheDFT,REX[]contains
3020'therealinputsignal,whilevaluesinIMX[]turn,
3030'REX[]andIMX[]nalsrunfrom0toN%-1.
3040'
3050NH%=N%/2-1'Separateevenandoddpoints
3060FORI%=0TONH%
3070REX(I%)=REX(2*I%)
3080IMX(I%)=REX(2*I%+1)
3090NEXTI%
3100'
3110N%=N%/2'CalculateN%/2pointFFT
3120GOSUB1000
3130N%=N%*2
3140'
3150NM1%=N%-1'Even/oddfrequencydomaindecomposition
3160ND2%=N%/2
3170N4%=N%/4-1
3180FORI%=1TON4%
3190IM%=ND2%-I%
3200IP2%=I%+ND2%
3210IPM%=IM%+ND2%
3220REX(IP2%)=(IMX(I%)+IMX(IM%))/2
3230REX(IPM%)=REX(IP2%)
3240IMX(IP2%)=-(REX(I%)-REX(IM%))/2
3250IMX(IPM%)=-IMX(IP2%)
3260REX(I%)=(REX(I%)+REX(IM%))/2
3270REX(IM%)=REX(I%)
3280IMX(I%)=(IMX(I%)-IMX(IM%))/2
3290IMX(IM%)=-IMX(I%)
3300NEXTI%
3310REX(N%*3/4)=IMX(N%/4)
3320REX(ND2%)=IMX(0)
3330IMX(N%*3/4)=0
3340IMX(ND2%)=0
3350IMX(N%/4)=0
3360IMX(0)=0
3370'
3380PI=3.14159265'CompletethelastFFTstage
3390L%=CINT(LOG(N%)/LOG(2))
3400LE%=CINT(2^L%)
3410LE2%=LE%/2
3420UR=1
3430UI=0
3440SR=COS(PI/LE2%)
3450SI=-SIN(PI/LE2%)
3460FORJ%=1TOLE2%
3470JM1%=J%-1
3480FORI%=JM1%TONM1%STEPLE%
3490IP%=I%+LE2%
3500TR=REX[IP%]*UR-IMX[IP%]*UI
3510TI=REX[IP%]*UI+IMX[IP%]*UR
3520REX[IP%]=REX[I%]-TR
3530IMX[IP%]=IMX[I%]-TI
3540REX[I%]=REX[I%]+TR
3550IMX[I%]=IMX[I%]+TI
3560NEXTI%
3570TR=UR
3580UR=TR*SR-UI*SI
3590UI=TR*SI+UI*SR
3600NEXTJ%
3610RETURN
离散余弦变换(DiscreteCosineTransform)
DCT变换和FFT变换都属于变换压缩方法(TransformCompression),变换压缩的
一个特点是将从前密度均匀的信息分布变换为密度不同的信息分布。在图像中,低频部分的
信息量要大于高频部分的信息量,尽管低频部分的数据量比高频部分的数据量要小的多。例
如删除掉占50%存储空间的高频部分,信息量的损失可能还不到5%。
变换编码有很多种。K–L变换的压缩效率很高,但算法实现困难;FFT变换算法实现
简单,但压缩效率不是很理想。经过多方面的比较,最终胜出的算法是DCT,一种源自
FFT的变换编码。
与FFT变换同时使用正弦和余弦函数来表达信号不同,DCT只使用余弦函数来表达信
号。DCT变换有多个版本,有一种常用的DCT实现过程是这样的:对一个长度为129
(0到128)的信号进行DCT变换。首先,复制点127到点1,使整个信号变为:
0,1,2,..,127,128,127,…,2,1
这串长度为256的时间域信号经过FFT变换后会生成一个长度为129的信号。
因为时间域的信号对称,根据二元性(duality),对应的频率域信号的虚数部分全部为
0。也就是说,我们输入的长度为129的时间域信号经过DCT变换后,产生一个长度
为129的频率域信号,并且频率域完全由余弦函数组成。
在图像处理中,每副图像都会被切成8×8的小块,块的大小可以是任意,只是因
为历史原因人们习惯于切为8×8的块。二维的图像处理与一维的信号处理原理是一致
的,只是一些计算公式不一样,在二维图像中,基函数的公式如下:
公式中x和y指像素在空间域(对应一维的时间域)的坐标,u和v指基函数频率
域中的坐标。这个基函数公式基于8×8的块,x,y,u,v的取值范围都是0–7。
图像经DCT变换后,低频信息集中在矩阵的左上角,高频信息则向右下角集中。
直流分量在[0,0]处,[0,1]处的基函数在一个方向上是一个半周期的余弦函数,在另一
个方向上是一个常数。[1,0]处的基函数与[0,1]类似,只不过方向旋转了90度。
图3-1DCT变换中使用的基函数
图3-1是一个8×8的基函数示意图,从中拿出了6个基函数并做出其在二维平面上
的示意图。这些基函数是不变的,在DCT变换中,这些基函数将与空间域中的每一个元
素进行分别相乘,并将结果累加起来,就完成了空间域到频率域的初步变换。此时还需要
两步就可以完成DCT变换:1.将第0行和第0列的值除以2(也就是说,[0,0]要除以
4)。2.所有64个元素都除以16。
DCT反变换(InverseDCT)更为容易,将频率域中的基函数分别与对应的振幅
(spectrum)相乘并累加,即可得到相应的空间域元素的值。
图3-2JPEG中DCT转换示例
在图3-2中,最右侧的那一栏表示使用不同比特数来表达频率域的效果。原始频率域需
要64个bit来存储,而g对应的频率域使用10个bit来存储频率域中的单个元素,h和i对
应的频率域分别使用8个bit和5个bit。然后对d,e和f分别进行InverseDCT变换,g,h
和i分别是使用原始空间域的值来减掉反变换(IDCT)后得到的残差。从图g可以看出,使用
DCT压缩将一个32bit的块压缩为10bit,但信息损失很小,几乎可以忽略。从图h和i可
以看出,随压缩率的增大,信息损失也逐渐变大。
经过DCT变换,压缩还可以通过丢弃64个振幅(Spectrum)中的一些信息量较小
的元素来实现,这样即可以实现压缩,还可以尽可能最大地保持信息。
图3-3显示了使用不同数量的频率域振幅(Spectrum)所得的重建图像(a,b和c)与
原始图像d的对比效果。从图c可以看出,即使弃掉占总数3/4的高频振幅(Spectrum),
使用占总数1/4的低频振幅(Spectrum)也可以得到与原始图像很接近的结果。而且误差看
起来是随机分布的,可以看作是随机噪声。
图3-3使用不同数量的Spectrum重建JPEG的效果
下面使用JPEG的压缩过程来介绍DCT变换在图像处理中的应用。JPEG的压缩过程
可以分为以下几步:1.将整副图像分解为8×8的小块。2.对每个小块做DCT变换。3.
对变换后得到的频率域使用前面所介绍的方法进行压缩:减少每个元素的bit值以及丢弃
一些元素。通过量化表(QuantizationTable),这两个压缩操作可以一步实现。
图3-4是两个JPEG量化表的示例,频率域中的每个振幅(Spectrum)与量化表中对
应的元素想除,即可得到压缩后的频率域。量化表a的压缩率较低,表b的压缩率比较高。
例如a中最右下角的值为16,将对应振幅(Spectrum)的取值范围由-127–127缩小为
-7–7。而在图b中右下角的值为256,将其清零,相当于将对应的高频信息删除。
图3-4JPEG量化表
JPEG压缩的第四步,8×8的块被扫描为线性序列,扫描顺序如图3-5所示。对块进
行量化处理后,再进行游程编码,那些振幅(Spectrum)为0的元素就被删除掉了。
图3-5线性扫描顺序
JPEG压缩第五步是对线性序列进行游程编码,第六步是对游程编码后的序列进行
Huffman编码。
JPEG的压缩率可以设定,图3-6显示不同压缩率的图像与原始图像的对比。
图3-6不同压缩率的JPEG对比
为什么DCT变换对图像的压缩效果要比DFT好?主要原因是DCT中使用了半周期
的基函数,而DFT使用的是整周期基函数。图像中大部分像素的变化都是渐变的,因此
DCT可以更好地表达图像,从而获得更高的压缩效率。