深度学习研究综述_孙志军
第29卷第8期2012年8月计算机应用研究
ApplicationResearchofComputersVol.29No.8Aug.2012
深度学习研究综述
1
孙志军,薛
1,21,2
磊,许阳明,王
正
1,2
(1.电子工程学院,合肥230037;2.安徽省电子制约技术重点实验室,合肥230037)
摘
要:深度学习是一类新兴的多层神经网络学习算法,因其缓解了传统训练算法的局部最小性,引起机器学
分析了算法的优越性,并介绍了主流学习算法及应用现状,习领域的广泛关注。首先论述了深度学习兴起渊源,最后总结了当前存在的问题及发展方向。
关键词:深度学习;分布式表示;深信度网络;卷积神经网络;深凸网络中图分类号:TP181
文献标志码:A
文章编号:1001-3695(2012)08-2806-05
doi:10.3969/j.issn.1001-3695.2012.08.002
Overviewofdeeplearning
222
SUNZhi-jun1,XUELei1,,XUYang-ming1,,WANGZheng1,
(1.ElectronicEngineeringInstitute,Hefei230037,China;2.KeyLaboratoryofElectronicRestriction,Hefei230037,China)
Abstract:Deeplearningisanewwayoftrainingmulti-layerneuralnetwork.Theoptimizationdifficultyassociatedwiththe
deepmodelscanbealleviated,ithasinducedgreatattentionofmachinelearningcommunity.Firstly,thispaperdiscussedthe
thenanalyzedvirtuebroughtbydeeplearning.Itintroducedthemainstreamdeeplearningalgorithmoriginofdeeplearning,
andtheirapplications.Finallyitconcludedtheproblemremaininganddevelopmentorientation.
Keywords:deeplearning;distributedrepresentation;deepbeliefnetwork;convolutionalneuralnetwork;deepconvexnetwork
0引言
深度学习的概念源于人工神经网络的研究,含多隐层的多
1
1.1
深度学习神经学启示及理论依据
深度学习神经学启示
尽管人类每时每刻都要面临着大量的感知数据,却总能以
层感知器(MLP)就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示(属性类别或特征),以发现数据的分布式特征表示理想
[2]
[1]
一种灵巧方式获取值得注意的重要信息。模仿人脑那样高效准确地表示信息一直是人工智能研究领域的核心挑战。神经科学研究人员利用解剖学知识发现哺乳类动物大脑表示信息的方式:通过感官信号从视网膜传递到前额大脑皮质再到运动神经的时间,推断出大脑皮质并未直接地对数据进行特征提取处理,而是使接收到的刺激信号通过一个复杂的层状网络模型,进而获取观测数据展现的规则
[11~13]
。BP算法作为传统训练多层网络
的典型算法,实际上对于仅含几层网络,该训练方法就已很不
。深度结构(涉及多个非线性处理单元层)非凸目标代
[3~5]
价函数中普遍存在的局部最小是训练困难的主要来源。
Hinton等人
基于深信度网(DBN)提出非监督贪心逐
层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络(CNNs)是第一个真正多层结构学习算法学习还出现许多变形结构如去噪自动编码器product
[9]
[7]
[6]
。也就是说,人脑并不
是直接根据外部世界在视网膜上投影,而是根据经聚集和分解过程处理后的信息来识别物体。因此视皮层的功能是对感知信号进行特征提取和计算,而不仅仅是简单地重现视网膜的图像
[14]
,它利用、sum-
空间相对关系减少参数数目以提高BP训练性能。此外深度
、DCN
[8]
。人类感知系统这种明确的层次结构极大地降低了视觉
等。
并保留了物体有用的结构信息。对于要提系统处理的数据量,
取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据,深度学习能够获取其本质特征。
受大脑结构分层次启发,神经网络研究人员一直致力于多层神经网络的研究。BP算法是经典的梯度下降并采用随机选定初始值的多层网络训练算法,但因输入与输出间非线性映射使网络误差函数或能量函数空间是一个含多个极小点的非线性空间,搜索方向仅是使网络误差或能量减小的方向,因而经
当前多数分类、回归等学习方法为浅层结构算法,其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约
[2]
。深度学
习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力
[1,10]
。本文意在向读者介绍这一刚
刚兴起的深度学习新技术。
收稿日期:2012-03-09;修回日期:2012-04-10
作者简介:孙志军(1985-),男,吉林磐石人,博士研究生,主要研究方向为机器学习、模式识别(robotman@126.com);薛磊(1963-),男,安徽霍丘人,教授,博导,主要研究方向为通信系统、通信信号处理;许阳明(1964-),男,安徽舒城人,副教授,主要研究方向为无线通信、通信信号处理;王正(1973-),男,福建莆田人,讲师,博士研究生,主要研究方向为数据融合、智能信号处理.
第8期孙志军,等:深度学习研究综述·2807·
常收敛到局部最小,并随网络层数增加情况更加严重。理论和实验表明BP算法不适于训练具有多隐层单元的深度结构
[15]
规划技术学习数据的核矩阵,然后利用该核矩阵获取较好的泛化性能。然而当学习到的核函数相互关联时,能否获取更加简洁的表示?深度学习即基于这种思想并通过多次网络学习输入样本的分布式表示,被认为是较有前景的方法。
分布式表示
[18]
。
此原因在一定程度上阻碍了深度学习的发展,并将大多数机器学习和信号处理研究从神经网络转移到相对较容易训练的浅层学习结构。
传统机器学习和信号处理技术探索仅含单层非线性变换的浅层学习结构。浅层模型的一个共性是仅含单个将原始输入信号转换到特定问题空间特征的简单结构。典型的浅层学条件随机场习结构包括传统隐马尔可夫模型(HMM)、
(CRFs)、最大熵模型(MaxEnt)、支持向量机(SVM)、核回归及仅含单隐层的多层感知器(MLP)等。1.2
浅层结构函数表示能力的局限性
早期浅层结构局限性结论是关于利用逻辑门电路实现函数奇偶性问题。利用一个深度为O(logd)的网络用O(d)个计算节点去计算一个d比特和的奇偶性,而对于两层网络则需要指数倍数目的计算单元。随后又有学者指出可以利用深度为K的多项式级的逻辑门电路实现的函数,对于K-1层电路10]需要指数倍的计算节点。文献[指出深度学习结构可以很否则一个不合适的结构模型将需要数目简洁地表示复杂函数,
非常大的计算单元。这里简洁包含三方面内容:a)需要的数据量特别是带类标记的样本;b)需要的计算单元的数目;c)需要的人为先验知识。例如多项式∏i=1∑j=1aijxj可以高效地(相对于需训练的计算单元数目)利用O(mn)运算量表示成和
m
product)结构,积(sum-如果表示成积和结构,将需要O(n)计
n
m
是在机器学习和神经网络研究中可以处理
维数灾难和局部泛化限制的一个古老的思想。如图1所示,分布式表示由一系列有可能是统计独立的显著特征组成,与局部基于分布式表示的可区分模式的数目与分布泛化的方法对比,
式表示的维数(学习到的特征)是指数倍关系的。参数数目上的减少对统计机器学习是非常有意义的,因为不仅可以降低运算量,同时仅需相对较少的样本即可避免过拟合现象的发生。而聚类算法和最近邻算法等局部表示算法将输入空间切分如图1左侧所示,不同局部之间是互斥的,不能形成简洁的分布PCA和RBM等算法用较少的特征将输入空间式表示。ICA、
切分如图1右侧所示,并构建分布式表示,参数数目和需要的样本数要比子区域的数目少得多,这也是为什么会对未观测数据泛化的原因。PCA和ICA可以获取输入的主要分量信息,但对于输出信号数目小于输入信号数目时,不能很好地解决欠19]定问题。文献[中提出了利用自联想神经网络来提取数据的非线性主分量的方法,该学习方法的目的是通过事物的部分信息或者带噪声的信息来还原事物的本来信息。自联想神经网络的隐层节点数目少于输入节点数目时,可认为在自联想过程中,这些隐层能够保留数据集中的主要信息。多层神经网络20]已证明和Boltzmann机已被用于学习分布式表征。文献[
利用DBN学习特征空间对高斯过程回归的性能进行提高。深度学习算法可以看成核机器学习中一个优越的特征表示方法。2]文献[指出单个决策树的泛化性能随目标函数变量增加而降低。多个树的集成(森林)比单个树更加强大,也是因为增加了一个第三层,并潜在地形成分布式表示,可表达与子树数目指数倍个的分布。
子分类线Ⅱ
16]算量。此外文献[指出存在一大类函数不能用浅层电路表激发了利用示。这些数学结果指出了浅层学习网络的局限性,深度网络对复杂函数建模的动机。1.3
局部表示、分布式表示和稀疏表示
最近许多研究者已经研究了分布式表示的一个变体,它介——稀疏表示。它的于纯粹局部表示和稠密分布式表示之间—
思想是尽量要求所获取表示中只有少数维是有效的,使绝大多数维设为0或接近于0的无效维。目的是尽量找出信号的主要驱动源。
基于模板匹配的模型可认为含两层计算单元,第一层构建对输入数据进行匹配的多个模板,每一匹配单元可输出一个匹配度;第二层采用特定机制融合第一层的输出匹配度。典型基于局部匹配的例子是核方法。
f(x)=b+∑αiK(x,xi)
i
@
&
#+
*
0-%S
C1=1
C2=1C3=0
子分类线Ⅰ
C1=1C2=1C3=1C1=0C2=13=1
C1=1C2=0C3=1
C1=0C2=1C3=0
C1=0C2=0C3=1
C1子分类线ⅢC2=0C3=0
(1)
图1数据样本的局部式表示(左)和分布式表示(右)
xi)将输入x这里b和αi形成第二计算层。核函数K(x,
匹配到训练样本xi,并在全局范围求和。式(1)的结果可作为分类器的区分类标签,或者回归预测器的预测值。利有局部核函数的核方法能获取泛化性能,因其利用光滑性的先验知识,即目标函数可利用光滑函数逼近。在监督学习中,由训练样本(xi,yi)组建预测器,当输入x与xi靠近时,输出接近yi。通常10]这是合理假设,但文献[中指出当目标函数非常复杂时,这样的模型泛化能力很差。其原因是利用局部估计学习算法表示函数时,一个局部估计子将输入空间进行切分,并需要不同自由度参数来描述目标函数在每一区域的形状。当函数较为复杂时,需要利用参数进行描述的区域数目也是巨大的。固定核函数的这种局限性已引起基于先验知识设计核函数的研究,而如果缺乏足够的先验知识是否可通过学习获取一个核函数?该问题同样引起大量研究。Lanckriet等人
[17]
1.4深度学习成功的关键
深度学习具有多层非线性映射的深层结构,可以完成复杂
的函数逼近是深度学习优势之一;此外深度学习理论上可获取分布式表示,即可通过逐层学习算法获取输入数据的主要驱动变量。该优势是通过深度学习的非监督预训练算法完成,通过生成性训练可避免因网络函数表达能力过强而出现过拟合情况。但由于单层有限的计算能力,通过多层映射单元可提取出15]主要的结构信息。文献[深入分析并通过实验验证了贪婪层次非监督深度学习方法的优势所在。
2典型的深度学习结构
深度学习涉及相当广泛的机器学习技术和结构,根据这些
结构和技术应用的方式,可以将其分成如下三类:
a)生成性深度结构。该结构描述数据的高阶相关特性,
提出利用半正定
·2808·
或观测数据和相应类别的联合概率分布。
计算机应用研究
Δwij=Edata(vihj)-Emodel(vihj)
第29卷
(7)
b)区分性深度结构。目的是提供对模式分类的区分性能力,通常描述数据的后验分布。
c)混合型结构。它的目标是区分性的,但通常利用了生成型结构的输出会更易优化。2.1
生成型深度结构
3]文献[首次提出的DBN是目前研究和应用都比较广泛可获取观测数的深度学习结构。与传统区分型神经网络不同,
据和标签的联合概率分布,这方便了先验概率和后验概率的估计,而区分型模型仅能对后验概率进行估计。DBN解决传统BP算法训练多层神经网络的难题:a)需要大量含标签训练样本集;b)较慢的收敛速度;c)因不合适的参数选择陷入局部最优。
DBN由一系列受限波尔兹曼机(RBM)单元组成。RBM是一种典型神经网络,如图2所示。该网络可视层和隐层单元隐单元可获取输入可视单元的高阶彼此互连(层内无连接),
RBM权值的学习相对容相关性。相比传统sigmoid信度网络,
易。为了获取生成性权值,预训练采用无监督贪心逐层方式来实现。在训练过程中,首先将可视向量值映射给隐单元;然后可视单元由隐层单元重建;这些新可视单元再次映射给隐单元,这样就获取了新的隐单元。反复执行这种步骤叫做吉布斯采样。
1
h2
…
其中:Edata(vihj)是在观测数据训练集中的期望;Emodel(vihj)是模型中定义的期望。精心训练RBM对成功应用深度学习是一21]个关键。文献[提供了对RBM实际训练的指导。
通过自底向上组合多个RBM可以构建一个DBN,如图3所示。应用高斯—伯努利RBM或伯努利—伯努利RBM,可用第隐单元的输出作为训练上层伯努利—伯努利RBM的输入,二层伯努利和伯努利的输出作为第三层的输入等。这个逐层3],它指出上述逐层学高效的学习策略理论证明可参见文献[
习程序提高了训练数据基于混合模型的似然概率的变化下界。
11v1
2222v2
……………
Ikjjji
……………
ILhJhJJvI
1111
图3DBN模型
2.2区分性深度结构
卷积神经网络(CNNs)是第一个真正成功训练多层网络结
构的学习算法,与DBNs不同,它属于区分性训练算法。受视当具有相同参数的神经元应用于前一层的觉系统结构的启示,
不同位置时,一种变换不变性特征就可获取了。后来LeCun等人沿着这种思路,利用BP算法设计并训练了CNNs。CNNs作为深度学习框架是基于最小化预处理数据要求而产生的。CNNs靠共享时域权值降低受早期的时间延迟神经网络影响,
复杂度。CNNs是利用空间关系减少参数数目以提高一般前向BP训练的一种拓扑结构,并在多个实验中获取了较好性能
[6,22]
j
…
J1
v1v2…i…
I1
图2RBM模块
(2)
RBM在给定模型参数条件下的联合分布为
p(v,h;θ)=exp(-E(v,h;θ))/Z
h;θ))是归一化因子或剖分函数。其中:Z=∑v∑hexp(-E(v,模型赋予可视向量v的边际概率为
p(v;θ)=∑hexp(-E(v,h;θ))/Z
I
J
I
J
。在CNNs中被称做局部感受区域的图像的一小部分
作为分层结构的最底层输入。信息通过不同的网络层次进行传递,因此在每一层能够获取对平移、缩放和旋转不变的观测数据的显著特征。
6,22]文献[描述了CNNs在MNIST数据库中的手写体识别应用情况。如图4所示,本质上,输入图形与一系列已训练的滤波器系数进行卷积操作;后经加性偏置和压缩、特征归一化等,最初阶段伴随进一步降维的下采样(Cx)提供对空域变化的鲁棒性;下采样特征映射经加权后的可调偏置,最终利用
(3)
对伯努利(可视)—伯努利(隐藏)RBM能量函数定义为
E(v,h;θ)=-∑∑wijvihj-∑bivi-∑ajhj
i=1j=1
i=1
j=1
其中:wij为可视单元和隐单元连接权值;bj和aj是偏置量;I和J是可视单元和隐单元的数目。条件概率如式(4)计算:
p(hj=1|v;θ)=δ(∑wijvi+aj)
i=1II
(4)
激活函数进行传递。组合多个上述映射层(图5)可获取层间这样CNNs适于图像处理和理解。国内学者关系和空域信息,夏丁胤
[23]
p(vi=1|h;θ)=δ(∑wijhj+bi)
i=1
这里δ(x)=1/(1+exp(x))。相似地,对于高斯(可视)—伯努利(隐)RBM能量函数为
E(v,h;θ)=-∑∑wijvihj+
i=1j=1I
J
将这种网络应用于网络图像标注中。最近CNNs已
文件分析和语音检测等不同机器学习的应用于包括人脸检测、
2
1I
∑(v-bj)i=1i
I
-∑ajhj
j=1
J
(5)
问题中。
x
·
对应的条件概率变成:
p(hj=1|v;θ)=δ(∑wijvi+aj)
i=1I
bx蒡
Cx
蒡
wx+1X
bx+1蒡
Sx+1
(6)
图4
p(vi=1|h;θ)=N(∑wijhj+bi,1)
i=1
CNN中卷积和采样过程
其中:vi是满足均值为∑wijhj+bi、方差为1的高斯分布的实数
j=1
J
NN
C1
S2
C3
S4
值。高斯—伯努利RBMs可将实值随机变量转换到二进制随机变量,然后再进一步利用伯努利—伯努利RBMs处理。利用对数似然概率log(p(v;θ)梯度可推导出RBM的权值更新准则:
图5
卷积神经网络的原理
8]文献[近期提出一新的深度学习算法。DCN如图6所
第8期孙志军,等:深度学习研究综述·2809·
示,每层子模块是含单隐层和两个可训练的加权层神经网络。DCN是由一系列分层子模块串联组成。模块第一个线性输入层对应输入特征维数,隐层是一系列非线性参数可调单元,第二线性输出包含线性输出单元及原始输入数据,最顶模块的输如果DCN设定用于实现数字识出代表分类目标单元。例如,
1编码。如用于语音识别,别,输出可表示成1~10的0-输入对应语音波形采样或波形提取特征;如功率谱或倒谱系数,输出单元代表不同音素。
module2toplinearlayer
module1toplinearlayerhiddenlayerbottomlinearlayer
rawdata
hiddenlayerbottomlinearlayer
rawdata
…
练样本输入,经正常的自动编码器输出;训练完毕后,利用提出的tRBM对顶层进行改进,以使仅有感知图像作为输入对舌轮廓进行预测。此外深度学习在语言文件处理的研究日益受到普遍关注。利用神经网络对语言建模已有很长的历史,在语音机器翻译、文本信息检索和自然语言处理方面具有重要识别、
深层网络已经开始吸引语言处理和信息检索方面应用。最近,
28]利用基于DBN的多任务学习技的研究人员的注意。文献[
术来解决机器字译问题,这可以推广到更困难的机器翻译问题。利用DBN和深度自动编码器对文件检索可以显示基于单与广泛应用的语义分析相比具有明显优势,可令文献词特征,
这一思想已被初步扩展到音频文件检索和语音识检索更容易,别类问题
[29]
。
4结束语
深度学习已成功应用于多种模式分类问题。这一领域虽
处于发展初期,但它的发展无疑会对机器学习和人工智能系统
DCN的结构
图6
产生影响。同时它仍存在某些不适合处理的特定任务,譬如语言辨识,生成性预训练提取的特征仅能描述潜在的语音变化,不会包含足够的不同语言间的区分性信息;虹膜识别等每类样本仅含单个样本的模式分类问题也是不能很好完成的任务。
深度学习目前仍有大量工作需要研究。模型方面是否有其他更为有效且有理论依据的深度模型学习算法,探索新的特征提取模型是值得深入研究的内容。此外有效的可并行训练算法也是值得研究的一个方向。当前基于最小批处理的随机梯度优化算法很难在多计算机中进行并行训练。通常办法是利用图形处理单元加速学习过程,然而单个机器GPU对大规模数据识别或相似任务数据集并不适用。在深度学习应用拓展方面,如何充分合理地利用深度学习在增强传统学习算法的性能仍是目前各领域的研究重点。参考文献:
[1]BENGIOY,DELALLEAUO.Ontheexpressivepowerofdeeparchi-tectures[C]//Procofthe14thInternationalConferenceonDiscoveryScience.Berlin:Springer-Verlag,2011:18-36.
[2]BENGIOY.LearningdeeparchitecturesforAI[J].Foundationsand
TrendsinMachineLearning,2009,2(1):1-127.
[3]HINTONG,OSINDEROS,TEHY.Afastlearningalgorithmfordeep
beliefnets[J].NeuralComputation,2006,18(7):1527-1554.[4]BENGIOY,LAMBLINP,POPOVICID,etal.Greedylayer-wise
trainingofdeepnetworks[C]//Procofthe12thAnnualConferenceonNeuralInformationProcessingSystem.2006:153-160.
[5]LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningap-pliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.
[6]VINCENTP,LAROCHELLEH,BENGIOY,etal.Extractingand
composingrobustfeatureswithdenoisingautoencoders[C]//Procofthe25thInternationalConferenceonMachineLearning.NewYork:ACMPress,2008:1096-1103.
[7]VINCENTP,LAROCHELLEH,LAJOIEI,etal.Stackeddenoising
autoencoders:learningusefulrepresentationsinadeepnetworkwithalocaldenoisingcriterion[J].JournalofMachineLearningRe-search,2010,11(12):3371-3408.
[8]YUDong,DENGLi.Deepconvexnet:ascalablearchitecturefor
speechpatternclassification[C]//Procofthe12thAnnualConfe-
2.3混合型结构
混合型结构的学习过程包含两个部分,即生成性部分和区
分性部分。现有典型的生成性单元通常最终用于区分性任务,生成性模型应用于分类任务时,预训练可结合其他典型区分性学习算法对所有权值进行优化。这个区分性寻优过程通常是附加一个顶层变量来表示训练集提供的期望输出或标签。BP算法可用于优化DBN权值,它的初始权值通过在RBM和DBN预训练中得到而非随机产生,这样的网络通常会比仅通过BP算法单独训练的网络性能优越。可以认为BP对DBNs训练仅完成局部参数空间搜索,与前馈型神经网络相比加速了训练和收敛时间。
最近,基于DBNs的研究包括应用层叠自动编码器取代传统DBNs中的RBMs。该方法可采用和DBNs相同的训练准则,不同的是自动编码器利用区分性模型。去噪自动编码器在训练中引入随机变化过程可以产生与传统的DBNs相比拟的泛化性能;对单个去噪自动编码器的训练与RBMs生成性模型一致。
3深度学习应用现状
深度学习在信号处理中的应用对象不仅包含语音、图像和
同样也包含文本、语言和传递人类可获知的语义信息。视频,
传统的MLP已经在语音识别领域应用多年,在单独使用的情HMM的系统。最近,凭借况下它们的性能远低于利用GMM-具有很强区分性能力的DBNs和序列建模能力的HMMs,深度学习技术成功应用于语音、大词汇量连续语音识别(LVC-SR)[24]任务。文献[25]利用五层DBN来替换GMM-HMM中并利用单音素状态作为建模单元进行语音识的高斯混合模型,
26]Nair等人提出在顶层利用三阶波尔兹曼机别。文献[中,的改进型DBN,并将该DBN应用于三维物体识别任务NORB数据库,给出了接近于历史最好识别误差结果,特别地,它指出DBN实质上优于SVMs等浅层模型。文献[27]提出了tRBM,并利用自动编码器对舌轮廓进行实时提取。与一般训练不同的是,它首先利用样本数据和人工提取的轮廓数据同时作为训
·2810·
计算机应用研究第29卷
renceofInternationalSpeechComunicationAssociation.2011:2285-2288.
[9]POONH,DOMINGOSP.Sum-productnetworks:anewdeeparchitec-ture[C]//ProcofIEEEInternationalConferenceonComputerVi-sion.2011:689-690.
[10]BENGIOY,LECUNY.ScalinglearningalgorithmstowardsAI[M]//
BOTTOUL,CHAPELLEO,DeCOSTED,etal.Large-ScaleKernelMachines.Cambridge:MITPress,2007:321-358.
[11]LEETS,MUMFORDD.HierarchicalBayesianinferenceinthevisual
cortex[J].OpticalSocietyofAmerica,2003,20(7):1434-1448.[12]SERRET,WOLFL,BILESCHIS,etal.Robustobjectrecognition
withcortex-likemechanisms[J].IEEETransonPatternAnalysisandMachineIntelligence,2007,29(3):411-426.
[13]LEETS,MUMFORDD,ROMEROR,etal.Theroleoftheprimary
visualcortexinhigherlevelvision[J].VisionResearch,1998,38(15):2429-2454.
[14]ROSSIAF,DESIMONER,UNGERLEIDERLG.Contextualmodula-.JournalofNeuro-tioninprimaryvisualcortexofmacaques[J]science,2001,21(5):1689-1709.
[15]ERHAND,BENGIOY,COUVILLEA,etal.Whydoesunsupervised
pre-traininghelpdeeplearning[J].JournalofMachineLearningResearch,2010,11(3):625-660.
[16]BRAVERMANM.Poly-logarithmicindependencefoolsbounded-depth
booleancircuits[J].CommunicationsoftheACM,2011,54(4):108-115.
[17]LANCKRIETGRG,CRITIANININ,BARTLETTP,etal.Learning
thekernelmatrixwithsemidefiniteprogramming[J].JournalofMa-chineLearningResearch,2004,5(1):27-72.
[18]HINTONGE.Learningdistributedrepresentationsofconcepts[C]//
Procofthe8thAnnualConferenceoftheCognitiveScienceSociety.12.1986:1-[19]KRAMERM.Nonlinearprincipalcomponentanalysisusingautoasso-ciativeneuralnetworks[J].AIChEJournal,1991,37(2):233-243.(上接第2805页)
40]TRIGGSB,McLAUCHLANPF,HARTLEYRI,etal.Bundleadjust-[
ment:amodernsynthesis[C]//ProcofInternationalWorkshoponVi-Verlag,2000:sionAlgorithms:TheoryandPractice.London:Springer-298-372.
[41]MOURAGNONE,LHUILLIERM,DHOMEM,etal.Realtimelocali-zationand3Dreconstruction[C]//ProcofIEEEConferenceofCom-puterVisionandPatternRecognition.WashingtonDC:IEEEComputer2006:363-370.Society,
[42]NARODITSKYO,ZHOUXS,GALLIERJ,etal.Structurefrommo-MS-CIS-11-tionwithdirectionalcorrespondenceforvisualodometry,15[R].Pennsylvania:GRASPLaboratory,2010.
[43]ALISMAILH,BROWNINGB,DIASMB.Evaluatingposeestimation
methodsforstereovisualodometryonrobots[C]//Procofthe11thInternationalConferenceonIntelligentAutonomousSystems.2010.[44]TORRPHS,ZISSERMANA.MLESAC:anewrobustestimatorwith
applicationtoestimatingimagegeometry[J].ComputerVisionand2000,78(1):138-156.ImageUnderstanding,
[45]KITTB,GEIGERA,LATEGAHNH.Visualodometrybasedonstereo
imagesequenceswithRANSAC-basedoutlierrejectionscheme[C]//ProcofIEEEIntelligentVehiclesSymposium.2010:486-492.[46]TICKD,SHENJing-lin,GANSN.Fusionofdiscreteandcontinuous
[20]SALAKHUTDINOVR.Learningdeepgenerativemodels[D].Toron-to:GraduateDepartmentofComputerScience,UniversityofToronto,2009.
[21]HINTONG.Apracticalguidetotrainingrestrictedboltzmannma-chines[D].Toronto:UniversityofToronto,2010:1-20.
[22]HUANGFu-jie,LECUNY.Large-scalelearningwithSVMandconvo-lutionalforgenericobjectcategorization[C]//ProcofIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2006:284-291.
[23]夏丁胤.互联网图像高效标注和解译的关键技术研究[D].杭州:
2010.浙江大学,
[24]DAHLGE,YUDong,DENGLi,etal.Largevocabularycontinuous
speechrecognitionwithcontext-dependentDBN-HMMS[C]//ProcofIEEEInternationalConferenceonAcoustics,SpeechandSignalPro-cessing.2011:4688-4691.
[25]MOHAMEDA,SAINATHTN,DAHLGE,etal.Deepbeliefnet-worksusingdiscriminativefeaturesforphonerecognition[C]//ProcofSpeech,andSignalPro-IEEEInternationalConferenceonAcoustics,cessing.2011:5060-5063.
[26]NAIRV,HINTONGE.3Dobjectrecognitionwithdeepbeliefnets
[C]//AdvancesinNeuralInformationProcessingSystems.2009:1339-1347.
[27]FASELI,BERRYJ.Deepbeliefnetworksforreal-timeextractionof
tonguecontoursfromultrasoundduringspeech[C]//Procofthe20thInternationalConferenceonPatternRecognition.Stroudsburg,PA:As-sociationforComputationalLinguistics,2010:1493-1496.
[28]DESELAERST,HASANS,BENDERO,etal.Adeeplearningap-proachtomachinetransliteration[C]//Procofthe4thWorkshoponStatisticalMachineTranslation.2009:233-241.
[29]DENGLi,SELTZERML,YUDong,etal.Binarycodingofspeech
spectrogramsusingadeepauto-encoder[C]//Procofthe11thAnnualConferenceofInternationalSpeechCommunicationAssociation.2010:1692-1695.
epipolargeometryforvisualodometryandlocalization[C]//ProcofIEEEInternationalWorkshoponRoboticandSensorsEnvironments.2010:1-6.
[47]VanHAMMED,VEELAERTP,PHILIPSW.Robustvisualodometry
usinguncertaintymodels[C]//Procofthe13thInternationalConfe-renceonAdvancedConceptsforIntelligentVisionSystems.Berlin:Springer-Verlag,2011:1-12.
[48]CALONDERM,LEPETITV,STRECHAC,etal.BRIEF:binaryro-bustindependentelementaryfeatures[C]//ProcofEuropeanConfe-renceonComputerVision.Berlin:Springer-Verlag,2010:778-792.[49]LEUTENEGGERS,CHLIM,SIEGWARTR.BRISK:binaryrobust
invariantscalablekeypoints[C]//ProcofInternationalConferenceonComputerVision.Berlin:Springer-Verlag,2011:2548-2555.
[50]RUBLEEE,RABAUDV,KONOLIGEK,etal.ORB:anefficiental-ternativetoSIFTorSURF[C]//ProcofInternationalConferenceonVerlag,2011:2564-2571.ComputerVision.Berlin:Springer-[51]GUIZILINIV,RAMOSF.Visualodometrylearningforunmanned
C]//ProcofIEEEInternationalConferenceonRobo-aerialvehicles[
ticsandAutomation.2011:6213-6220.
[52]MIKOLAJCZYKK,TUYTELAARST,SCHMIDC,etal.Acomparison
ofaffineregiondetectors[J].InternationalJournalofComputerVi-sion,2005,65(1-2):43-72.