模式特征抽取研究进展
杨静宇,金忠,杨健
南京理工大学计算机科学与技术学院,210094,南京
摘要:
特征抽取不但从原始模式信息中提取出最有利于模式分类的特征,而且极大地降低模式样本的维数,是模式识别研究领域的重要研究内容。本文首先简要回顾模式特征抽取的经典方法,然后介绍近年来在主分量分析、非线性鉴别分析、流形学习、基于稀疏表示的图像特征抽取等方面的理论和方法研究的主要进展,最后分析了模式特征抽取研究趋势。
1.引言
模式识别是一个与人类的认知、视觉和听觉过程紧密相连的问题,其核心研究问题之一就是特征抽取(Feature Extraction)问题。人脑在每天感知外界事物的过程中,首先面临着一个特征抽取的问题, 即利用大约3万听觉神经纤维和100万视觉神经纤维,从高维的感官输入信息(如视频图像、音频信号等)中抽取便于管理的很小数量的感知关联特征来完成对事物的认识。
从模式样本的原始信息中提炼出最有利于模式分类的有效信息这一过程通常称为模式特征抽取。因此,特征抽取的过程本质上可以看成在一定准则下的优化问题。同时,在特征抽取的过程中,也极大地降低了模式的维数。因此,特征抽取不但从原始模式信息中得出了最有利于模式分类的特征,而且这些特征与原始样本信息相比,极大地降低了模式样本的维数,因此特征抽取也是一种维数削减的有效方法,这一点对高维模式样本(例如图像)识别而言十分重要。模式特征抽取问题可以定义为:在高维的观察样本空间中寻找其隐藏的有意义的低维数据结构,并藉此分析和探索事物的内在规律。在众多学科领域的研究中,科学工作者们经常需要处理海量的高维数据,如全球气候模式、恒星光谱、人类基因分布、遥感及视频图像等,因此,模式特征抽取问题研究具有广泛的应用前景。
国内外关于模式特征抽取理论与方法研究如火如荼。总体来说,特征抽取技术可分为两大类:线性特征抽取和非线性特征抽取。目前,线性特征抽取算法研究的侧重点在于小样本问题,该问题和样本数据的高维性是紧密相关的,因此在特征抽取研究中是不可回避的。对于非线性特征抽取,近年来无论理论研究还是应用开发都取得了长足的发展,有两个较大的分支值得注意。一是基于kernel的特征抽取技术[1-3],以支持向量机、kernel主分量分析和kernel鉴别分析为代表;二是以流形学习(manifold learning)为主导的维数约减理论和技术[4],2000年SCIENCE(科学)上的两篇文章开创了流形学习的先河[5,6]。有证据表明,基于流形学习的维数约减方法与人本身的认知机理具有某种内在的关联性,故该方法有着潜在的重要的研究价值。
图像是一种包含大量信息的媒体,图像信息的采集、处理、分析、检索和识别是当前信息科学与技术领域非常重要的研究课题。图像自动处理与分析是模式识别与计算机视觉学科研究的主要内容,图像特征抽取理论研究丰富与完善了模式特征抽取理论体系。近年来,有关生理学的研究成果表明:人类的视觉系统具有对图像的稀疏表示特性[7],基于稀疏表示的压缩感知理论已引起信息论及相关领域极大的兴趣和广泛关注[8-10],为模式特征抽取研究领域注入了新鲜的血液与发展动力。
本文介绍近年来在主分量分析、非线性鉴别分析、流形学习、基于稀疏表示的图像特征抽取等方面的理论和方法研究的主要进展,并分析了发展趋势。
2. 主分量分析
2.1 K-L变换
在统计模式识别理论中,主分量分析(Principal Component Analysis, PCA, 或称K-L变换)是最为经典的特征抽取方法[11-12]。设 为m维随机变量,主分量分析可以定义为寻找 个相互正交的m维单位向量 ,使得如下均方误差最小:
这里, 称为模式 第 个主分量, 为m维随机变量 的协方差矩阵 的前 个最大特征值所对应的本征向量:
其中 。
主分量分析也可以等价地定义为寻找 个m维单位向量 ,使得如下方差 最大:
PCA特征 能够最大保持模式 的内在分布规律、并消除模式 分量之间的相关性,可以实现模式样本的维数削减。PCA使用线性模型来描述数据,具有简单,便于计算等优点,得到了广泛的应用。
2.2 非线性主分量分析
对于复杂模式来说,线性模型过于简单了,以至于无法反映复杂模式的内在规律。理论与实验都证明,复杂模式的特征之间往往存在着高阶的相关性,因此观测数据集呈现明显的非线性。为了适应这一特征,有必要将PCA向非线性推广。
KPCA (核主分量分析)是一种成功的非线性主分量分析方法[2-3],它旨在将输入空间通过非线性函数映射到更高维特征空间,并在高维特征空间中应用PCA方法。由于在输入空间中数据分量间存在复杂关系的情况下,在输入空间中应用PCA这一线性方法不能捕获对样本数据描述能力强的特征;此时,KPCA方法的意义得以彰显:KPCA在由非线性映射而得的高维空间中应用PCA的手段,因此,它仍能捕获对特征空间中样本数据描述能力强的特征。KPCA 方法广泛地应用于特征抽取, 人脸识别, 图像处理等问题。基于KPCA 方法对某样本进行特征抽取时, 需计算该样本与所有训练样本间的核函数; 训练样本集越大, 相应计算量也越大, 效率也越低, 而很多实际的模式分类任务要求系统具有较高的效率。因此,KPCA存在的其特征抽取效率随着训练样本集增大而下降的特点会使得该方法很难满足实际应用的效率需要,这将影响甚至制约该方法的推广和应用。
KPCA通过核技巧能够成功地将非线性的数据结构尽可能地线性化,其局限性就是它的计算复杂度。直观上,对于全局结构非线性的数据来说,从局部看,数据可以呈现出线性性质,因此用来描述数据的局部线性结构的局部PCA方法吸引了研究人员的兴趣[13-16]。Liu与Xu借助于Kohenen自组织映射神经网络提出了拓扑局部PCA模型[17],该模型能够利用数据的全局拓扑结构与每个局部聚类结构。应用比较广泛的局部PCA方法是一个两步方案,首先利用矢量量化技术将数据空间分成若干个区域,然后在每个局部区域进行PCA分析。神经网络方法应用起来不方便,而两步方案的局部PCA方法描述局部的程度也不够充分。
在实际应用中,数据中可能存在孤立样本。 例如,在计算机视觉问题中,由于遮挡、光照条件变化,图像数据容易受到很大的影响。 由于协方差矩阵对孤立样本是非常敏感的,从而由解协方差矩阵的特征矢量问题得到的PCA特征的有效性会受到孤立样本的很大影响[18]。 Xu等假定所有的数据样本都是孤立样本[19],通过利用统计物理方法由边际分布定义出能量函数建立了鲁棒PCA的自组织规则。Torre与Black提出了能够学习高维数据(例如:图像)的线性多变量表示的鲁棒PCA[20]。解决孤立样本问题的其它方法是建立协方差矩阵的鲁棒性估计,另一些方法是利用投影追踪(Projection Pursuit)技术[21-22]。最近,Burton利用平均技术得到人脸图像的鲁棒PCA表示[23],而Zhao与Xu将常用的平方误差准则替换成对数平方误差准则建立了鲁棒PCA方法[24]。在高维空间,由于样本数的限制,孤立样本的判断更加困难,统计方法不再那么有效。
最近,Xu研讨了KPCA特征抽取的加速方法[25],Das提出了依赖于类的主成分分析(Classwise PCA),适合于类重叠度高的分类问题[26-27]。Park等提出了类增强的主成分分析(Class-Augmented PCA)[28],分成三个步骤:对类信息编码、将编码信息增强进入数据、对类增强数据进行主成分分析。
2.3 二维主分量分析与张量分析
常规的PCA技术是针对矢量数据而言的,对于计算机视觉中的图像数据,一个直接的方法是将图像的各个象素数据叠加成一个矢量数据,但其维数就相当地高了。在高维空间中,由于训练样本数是有限的,很难精确地估计协方差矩阵。另外,将二维的图像矩阵转化为一维的矢量,只能部分保持图像像素的邻近关系。
设 为 维随机矩阵, 二维主分量分析(Two-Dimensional PCA, 2DPCA)[29-30]可以定义为寻找 个n维单位向量 ,使得如下协方差矩阵的迹 最大:
这里, 为 维图像协方差矩阵。 可以称为2DPCA特征,其维数是 ,这样2DPCA需要比PCA更多的表示系数。
与常规的PCA的协方差矩阵相比,直接利用原始的图像矩阵构造的图像协方差矩阵维数要小得多。因此,2DPCA具有如下重要的优点:不改变图像像素的邻近关系,容易精确地估计图像协方差矩阵,计算相应的本征矢量所需要的计算量明显降低。
2DPCA的提出引起了众多研究人员的极大兴趣, 不时可以看到新的研究成果发表[31-35],已经引导出一系列的后续研究论文,主要集中在对算法的理解与计算技巧上[36]。Nagabhushan等将2DPCA用于3D物体识别[32],Zuo等提出了一个聚集的矩阵距离测度来度量两个矩阵特征的距离[33], Chen等甚至提出了将矢量数据矩阵化的特征抽取方法[34]。Wang等研讨了图像PCA方法与按行分块的分块PCA方法的等价性问题[35]。 分块PCA方法看上去思路很简单,更容易直观理解。
2DPCA作为“most popular dimensionality reduction algorithms”(最流行的维数削减算法)之一纳入到图嵌入的框架中[37].最近的研究工作进一步揭示了2DPCA用于图像表示的不变性[38],即水平2DPCA 的变换矩阵独立于图像行序列的任何变化,竖直2DPCA 的变换矩阵独立于图像列序列的任何变化。
2DPCA思想激发了特征抽取理论与应用从1阶张量(向量),到2阶张量(即矩阵)再到高阶张量的发展历程。最近,Xiaofei He等提出了张量子空间分析方法[39], Wang等提出了二维图像与高维张量数据的Datum-as-Is表示法[40]。
3.鉴别分析
3.1 线性鉴别分析
线性鉴别分析(Linear Discriminant Analysis, LDA)的基本思想是由Fisher最早提出的,其目的是选择使得Fisher准则函数达到极值的向量作为最佳投影方向,从而使得样本在该方向上投影后,达到最大的类间离散度和最小的类内离散度。在Fisher思想的基础上,Wilks[41] 和Duda[42] 分别提出了鉴别矢量集的概念,即寻找一组鉴别矢量构成子空间,以原始样本在该子空间内的投影矢量作为鉴别特征用于识别。
Fisher线性鉴别分析无论在理论上还是在应用上都取得长足的发展[43-46],成为一种广泛使用的、十分有效的特征抽取工具。在特征抽取的理论中,要求抽取的特征之间尽可能是不相关的,这一要求的出发点是有利于提高模式识别的准确性和实现最大限度的维数削减。Jin等[44-45]提出了具有统计不相关性的最优鉴别分析的概念和相关理论,该理论从统计不相关的角度,提出了具有统计不相关性的最优鉴别矢量集的定义。著名的Foley-Sammon鉴别矢量集通常难以消除模式样本特征之间的相关性,甚至经过Foley-Sammon变换后的特征分量之间有时是强相关的。与Foley-Sammon鉴别矢量集只满足正交条件不同的是,具有统计不相关性的最优鉴别矢量要求满足共轭正交条件。Jin等[45]揭示了两个经典的鉴别准则 与 之间的理论联系,建立了在特征提取投影方法中几何上的概念“正交条件”、“共轭正交条件”与统计上的概念“相关”、“不相关”之间的理论联系。
对于类别协方差矩阵不同的情况,异方差鉴别分析方法[46]可以得到比LDA 更好的分类性能。 Ridder对Fisher准则函数加以改进,将Fisher鉴别分析的理论体系加以拓广,使得其在理论和算法上具有更广泛的适用性[47]。H.F. Li等提出了最大边际准则[48],用差分代替经典线性鉴别中的商,所以对类内散度矩阵的奇异不敏感。Song等提出了大间距线性投影鉴别准则[49]以及最大散度差鉴别准则[50]。Kwak等提出了模糊Fisher分析方法[51],Zhuang等提出了逆Fisher鉴别分析方法[52],Yang等研讨了模糊逆Fisher鉴别分析方法[53]。
3.2 小样本问题
小样本问题是鉴别分析中的一个棘手问题,也是一个研究热点,它产生的主要原因是:模式识别中样本的维数往往大大超过训练样本的个数,这样就会造成类内散度矩阵的奇异。
一些实用的近似算法也相继提出[65-67]。Thomas提出了基于直接协方差矩阵选择的线性鉴别分析方法[68] 。Liu等[69]在Triangle square ratio准则下将组合的线性鉴别分析应用于人脸识别, Kyperountas等[70]提出了解决小样本问题的加权分段LDA方法。最近,Jiang等[71]提出本征谱的正则化方法。
3.3 非线性鉴别分析
关于非线性鉴别分析的研究最早追溯到二十世纪七十年代。当时,K. Fukunaga提出了一系列基于改进Fisher准则的非线性鉴别分析方法[72]。但是,由于这些算法都是针对一些特定的问题提出的,再加上其具体实现的复杂性,使得这些非线性鉴别分析方法一直没有得到广泛的应用。直到九十年代,随着统计学习理论的成熟和支持向量机(Support Vector Machine, SVM)在模式识别领域的成功应用,一些基于kernel的非线性特征抽取方法相继产生[73]。在kernel主分量分析理论与算法基础上,Mika提出了kernel鉴别分析的概念[74]。由于Mika的方法只适用于两类问题,Baudat等[75]提出了适用于多类问题的kernel鉴别分析算法。随后的研究者分别从不同的角度应用和发展了非线性鉴别分析理论与算法。
由于Kernel鉴别分析的计算复杂度与训练样本的个数有关[76-77],即为训练样本个数的三次方。当训练样本个数较大时,Kernel鉴别分析算法的计算效率受到严峻的挑战,如何大幅度地提高核鉴别矢量的计算效率,设计出更为高效的Kernel鉴别分析算法,乃当务之急[76-78]。现有鉴别分析的稳健性和抗干扰能力有待验证,如何设计稳健的鉴别分析算法也是一个待研究的重要课题[79-80]。
Yang等[81-82] 证明了KFDA的本质是KPCA+LDA,并在无限维的Hilbert 空间内建立了完备的Kernel Fisher鉴别分析KPCA+LDA的两阶段构架,充分利用了两类非线性鉴别信息,提高了非线性鉴别特征的有效性。Zafeiriou等[83]以“KFDA等价于KPCA plus LDA”为理论基础导出了最小类方差的支持向量机算法。
3.4 二维线性鉴别分析
受2DPCA的启发,有学者陆续提出了二维线性鉴别分析(2DLDA)方法[84-87]。Nhat等提出了具有一定鉴别信息的图像PCA方法[88], Jing等研讨了两阶段的二维鉴别分析方法[89], 这就是2DPCA+LDA。
Qiu与Wu提出了二维最近邻鉴别分析方法以改进最近邻分类的性能[90]。Zhi与Ruan提出了二维直接加权线性鉴别分析方法[91],首先基于图像矩阵计算图像协方差矩阵,然后利用加权方法减弱类重叠的影响,再利用直接LDA方法提取鉴别特征。Liang等[92]分析了二维鉴别分析准则的上界,研讨了在相同维度下,二维鉴别分析方法的局限性。Zheng等[93]对一维鉴别分析与二维鉴别分析进行了比较研究,提出了二维鉴别分析作为Bayes最优特征抽取方法的充分条件。
最近,Wang等将二维主分量分析与二维极大散布差组合在一起[94],提出了二维极大散布差鉴别分析方法。Yang等[95] 认为极大边界准则忽略了样本局部结构鉴别信息以及嵌入在图像内的结构信息,提出了基于拉普拉斯双向极大边界准则的鉴别特征抽取方法,通过将图像类内拉普拉斯矩阵与图像类间拉普拉斯矩阵的差异在行、列两个方向上的极大化来计算鉴别矢量。
将二维的方法扩展到多维,Yan 等[96]提出了基于张量的鉴别分析方法。最近,Zhang等[97]提出了张量线性拉普拉斯鉴别(Tensor linear Laplacian discrimination, TLLD)算法。它是线性鉴别分析(LDA)与线性拉普拉斯鉴别(LLD)在非线性子空间学习和张量表示两方面的拓展。Nie等[98]提出确定局部张量鉴别分析维数的算法。
4.流形学习
4.1 流形学习定义
理论与实验都证明,复杂模式的特征之间往往存在着高阶的相关性,因此数据集呈现明显的非线性性,并且往往是由一组维度远远低于样本维度的隐含变量决定的。在数学上,具有上面性质的模型是流形。以流形为模型,利用流形的基本假设和性质来研究高维空间中的数据分布,达到简约数据,降低维度,探寻复杂模式的内部规律的学习方法被称为流形学习。2000年,Seung提出感知以流形方式存在[5],并通过实验证明了人脑中的确存在着稳态的流形。这为统计模式识别与人类感知架起了一座桥梁[99,100],使得流形学习具有了更加坚实的理论基础。
流形学习可形式化定义为:令 是包含在 欧式空间中的 维域,令 为一光滑嵌入,其中 。数据集 由某个随机过程生成,经 映射形成观测空间的数据集 。一般称 为隐空间, 为隐数据。流形学习的目标是要从观测数据 中重构映射 和 。
流形学习的核心,是如何合理有效地对数据进行流形建模,即如何找到一个好的流形模型,能够较好的逼近数据,使得数据的内在结构性质能够在流形上良好地保持下来,以便研究者通过对流形模型的研究,获得对数据集内在结构的深刻认识。对数据进行流形建模主要有两条途径:“隐式”的图嵌入方法、“显式”的主流形方法。
4.2 图嵌入方法
图嵌入方法并不在观测空间中构造学习流形,而是学习观测数据之间的近邻关系或者全局关系,并在低维特征空间中重现这种关系,从而实现从低维特征空间到高维观测空间的一个隐式的流形映射。
2000年在Science上发表的文章分别提出了局部线性嵌入(LLE)[6]与等度特征映射(Isomap)算法[101],奠定了流形学习的基础。随后M. Belkin 等又提出了拉普拉斯特征映射的方法[102]。经过近些年的发展,不断涌现出LTSA[103], HLLE[104], SDE[105-106], Diffusion Map[107-108]等方法,以及算法之间的关系[109-112]。目前,流形学习的研究正进一步走向深入。
Xiaofei He等将拉普拉斯特征映射方法线性化,提出了局部保持投影方法(LPP)[113],将流形学习方法成功运用于鉴别分析中。LPP只考虑了局部信息,Jian Yang同时考虑了局部信息和全局信息,提出了非监督的鉴别投影(UDP)[114]。 Chen 等提出了局部鉴别嵌入(LDE)[115],Yan等提出了边界Fisher分析方法(MFA)[110],Sun等提出了局部保持的典型相关分析算法(LPCCA)[116],促进了高维小样本情况下特征抽取与鉴别分析的发展,并取得了广泛的应用成果[117-118]。
最近,Pan等提出了非监督学习的加权的局部线性嵌入(WLLE)方法[119],用以发现数据中的诸如邻近关系、全局分布、聚类的本征结构,其主要优势在于通过避开不合理的邻居搜索优化了本征结构发现的过程。Hou等提出了一种稳定的局部维数削减方法[120],LLE、LE、LTSA可以分别发展为SLLE、SLE、SLTSA。Liu等[121]提出了一种多层等距特征映射方法(Multi-Layer ISOMAP)。
在二维局部保持投影方法(2DLPP)[122-123]的基础上,Zhi与Ruan提出了二维局部保持的鉴别投影方法[124],Wan等提出了二维局部图嵌入的鉴别分析方法[125]。
4.3 主流形
主流形方法力图在高维观测空间中直接构造学习流形来逼近观测数据,可以追溯到上世纪80年代Hastie的HS主曲线[126]及其后续的一些主曲线工作:K主曲线[127-128],概率主曲面[129],正则主流形[4],非监督核回归主曲面[130]等。
HS主曲线[126]强调流形的自相合性质,即位于数据分布的“中间”的性质;K主曲线[127-128]是有限弯曲的主曲线与正则主流形,在最小二乘意义下最小化流形到观测数据集的距离。产生式拓扑映射(GTM) [131]与概率主流形(PPM) [132]是从密度函数估计的角度来学习流形。D主曲线[133]从数据投影的方差性质出发学习流形。
主流形方法能够明确地构造逼近数据的流形,因此能够较为灵活地逼近数据,并能够在流形上进行各种分析,如与数据集的距离,样本之间在流形上的距离等,并且不局限于流形的连通性等限制,是一种具有吸引力的流形学习方法。但面临模式特征抽取任务时,传统的主流形方法具有以下问题:
l 与模式统计特征抽取关系不明确。主流形方法往往应用于数据描述任务,例如字符骨架提取,图像目标边缘描述等,但其在模式统计特征抽取中的应用还存在理论和算法上的困难。正如Smola[4]指出的那样,传统主流形方法是适合于数据描述任务(即探究数据具有何种典型性质)的学习方法,而非适合于特征抽取任务(即探究何种特征能够可靠地反映数据的内在结构)的学习方法。
l 主流形方法需要构造较为复杂的非线性模型,并进行优化,因此其常常面临着初始解质量不佳以及优化算法的局部最优问题。
l 主流形逼近的约束问题。无约束地用流形任意逼近数据会导致无意义的解。如何为流形选择适当的约束,是主流形学习的关键。正则主流形方法在数据描述任务背景下为主流形学习提供了一个统一的正则化框架,而特征抽取任务下的流形逼近约束任务尚没有得到深入的研究。
在主流形学习的初始解选取方面,非监督核回归主曲面[130]首先采用传统统计特征抽取方法,如PCA,KPCA等或者图嵌入方法,如LLE,ISOMap等来提供隐变量初始解;然后,以留一重构误差为目标,进一步优化隐变量,在特征抽取方面取得了好的结果。非监督核回归主曲面方法展示了图嵌入这种“隐式”的流形学习方法,同主流形或隐变量模型这种“显式”的流形学习方法结合的思路。在[134-135]中,以LaplacianEigenmap方法得到的特征作为隐变量,可以构造隐变量模型,实际上构造了一个主曲面。
近年来,主流形方法在初始化,学习算法,正则约束条件等方面都取得了一定的进展。Sun等提出了相似性保持的主曲线理论[136, 159],将保持样本之间的相似性关系作为主曲线学习的目标之一,并基于此,发现相似性保持主曲线的投影指标函数是一个鲁棒的特征抽取器,从而为主流形方法走向统计特征抽取架起了桥梁。在主流形学习的正则约束方面,Feuersanger等[160]考虑了在稀疏网格上学习主流形,稀疏性保证了学习流形的简单性,从而可能获得较好的推广性能。
5. 基于稀疏性理论的图像特征抽取
Serre在其博士论文中指出,人类的视觉系统具有对图像的稀疏表示特性[7]。科学工作者们揭示了在低层和中层的人类视觉系统中,视觉通道中的许多神经元对大量的具体的刺激,比如目标的颜色、纹理、朝向和尺度等,具有选择性。若将这些神经元视为视觉阶段的超完备集中的信号基元的话,神经元对于输入图像的激活机制具有高度的稀疏性。其实,我们很容易体验我们的视觉系统对图像感知的稀疏性,给定一幅人脸图像,加以很强的噪音污染或者将其缩小,我们还是能够轻而易举地将其识别出来。这说明,我们不需要感知图像中所有的像素,只要感知其中很稀疏的一部分就足以完成识别任务了。
5.1 稀疏表示理论
稀疏表示理论最早源于“有效编码假说”,即视觉感知的目标就是产生一个外部输入信号的有效表示。到底怎样的表示才是有效的呢?研究人员从不同的角度来回答这一问题。一类生理机理测试方法,即观察在自然图像刺激条件下检测神经细胞的响应特性,如Vinje 和Gallant在2000年Science上发表的研究成果[137]:通过记录短尾猴V1区在开放的和模拟的自然场景下的神经细胞响应,验证了视皮层(V1区)神经细胞用稀疏编码有效表示自然场景,稀疏编码用最小冗余度传递信息。另一类是模型仿真方法,即利用自然图像的统计特性,建立模型来模拟早期视觉系统的处理机制。例如Olshausen和Field [138]提出了稀疏编码模型,通过寻找自然图像的稀疏编码表示,使稀疏编码网络学习得到类似于简单细胞感受野的结构。Hyvarinen 和Hoyer[139] 应用一个两层的稀疏编码模型来解释类似于复杂细胞感受野的存在和简单细胞的拓扑结构。
在图像处理领域,关于图像稀疏表示的研究大体上沿着两条主线展开。其一是多尺度分析理论(单一基方法):研究者认为图像具有非平稳性和非高斯性,很难用线性算法处理,应建立适合处理边缘及纹理各层面几何结构的图像模型,因此以Ridgelet, Curvelet, Bandlet, Contourlet 变换为代表的多尺度几何分析方法[140-143]成为图像稀疏表示的有效途径;其二是过完备库分解理论(多基方法):Mallat和Zhang首先提出信号在过完备库(over-complete dictionary)上分解的思想[144],该分解能够根据信号本身的特点自适应选取表示基,故能够实现信号更为稀疏的表示。该思想被后来的研究者不断的丰富和发展[145],催生了一系列基于稀疏表示的图像分解方法,其中值得一提的是Starck等提出的一种将图像分解为几何结构、纹理和噪声的形态分量框架[146-147],该框架假设图像的几何结构和纹理分量在特定的基底或过完备库上是类内稀疏的,而用于各形态分量表示的基底或过完备库之间具有互不相关性,从而通过结构分量和纹理分量的分类稀疏表示来实现图像形态分量的有效分离。
5.2 压缩感知理论
在信息论和信号处理领域,压缩感知理论最近悄然兴起并日渐升温。压缩感知(compressed sensing),也称为压缩采样(compressive sampling)或稀疏采样(sparse sampling),是利用信号本身的稀疏性先验信息建立起来的一套用于信号获取和重建的理论和方法。斯坦福大学的D. Donoho教授, 加州理工学院的E. Candes教授, 和加州大学的华裔数学奇才T. Tao教授等在该方面做出了重要的奠基性工作[8-10]。
稀疏性思想方法已经“润物细无声”地渗透到模式识别领域。最近,K. Labusch 等[148]报道了一个令人振奋的结果:基于稀疏编码(Sparse coding)的方法在大规模的MNIST标准字符库上的识别率优于经典的Gabor变换方法。该结果表明稀疏编码的理论方法可能会在模式识别中找到广阔的用武之地。另外,基于Curvelet, Contourlet变换的方法被应用于人脸识别,并取得了令人鼓舞的试验结果[149]。
5.3 Kernel学习理论的稀疏表示
稀疏性概念在Kernel学习理论中时常出现。该学习理论中,稀疏性的含义是解的“表示系数”的稀疏性,“表示系数”的稀疏性直接决定了Kernel学习机器的计算复杂度。对支持向量机而言,其分界面是由少数支持向量确定的,也就是其法向量的表示系数是稀疏的,其稀疏性程度决定了支持向量机的分类速度。为了提高支持向量机的速度,研究者提出了具有更稀疏性解的学习机器,如M. Tipping 提出的 Relevance Vector Machine [150].随后的研究探讨了在表示系数空间内采用l1-范数代替l2-范数,建立了稀疏的KPCA[151]和稀疏的KFD模型[74]并给出了具有稀疏表示系数的解。
Kernel学习理论的稀疏表示是指解的表示系数的稀疏性,对降低特征抽取和分类过程中的计算量是有意义的,但无法刻画图像模式内部(Intra-pattern)的稀疏性。针对如何抽取模式内部真正有意义的“稀疏”特征, Zhou等[152]提出了稀疏主分量分析(Sparse principle component analysis, SPCA)方法,该方法首先将PCA刻画成为一个回归最优化问题,然后加上一个关于回归系数的l1-范数约束,求出的一组回归系数(即PCA的投影向量)具有稀疏性,即投影向量的大部分元素为零。随后,d'Aspremont等[153]和Moghaddam等[154]分别建立了基于势(cardinality)约束的SPCA模型并给出了不同的求解算法。Moghaddam等进一步将他们的SPCA模型推广为基于势约束的鉴别分析模型并提出了稀疏鉴别分析(Sparse linear discriminant analysis, SLDA)方法[155]。K. Huang和Aviyente [156]认为基于信号重建的方法鉴别能力相对较弱,但对噪声等污染不敏感;相反,基于鉴别性的方法鉴别能力强,但对抗噪声等污染的能力差,故提出一种融合基于稀疏表示的信号重建和鉴别分析为一体的方法,试验结果表明该方法即有较好的鉴别能力又有较强的抗污染能力。最近,Cai等提出了一种将源于流形学习的LPP稀疏化的技术:稀疏子空间方法[157],并在人脸识别的试验中证实了该方法的有效性。
5.4 图像模式的稀疏性
图像模式的稀疏性不仅体现在模式内部,也体现在模式之间。模式内部(Intra-pattern)的稀疏性刻画为特征抽取提供了依据,模式之间(Inter-pattern)的稀疏性则为分类器的设计提供了可能。最近, Wright等[158]利用模式间的稀疏性设计出一种基于稀疏表示分类(Sparse representation-based classification)方法,其基本思想是,一个待识别的图像样本,在各类训练样本总体构成的基底上的表示系数(表示系数通过求解一个通用的稀疏表示模型得到)是稀疏的,也就是说,表示系数大部分为零,不为零的部分应为在同类样本上的表示系数。该方法在稀疏表示与模式分类之间建立了一座桥梁,为稀疏表示理论在模式识别的应用树立了一个良好的开端。
6.研究趋势
模式特征抽取任务是将高维观察空间的样本映射到一个低维的特征空间内,使得在该空间内,模式类之间的可分离性在某种准则意义下得到最佳的保持或增强。最常用的准则是Fisher鉴别准则,该准则简单而易于优化,但在理论上有相当的局限性。从理论上揭示各种准则之间的内在关系,将Fisher鉴别分析的理论体系加以拓广,建立面向高维数据分析的广义鉴别分析的理论和算法具有重要的理论意义。
在模式识别理论中,特征抽取的一般原则是所抽取的特征之间的统计相关性越小越好,最好是抽取统计不相关的特征或统计相互独立的特征。近年来,独立分量分析(Independent Component Analysis, ICA),受到人们的普遍关注,成为信号处理、机器学习和模式识别等领域的研究热点。由于独立分量分析方法不仅涉及到变量间的二阶相关性还涉及到变量间的高阶相关性,故独立分量分析可视为主分量分析的一种推广。增强独立分量的鉴别能力是模式特征抽取研究的一个可行方向。
随着数据采集技术的不断提高(如提高图像采集的分辨率),原始数据已逐渐呈现纵向的高维性和横向的多重性的态势。数据纵向的高维性直接导致了小样本问题的产生,即在这些问题中,数据的维数大大超过训练样本的个数。数据横向的多重性造成了样本表示的复合性,即对于同一样本,通过多传感器可获得多组特征集,如何有效的融合多组特征而获得最佳的识别效果,是一个亟待解决的问题。
已有流形学习方法主要侧重于研究数据的分布及如何更好地描述数据,以应用于维数约减、数据可视化方面,但与模式分类的关系不够紧密。如何更有效地将流形学习与模式分类相结合是一个值得研讨的方向。
目前,稀疏性理论和方法研究大多集中在生理和视觉科学、信息论、信号处理、图像处理等领域,稀疏性和模式识别相结合的研究较少,还处在起步阶段,基于稀疏性的特征抽取和模式分类无论在理论上还是在算法上,都有待于发展和完善。此外,提取基于稀疏性的、符合人类视觉感知特性的鉴别特征(如图像原始要素特征、表征特征、二维基素图[161])等具有重要意义。这种稀疏鉴别特征可以用来直接从二维图像中提取具有感知、描述、理解和鉴别该图像数据库的能力,其研究成果对探索人类的认知过程与进一步了解人类认知图像对象的本质具有十分重要的理论意义。
特征选择(Feature Selection)是从已有特征集合中筛选出一个最优特征子集,其过程一般与分类器交互。与特征选择不同,特征抽取的过程一般与分类器没有交互。最近,Yang提出了由分类器到鉴别器的概念[162],由分类器驱动的模式特征抽取方法研究是一个新的研究方向。
7.结语
本文首先简要回顾模式特征抽取的经典方法,然后介绍近年来在主分量分析、非线性鉴别分析、流形学习、基于稀疏表示的图像特征抽取等方面的理论和方法研究的主要进展,最后分析了模式特征抽取研究趋势。由于篇幅限制,对模式特征抽取的其它一些重要研究方向(包括独立分量分析、典型相关分析、半监督学习等)没有展开讨论。
致谢
本文得到国家自然科学基金重点项目(No.60632050)与国家863高技术研究发展计划课题 (2006AA01Z119)的资助。
参考文献
[1] B. Scholkopf and A. Smola, Learning with Kernels. Cambridge, Mass.: MIT Press, 2002.
[2] B. Scholkopf, A. Smola, and K. R. Muller, “Nonlinear component analysis as a kernel eigenvalue problem”, Neural Computation, 1998, 10(5), pp. 1299-1319.
[3] B. Scholkopf, S. Mika, C. Burges, P. Knirsch, K.-R. Muller, G. Ratsch, and A. Smola, "Input space vs. feature space in kernel-based methods," IEEE trans. on Neural Networks, vol. 10(5), pp. 1000--1017, September 1999.
[4] A.J. Smola, S. Mika, B. Schölkopf, R.C. Williamson, “Regularized Principal Manifolds” Journal of Machine Learning Research, Vol.1, No. 3, pp. 179-209, 2001.
[5] H. S. Seung and D. D. Lee, “The Manifold Ways of Perception”. Science, 2000, vol. 290. pp. 2268 – 2269.
[6] S. T. Roweis and L. K. Saul, “Nonlinear Dimensionality Reduction by Locally Linear Embedding”, 2000, Science, vol. 290, pp. 2323-2326.
[7] T. Serre, “Learning a Dictionary of Shape-Components in Visual Cortex: Comparison with Neurons, Humans and Machines,” PhD dissertation, MIT, 2006.
[8] D. Donoho, “For Most Large Underdetermined Systems of Linear Equations the Minimal l1-Norm Solution Is Also the Sparsest Solution,” Comm. Pure and Applied Math., vol. 59, no. 6, pp. 797-829, 2006.
[9] E. Cande`s, J. Romberg, and T. Tao, “Stable Signal Recovery from Incomplete and Inaccurate Measurements,” Comm. Pure and Applied Math., vol. 59, no. 8, pp. 1207-1223, 2006.
[10] E. Cande`s and T. Tao, “Near-Optimal Signal Recovery from Random Projections: Universal Encoding Strategies?” IEEE Trans. Information Theory, vol. 52, no. 12, pp. 5406-5425, 2006.
[11] K. Fukunaga, Introduction to Statistical Pattern Recognition, Academic Press, New York, 1990.
[12] A. Levy and M. Lindenbaum. Sequential Karhunen-Loeve basis extraction and its application to images. IEEE Trans. on Image Processing, vol.9, 1371-1374, 2000.
[13] A.Ahmadi, S. Omatu, T. Fujinaka and T. Kosaka. Improvement of reliability in banknote classification using reject option and local PCA. Information Sciences, Volume 168, Issues 1-4, 3 December 2004, Pages 277-293.
[14] A.-M. Yan, G. Kerschen, P. De Boe and J.-C. Golinval. Structural damage diagnosis under varying environmental conditions—part II: local PCA for non-linear cases. Mechanical Systems and Signal Processing, Volume 19, Issue 4, July 2005, Pages 865-880.
[15] G. KERSCHEN and J. -C. GOLINVAL. NON-LINEAR GENERALIZATION OF PRINCIPAL COMPONENT ANALYSIS: FROM A GLOBAL TO A LOCAL APPROACH. Journal of Sound and Vibration, Volume 254, Issue 5, 25 July 2002, Pages 867-876.
[16] R. Moller and Heiko Hoffmann. An extension of neural gas to local PCA. Neurocomputing, Volume 62, December 2004, Pages 305-326.
[17] Z.Y. Liu and L. Xu. Topological local principal component analysis. Neurocomputing, Volume 55, Issues 3-4, October 2003, Pages 739-745.
[18] E. Oja, J. Karhunen, On stochastic approximation of the eigenvectors and eigenvalues of the expectation of a random matrix, J. Math. Analysis and Application, vol.106, pp.69-84,1985.
[19] L. Xu, Yuille, A.L. Robust principal component analysis by self-organizing rules based on statistical physics approach. IEEE Transactions on Neural Networks, Volume 6, Issue 1, Jan. 1995, Page(s):131 – 143。
[20] Fernando De la Torre, Michael J. Black. Robust Principal Component Analysis for Computer Vision. Int. Conf. on Computer Vision (ICCV’2001), vol. 1, Page(s):362 – 369, Vancouver, Canada, July 2001.
[21] D. Wang and J.A. Romagnoli. Robust multi-scale principal components analysis with applications to process monitoring. Journal of Process Control, Volume 15, Issue 8, December 2005, Pages 869-882.
[22] I. Stanimirova, B. Walczak, D. L. Massart and V. Simeonov. A comparison between two robust PCA algorithms. Chemometrics and Intelligent Laboratory Systems, Volume 71, Issue 1, 30 April 2004, Pages 83-95.
[23] A. Mike Burton, Rob Jenkins, Peter J.B. Hancock and David White. Robust representations for face recognition: The power of averages. Cognitive Psychology, Volume 51, Issue 3, November 2005, Pages 256-284.
[24] Shijian Zhao and Yongmao Xu. Multivariate Statistical Process Monitoring Using Robust Nonlinear Principal Component Analysis. Tsinghua Science & Technology, Volume 10, Issue 5, October 2005, Pages 582-586.
[25] Yong Xu, David Zhang, Fengxi Song, Jingyu Yang, Zhong Jing, Miao Li. A method for speeding up feature extraction based on KPCA. Neurocomputing, Volume 70, Issues 4-6, Pages 1056-1061, 2007.
[26] K. Das, S. Osechinskiy, Z. Nenadic. A classwise PCA-based recognition of neural data for brain-computer interfaces. In Proceedings of the 29th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, 2007, pp. 6519–6522.
[27] Koel Das, Zoran Nenadic. An efficient discriminant-based solution for small sample size problem. Pattern Recognition, 42 (2009) 857 – 866.
[28] Myoung Soo Park, Jin Young Choi. Theoretical analysis on feature extraction capability of class-augmented PCA. PatternRecognition, 42(2009)2353-2362.
[29] J. Yang and J. Y. Yang. From image vector to matrix: A straight forward image projection technique – IMPCA vs. PCA. Pattern Recognition, 2002, 35(9): 1997-1999.
[30] J. Yang, David Zhang, A.F. Frangi, J.Y. Yang. Two dimensionalPCA: a new approach to appearance-based face representationand recognition. IEEE Pattern Anal. Machine Intell. 26 (1) (2004)131–137.
[31] Monica Benito and Daniel Pena. A fast approach for dimensionality reduction with image data. Pattern Recognition, Volume 38, Issue 12, December 2005, Pages 2400-2408.
[32] P. Nagabhushan, D.S. Guru and B.H. Shekar. Visual learning and recognition of 3D objects using two-dimensional principal component analysis: A robust and an efficient approach. Pattern Recognition, Volume 39, Issue 4, April 2006, Pages 721-725.
[33] W. Zuo, D. Zhang and K. Wang. An assembled matrix distance metric for 2DPCA-based image recognition. Pattern Recognition Letters, Volume 27, Issue 3, February 2006, Pages 210-216.
[34] S. Chen, Y. Zhu, D. Zhang and J.-Y. Yang. Feature extraction approaches based on matrix pattern: MatPCA and MatFLDA. Pattern Recognition Letters, Volume 26, Issue 8, June 2005, Pages 1157-1167.
[35] L. Wang, X. Wang, J. Feng. On image matrix based feature extraction algorithms. IEEE Transactions on Systems, Man and Cybernetics, Part B, Volume 36, Issue 1, Feb. 2006 Page(s):194 - 197.
[36] R. P. W. Duin, M. Loog, T. K. Ho. Recent submissions lin linear dimensionality reduction and face recognition. Pattern Recognition Letter, 27(7):707-708, 2006.
[37] Shuicheng Yan, Dong Xu, Benyu Zhang, Hong-jiang Zhang, Qiang Yang, and Stephen Lin. Graph embedding and extensions: a general framework for dimensionality reduction. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29:40-51.
[38] Jian Yang, Chengjun Liu, Horizontal and Vertical 2DPCA-based Discriminant analysis for Face Verification on a Large-scale Database, IEEE Transactions on Information Forensics and Security, 2007,2(4),781-792.
[39] X He, D Cai, P Niyogi. Tensor Subspace Analysis. Advances in Neural Information Processing Systems, 2005.
[40] Hongcheng Wang, Narendra Ahuja. A tensor approximation approach to dimensionality reduction. Journal of Computer Vision, 2008, 76:217-229.
[41] S.S. Wilks, Mathematical Statistics, Wiley, New York, 1962.
[42] R. O. Duda, P.E. Hart, and D.G. Stork, Pattern Classification, John Wiley & Sons, second ed., 2001
[43] P. N. Belhumeur, et al. Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection. IEEE Trans.Pattern Anal. Machine Intell. 19(7) (1997) 711-720.
[44] Zhong Jin, Jingyu Yang, Zhongshan Hu, Zhen Lou, Face Recognition based on uncorrelated discriminant transformation, Pattern Recognition, 2001,34(7): 1405-1416.
[45] Zhong Jin, Jingyu Yang, Zhenmin Tang, Zhongshan Hu. A theorem on the uncorrelated optimal discriminant vectors. Pattern Recognition, 2001, 34(10):2041-2047.
[46] M. Loog, R.P.W. Duin, Linear dimensionality reduction via a heteroscedastic extension of LDA: the Chernoff criterion, IEEE Trans. PAMI, 26(6): 732-739, 2004.
[47] D. Ridder and M. Loog and M. Reinders, “Local Fisher embedding”, Proc. 17th International Conference on Pattern Recognition (ICPR2004), 2004.
[48] H.F. Li, T. Jiang, and K.S. Zhang. Efficient and robust feature extraction by maximum margin criterion. In Proc. of Neural Information Processing Systems, 2003.
[49] Fengxi Song, Jingyu Yang, and Shuhai Liu. Large margin linear projection and face recognition. Pattern Recognition, 2004, 37(9): 1953-1955.
[50] Fengxi Song, David Zhang, Dayong Mei, and Zhongwei Guo. A multiple maximum scatter difference discriminant criterion for facial feature extraction. IEEE Transactions on SMC, Part B, 2007, 37(6): 1599-1606.
[51] K.C.Kwak, W.Pedrycz. Face recognition using a fuzzy Fisher face classifier. Pattern Recognition, 38(10)(2005):1717–1732.
[52] X.S.Zhuang, D.Q.Dai. Inverse Fisher discriminant criteria for small sample size problem and its application to face recognition. PatternRecognition, 38(11)(2005):2192–2194.
[53] Wankou Yang, Jianguo Wang, Mingwu Ren, Lei Zhang, Jingyu Yang. Feature extraction using fuzzy inverse FDA. Neurocomputing, Volume 72, Issues 13-15, August 2009, Pages 3384-3390.
[54] J.H. Friedman, Regularized discriminant analysis, J. Am. Stat. Assoc.84 (405) (1989) 165–175.
[55] Zi-Quan Hong and Jing-Yu Yang, Optimal discriminant plane for a small number of samples and design method of classifier on the plane. Pattern Recognition 24 4 (1991), pp. 317–324.
[56] Y. Q., Cheng , J-Y Yang et al, Optimal Fisher discriminant analysis using the rank decomposition. Pattern Recognition,1992,25(1):101-111.
[57] Liu K, Cheng Y.-Q., Yang J.-Y., et al., Algebraic feature extraction for image recognition based on an optimal discriminant criterion. Pattern Recognition, 26 (6) (1993) 903-911.
[58] Liu K, Yang J.-Y. et al, An efficient algorithm for Foley-Sammon optimal set of discriminant vectors by algebraic method, International Journal of Pattern Recognition and Artificial Intelligence 6(5) (1992) 817-829.
[59] T.Hastie, R.Tibshirani. Penalized discriminant analysis.The Annals of Statistics, 23(1)(1995): 73–102.
[60] P.N. Belhumeur, et al., Eigenfaces vs. Fisherfaces: recognition using class speci9c linear projection, IEEE Trans. Pattern Anal.Mach. Intell. 19 (7) (1997) 711–720.
[61] L. Chen, H.M. Liao, M. Ko, J. Lin, G. Yu, A new LDA-based face recognition system which can solve the small sample size problem, Pattern Recognition 33 (2000) 1713–1726.
[62] Hua Yu, Jie Yang, A direct LDA algorithm for high-dimensional data—with application to face recognition, Pattern Recognition 34 (11) (2001) 2067–2070.
[63] J. Yang, J.-Y. Yang, Why can LDA be performed in PCA transformed space?, Pattern Recognition 36 (2003) 563–566.
[64] P. Howland, H. Park, Generalizing discriminant analysis using the generalized singular value decomposition, IEEE Trans. Pattern Anal. Mach. Intell. 26 (8) (2004) 995–1006.
[65] Y.F. Guo, T.T, Shu, J.Y. Yang, et al., Feature extraction method based on the generalized Fisher Discriminant criterion and face recognition, Pattern Analysis & Application, 2001, 4(1): 61-66.
[66] Wenming Zheng, Li Zhao, Cairong Zou. Foley-Sammon optimal discriminant vectors using kernel approach. IEEE Transactions on Neural Networks, 16(1): 1-9, Jan. 2005.
[67] Wenming Zheng, Cairong Zou and Li Zhao. An efficient algorithm to solve the small sample size problem for LDA. Pattern Recognition, Volume 37, Issue 5, May 2004, Pages 1077-1079.
[68] C.E.Thomaz, D.F.Gillies, R.Q.Feitosa. A new covariance estimate for Bayesian classifier in biometric recognition. IEEE CSVT, 14(2)(2004):214–223.
[69] Chao-Chun Liu, Dao-Qing Dai, Hong Yan. Local Discriminant Wavelet Packet Coordinates for Face Recognition. Journal of Machine Learning Research 8 (2007) 1165-1195.
[70] Marios Kyperountas, Anastasios Tefas, and Ioannis Pitas. Weighted Piecewise LDA for Solving the Small Sample Size Problem in Face Verification. IEEE Transactions on Neural Networks. 2007, 18(2): 506-519.
[71] Xudong Jiang, Bappaditya Mandal, and Alex Kot. Eigenfeature Regularization and Extraction in Face Recognition. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 2008, 30(3): 383-394
[72] K. Fukunaga, J. Mantock. “Nonparametric discriminant analysis”. IEEE Trans. Pattern Anal. Machine Intell. 1983, 5, pp.671-678.
[73] F. R. Bach and M. I. Jordan, Kernel Independent Component Analysis, Journal of Machine Learning Research, vol.3 (2002) 1-48.
[74] S. Mika, G. Rätsch, and K.-R. Müller. “A mathematical programming approach to the Kernel Fisher algorithm”, In T.K. Leen, T.G. Dietterich, and V. Tresp, editors, Advances in Neural Information Processing Systems 13, MIT Press, 2001, pp. 591-597.
[75] G. Baudat and F. Anouar. “Generalized discriminant analysis using a kernel approach”, Neural Computation, 2000, 12 (10), pp. 2385-2404.
[76] Y. Xu, J.-y. Yang, J. Lu, D.-j. Yu, An efficient renovation on kernel Fisher discriminant analysis and face recognition experiments,Pattern Recognition, 37,2091-2094,2004.
[77] Y. Xu, J.-y. Yang, J. Yang, “A Reformative Kernel Fisher Discriminant Analysis”,Pattern Recognition, 37,1299-1302,2004.
[78] Yong Xu, David Zhang, Zhong Jin, Miao Li, Jingyu Yang. A fast kernel-based nonlinear discriminant analysis for multi-class problems, PATTERN RECOGNITION, 39 (6): 1026-1033, 2006.
[79] Y. Koren and L. Carmel, “Robust linear dimensionality reduction”, IEEE Trans. Visualization and Computer Graphics, 2004, 10(4), pp. 459-470.
[80] Zhizheng Liang, David Zhang and Pengfei Shi. Robust kernel discriminant analysis and its application to feature extraction and recognition. Neurocomputing, Volume 69, Issues 7-9, March 2006, Pages 928-933.
[81] J. Yang, Z. Jin, J. Yang and D. Zhang, The essence of kernel Fisher discriminant: KPCA plus LDA, Pattern Recognition 37 (2004) (10), pp. 2097–2100.
[82] J. Yang, A. F. Frangi, J.-y. Yang, D. Zhang, J. Zhong, KPCA plus LDA: a Complete Kernel Fisher Discriminant Framework for Feature Extraction and Recognition, IEEE Transactions on Pattern analysis and machine intelligence, 2005, 27(2), 230-244.
[83] Stefanos Zafeiriou, Anastasios Tefas, and Ioannis Pitas. Minimum Class Variance Support Vector Machines. IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 16, NO. 10, OCTOBER 2007 2551-2564.
[84] J. Yang, D. Zhang, X. Yong and J. Y. Yang. Two-dimensional discriminant transform for face recognition. Pattern Recognition, 2005, 38(7):1125-1129.
[85] H. Xiong, M.N.S. Swamy and M.O. Ahmad, Two-dimensional FLD for face recognition, Pattern Recogn. 38 (2005) (7), pp. 1121–1124。
[86] J. Ye, R. Janardan and Q. Li, “Two-Dimensional Linear DiscriminantAnalysis,” Neural Information Processing Systems, pp. 1569-1576, 2005.
[87] Ming Li and Baozong Yuan. 2D-LDA: A statistical linear discriminant analysis for image matrix. Pattern Recognition Letters, 2005, 26(5): 527-532.
[88] Vo Dinh Minh Nhat, SungYoung Lee. Two-dimensional weighted PCA algorithm for face recognition. Proceedings of the IEEE International Symposium on Computational Intelligence in Robotics and Automation (CIRA 2005), 27-30 June 2005 Page(s):219 - 223.
[89] X.-Y. Jing, H.-S. Wong and D. Zhang. Face recognition based on 2D Fisherface approach. Pattern Recognition, Volume 39, Issue 4, April 2006, Pages 707-710.
[90] Xipeng Qiu, Lide Wu. Two-dimensional nearest neighbor discriminant analysis. Neurocomputing, Volume 70, Issues 13-15, August 2007, Pages 2572-2575.
[91] Ruicong Zhi, Qiuqi Ruan. Two-dimensional direct and weighted linear discriminant analysis for face recognition. Neurocomputing, Volume 71, Issues 16-18, October 2008, Pages 3607-3611.
[92] Zhizheng Liang, Youfu Li, Pengfei Shi. A note on two-dimensional linear discriminant analysis. Pattern Recognition Letters, Volume 29, Issue 16, 1 December 2008, Pages 2122-2128.
[93] Wei-Shi Zheng, J.H. Lai, Stan Z. Li. 1D-LDA vs. 2D-LDA: When is vector-based linear discriminant analysis better than matrix-based? Pattern Recognition, Volume 41, Issue 7, July 2008, Pages 2156-2172.
[94] Jianguo Wang, Wankou Yang, Yusheng Lin, Jingyu Yang. Two-directional maximum scatter difference discriminant analysis for face recognition. Neurocomputing, 2008, 72(1-3):352-358.
[95] Wankou Yang, Jianguo Wang, Mingwu Ren, Jingyu Yang, Lei Zhang, Guanghai Liu. Feature extraction based on Laplacian bidirectional maximum margin criterion. Pattern Recognition, Volume 42, Issue 11, November 2009, Pages 2327-2334.
[96] Shuicheng Yan, Dong Xu, Qiang Yang, Lei Zhang, ,Xiaoou Tang, Hong-Jiang Zhang. Discriminant Analysis with Tensor Representation. In Proceedings of CVPR, 2005.
[97] Wei Zhang, Zhouchen Lin, Xiaoou Tang. Tensor linear Laplacian discrimination (TLLD) for feature extraction. Pattern Recognition, 42 (2009) 1941 – 1948.
[98] Feiping Nie, Shiming Xiang, Yangqiu Song, Changshui Zhang. Extracting the optimal dimensionality for local tensor discriminant analysis. Pattern Recognition, 42 (2009) 105-114.
[99] Wang Shoujue and Lai Jiangliang. Geometrical learning, descriptive geometry, and biomimetic pattern recognition. Neurocomputing, Volume 67, August 2005, Pages 9-28.
[100] Wang Zhi-Hai, Mo Hua-Yi, Lu Hua-Xiang, Wang Shou-Jue. A method of biomimetic pattern recognition for face recognition. Proceedings of the International Joint Conference on Neural Networks, Volume 3, Page(s):2216 - 2221, 2003.
[101] Tenenbaum J B, Silva V, Langford J C. A Global Geometric Framework for Nonlinear Dimensionality Reduction. Science, 2000, 290:2319-1323.
[102] M. Belkin, P. Niyogi. Laplacian eigenmaps for dimensionality reduction and data representation .Neural Computation, 2003,15, 15 :1373-1396.
[103] Zhang Z, Zha H. Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment. SIAM Journal on Scientifc Computing, 2004, 26(1):313-338.
[104] Donoho D, Grimes C. Hessian Eigenmaps: Locally Linear Embedding Techniques for High-Dimensional Data. Proceedings of the National Academy of Sciences, 2003, 100(10):5591-5596.
[105] Weinberger K, Sha F, Saul L. Learning a Kernel Matrix for Nonlinear Dimensionality Reduction. Proceedings of the twenty-first International Conference on Machine learning, 2004.
[106] Weinberger K, Saul L. Unsupervised Learning of Image Manifolds by Semi-definite Programming. International Journal of Computer Vision, 2006, 70(1):77-90.
[107] Lafon S, Lee A. Diffusion Maps and Coarse-Graining: A Uni¯ed Framework for Dimensionality Reduction, Graph Partitioning, and Data Set Parameterization. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2006, 28(9):1393-1403.
[108] Lafon S, Keller Y, Coifman R. Data Fusion and Multicue Data Matching by Diffusion Maps. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2006,28(11):1784-1797.
[109] X. He, S. Yan, Y. Hu, P. Niyogi, and H.-J. Zhang. Face recognition using Laplacianfaces. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(3):328-340, 2005.
[110] Yan S, Xu D, Zhang B, et al. Graph Embedding and Extensions: A General Framework for Dimensionality Reduction. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(1):40-51.
[111] D. Cai, X. He, and J. Han, “Spectral Regression for Efficient Regularized Subspace Learning,” Proc. 11th Int'l Conf. Computer Vision (ICCV '07), 2007.
[112] Bengio Y, Delalleau O, Le Roux N, et al. Learning Eigenfunctions Links Spectral Embedding and Kernel PCA. Neural Computation, 2004, 16(10):2197-219.
[113] He X, Yan S, Hu Y, et al. Face Recognition using Laplacianfaces. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(3):328-340.
[114] Yang J, Zhang D, Yang J, et al. Globally Maximizing, Locally Minimizing: Unsupervised Discriminant Projection with Applications to Face and Palm Biometrics. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(4):650-664.
[115] H.-T. Chen, H.-W. Chang, and T.-L. Liu, “Local Discriminant Embedding and Its Variants,” Proc. IEEE Conf. Computer Vision and Pattern Recognition, vol. 2, pp. 846-853, 2005.
[116] Tingkai Sun, Songcan Chen, Locality preserving CCA with applications to data visualization and pose estimation, Image and Vision Computing, 2007, 25(5): 531-543.
[117] Geng X,Zhan D.-C, Zhou Z.-H. Supervised nonlinear dimensionality reduction for visualization and classification .IEEE Transactions on Systems, Man, and Cybernetics-Part B: Cybernetics, 2005,35 (6) :1098-1107.
[118] Liang Wang, David Suter, Visual learning and recognition of sequential data manifolds with applications to human movement analysis, Computer Vision and Image Understanding, Volume 110, Issue 2, May 2008, Pages 153-172.
[119] Yaozhang Pan, Shuzhi Sam Ge, Abdullah Al Mamun. Weighted locally linear embedding for dimension reduction. Pattern Recognition, 42 (2009): 798 – 811.
[120] Chenping Hou, Changshui Zhang, Yi Wua, Yuanyuan Jiao. Stable local dimensionality reduction approaches. Pattern Recognition, 42 (2009) 2054 – 2066.
[121] Yang Liu, Yan Liu, Keith C.C. Chan. Dimensionality reduction for heterogeneous dataset in rushes editing. Pattern Recognition, 42 (2009) 229 – 242.
[122] D. Hu, G. Feng, Z. Zhou, Two-dimensional locality preserving projections (2DLPP) with its application to palmprint recognition, Pattern Recognition 40(1) (2007) 339–342
[123] S. Chen, H. Zhao, M. Kong, B. Luo, 2DLPP: a two-dimensional extension of locality preserving projections, Neurocomputing 70 (4–6) (2007) 912–921.
[124] Ruicong Zhi, Qiuqi Ruan. Facial expression recognition based on two-dimensional discriminant locality preserving projections. Neurocomputing, Volume 71, Issues 7-9, March 2008, Pages 1730-1734.
[125] Minghua Wan, Zhihui Lai, Jie Shao, Zhong Jin. Two-dimensional local graph embedding discriminant analysis (2DLGEDA) with its application to face and palm biometrics. Neurocomputing, In Press, Corrected Proof, Available online 26 August 2009.
[126] Hastie T, Stuetzle W. Principal Curves. Journal of the American Statistical Association, 1989, 84(406):502-516.
[127] Kegl B, Krzyzak A, Linder T, et al. Learning and Design of Principal Curves. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2000, 22(3):281-297.
[128] B. Kégl and A. Krzyzak, Piecewise Linear Skeletonization Using Principal Curves, IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 24, No.1, pp. 59-74, Jan. 2002.
[129] Chang K, Ghosh J. A Unifed Model for Probabilistic Principal Surfaces. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2001, 23(1):22-41.
[130] Meinicke P, Klanke S, Memisevic R, et al. Principal Surfaces from Unsupervised Kernel Regression. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2005, 27(9):1379-1391.
[131] C.M. Bishop, M. Svensen, C.K.I. Williams, “GTM: the Generative Topographic Mapping”, Neural Comput., No.10, pp.215-234, 1998.
[132] K.-y Chang and J. Ghosh, “A Unified Model for Probabilistic Principal Surfaces”, IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 23, No.1, pp. 22-41, Jan. 2001.
[133] P. Delicado, “Another Look at Principal Curves and Surfaces”, Journal of Multivariate Analysis, vol. 77, pp. 84-116, 2001.
[134] Lu Z. People Tracking with the Laplacian Eigenmaps Latent Variable Model. Advances in neural information processing systems. 2005:1-8
[135] Carreira-Perpinan M, Lu Z. The laplacian eigenmaps latent variable model. In: Proc. of the 11th Int. Workshop on Artificial Intelligence and Statistics. 2007.
[136] Mingming Sun and Jingyu Yang, Principal Curves with Feature Continuity, PAKDD 2007, LNAI 4426, pp. 785-792, 2007.
[137] W. E. Vinje, J. L. Gallant, Sparse Coding and Decorrelation in Primary Visual Cortex During Natural Vision, Science, 18 February 2000: Vol. 287. no. 5456, pp. 1273 - 1276
[138] B. A. Olshausen, D. J. Field, Sparse coding of sensory inputs, Current Opinion in Neurobiology, Vol. 14, No. 4. (August 2004), pp. 481-487.
[139] A Hyvärinen, PO Hoyer, A two-layer sparse coding model learns simple and complex cell receptive fields and topography, Vision Research, 2001, 41(9): 2413-2423.
[140] E. J. Candes, Ridgelets: theory and applications. PhD dissertation, Stanford University, 1998.
[141] J.-L. Starck, EJ Candes, DL Donoho, The curvelet transform for image denoising, IEEE Transactions on Image Processing, Vol. 11, No. 6. (2002), pp. 670-684.
[142] Le Pennec, E. Mallat, S., Sparse geometric image representations with bandelets, IEEE Transactions on Image Processing, 2005,14(4),423-438.
[143] M. N. Do, and M. Vetterli, The Contourlet Transform: An Efficient Directional Multiresolution Image Representation, IEEE Transactions on Image Processing, 2005, 14(12), 2091-2106.
[144] S. Mallat and Z. Zhang. Matching pursuits with time-frequency dictionaries. IEEE Trans. Signal Processing, 1993, 41(12): 3397-3415.
[145] M. Aharon, M. Elad, and A. Bruckstein, “The K-SVD: An algorithm for designing of overcomplete dictionaries for sparse representation,” IEEE Trans. On Signal Processing, 2006, Vol. 54, No. 11., pp. 4311-4322.
[146] J.-L. Starck, M. Elad, and D.L. Donoho, "Redundant Multiscale Transforms and their Application for Morphological Component Analysis", Advances in Imaging and Electron Physics , 132, 2004.
[147] J. Bobin, J.-L. Starck J. Fadili, Y. Moudden and D.L Donoho, "Morphological Component Analysis: an adaptative thresholding strategy", IEEE Transactions on Image Processing , Vol 16, No 11, pp 2675--2681, 2007.
[148] K. Labusch, E. Barth, and T. Martinetz, Simple Method for High-Performance Digit Recognition Based on Sparse Coding, IEEE Trans. on Neural Networks, 19(11), 2008
[149] F. Murtagh and J.-L. Starck, "Wavelet and Curvelet Moments for Image Classification: Application to Aggregate Mixture Grading", Pattern Recognition Letters, 29, pp 1557-1564 , 2008.
[150] M. Tipping, “Sparse bayesian learning and the relevance vector machine,” Journal of Machine Learning Research, vol. 1, pp. 211–244, 2001.
[151] A. J. Smola, O. L. Mangasarian, and B. Scholkopf, “Sparse kernel feature analysis,” University of Wisconsin, Data Mining Institute, Madison, Technical Report. 99-04, 1999.
[152] Zhou, H.; Hastie, T.; and Tibshirani, R. Sparse principle component analysis. Technical Report, Statistics Department, Stanford University, 2004.
[153] A. d'Aspremont, L. El Ghaoui, M. I. Jordan, and G. R. G. Lanckriet. A Direct Formulation for Sparse PCA using Semidefinite Programming. In Advances in Neural Information Processing Systems (NIPS). Vancouver, BC, December 2004.
[154] Moghaddam, B.; Weiss, Y.; and Avidan, S. Spectral bounds for sparse PCA: Exact and greedy algorithms. In Advances in Neural Information Processing Systems 18, 2005.
[155] Moghaddam, B.; Weiss, Y.; and Avidan, S.. Generalized spectral bounds for sparse LDA. In ICML ’06: Proceedings of the 23rd international conference on Machine learning, 641–648, 2006.
[156] K. Huang and S. Aviyente, “Sparse Representation for Signal Classification”, Neural Information Processing Systems, 2006.
[157] D. Cai, X. He, and J. Han. Sparse Projections over Graph, Proc. AAAI Conf. on Artificial Intelligence (AAAI-08), Chicago, Illinois, July 2008.
[158] J. Wright, A. Y. Yang, A. Ganesh, S. Sastry, and Y. Ma, Robust Face Recognition via Sparse Representation, IEEE Trans. Pattern Analysis and Machine Intelligence, 2009, 31(2), 210-227.
[159] Mingming Sun, Jian Yang, Chuancai Liu, Jingyu Yang. Learning the Similarity Preserving Principal Curves. WRI Global Congress on Intelligent Systems, vol. 4, pp.451-455, 2009.
[160] Feuersanger C, Griebel M. Principal manifold learning by sparse grids. Computing. 85(4):267-299, 2009.
[161] David Marr. Vision. W. H. Freeman and Co (January 1, 1982).
[162] Jian Yang, Jingyu Yang, and Zhong Jin, “New Concept for Discriminator Design: From Classifier to Discriminator”, Chinese Conference on Pattern Recognition (CCPR 2008),Oct. 22-24, 2008. Beijing, China.