本人是新手,想作一个关于图像的检索系统,但是首先应该看什么书?能不能给点建议...

解决方案 »

  1.   

    基于内容的图像检索的两种简单算法                    
    前言
    常规信息系统向多媒体信息系统方向发展,多媒体信息是由视频、音频、图像、图形等媒体承载的,因此对多媒体数
    据的快速并基于内容进行检索以获得所需要的信息是多媒体信息系统要求解决的关键问题之一。过去对图像的查询主要是通过关键字来检索,用关键字适合表示图像的客观属性,如图像的作者、标题、创作时间等,但是图像的视觉特征难以用关键字来描述。事实上在现实生活中,人们使用信息的方式很多情况下是靠直觉的印象。例如,把商品的图片存在数据库中,用户用一张照片告诉数据库他们所要的商品或要求查到与用户喜爱的额色相近的商品就是一些直接利用视觉印象的查询方法。一个用户可能要求数据库:给我看看你们商店里所有蓝色的时装?我们希望数据库系统按用户的直观要求返回一组图像的集合。基于图像内容的检索是通过图像视觉特征的相似性匹配来查找用户要求的图像的。在这方面已有一些常用的方法。YUV和HSV是这些方法中较为常用的几种颜色空间。本次毕业设计中作者使用这两种颜色空间来进行图像的检索研究,并初步实现了基于图像颜色特征的检索。1 基于内容的图像处理技术近年来,随着多媒体技术和计算机网络的飞速发展,全世界的数字图像的容量正以惊人的速度增长。无论是军用还是民用设备,每天都会产生容量相当于数千兆字节的图像。这些数字图像中包含了大量有用的信息。然而,由于这些图像是无序地分布在世界各地,图像中包含的信息无法被有效地访问和利用。这就要求有一种能够快速而且准确地查找问图像的技术,也就是所谓的图像检索技术。自从20世纪70年代以来,在数据库系统和计算机视觉两大研究领域的共同推动下,图像检索技术已逐渐成为一个非常活跃的研究领域。数据库和计算机视觉两大领域是从不同的角度来研究图像检索技术的,前者基于文本的,而后者是基于视觉的。基于文本的图像检索技术(text-based image retrieval)的历史可以追溯到20世纪70年代末期。当时流行的图像检索系统是将图像作为数据库中存储的一个对象,用关键字或自由文本对其进行描述。查询操作是基于该图像的文本描述进行精确匹配或概率匹配,有些系统的检索模型还是有词典支持的。另外,图像数据模型、多维索引、查询评价等技术都在这样一个框架之下发展起来。然而,完全基于文本的图像检索技术存在着严重的问题。首先,目前的计算机视觉和人工智能技术都无法自动对图像进行标注,而必须依赖于人工对图像做出标注。这项工作不但费时费力,而且手工的标注往往是不准确或不完整的,还不可避免地带有主观偏差。也就是说,不同的人对同一幅图像有不同的理解方法,这种主观理解的差异将导致图像检索中的失配错误。此外,图像中所包含的丰富的视觉特征(颜色或纹理等)往往无法用文本进行客观地描述的。90年代初期,随着大规模数字图像库的出现,上述的问题变得越来越尖锐。为克服这些问题,基于内容的图像检索技术(content-based image retrieval)应运而生。区别于原有系统中对图像进行人工标注的做法,基于内容的检索技术自动提取每幅图像的视觉内容特征作为其索引,如色彩、纹理、形状等。此后几年中,这个研究领域中的许多技术发展起来,一大批研究性的或商用的图像检索系统被建立起来。这个领域的发展主要来归功于计算机视觉技术的进步,在文献[]中有对这一领域的详细介绍。应该认识到,基于内容的图像检索系统具有与传统基于文本的检索系统完全不同的构架。首先,由于图像依赖其视觉特征而非文本描述进行索引,查询将根据图像视觉特征的相似度进行。用户通过选择具有代表性的一幅或多幅例子图像来构造查询,然后由系统查找与例子图像在视觉内容上比较相似的图像,按相似度大小排列返回给用户。这就是所谓的通过例子图像的检索(query by image example)。另外,基于内容的检索系统一般通过可视化界面和用户进行频
    繁的交互,以便于用户能够方便地构造查询、评估检索结果和改进检索结果。下图表示了基于内容的图像检索系统的体系结构。系统的核心是图像特征数据库。图像特征既可以从图像本身提取得到,又可以通过用户交互获得,并用于计算图像之间的相似度。用户和系统之间的关系是双向的:用户可以向系统提出查询要求,系统根据查询要求返回查询结果,用户还通过对查询结果的相关反馈来改进查询结果。基于内容的图像检索中的一些关键环节:
    1) 选择、提取和索引能够充分表达图像的视觉特征。
    2) 处理基于相似度的图像检索。
    3) 处理用户对检索结果的相关反馈,改善检索结果。
    1.1 内容检索与内容匹配
    1.1.1 基于内容的图像检索系统的4种检索方式:
    (1) 利用图片样本检索(Query By Example)。可以由用户准备图片样本,可以在图片库中浏览,系统给出各类代表图像,从系统中随机抽取(检索是一个逐步求精的过程)。
    (2) 利用草图检索。
    (3) 利用图像特征模板检索。如颜色特征模板,指定各种颜色的比率等。
    (4) 以上方式结合。先用草图或指定特征获取图片样本,再用图片样本检索。
      

  2.   

    1.1.2 内容匹配的主要策略
    内容匹配的主要策略有:颜色特征匹配,纹理特征匹配和形状特征匹配。
    (1) 颜色特征匹配:颜色具有一定的稳定性。在许多情况下,颜色是描述一幅图像最简便而有效的特征。用图像的颜色信息作为图像之间进行匹配的特征依据。
    (2) 纹理特征匹配:虽然图像的纹理特征在局部区域内可能没有规则,但在整体上却往往呈现出一定的规律性 。纹理特征主要由纹理的均匀度、对比度和方向的特征量表示。
    (3)形状特征匹配:形状是刻划物体的本质特征之一,可以针对面积 (可用象素点的个数计算 )、环形性 (即周长 *周长 /面积 ,周长也用象素点的个数表示 )、主轴方向、偏心率、圆形率、连通性、正切角等形状特征进行匹配。
    1.2 图像特征的提取与表达图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。基于文本的图像特征提取在数据库系统和信息检
    索等领域中已有深入的研究。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;后者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。领域相关的图像特征主要属于模式识别的研究范围。
    1.2.1 颜色特征提取
    颜色特征是在图像检索中应用最为广泛的视觉特征,主要原因在于颜色往往和图像中所包含的物体或场景十分相关,此外,与其他的视觉特征相比,颜色特征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。面向图像检索的颜色特征的表达涉及到若干问题。首先,我们需要选择合适的颜色空间来描述颜色特征;其次,我们要采用一定的量化方法将颜色特征表达为向量的形式;最后,还要定义一种相似度(距离)标准用来衡量图像之间在颜色上的相似性。
    1.2.2颜色直方图颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同色彩在整幅图像中所占的比例,而并不关心每种色彩所处的空间位置,即无法描述图像中的对象或物体。当然,颜色直方图可以是基于不同的颜色空间和坐标系。最常用的颜色空间是RGB颜色空间,原因在于大部分的数字图像都是用这种颜色空间表达的。然而,RGB空间结构并不符合人们对颜色相似性的主观判断。因此,有人提出了基于HSV空间、LUV空间和LAB空间的颜色直方图,因为它们更接近于人们对颜色的主观认识。其中HSV空间是直方图最常用的颜色空间。它的三个分量分别代表色彩(Hue)、饱和度(Saturation)和值(Value)。从RGB空间到HSV空间的转化公式如下所示(1.gif):其中r, g, b ∈ [0 … 1], h ∈ [0 … 60], s, v ∈ [0 … 1]。还有一种较为简单,但能完全反映出图像灰度特征的YUV空间也较为常用。在YUV表示方法中,Y分量的物理含义就是亮度,它含了灰度图像的所有信息,用Y分量就可表示一幅灰度图像,U和V分量代表了色差信号。YUV和RGB之间有着如下的对应关系(2.gif):
    1.3 图像相似度计算方法在基于文本的检索方法采用的是文本的精确匹配,而基于内容的图像检索则通过计算查询(例子图像)和候选图像之间在视觉特征上的相似度匹配进行。因此,定义一个合适的视觉特征相似度度量方法对检索的效果有很大的影响。由于上一章中的视觉特征大都可以表示成向量的形式,常用的相似度方法都是向量空间模型(vector space model),即将视觉特征看作是向量空间中的点,通过计算两个点之间的接近程度来衡量图像特征间的相似度。基于内容的图像检索中采用多种不同的图像特征和相似度算法。对于某个特定的图像库,我们需要选择一种或多种最有效的图像特征和相似度算法。这需要对不同条件下的检索效果进行全面地评价,比较不同方法的优劣,找出最好的方法。对检索效果的评价在于检索结果的正确与否,主要使用的是查准率(precision)和查全率(recall)两个指标。查准率的含义是在一次查询过程中,系统返回的查询结果中的相关图像的数目占所有返回图像数目的比例;查全率则指系统返回的查询结果中的相关图像的数目占图像库中所有相关图像数目(包括返回的和没有返回的)的比例。用户在评价查询结果时,可以预先确定某些图像作为查询的相关图像,然后根据系统返回的结果来计算查准率和查全率。这两个指标的值越高说明检索方法的效果越好。
    1.3.1  L1距离和L2距离
    L1距离和L2距离 如果图像特征的各分量之间是正交无关的,而且各维度的重要程度相同,两个特征向量A和B之间距离可以用L1距离或者L2距离(也称为欧拉距离)来度量。其中L1距离可以表示为: 其中N是特征向量的维数。类似地,L2距离可以表示为:
    1.3.2 直方图相交
    上述两种距离度量方法常用来计算颜色直方图之间的距离。度量直方图距离的另一种方法是直方图相交(histogram 
    intersection)。假设I和Q是两个含有N个bin的颜色直方图,则它们之间的相交距离表示为: 
    直方图的相交是指两个直方图在每个bin中共有的像素数量。有时,该值还可以通过除以其中一个直方图中所有的像素
    数量来实现标准化,从而使其值属于[0,1]的值域范围。
    1.3.3 二次式距离
    对于基于颜色直方图的图像检索来说,二次式(quadratic form)距离已被证明比使用欧拉距离或是直方图相交距离更为有效。原因在于这种距离考虑到了不同颜色之间存在的相似度。两个颜色直方图I和Q之间的二次式距离可以表示为: 
    这种方法通过引入颜色相似性矩阵A,使其能够考虑到相似但不相同的颜色间的相似性因素。其中 表示直方图中下标
    为i和j的两个颜色bin之间的 相似度。颜色相似性矩阵A可以通过对色彩心理学的研究中获得[64]。与此等价的另一种做法是先对颜色直方图进行求闭包操作,使每个颜色bin的值都受到来自它相邻颜色bin的影响。这样,颜色直方图本身就包含了不同颜色之间的相似性因素,因此可以直接地使用欧拉距离或直方图相交距离。这种对直方图预处理的方法的好处在于在检索过程中计
    算相似度的代价较小。
      

  3.   

    1.3.4马氏距离
    如果特征向量的各个分量间具有相关性或者具有不同的权重,可以采用马氏距离(Mahalanobis distance)来计算特
    征之间的相似度。马氏距离的数学表达为: 
    其中C是特征向量的协方差矩阵。该距离标准常用来计算SAR特征的相似度。当特征向量的各分量间没有相关性,马氏距离还可以进一步简化,因为这时只需要计算每个分量的方差 。简化后的马氏距离如下所示: 对某个图像特征选择一种合适的相似度衡量方法是获取满意的检索效率的重要保证。然而,更为重要和困难的是确定不同特征之间或是同一特征的不同分量之间的权重。
    2 基于内容的图像检索算法设计
    本次毕业设计主要设计是基于图像颜色特征的检索算法设计 ,作者尝试了在YUV颜色空间中利用直方图距离的方法以及在HSV颜色空间中利用直方图相交的方法来计算图像之间的相似度。这两种颜色空间和相似度的计算方法在基于图像颜色特征的图像检索领域应用较为广泛,效果也比较明显。
    2.1 基于YUV的直方图距离算法
    2.1.1 基于YUV颜色空间的颜色特征提取一幅图像采样得到的象素点的颜色值是RGB形式的,R,G,B三分量之间没任何联系,分别计算这三分量的直方图计算量比较大。而YUV颜色空间中的Y分量的物理意义是亮度,人眼对亮度是最为敏感的,因此可以将RGB转换为亮度值Y,公式为:Y=R×0.299+G×0.587+B×0.114图像的亮度分量包含了图像所有的灰度信息。Y的取值范围是[0,255]。
    2.1.2 基于直方图距离的相似度计算根据第一章中关于像相似度的方法的叙述,两图片是否相似可以采用直方图距离法(欧氏距离法)来描述:Ed=(G,S)=   (Ed越小相似度就越大)规一化处理后,图像直方图的相似度的定量度量可以用如下公式表示:Sim(G,S)=  
    (N为颜色级数,Sim越靠近1两幅图片越相似)
    2.2 基于HSV的直方图相交算法
    2.2.1 图像的颜色特征的提取
    R,G,B颜色空间与人眼的感知差异很大。例如:距离为50的(0,0,0)与(50,0,0)两种RGB颜色认为是同一黑色,而距离为50的(200,150,0)和(200,200,0)则是差别很大的两种颜色(黄色和绿色)。在直方图相交算法中使用较好符合人眼感知特性的HSV颜色模型。首先将图像中每一像素的r,g,b值转换为h,s,v值,然后根据HSV颜色模型的特性作如下特殊处理: 
    (1) 黑色区域:所有v<15%的颜色均归入黑色,令h=0,s=0,v=0; 
    (2) 白色区域:所有s<10%且v>80%的颜色归入白色,令h=0,s=0,v=1; 
    (3) 彩色区域:位于黑色区域和白色区域以外的颜色,其h,s,v值保持不变。
    经过HSV颜色变换,图像中每个像素的颜色用h,s,v值表示。由于将与黑色、白色相近的颜色分别作为同一种颜色对待,进一步提高了颜色模型的准确性。一幅图像的颜色一般非常多,尤其是真彩色图像,因此直方图矢量的维数会非常多。如果对HSV空间进行适当的量化后再计算直方图,则计算量要少得多。我们将H,S,V三个分量按照人的颜色感知进行非等间隔的量化:
    (1) 按照人的视觉分辨能力,我们把色调H空间分成8份,饱和度S和亮度V空间分别分成3份。
    (2) 根据色彩的不同范围和主观颜色感知进行量化。
    (3) 构造一维特征矢量。按照以上的量化级,把个颜色分量合成为一维特征矢量: 
    其中, 和 分别是分量S和V的量化级数这里  =3, =3。因此上式实际上为:这样,H,S,V三个分量在一维矢量上分布开来。根据公式,G的取值范围为 [0,1,……,71],计算G获得72柄(bin)的一维直方图。
    2.2.2基于直方图距离的相似度计算
    假设示例图像的直方图特征矢量为 ,图像数据库中的图像的直方图特征矢量为 、其中 , 为规一化的比例值,L为一维直方图矢量的维数。那么利用直方图交叉算法进行图象相似性度量下式所示。2个直方图的交集定义为: 
    如果两幅图像的颜色分布相同,那么相似性测度为1,否则为0到1之间的一个数。最不相似为0,例如黑和白图像的直
    方图交集。直方图交叉算法实际上是计算两幅图像的公共部分,可以比较明显地区分出不相似的图像。
    3 图像检索与匹配系统实现
    系统设计是在Visual Studio .Net 2003开发平台下进行的,主要的功能模块有两个:图像检索算法模块和图像匹配算
    法模块。系统中的一些图像处理的基本操作和算法都来源于当今较为流行的CxImage图像处理类。系统中包含一个图像处理模块CxImage,9个 图像文件类别处理模块(能读取BMP, JPEG, GIF, PNG, TIFF, MNG, ICO, PCX, TGA, WMF, WBMP, JBG, J2K),一个用户操作模块Demo。