技术领域
本发明属于信息技术领域,涉及古文字识别,特别涉及一种基于多特征测度的青铜器铭文相似性度量方法。
背景技术
青铜器铭文又称金文、钟鼎文,指铸刻在青铜器物上的文字,是最有代表性的古文字之一,它为研究古代历史文化和古文字提供了重要参考资料。青铜器铭文的隶定工作主要依靠人工进行,需要研究者具备丰富的知识经验,隶定过程需要将未知青铜器铭文图像与已隶定青铜器铭文图像逐一比对,仅依靠人工进行,工作量巨大且容易导致误识。
随着信息技术的发展,青铜器铭文的隶定工作逐渐变得智能化、数字化。青铜器铭文数量多、字形复杂、变体繁多,对铭文进行相似性度量,对于青铜器铭文图像的隶定具有重要意义。
发明内容
本发明的目的在于,提供一种多特征测度的青铜器铭文相似性度量方法。
为了实现上述任务,本发明采用如下的技术解决方案:
一种基于多特征测度的青铜器铭文相似性度量方法,其特征在于,包括以下步骤:
步骤一,利用非局部均值滤波算法,对采集的青铜器铭文图像数据去噪处理,建立青铜器铭文图像数据集;
步骤二,使用Hu不变矩算法提取青铜器铭文的7阶Hu矩,构造青铜器铭文的全局形状特征向量;
步骤三,利用加速鲁棒特征算法提取青铜器铭文的局部加速鲁棒特征向量,并利用K均值聚类算法对加速鲁棒特征进行聚类,利用加权策略,进一步剔除冗余信息;
步骤四,将步骤二中的铭文全局Hu矩特征向量与步骤三中的聚类加权的加速鲁棒特征进行融合,形成多相似性度量对青铜器铭文进行检索。
根据本发明,步骤一中所述利用非局部均值滤波算法,对采集的青铜器铭文图像去噪处理的其具体过程为:
假设青铜器铭文图像ν{ν(α)|α∈I},I为图像的坐标域,对于其中一个像素α,使用非局部平均的方法计算图像中其余所有像素的加权平均值,来得到该像素点的估计值,即
其中,权值
式中,α>0,是高斯核函数的标准差;
权重的选取是根据不同像素间的相似性,将邻域像素加权得一个近似值,相似度越高的邻域矩阵向量,加权平均时对应像素点权值越大,权重
其中,Z(α)为归一化系数,h为平滑参数,控制高斯函数的衰减程度;
经过非局部均值滤波之后的图像,噪声点得到有效去除的同时青铜器铭文的几何结构信息得到增强。
步骤二中所述的提取Hu矩特征作为青铜器铭文全局形状特征向量的具体过程为:
设一幅青铜器铭文图像f(x,y),其(p+q)阶矩定义为:
中心距定义为:
其中,p,q=0,1,2,3…,矩心
其中,m
其中,
利用二阶和三阶归一化中心距能够得到7个Hu不变矩,即:
φ
φ
φ
φ
φ
为了使不变矩的值对结果识别的贡献增大并缩小数据偏差,对上式中的值用取对数的方式进行修正如下:
Φ
最后,得到青铜器铭文的Hu矩特征向量为:
F
步骤三中所述提取利用加速鲁棒特征算法提取青铜器铭文局部加速鲁棒特征的具体过程为:
1)青铜器铭文特征点检测
二阶导数矩阵是加速鲁棒特征算法的核心,加速鲁棒特征算法采用二阶导数矩阵的行列式近似确定特征点的尺度和位置等信息;
假设青铜器铭文图像I中给定点Ρ=(x,y),定义在尺度σ上的图像二阶导数矩阵为:
式中,S
为了提高运算速度与鲁棒性,采用盒式滤波近似值代替二次高斯卷积值,同时为减少近似值与准确值的误差,引入了一个加权参数,权值为0.9,因此二阶导数矩阵的判别式为:
Δ(H
采用3×3×3线性插值法,计算偏移量去除有偏差的点获取特征点的精确定位;
2)确定主方向
为了保证图像特征的旋转不变性,以特征点为中心,半径为6s的圆形邻域内计算图像在x和y方向的哈尔小波响应,其中s为特征点所在的尺度,根据对应位置赋权值,越近权值较大;然后通过将60度的扇形邻域内的所有哈尔小波响应叠加,得到一个新的矢量,遍历整个圆形邻域,得到一个最长的矢量,以该矢量的方向作为特征点的主方向;
3)生成加速鲁棒特征点描述子
确定特征点的主方向后,在关键点周围选取一个边长为20s的正方形窗口同时该方形区域与关键点的主方向平行;然后将该方形区域划分成4×4的子区域,以模板为2×2的哈尔小波计算每个子区域中像素点在水平和垂直方向上的4个小波特征,分别为水平方向和∑w
步骤三中所述提取青铜器铭文局部加速鲁棒特征向量进行聚类加权的具体过程为:
1)选择网格对青铜器铭文图像的加速鲁棒特征进行特征点定位,将其作为视觉单词,然后根据K均值聚类算法算法进行聚类,得到K个类心,每个类心代表对应特征的视觉词汇,一幅青铜器铭文图像就可以得到K×64维的视觉词典:
D
2)由于同一青铜器铭文类别中出现频率较高的特征词汇,在其他类别中出现频率较低,根据局部加速鲁棒特征在不同青铜器铭文类别中的重要性不同,利用词频-逆文件频率加权的策略,将视觉词典D
式中,z(λ,j)是特征词λ在青铜器铭文图像特征文件j中出现的次数,∑
式中,J为所有青铜器铭文特征文件总数,j
综合考虑特征词汇在单个特征文件中出现的频率和该词在所有文件集中的逆文件频率得到词频-逆文件频率的计算公式为:
T=tf×idf (17)
在一幅青铜器铭文图像中某一个特征词汇出现频率较高,在其他图像中出现次数很低,得到词频-逆文件频率较高,表明该特征词汇具有较高的类别区分能力;
将上式(17)得到的权重值乘以对应视觉特征词向量作为青铜器铭文的局部特征描述,其表示为
F
步骤四中所述全局Hu矩相似性测度与聚类加权的加速鲁棒特征相似性测度进行融合形成多相似性度量,具体过程为:
1)Hu矩相似性测度:对于两幅进行青铜器铭文图像,设q为查询青铜器铭文图像,l为数据集中的一幅青铜器铭文图像,基于全局Hu矩形状特征的全局相似性测度计算公式为:
式中,Q
Q
2)聚类加权的加速鲁棒特征相似性测度:
基于局部聚类加权的加速鲁棒特征的局部相似性测度的计算公式为:
根据两种特征测度对青铜器铭文图像检索结果的影响,将两种测度进行加权融合,得到多相似性度量公式:
S
式中,ρ和γ分别是两种测度对应的权重系数,ρ+γ=1。
本发明的基于多特征测度的青铜器铭文相似性度量方法,利用Hu矩算法,构造青铜器铭文全局形状特征向量;利用SURF算法提取青铜器铭文的局部显著特征,并利用K均值聚类及加权策略生成TF-KSURF视觉特征向量,进一步增强特征的可区分特性;将Hu矩全局相似性测度与局部TF-KSURF相似性测度进行加权融合,生成用于青铜器铭文图像的相似性度量进行青铜器铭文图像检索识别,有效提高了青铜器铭文的检索精度。明显优于目前的单一测度方法,更适于进行青铜器铭文的检索。
附图说明
图1是青铜器铭文图像非局部均值滤波前后对比图;
图2是三种算法查准率对比曲线图;
图3是三种算法查全率对比曲线图;
以下结合附图和实施例对本发明作进一步详细的描述。
具体实施方式
需要说明的是,在以下的实施例中,所述的英文名词,其中文含义如下:
Hu矩:Hu矩;
SURF:Speeded Up Robust Features,加速鲁棒特征;
means:K均值聚类算法;
TF:Term Frequency,词频;
IDF:Inverse Document Frequency,逆文件频率;
TF-IDF:词频-逆文件频率;
Hessian矩阵:二阶导数矩阵;
box filters:盒式滤波;
Harr:哈尔小波;
TF-KSURF:聚类加权的加速鲁棒特征。
本实施例给出一种基于多特征测度的青铜器铭文相似性度量方法,包括以下步骤:
步骤1,利用非局部均值滤波算法,对采集的青铜器铭文图像进行去噪,在去除图像噪声的同时能够保留完整的青铜器铭文形体结构信息,从而建立青铜器铭文图像数据集,其具体步骤为:
假设青铜器铭文图像ν{ν(α)|α∈I},I为图像的坐标域,对于其中一个像素α,使用非局部平均的方法计算图像中其余所有像素的加权平均值,来得到该像素点的估计值,即
其中,权值
式中,α>0,是高斯核函数的标准差。
权重的选取是根据不同像素间的相似性,将邻域像素加权得一个近似值,相似度越高的邻域矩阵向量,加权平均时对应像素点权值越大,权重
其中,Z(α)为归一化系数,h为平滑参数,控制高斯函数的衰减程度。
由图1看出,经过非局部均值滤波之后的图像,噪声点得到有效去除的同时青铜器铭文的几何结构信息得到增强。
步骤2,使用Hu不变矩算法提取青铜器铭文的7阶Hu矩,构造青铜器铭文的全局形状特征向量,具体步骤为:
对于一幅青铜器铭文图像f(x,y),其(p+q)阶矩定义为:
中心距定义为:
p,q=0,1,2,3…
其中,矩心
其中,m
其中,
利用二阶和三阶归一化中心距能够得到7个Hu不变矩,即:
φ
φ
φ
φ
φ
为了使不变矩的值对结果识别的贡献增大并缩小数据偏差,对上式中的值用取对数的方式进行修正如下:
Φ
最后,得到青铜器铭文的Hu矩特征向量为:
F
步骤3,利用加速鲁棒特征(Speeded Up Robust,SURF)算法提取青铜器铭文的局部特征,由于提取的SURF特征数据较大,为了降低特征数据计算量,利用K-means算法对相似特征进行特征聚类,为进一步增加特征的区分性,引入加权策略,从而构建聚类加权的青铜器铭文SURF视觉特征向量;
构建青铜器铭文的聚类加权的SURF视觉特征向量具体步骤为:
3.1)提取SURF特征
3.1a)特征点检测:Hessian矩阵是SURF算法的核心,SURF算法采用Hessian矩阵的行列式近似确定特征点的尺度和位置等信息。假设青铜器铭文图像I中给定点Ρ=(x,y),定义在尺度σ上的图像Hessian矩阵为:
式中S
为了提高运算速度与鲁棒性,采用盒式滤波(box filters)近似值代替二次高斯卷积值,同时为减少近似值与准确值的误差,引入了一个加权参数,权值为0.9,因此Hessian矩阵的判别式为:
Δ(H
采用3×3×3线性插值法,计算偏移量去除有偏差的点获取特征点的精确定位。
3.1b)确定主方向:为了保证图像特征的旋转不变性,以特征点为中心,半径为6s的圆形邻域内计算图像在x和y方向的Harr小波响应,其中s为特征点所在的尺度,根据对应位置赋权值,越近权值较大;然后通过将60度的扇形邻域内的所有Harr小波响应叠加,得到一个新的矢量,遍历整个圆形邻域,得到一个最长的矢量,以该矢量的方向作为特征点的主方向。
3.1c)生成SURF特征点描述子:确定特征点的主方向后,在关键点周围选取一个边长为20s的正方形窗口(s是该关键点所在的尺度)同时该方形区域与关键点的主方向平行;然后将该方形区域划分成4×4的子区域,以模板为2×2的Haar小波计算每个子区域中像素点在水平和垂直方向上的4个小波特征,分别为水平方向和∑w
3.2)构建聚类加权的SURF特征向量
3.2a)选择网格对青铜器铭文图像的SURF特征进行特征点定位,将其作为视觉单词,然后根据K-means算法进行聚类,得到K个类心,每个类心代表对应特征的视觉词汇,一幅青铜器铭文图像就可以得到K×64维的视觉词典:
D
3.2b)由于同一青铜器铭文类别中出现频率较高的特征词汇,在其他类别中出现频率较低,根据局部SURF特征在不同青铜器铭文类别中的重要性不同,本实施例利用词频-逆文件频率加权的策略,词频(Term Frequency,TF)为局部特征词权重公式定义为
式中,z(λ,j)是特征词λ在青铜器铭文图像特征文件j中出现的次数,∑
式中,J为所有青铜器铭文特征文件总数,j
综合考虑特征词汇在单个特征文件中出现的频率和该词在所有文件集中的逆文件频率得到TF-IDF的计算公式为
T=tf×idf (17)
在一幅青铜器铭文图像中某一个特征词汇出现频率较高,在其他图像中出现次数很低,得到TF-IDF较高,表明该特征词汇具有较高的类别区分能力。将上式(17)得到的权重值乘以对应视觉特征词向量作为青铜器铭文图像的局部特征描述,聚类加权的SURF视觉特征表示为
F
步骤4,构造多测度的相似性度量,具体步骤为:
4.1)利用步骤2中的Hu矩特征生成全局相似性测度:
式中,q为查询青铜器铭文图像,l为数据集中的一幅青铜器铭文图像,Q
Q
4.2)利用步骤3中的聚类加权的SURF(TF-KSURF)特征生成局部相似性测度:
根据两种特征测度对青铜器铭文检索结果的影响将两种测度进行加权融合,得到相似性度量公式:
S
式中,ρ和γ分别是两种测度对应的权重系数,ρ+γ=1。
经上述步骤后,为了测试算法性能,申请人将本实施例给出的基于多特征测度的青铜器铭文相似性度量方法分别与只使用Hu矩测度和SURF测度进行青铜器铭文检索进行对比实验。
实验数据集选用428幅青铜器铭文图像,包括屯、中、祀、方和王等21类铭文,每类青铜器铭文的异写体有6至62张图片,实验选用10中类别青铜器铭文,每类随机选取6张青铜器铭文图像,并从查准率、平均查全率两个方面对算法进行客观评价。本发明提出的多测度相似性度量方法作为铭文的相似性度量在检索识别中能有效识别最相似青铜器铭文并且对相似青铜器铭文进行排序。
表1中给出了三种算法的查准率和查全率实验结果,图1为三种算法的查准率曲线图,图2为三种算法的查全率曲线图。
表一:三种算法查准率和查全率对比
从表1可以看出,本发明的基于多特征测度的青铜器铭文相似性度量方法的平均准确度均高于两种单一测度,在类别2、类别5和类别8中平均准确度达到100%。提出的多特征测度平均查全率最高为0.71,相较于SURF特征测度和Hu矩特征测度平均查全率分别提高了32.4%和22.5%。对比两种单一特征测度,融合Hu矩和聚类加权的SURF多特征测度的青铜器铭文检索识别具有更高的查全率。
图2和图3为三种算法的查准率和平均查全率性能曲线,从图中可以看出,结合青铜器铭文图像的全局Hu矩形状特征与局部SURF几何特征既能准确描述青铜器铭文图像的形状结构信息,又能表征青铜器铭文图像的显著局部几何信息,同时对局部SURF特征进行加权聚类,进一步提高了检索的准确率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,本发明不限于上述实施例。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
机译: 基于时间和多特征相似性的分组消息
机译: 一种基于复杂通信系统的用户行为度量方法-一致性程度
机译: 一种用于获得专利文献的单词组的方法以及基于所获得的单词集来确定专利文档的相似性的方法