公开/公告号CN115630627A
专利类型发明专利
公开/公告日2023-01-20
原文格式PDF
申请/专利权人 深圳市网联安瑞网络科技有限公司;
申请/专利号CN202211362009.8
申请日2022-11-02
分类号G06F40/194(2020.01);G06F40/216(2020.01);G06F40/242(2020.01);G06F40/268(2020.01);G06F40/284(2020.01);
代理机构广东普润知识产权代理有限公司 44804;
代理人王政
地址 518000 广东省深圳市福田区华富街道新田社区深南大道1006号深圳国际创新中心(福田科技广场)C栋二十二层
入库时间 2023-06-19 18:24:15
法律状态公告日
法律状态信息
法律状态
2023-02-14
实质审查的生效 IPC(主分类):G06F40/194 专利申请号:2022113620098 申请日:20221102
实质审查的生效
2023-01-20
公开
发明专利申请公布
技术领域
本发明属于语义网络技术领域,尤其涉及一种改进的文本相似度分析方法、系统、介质、设备及终端。
背景技术
常用的计算文本相似度方法主要有两种:一种是基于数理统计的方法,另外一种是基于语义分析的方法。基于数理统计的方法是根据词形和词频进行计算,而语义分析则是利用文本内部词汇的内在语义联系进行计算。向量空间模型(Vector Space Model,简称VSM)是计算文本相似度的经典方法,该方法没有考虑词汇的语义信息和词汇之间的语义联系,因此不能真实的反应文本之间的相似情况,此外VSM没有考虑词汇在文本中的语义地位和对文本中心思想表达所作出的贡献大小,所以用向量空间模型来计算文本相似度是有缺陷的。基于统计的方法简单高效,但是缺乏语义,没有考虑到文本中特征词汇中不同词汇对文本重要程度的差异问题。而基于语义理解的方法往往计算比较复杂,不适合大规模的文本处理,另外上述两种方法会引起高维稀疏的问题以及不知特征词汇集合对文本的重要程度和贡献度。而且,上述算法没有很好地解决文本数据中存在的自然语言问题同义词和多义词,这些问题干扰了文本相似度算法的效率和准确性,使相似度计算的性能下降。为了满足上述需求,亟需设计一种新的改进的文本相似度分析方法。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有计算文本相似度的方法中,向量空间模型VSM没有考虑词汇的语义信息和词汇之间的语义联系,因此不能真实的反应文本之间的相似情况。
(2)向量空间模型没有考虑词汇在文本中的语义地位和对文本中心思想表达所作出的贡献大小,所以用向量空间模型来计算文本相似度是有缺陷的。
(3)现有基于统计的方法缺乏语义,没有考虑到文本中特征词汇中不同词汇对文本重要程度的差异问题;基于语义理解的方法往往计算比较复杂,不适合大规模的文本处理。
(4)现有方法会引起高维稀疏的问题以及不知特征词汇集合对文本的重要程度和贡献度,且没有很好地解决文本数据中存在的自然语言问题同义词和多义词,干扰了文本相似度算法的效率和准确性,使相似度计算的性能下降。
发明内容
为克服相关技术中存在的特征向量高维稀疏问题、未考虑特征词汇集合对文本的重要程度和贡献度的问题、存在同义词与多义词等问题,本发明公开实施例提供了一种改进的文本相似度分析方法、系统、介质、设备及终端。所述技术方案如下:
本发明是这样实现的,一种改进的文本相似度分析方法,所述改进的文本相似度分析方法包括以下步骤:
步骤一,利用中文分词技术对文本进行分词处理;
步骤二,根据词汇位置信息,计算词汇在文本中的权重值
步骤三,根据词汇在文本中的词性得到系列词汇词性权重值;
步骤四,综合步骤一~步骤四,求解词汇集合T′中的词汇在文本库中的期望E(c
步骤五,根据皮尔森相关系数求解待比较文本(W
在一个实施例中,所述步骤一中的利用中文分词技术对文本进行分词处理包括:
(1)根据《分词词典》找到待分词句子中与词典中匹配的词,将待分词的汉字串进行完整扫描,在系统词典中进行查找匹配,遇到字典里有的词则标识出来;如果词典中不存在相关匹配,则分割出单字作为词,直到汉字串为空;
(2)依据概率统计学,将待分词句子拆分为网状结构,得到n个可能组合的句子结构,将所述结构每条顺序节点依次规定为SM
(3)基于信息论方法,将所述网状结构每条边赋予权值,算过程如下:
根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为n
得min()=min(n
在最少路径中,求解每条相邻路径的权重大小;
在统计语料库中,计算每个词的信息量X(C
式中,n(C
式中,n(C
若信息量X(C
同理,计算X(C
式中,n(C
式中,R(C
若信息量X(C
得到每条相邻路径的权值为:
w(C
(4)找到权值最大的一条路径,即为待分词句子的分词结果。
在一个实施例中,所述步骤二中的根据词汇位置信息,计算词汇在文本中的权重值
根据调研资料显示,特征词越在文本靠前位置,越能代表文本的中心思想,特征词在文本中出现的次数越多,越具有文本含义的代表性;通过步骤一得到词汇在文本的权重值,取前20个特征词汇,并对所述词汇进行位置权重划分;
在文本中每个特征词至少出现一次,文本特征词c
则每个特征词位置权重函数为:
式中,k为特征词c
在一个实施例中,所述步骤三中的根据词汇在文本中的词性得到一系列词汇词性权重值β
根据调查统计得出名词、动词、形容词、副词的权重值依次为β
在一个实施例中,所述步骤四中的综合步骤一~步骤四,求解词汇集合T′中的词汇在文本库中的期望E(c
(1)计算词汇在文本库中的期望E(c
式中,n为文本库中文本数量,P
式中,n
(2)计算词汇在文本库中的方差S(c
式中,
(3)构造目标权重函数mw(c
式中,α
(4)设定阈值条件f,特征词汇集合T降维到词汇集合:
T′=(c
条件为mw(c
在一个实施例中,所述步骤五中的根据皮尔森相关系数求解待比较文本(W
根据步骤四计算得出的特征词汇权重值,相关领域专家选取前m位关键词,这里m<20,分别有文本(W
文本W
同理,文本W
根据皮尔森相关系数,得到文本(W
本发明的另一目的在于提供一种应用所述的改进的文本相似度分析方法的改进的文本相似度分析系统,所述改进的文本相似度分析系统包括:
分词处理模块,用于利用中文分词技术对文本进行分词处理;
权重值计算模块,用于根据词汇位置信息计算词汇在文本中的权重值
词汇集合构建模块,用于通过求解词汇集合T′中的词汇在文本库中的期望E(c
文本相似度计算模块,用于根据皮尔森相关系数求解待比较文本(W
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
利用中文分词技术对文本进行分词处理;根据词汇位置信息,计算词汇在文本中的权重值
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
利用中文分词技术对文本进行分词处理;根据词汇位置信息,计算词汇在文本中的权重值
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的改进的文本相似度分析系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的改进的文本相似度分析方法,比传统的文本相似度计算方法得到的结果具有更高的准确性,更符合人工提取的结果。本发明的方法在信息检索、机器翻译、自动问答系统等领域都具有更好的适用性。本发明的算法具有更大的利用价值。同时,本发明的方法粗略计算了特征词汇中不同词汇对文本思想的贡献度,计算特征词汇中不同词汇对文本思想的贡献度具有更高的精确度,为后续的文本聚类提供良好的理论基础。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本发明实施例提供的改进的文本相似度分析方法流程图。
图2是本发明实施例提供的改进的文本相似度分析方法原理图。
图3是本发明实施例提供的改进的文本相似度分析系统结构框图;
图中:1、分词处理模块;2、权重值计算模块;3、词汇集合构建模块;4、文本相似度计算模块。
图4是本发明实施例提供的中文文本预处理过程流程图。
图5是本发明实施例提供的n元语法分词算法图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
针对现有技术存在的问题,本发明提供了一种改进的文本相似度分析方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的改进的文本相似度分析方法包括以下步骤:
S101,利用中文分词技术对文本进行分词处理;
S102,根据词汇位置信息,计算词汇在文本中的权重值;
S103,根据词汇在文本中的词性得到一系列词汇词性权重值;
S104,综合S101~S103,利用目标权重函数对文本词汇集合进行降维处理,得到词汇集合;
S105,求解词汇集合中的词汇在文本库中的期望与方差,并根据皮尔森相关系数求解待比较文本间的文本相似度。
本发明实施例提供的改进的文本相似度分析方法原理图如图2所示。
如图3所示,本发明实施例提供的改进的文本相似度分析系统包括:
分词处理模块1,用于利用中文分词技术对文本进行分词处理;
权重值计算模块2,用于根据词汇位置信息计算词汇在文本中的权重值
词汇集合构建模块3,用于通过求解词汇集合T′中的词汇在文本库中的期望E(c
文本相似度计算模块4,用于根据皮尔森相关系数求解待比较文本(W
下面结合具体实施例对本发明的技术方案作进一步描述。
针对于特征向量高维稀疏问题、未考虑特征词汇集合对文本的重要程度和贡献度的问题、存在同义词与多义词问题,本发明提供了一种改进的文本相似度计算方法。为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:利用中文分词技术对文本进行分词处理;
步骤2:根据词汇位置信息,计算词汇在文本中的权重值
步骤3:根据词汇在文本中的词性得到一系列词汇词性权重值;
步骤4:综合上述步骤,利用目标权重函数mw(c
步骤5:根据皮尔森相关系数求解待比较文本(W
为了解决文本中特征词汇中不同词汇对文本的重要程度的差异和计算文本间的相似度,结合图1~图5对本发明进行了详细说明,其具体实施步骤如下:
步骤1:利用中文分词技术对文本进行分词处理,其具体分词技术过程如下:
步骤1.1:根据《分词词典》找到待分词句子中与词典中匹配的词,把待分词的汉字串完整的扫描一遍,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空。
步骤1.2:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM
步骤1.3:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为n
得min()=min(n
在上述最少路径中,求解每条相邻路径的权重大小。
在统计语料库中,计算每个词的信息量X(C
上式n(C
上式n(C
若信息量X(C
同理计算X(C
上式n(C
上式R(C
若信息量X(C
综上可得每条相邻路径的权值为:
w(C
步骤1.4:找到权值最大的一条路径,即为待分词句子的分词结果。
步骤2:根据词汇位置信息,计算词汇在文本中的权重值
根据调研资料显示,特征词越在文本靠前位置,越能代表文本的中心思想,特征词在文本中出现的次数越多,越具有文本含义的代表性。通过步骤1得到词汇在文本的权重值,取前20个特征词汇。对这些词汇进行位置权重划分。
在文本中每个特征词至少出现一次,文本特征词c
则每个特征词位置权重函数为:
上式k为特征词c
步骤3:根据词汇在文本中的词性得到一系列词汇词性权重值β
现代汉语语法中,一个句子主要由主语、谓语、宾语、定语和状语等成分构成。从词性的角度看,名词一般担当主语和宾语的角色,动词一般担当谓语的角色,形容词和副词一般担当定语的角色。词性的不同,造成了它们对文本或者句子的表示内容的能力的不一样。根据调查统计得出名词、动词、形容词、副词的权重值依次为β
步骤4:综合上述步骤,利用目标权重函数mw(c
步骤4.1)词汇在文本库中的期望E(c
上式n为文本库中文本数量,P
上式n
步骤4.2)词汇在文本库中的方差S(c
上式
步骤4.3)构造目标权重函数mw(c
α
步骤4.4)设定阈值条件f,特征词汇集合T降维到词汇集合:
T′=(c
条件为mw(c
f可以由实验迭代测试出来。
步骤5:根据皮尔森相关系数求解待比较文本(W
根据步骤4计算得出的特征词汇权重值,相关领域专家选取前m位关键词,这里m<20,既分别有文本(W
文本W
同理,文本W
根据皮尔森相关系数,即可得文本(W
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
机译: 活体信息分析系统,用户终端设备,分析器,充电设备,传输分析指令的方法,控制程序和计算机可读记录介质
机译: 内容交付方法,市场分析支持方法,介质销售目的地的指南方法,介质存储目的地的指南方法,计算机系统,中介设备,机架内终端和计算机程序
机译: 远程诊断系统,数据发送方法,数据接收方法以及用于其的通信终端设备,数据分析设备,程序和存储介质