首页> 中国专利> 融合文档主题特征的跨境民族文本排序方法及装置

融合文档主题特征的跨境民族文本排序方法及装置

摘要

本发明涉及融合文档主题特征的跨境民族文本排序方法及装置,属于自然语言处理技术领域。为了解决跨境民族文本数据中语义缺失的问题,本发明提出了一种融合文档主题特征的跨境民族文本排序方法,主要包括:跨境民族文本数据预处理、跨境民族文化知识图谱特征表示、跨境民族文化文档主题特征提取、融合文档主题特征的跨境民族文本排序方法训练、跨境民族文化文本排序预测五个部分构成。本发明根据上述步骤实现了跨境民族文化文本数据的检索排序装置,具有重要的理论和实际运用价值。

著录项

  • 公开/公告号CN115114400A

    专利类型发明专利

  • 公开/公告日2022-09-27

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN202210735924.0

  • 申请日2022-06-27

  • 分类号G06F16/33(2019.01);G06F16/35(2019.01);G06F40/211(2020.01);G06F40/289(2020.01);G06F40/30(2020.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构昆明隆合知识产权代理事务所(普通合伙) 53220;

  • 代理人何娇

  • 地址 650500 云南省昆明市呈贡区景明南路727号

  • 入库时间 2023-06-19 17:07:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-18

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022107359240 申请日:20220627

    实质审查的生效

  • 2022-09-27

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及融合文档主题特征的跨境民族文本排序方法及装置,属于自然语言处理技术领域。

背景技术

利用信息检索技术将跨境民族文化文本之间存在关联关系的文本检索出来,按照检索文本和待检索文本之间的相关性进行排序,是跨境民族文化文本关联分析中的重要环节。与传统文本排序不同的是,跨境民族文本数据存在相似度较高,文化习俗大同小异等现象,使得跨境民族文本排序任务变得艰难。解决跨境民族文本排序的关键在于利用文本检索技术计算跨境民族文化文本数据之间的相关度。文本排序模型主要包括:传统的文本排序方法和深度学习文本排序方法。在传统的文本排序方法中,排序结果是通过计算文本中的关键词个数、关键词词频以及文档频率得到检索文本与待检索文本的相似性。但排序结果并不理想,需要大量人工筛选。基于深度学习的文本排序方法的核心思想是将文本分词后的到的词进行向量化表示,依据文本特征信息采用不同的神经网络进行文本语义特征的提取,最后根据文本语义特征的相似度得到文本的排序结果。由于跨境民族文化文本数据中存在语义环境复杂的问题,无论是传统的文本排序方法还是基于深度学习的文本排序方法,考虑的是检索文本中关键词的语义信息,使得检索文本的范围较为宽泛,模型检索性能较弱。

发明内容

本发明提供了一种融合文档主题特征的跨境民族文本排序方法及装置,以用于解决检索文本中文本数据存在相似度较高,文化习俗大同小异等问题,本发明采用知识表示模型对检索文本进行实体语义的扩展辅助文本检索,结合跨境民族文本聚类算法对跨境民族文本数据进行文档主题特征信息的融合,从而提升文本排序的效率。

本发明的技术方案是:第一方面,一种融合文档主题特征的跨境民族文本排序方法,所述融合文档主题特征的跨境民族文本排序方法的具体步骤如下:

Step1、跨境民族文本数据预处理:通过过滤、筛选、去停用词、特殊符号等操作后获得傣族、泰族、彝族、倮倮族四个跨境民族文本数据,选取句子对20000条,其中包括10000条正样例和10000条负样例;采用预训练模型训练跨境民族文化文本数据获得文本词向量表征;利用知识表示模型捕获跨境民族文化知识图谱中的实体特征,利用特征融合的方式增强跨境民族文化文本数据中的实体语义信息;利用文本聚类模型提取跨境民族文化文本数据主题特征信息;利用注意力机制将其与查询文本和待查询文本特征融合;

Step2、融合文档主题特征的跨境民族文本排序模型训练:对检索文本中的跨境民族文化实体进行实体语义的扩展,利用文本的潜在主题特征信息捕获检索文本和待检索文本之间的关联关系缓解检索文本中文本语义缺失的问题;计算查询文本和待查询文本之间的文本相似度利用排序学习的方法计算查询文本和待查询文本之间的相关性,最终完成跨境民族文本排序模型训练,获得跨境民族文本排序模型;

Step3、跨境民族文本检索排序预测:通过训练跨境民族文本排序模型对输入的检索句进行检索并排序。

作为本发明的进一步方案,所述Step1包括:

Step1.1、通过爬虫技术爬取各大民族网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去特殊符号等操作后获得傣族、泰族(泰国)、彝族、倮倮族(越南)文本数据对20000条,其中包括正样本数据10000条,负样本数据10000条,包含28个跨境民族文化类别,句对的平均长度是145个字符;

Step1.2、对预处理后的跨境民族文化文本数据分句处理,利用人工构建的跨境民族文化词库联合分词工具对跨境民族文化句进行分词,采用预训练模型训练跨境民族文化文本数据得到词向量表示,其中跨境民族文化词库包含34117个词;

Step1.3、采用知识表示模型对跨境民族文化知识图谱中的三元组关系进行表示,将跨境民族文化知识图谱中的每一组关系中的头结点h和尾结点t映射到一个向量空间的超平面上H;抽取检索文本中特定的跨境民族文化实体,如文本:“傣族特色美食香茅草烤鱼”可以得到实体“傣族”和“香茅草烤鱼”,利用知识表示模型得到实体的向量表示:[e

作为本发明的进一步方案,所述Step1中,所述利用文本聚类模型提取跨境民族文化文本数据主题特征信息的具体步骤为:

Step1.4、利用跨境民族文化文本数据中的实体、主题之间的关联关系构建跨境民族文化文档关联分析图,引入异构图卷积神经网络并进行跨境民族文化文本数据全局特征的提取,对于跨境民族文化文本数据的局部特征采用长短期记忆网络获得,将跨境民族文化文本的局部特征和全局特征信息拼接后输入到多层感知器中,对其进行迭代训练得到跨境民族文化文本聚类模型;

Step1.5、为了得到检索文本和待检索文本的主题特征信息,利用跨境民族文化文本聚类模型捕获文本数据中的潜在主题特征Z,将其作为注意力向量的q和向量化表示的检索文本X计算得到注意力权重a,具体的计算方式如下公式所示;待检索文本和检索文本融合主题特征的方式相同:

l表示该检索文本的长度。

作为本发明的进一步方案,所述Step1中,所述利用注意力机制将其与查询文本和待查询文本特征融合的具体步骤为:

Step1.6、利用CNN网络联合注意力机制网络提取文本局部特征,获取跨境民族文化文本数据中更重要的特征信息,并将特征信息传递给前馈网络,完成跨境民族文化文本数据的第一次局部特征抽取,对得到的局部特征进行第二次特征的抽取,最后采用残差网络和第一次抽取的特征信息进行联合,共同组成跨境民族文化文本数据的表征向量。

作为本发明的进一步方案,所述Step2包括:

(1)、通过获得的查询文本和待查询文本语义表征向量V

(2)、利用高斯核函数将获得的相似度矩阵M

第二方面,一种融合文档主题特征的跨境民族文本排序装置,包括如下模块:

跨境民族文本数据预处理模块:用于获得傣族、泰族、彝族、倮倮族四个跨境民族文本数据;采用预训练模型训练跨境民族文化文本数据获得文本词向量表征;利用知识表示模型捕获跨境民族文化知识图谱中的实体特征,利用特征融合的方式增强跨境民族文化文本数据中的实体语义信息;利用文本聚类模型提取跨境民族文化文本数据主题特征信息;利用注意力机制将其与查询文本和待查询文本特征融合;

融合文档主题特征的跨境民族文本排序模型训练模块,用于对检索文本中的跨境民族文化实体进行实体语义的扩展,利用文本的潜在主题特征信息捕获检索文本和待检索文本之间的关联关系缓解检索文本中文本语义缺失的问题;计算查询文本和待查询文本之间的文本相似度利用排序学习的方法计算查询文本和待查询文本之间的相关性,最终完成跨境民族文本排序模型训练,获得跨境民族文本排序模型;

跨境民族文本检索排序预测模块:用于通过训练跨境民族文本排序模型对输入的检索句进行检索并排序。

跨境民族文化文本检索排序部署,首先,将融合文档主题特征信息的跨境民族文本排序模型进行保存,利用Flask技术将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;然后,通过Flask技术将模型部署为一个API接口,进而实现Web端口多并发请求的功能;最后,在Web端通调用部署到服务器端的文本排序模型,通过输入检索句或者检索词得到检索排序后的跨境民族文化文本数据,最后将得到的预测结果展示到前端界面。

本发明的有益效果是:

1、本发明利用文本的潜在主题特征信息捕获文本之间的关联关系,融合实体语义信息对文本进行语义的扩充,解决文本中语义缺失的问题。

2、本发明利用文本聚类得方法捕获文本数据中的主题特征,利用跨境民族文化知识图谱实现对跨境民族文化实体的语义扩展并获得跨境民族文化实体语义向量表示;利用跨境民族文化图谱对检索文本进行实体语义的扩展辅助文本检索,利用文本聚类算法对跨境民族文化文本数据进行文档主题特征的融合,从而提升文本排序的效率,获得跨境民族文本排序模型;

3、本发明在文本检索排序的过程中融合文档主题特征能够提高检索排序性能,以及实际检索跨境民族文化文本时可以返回与查询文本相关度较高的文档,提高用户的搜索兴趣。

附图说明

图1为本发明中的总的模型图;

图2为本发明方法的流程框图;

图3为本发明文本特征提取示意图。

具体实施方式

实施例1:如图1-图3所示,第一方面,提供融合文档主题特征的跨境民族文本排序方法,所述方法的具体步骤如下:

Step1、跨境民族文本数据预处理:通过过滤、筛选、去停用词、特殊符号等操作后获得傣族、泰族、彝族、倮倮族四个跨境民族文本数据,选取句子对20000条,其中包括10000条正样例和10000条负样例;采用预训练模型训练跨境民族文化文本数据获得文本词向量表征;利用知识表示模型捕获跨境民族文化知识图谱中的实体特征,利用特征融合的方式增强跨境民族文化文本数据中的实体语义信息;利用文本聚类模型提取跨境民族文化文本数据主题特征信息;利用注意力机制将其与查询文本和待查询文本特征融合;

Step2、融合文档主题特征的跨境民族文本排序模型训练:对检索文本中的跨境民族文化实体进行实体语义的扩展,利用文本的潜在主题特征信息捕获检索文本和待检索文本之间的关联关系缓解检索文本中文本语义缺失的问题;计算查询文本和待查询文本之间的文本相似度利用排序学习的方法计算查询文本和待查询文本之间的相关性,最终完成跨境民族文本排序模型训练,获得跨境民族文本排序模型。

Step3、跨境民族文本检索排序预测:通过训练跨境民族文本排序模型对输入的检索句进行检索并排序。

作为本发明的优选方案,所述Step1的具体步骤为:

Step1.1、通过爬虫技术爬取各大民族网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去特殊符号等操作后获得傣族、泰族(泰国)、彝族、倮倮族(越南)文本数据对20000条,其中包括正样本数据10000条,负样本数据10000条,包含28个跨境民族文化类别,句对的平均长度是145个字符。

Step1.2、对预处理后的跨境民族文化文本数据分句处理,利用人工构建的跨境民族文化词库联合分词工具对跨境民族文化句进行分词,采用预训练模型训练跨境民族文化文本数据得到词向量表示,其中跨境民族文化词库包含34117个词。

Step1.3通过借鉴Wang等人的思想将跨境民族文化知识图谱的实体语义关系融入检索文本的表征中,从而增强检索文本的实体语义特征。TransH模型是对TransE模型的改进,相对于跨境民族文化知识图谱中实体的一对多关系模型效果更优。采用知识表示模型对跨境民族文化知识图谱中的三元组关系进行表示,具体的,TransH模型将跨境民族文化知识图谱中的每一组关系中的头结点h和尾结点t映射到一个向量空间的超平面上H,之后根据超平面上的平移向量计算头尾结点的差值。通过不断调整h,r和t使其满足h+r=t,其中,r表示关系向量。

抽取检索文本中特定的跨境民族文化实体,如文本:“傣族特色美食香茅草烤鱼”可以得到实体“傣族”和“香茅草烤鱼”,利用TransH模型得到实体的向量表示:[e

Step1.4、为了捕获跨境民族文化文本的主题特征信息,对于每一条跨境民族文化文本数据采用词频-逆文档频率提取文本的词频统计信息将其处理成一个长度为V的表示x

L

Step1.5、为了得到检索文本和待检索文本的主题特征信息,利用跨境民族文化文本聚类模型捕获文本数据中的潜在主题特征Z,最终得到跨境民族文化文本数据的潜在主题特征Z。

将文本的潜在主题特征Z作为注意力向量q,和已经进行向量表示的检索文本X计算权重得到a,然后融合当前检索文本和待检索文本的向量表示,具体的计算方式如下所示:

其中,l表示该检索文本的长度,待检索文本不进行文本实体语义特征增强的步骤,通过采用预先训练好的Word2Vec模型进行嵌入,得到向量x

作为本发明的优选方案,所述Step1中,所述利用注意力机制将其与查询文本和待查询文本特征融合的具体步骤为:

Step1.6、得到的检索文本(查询文本)和待检索文本(待查询文本)的嵌入表示分别为:

V

V

V

V

V

V

其中,V表示融合后的特征信息。

作为本发明的进一步方案,所述Step2包括:

(1)将检索文本的特征向量V

其中

(2)采用Cui等人提出的Kernel Pooling技术利用N个高斯核将相似度矩阵M

其中,μ

将得到的特征向量

其中,φ(M)∈N×l

其中,w

其中,n表示待检索文本的数量,x

为了说明本发明的有效性,本发明进行了如下对比实验其中包括:句子对20000条,其中包含10000条的正例样本数据和10000条的负例样本数据,每个句子的平均长度为145,表1是模型训练过程中的样例说明。

表1实验数据格式

表2为模型训练过程中的参数设置:

表2模型参数设置

为了验证本发明提出的文本排序的性能,融合文档主题特征的跨境民族文本排序模型的评价指标主要采用MAP(Mean Average Precision),计算方法如下所示:

其中,Q表示查询文本的数量,实验中其值被设置为2;k表示检索结果在结果列表中的位置,P(k)表示待检索文本中前k个查询结果的准确率;rel(k)表示第k个位置上的待检索文本与查询文本的相关性程度,如果相关rel(k)=1,不相关rel(k)=0。

实验1:基线模型对比实验

为了验证模型的有效性,本发明选取4个基线模型在跨境民族文化文本数据上对比,具体如表3所示。

MatchPyramid:Pang等人2016年提出通过相似度计算文本并构建相似度矩阵,然后通过卷积提取特征信息。

ESIM:Chen等人2016年提出了基于BiLSTM和Attention机制的模型,具有良好的文本匹配效果。

K-nrm:Xiong等人2017年提出了一种基于卷积核的神经排序模型。

Conv-knrm:Dai等人2018年提出Conv-knrm模型考虑n-gram级别的词表达,通过卷积捕捉更细微的实体语义。

表3对比实验结果

根据表3可以得到,文本模型相对于基于语义相似度计算和基于交互的基线模型的基线模型都具有较好的性能。相比于本发明的Baseline模型Conv-knrm来说,本发明模型对查询文本中的实体进行了语义扩展,充分的对文本的语义信息进行了匹配,此外本发明提出的方法对检索得到的文本进行排序的优化处理,然而Conv-knrm模型仅和数据中的n元语法模型特征进行交互,针对跨境民族文本数据中一词多义的问题,该方法会导致特征语义信息漂移,从而无法捕获文本之间的关联关系。

基线模型中,K-nrm模型的检索排序性能较差,导致该现象的原因是K-nrm模型对跨境民族文本数据直接进行词向量之间的交互,模型的性能完全取决于词向量的质量。跨境民族文化属于特定领域,其中包含大量专业术语,使用普通领域的词向量库无法识别专业术语。相对于性能较好的MatchPyramid模型,该模型构造词间的相似度矩阵,并使用CNN模型从相似度矩阵中提取局部特征。但忽略了词与文本表征的关系。

综上所述,本发明提出的融合文档主题特征的跨境民族文本排序模型性能相比于其他基线模型较好,证明了在文本检索排序的过程中融合文档主题特征能够提高检索排序性能的论证,有效提升模型的稳健性,以及实际检索跨境民族文化文本时可以返回与查询文本相关度较高的文档,提高用户的搜索兴趣。

实验2:消融实验

本实验是为了验证本发明所提模型中各个模型的有效性,具体结果如表4所示。

-Attention:表示不使用Attention网络进行特征的提取。

-TransH:表示不对查询文本进行实体语义的增强。

-残差网络:表示不使用残差连接,仅对文本数据进行局部特征的抽取。

表4消融实验结果

由表4可以看出,在去除模型中的某一部分,模型性能均有所下降。在“-残差网络”的情况下,实验模型性能相比于本发明模型下降了1.5%,这是因为残差网络可以保证更多的特征信息保留在跨境民族文本数据的表征中,而去除了残差网路时,容易导致信息丢失过多,从而导致模型性能的下降。“-Attention”情况下,模型性能性能下降了2.1%,该现象的出现也证明了采用注意力机制对跨境民族文化文本的局部特征的提取是有效的。此外,在“-TransH”情况中,模型性能下降最为明显,MAP@2的值下降了5.1%,这是因为跨境民族文化中实体语义较为复杂,仅采用基线模型中中对词级信息的特征进行提取,容易导致实体语义信息的丢失,跨境民族之间的关系无法获取。值得注意的是,在去除“-文档主题特征”模块时,检索排序模型模型性能下降了1.8%,该现象有力的验证了文章思路可以很好的融合文档的主题特征信息有利于后续文本的排序工作,提升排序学习的性能。

实验三:模型检索效果对比

本发明进行了第三个实验用于验证本发明模型的检索性能,具体情况如表5所示。

表5模型检索效果可视化

从表5可以看出,针对跨境民族文化文本检索任务,传统文本检索方法以及本发明提出的方法都取得了不错的效果,然而由于本发明模型中加入了跨境民族文化实体语义信息的扩展,针对跨境民族文化文本数据中实体语义复杂的情况,仅采用普通模型并不能发现文本之间的关联关系,如表5中的传统检索方法对于查询文本“傣族泼水节”的检索结果中仅包含有关键词“泼水节”的文本,本发明模型却可以检索得到含有关键词“宋干节”“傣族新年”这样的文本。同时也证明了本发明模型利用跨境民族文化知识图谱对查询文本进行实体语义扩展的正确性。

根据本发明的构思,本发明还提供了一种融合文档主题特征的跨境民族文本排序方法装置,包括如下模块:

跨境民族文本数据预处理模块:用于获得傣族、泰族、彝族、倮倮族四个跨境民族文本数据;采用预训练模型训练跨境民族文化文本数据获得文本词向量表征;利用知识表示模型捕获跨境民族文化知识图谱中的实体特征,利用特征融合的方式增强跨境民族文化文本数据中的实体语义信息;利用文本聚类模型提取跨境民族文化文本数据主题特征信息;利用注意力机制将其与查询文本和待查询文本特征融合;

融合文档主题特征的跨境民族文本排序模型训练模块,用于对检索文本中的跨境民族文化实体进行实体语义的扩展,利用文本的潜在主题特征信息捕获检索文本和待检索文本之间的关联关系缓解检索文本中文本语义缺失的问题;计算查询文本和待查询文本之间的文本相似度利用排序学习的方法计算查询文本和待查询文本之间的相关性,最终完成跨境民族文本排序模型训练,获得跨境民族文本排序模型;

跨境民族文本检索排序预测模块:用于通过训练跨境民族文本排序模型对输入的检索句进行检索并排序。

在一种可行的实施方式中,所述跨境民族文本数据预处理模块,还用于:

通过爬虫技术爬取各大民族网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去特殊符号操作后获得傣族、泰族、彝族、倮倮族文本数据对20000条,其中包括正样本数据10000条,负样本数据10000条,包含28个跨境民族文化类别,句对的平均长度是145个字符;

对预处理后的跨境民族文化文本数据分句处理,利用人工构建的跨境民族文化词库联合分词工具对跨境民族文化句进行分词,采用预训练模型训练跨境民族文化文本数据得到词向量表示;

采用知识表示模型对跨境民族文化知识图谱中的三元组关系进行表示,将跨境民族文化知识图谱中的每一组关系中的头结点h和尾结点t映射到一个向量空间的超平面上H;抽取检索文本中特定的跨境民族文化实体,利用知识表示模型得到实体的向量表示;对查询文本采用分词工具并结合跨境民族文化领域词库分词,采用预先训练好的Word2Vec模型对其进行embedding嵌入,得到向量表示;最后采用拼接的方式将上述两种特征向量融合。

跨境民族文化文本检索排序部署,首先,将融合文档主题特征信息的跨境民族文本排序模型进行保存,利用Flask技术将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;然后,通过Flask技术将模型部署为一个API接口,进而实现Web端口多并发请求的功能;最后,在Web端通调用部署到服务器端的文本排序模型,通过输入检索句或者检索词得到检索排序后的跨境民族文化文本数据,最后将得到的预测结果展示到前端界面。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号