首页> 中国专利> 一种融入文档词权重的跨境民族文化文本检索方法

一种融入文档词权重的跨境民族文化文本检索方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及一种融入文档词权重的跨境民族文化文本检索方法，属于自然语言处理技术领域。本发明包括步骤：获取查询词向量和文档词向量；将得到的查询词向量和文档词向量输入到BiLSTM方法，得到查询词隐向量和文档词隐向量；通过TF‑IDF方法计算出文档词中每个实体的权重，并融入到文档词隐向量中，再把查询词隐向量和融入实体权重后的文档词隐向量通过相似度计算构建成一个交互矩阵；利用CNN提取交互矩阵上的特征，得到基本的关联特征，再通过max‑pooling提取最强特征，并投影到多层感知器神经网络中，最终获得查询与文档的匹配得分。本发明通过融入文档词中每个实体的权重来有效提高检索的准确性。

著录项

公开/公告号CN112948537A

专利类型发明专利
公开/公告日2021-06-11

原文格式PDF
申请/专利权人昆明理工大学;
展开▼

申请/专利号CN202110096623.3
发明设计人张亚飞;龙小龙;
展开▼

申请日2021-01-25
分类号G06F16/33(20190101);G06F16/35(20190101);G06F40/216(20200101);G06F40/284(20200101);G06N3/04(20060101);G06N3/08(20060101);
代理机构53204 昆明人从众知识产权代理有限公司;
代理人何娇
地址 650093 云南省昆明市五华区学府路253号
入库时间 2023-06-19 11:22:42

说明书

技术领域

本发明涉及一种融入文档词权重的跨境民族文化文本检索方法，属于自然语言处理技术领域。

背景技术

传统的信息检索模型是根据精确的匹配信号来测量文档的相关性。也就是说，相关性分数是由文档中查询词的频率决定的。由于语义匹配信号被忽略，传统的信息检索模型面临典型的术语不匹配问题。近年来，深度神经网络在许多自然语言处理任务中取得了巨大的成功。同时，深度神经网络也被应用于信息检索，称为神经信息检索，对检索模型中的单词重要性进行建模具有重要意义。在传统的检索模型中，他们根据逆文档频率(IDF)测量单词的重要性。由于这些模型只考虑与查询词相等的文档词，因此只考虑IDF查询词就足够了。最近，神经检索模型采用深度神经网络对查询词和文档词之间的语义匹配进行建模。因此，与查询词有关的词也被用来衡量相关性。对于跨境民族文化领域来说，非查询词对文档检索具有非常重要的作用，现有的神经检索模型忽略了这些非查询词的重要性，这在相关性判断中是至关重要的，因此通用的神经检索模型对跨境民族文化领域的文本检索效果并不好。以以下案例为例：

查询：介绍傣族的传统节日，比如开门节。

文本A的一个片段：泼水节是傣族、泰语民族以及东南亚地区的传统节日，泼水节是每年公历4月13～15日之间，节日会举办3～4天的时间。

文本B的一个片段：傣族舞是傣族古老的民间舞，也是傣族人民最喜爱的舞蹈。流行于整个傣族地区，以瑞丽县和耿马县孟定的孔雀舞为代表。

当两段文本A、B都有与查询词相同的实体‘傣族’的时候，文档中的非查询词对于检索结果的精度十分的重要，考虑到傣族和泼水节在查询中提供的语义环境，非查询词‘泼水节’的重要性应该大于‘傣族舞’，因此在不强调非查询词重要性的情况下，很容易出现匹配错误，当强调非查询词的重要性时，它将提高检索的精度。

对于跨境民族文化领域文本检索来说，查询文本的实体在文档中存在较大的概率的重复性，当查询文本的实体在多条文档中同时出现时，目前的检索方法不能很好的识别出与查询文本最匹配的文档，容易造成匹配失误的问题。针对这个问题，本发明通过融入文档词中每个实体的权重来有效提高检索的准确性。

发明内容

本发明提供了一种融入文档词权重的跨境民族文化文本检索方法，用以提高在跨境民族文化领域的文本检索的准确性。

本发明的技术方案是：一种融入文档词权重的跨境民族文化文本检索方法，所述方法的具体步骤如下：

Step1、用深度学习开源词向量工具word2vec的Skip-gram方法对跨境民族文化文本数据集中进行词向量语义学习训练，得到预训练好的查询词向量和文档词向量；

Step2、将训练好的查询词向量和文档词向量输入到BiLSTM方法，得到查询词隐向量和文档词隐向量；

Step3、通过TF-IDF方法计算出文档词中每个实体的权重，并融入到文档词隐向量中，再把查询词隐向量和融入实体权重后的文档词隐向量通过相似度计算构建成一个交互矩阵；

Step4、利用CNN提取交互矩阵上的特征，得到基本的关联特征，再通过max-pooling提取最强特征，并投影到多层感知器神经网络中，最终获得查询与文档的匹配得分。

作为本发明的进一步方案，所述步骤Step3中，构建交互矩阵的公式如下：

i＝1,2,...M,j＝1,2,...N

将文本匹配的输入表示为匹配交互矩阵m，则上述每个元素m

本方法构建了多层神经网络.基于神经网络强大的数据拟合和学习能力，逐一提取特征。随着网络的逐渐深入，提取的特征越来越抽象。由于每个查询的重要性不同，多层神经网络的输出结合查询重要性得到最终的分数，用于文档排序。

本发明的有益效果是：

针对于跨境民族文化领域文本所具有的特点，本发明从检索精度出发，在建模查询和文档之间的相关性时考虑了非查询词(即文档词)的重要性，本发明通过融入文档词中每个实体的权重来有效提高跨境民族文化领域文本检索精度。

本发明进行了对比实验和消融实验来验证本发明所提出的方法及模型的有效性。具体来说，本发明在跨境经民族领域数据集中测试了所提出的模型。实验结果表明，和通用的检索模型相比，所提模型在检索精度上具有明显的提升。

附图说明

图1为本发明中的流程图。

具体实施方式

实施例1：如图1所示，一种融入文档词权重的跨境民族文化文本检索方法，所述方法的具体步骤如下：

Step1、用深度学习开源词向量工具word2vec的Skip-gram方法对跨境民族文化文本数据集中进行词向量语义学习训练，得到预训练好的查询词向量Q＝{Q

Step2、将训练好的查询词向量和文档词向量输入到BiLSTM方法，得到查询词隐向量q＝{q

作为本发明的进一步方案，所述步骤Step3中，构建交互矩阵的公式如下：

i＝1,2,...M,j＝1,2,...N

将文本匹配的输入表示为匹配交互矩阵m，则上述每个元素m

所述Step4包括：

在交互矩阵上用CNN进行特征提取，第k个内核W(1，k)扫描整个交互矩阵并生成特征图Z

使用MLP(Multi-Layer Perception)来生成匹配的final分数。以二值分类和两层感知器为例，本发明将得到一个二维匹配得分向量:其中，s

本发明在跨境民族文化领域文本数据集上评估了所提模型的性能。并与几个经典模型进行了比较，取得了良好的效果。接下来，详细阐述了本发明实验的过程、结果和分析。

本发明所用的数据集是跨境民族领域的文档，由网络爬虫从网站上采集，用户的点击作为文档排序的依据，包括8000个文档和800个查询，一个查询对应十个文档，其中包含正负文档。训练数据与测试数据的比例为15:1，即有7500条训练数据和500条测试数据，此外，参考INQUERY中的停用字列表，本发明删除了查询中的停用词。

本发明的基线模型包括传统的模型和最新的神经模型。一种是以表示为中心的深度匹配模型，包括ACR-I、DSSM、CDSSM和另一种以交互为中心的深度匹配模型如下：ACR-II、MatchPyramid、DRMM。

本发明选择一些神经深度匹配模型进行比较，下面将介绍这些模型：

ARC-I：ARC-I用于句子完成、反应匹配和释义识别，这是一个以表示为中心的模型。在NLP任务上测试了ARC-I，包括响应匹配、句子完成和释义识别。

DSSM：DSSM是一个很好的网络搜索模型.原论文提到训练DSSM需要大量的数据，在接下来的实验中，没有显示出优异的结果。

CDSSM：DSSM是CDSSM的改进版本。主要是将DSSM中的密集层改变为卷积层，通过这种方式获得更多的结构信息，性能有提高。

ARC-II：这是ACI-I的改进版本。它注意到了交互的重要性，并且比ARC-I更早地学习了交互信息。ARCI和ARC-II没有公共代码，因此重新实现并应用于比较模型。

MatchPyramid：它是一个广泛使用的模型，其应用包括释义识别和论文引文匹配。有三个版本的匹配金字塔。本发明选择最好的模型来比较。比较所涉及的模型是作者提供的原始模型。

DRMM：DRMM是一个以交互为中心的模型，具有不同类型的直方图映射函数(即CHNH和LCH)和术语门控函数(即TV和IDF)。本发明选择结果的最佳模型进行比较.同样，比较所涉及的模型是作者提供的原始模型。

K-NRM：K-NRM模型使用高斯核函数来提取相似度矩阵中的特征，并使用检索方面专门训练的词向量作为输入，可根据实际任务进行端到端的微调，其中的高斯核参数可根据经验制定。

本发明提出的模型的检索精度相比基线模型有显著的提升。在跨境民族文化数据集中的实验结果如下：传统的模型BM25比以表示为中心的模型(包括DSSM、CDSSM、ARC-I)精度更高。在所有以交互为中心的模型中，MatchPyramid模型的检索效果最好且强于所有以表示为中心的模型。

表1不同检索模型在跨境民族领域数据集上的比较

本发明所提模型在实验中使用NDCG、p@n和MAP作为评价模型检索精度的指标，表一说明了以表示为中心的模型通常不如以交互为中心的模型的性能好。在某种程度上，这也说明了相关性匹配在IR中强调的三个因素的作用。对照最佳深度学习基线模型(即MatchPyramid)的改进。所提模型在NDCG@10上提高了约9.7％、在P@1上提高了约8.9％，在MAP上提高了约9.8％。由此说明了本发明所提模型在面向跨境民族文化领域的检索任务上的优越性。

表2显示了以表示为中心的模型(DSSM、CDSSM、ARC-I)、以交互为中心的模型(DRMM、ARC-II、MatchPyramid、K-NRM)和本发明所提模型在通用数据集MQ2007上的实验效果。

表2不同检索模型在数据集MQ2007上的比较

可以看出，本发明提出的模型和性能最好的模型K-NRM在通用数据集MQ2007上检索精度相当，都优于所试验的其他模型，但并没有明显的提高。和表一对比可以看出，本发明所提模型在跨进民族文化领域数据集的检索精度相比于其他模型有很大的提高，因此可以说它是专门为跨境民族文化领域文本检索而设计的模型。

以上实验结果证明了本发明提出的模型在跨境民族文化领域的文本检索任务中有更好的检索效果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种融入文档词权重的跨境民族文化文本检索方法 [P] . 中国专利： CN112948537A . 2021-06-11
2. 一种基于词频幂律分布特性的文本关键词权重计算方法 [P] . 中国专利： CN109635081A . 2019-04-16
3. Electronically stored text evaluating and searching method, involves assigning search words to neuron such that combining weights depends in frequency of search word in text with neuronal network, and calculating end activation of networks [P] . 德国专利： DE102008030125A1 . 2010-01-14

机译：电子存储的文本评估和搜索方法，涉及将搜索词分配给神经元，从而使权重取决于神经网络中文本中搜索词的频率，并计算网络的末端激活
4. Prioritizing and visually distinguishing sets of hyperlinks in hypertext world wide web documents in accordance with weights based upon attributes of web documents linked to such hyperlinks [P] . 美国专利： US2002107884A1 . 2002-08-08

机译：根据基于链接到此类超链接的Web文档的属性的权重，对超文本万维网文档中的超链接集进行优先排序和视觉区分
5. Information retrieval method used in motor car, involves recognizing information query containing the keyword associated with information products by speech recognition and processing unit based on stored conditioned keywords [P] . 德国专利： DE102011112887A1 . 2012-03-15

机译：一种用于汽车的信息检索方法，包括由语音识别和处理单元根据存储的条件关键词识别包含与信息产品相关的关键词的信息查询。