首页> 中国专利> 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法

一种基于要素关联注意力机制的汉越新闻文档摘要生成方法

摘要

本发明涉及一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,属于自然语言处理技术领域。本发明首先构建汉越双语词向量,将两种语言的词向量转换到同一语义空间。然后,构建了多特征融合向量,将双语新闻要素共现程度、词频特征、句子位置和句子相关度特征等统计特征融入到双语词向量中。最后,构建了基于要素关联注意力机制的LSTM神经网络模型,计算出句子的重要性分值,依据相关性分析算法,可选取分值较高的句子删除冗余信息生成摘要。本发明在汉越双语新闻文档集上取得了较好的摘要生成效果。

著录项

  • 公开/公告号CN110378409A

    专利类型发明专利

  • 公开/公告日2019-10-25

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN201910635870.9

  • 申请日2019-07-15

  • 分类号G06K9/62(20060101);G06N3/04(20060101);G06F17/27(20060101);G06F17/28(20060101);

  • 代理机构53204 昆明人从众知识产权代理有限公司;

  • 代理人李晓亚

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2024-02-19 15:02:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-21

    授权

    授权

  • 2019-11-19

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20190715

    实质审查的生效

  • 2019-10-25

    公开

    公开

说明书

技术领域

本发明涉及一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,属于自然语言处理技术领域。

背景技术

随着新时代信息的快速增长,热点新闻事件会以不同语言的形式大量的发布在网上,如何快速的掌握互联网中不同国家之间热点新闻及其主要内容,已经成为了社会各界广泛关注的问题。为了解决这个问题,需要对各种来源的文档信息进行总结,并向用户提供简洁但信息量丰富的响应。这个关注点引发了多语言文本摘要系统的发展,该系统旨在将多语言文档集作为输入,产生一个简洁流畅的汇总,以精炼的文字反映原文档集中的主旨大意。随着中越两国交流的日益密切,以不同的语言发布的相关报道越来越多,仅以人工阅读的方式从浩瀚如海的文本数据中摘取重要内容不仅需要耗费大量的时间,还存在语言的障碍,特别在针对越南语这样的小语种,存在可参考资料少、翻译资源少和汉越翻译系统效果不佳等问题。因此方法旨在对描述相关事件的汉越双语新闻文档同时进行归纳总结,在不借助翻译的基础上获取汉越双语新闻的主要内容,帮助人们快速全面地了解事件。

发明内容

本发明提供了一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,以用于解决汉越新闻文档摘要生成的问题,本发明在汉越双语新闻文档集上取得了较好的摘要生成效果。

本发明的技术方案是:一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,所述方法的具体步骤如下:

Step1、从维基百科获得大量汉越双语预料,用于训练双语词向量;然后再进行分词、去重和标记等预处理;

Step2、融合汉语和越南语的语义空间构建汉越双语词向量;单独训练出汉语和越南语的单语词向量,再将两种语言的词向量映射到同一语义空间;具体步骤如下:Step2.1、预处理后的汉越双语新闻文档用于训练双语词向量;对于单语词向量来说Skip-gram模型的训练目标是在给定目标词的情况下预测上下文单词的表示,其目标是最大化训练数据的对数似然函数其中T是训练语料库中的单词数,c是上下文窗口的大小;p(wt+j|wt)使用softmax函数定义:

其中和xi是单词wi和其上下文嵌入表示,|V|是词表种的单词数;

Step2.2、在独立训练单语向量矩阵后,在翻译词典的约束下使用CCA算法进行投影,这样两个汉越双语向量就投影到了同一个语义空间上。

Step3、在双语词向量的基础上融入多个统计特征构建多特征融合向量;

其中融入的多个统一特征包括:双语新闻要素共现程度、句子位置、词频特征和句子相关度特征;

1)计算双语新闻要素共现程度

在双语新闻要素共现程度的计算中,计算中文和越南文的要素的交集得到汉越双语共现要素,再计算出汉越双语共现要素在总要素数中的占比得到汉越双语新闻要素共现程度。

其中,双语新闻要素共现程度分析,使用基于模板和最大熵模型相结合的方法抽取中文和越南语要素,分别获取新闻文档包含的中文要素集和越南文要素集,借助双语词典得到对齐的汉越新闻要素集合。对于包含新闻要素的汉语句子,可将其表示为则共现度为:其中Dve为越南文档的实体结合,表示中文句子中包含的新闻要素;对于包含新闻要素的越南语句子,共现度的计算方式与上述类似;计算中文和越南文的要素的交集得到汉越双语共现要素,再计算出汉越双语共现要素在总要素数中的占比得到汉越双语新闻要素共现程度。

2)句子位置

根据公式得到句子位置信息:其中si为第i个句子,N为文档句子数。

3)词频特征

通过TF-IDF算法得到词频特征:其中Wi,j为表示词的权重,tfi,j表示文档ti在文本中出现的频率,N是文本数量,nj为包含ti的文本数目

4)通过PageRank算法得到句子的余弦相似度;

5)步骤Step3中上上述得到的要素信息,位置信息,词频信息,相关度信息与双语词向量进行融合。

Step4、基于要素关联注意力的LSTM神经网络模型的构建:

构建基于要素关联注意力的LSTM神经网络模型,将多特征向量输入LSTM神经网络得到隐状态,再通过要素关联注意力机制得到注意力权重,利用注意力权重得到隐状态的分布;最后得到句子分数,根据此分数选择候选摘要句,分数越高则为摘要句的概率越大。其中计算注意力权重时,在注意力机制上融入了双语新闻要素共现程度特征;最终句子分数计算时,通过一个回归函数,使每个句子都对应一个显著性分数,根据这个显著性分数来确定最终的摘要句。

构建基于要素关联注意力的LSTM神经网络模型的具体步骤如下:

Step4.1、构建基于注意力机制的LSTM模型,输入的向量为上步骤Step2中得到的训练向量,将向量输入LSTM网络中,经过LSTM神经网络计算得到隐状态H,将隐状态H与双语要素及其共享程度做拼接得到联合向量其中WH和WE为权重矩阵,EC为双语要素共现程度;通过公式计算注意力分布α=softmax(WTΜ),其中W为权重矩阵,最后依据注意力权重分布来计算隐状态的大小,得到依据注意力结合双语要素关联得到的向量表示x=HαT

Step4.2、根据公式得到最终的每个句子表示h*:h*=tanh(Wxx+WhhN),其中Wx和Wh为权重矩阵,hN为每个LSTM的隐状态输出;

Step4.3、根据公式得到每个句子的显著性分值其中Wh和bh是回归权重;

Step4.4、定义损失函数为其中si为目标函数,根据反向传播算法,包括单词向量的模型参数都进行微调,并通过强化学习的方式将评价指标中的标准分值引入损失函数,以有监督的方式指导权重更新。

Step5、将多特征融合向量输入基于要素关联注意力的LSTM神经网络模型输出汉越双语新闻文档摘要。

所述步骤Step5中,对于待生成摘要的双语新闻文档经过步骤Step1做分词等预处理,然后通过步骤Step2得到汉越双语词向量,再通过Step3的多特征融合方法得到输入向量,最后将多特征向量输入步骤Step4构建好的网络中的出最终摘要。

本发明的有益效果是:

1、本发明融合汉语和越南语的语义空间来构建汉越双语词向量,解决汉语和越南语跨语言问题;

2、本发明在双语词向量的基础上融入多个统计特征构建多特征融合向量,使模型能够学习到更多的句子特征;

3、本发明中获取的多特征融合向量可更全面的表征句子所携带的信息,结合要素关联注意力机制,从而更好的更有效的约束跨语言新闻文本的关联性;本发明能够快速获取汉越双语新闻信息。

附图说明

图1为本发明中的流程图;

图2为本发明提出的基于要素关联注意力机制的LSTM网络模型。

具体实施方式

实施例1:如图1-2所示,一种基于要素关联注意力机制的汉越新闻文档摘要生成方法,所述方法的具体步骤如下:

a1、汉越双语新闻文档的收集:以人工辅助检查机器标注的方法构建了20000篇文档的数据集,其中12000篇为中文新闻,8000篇为越南语新闻,涉及近年来中越两国共同关注的热点新闻,包括一带一路等政策话题,也涵盖了旅游,留学等内容。每组新闻集中至少包含两篇文档,一篇汉语一篇为越南语。针对每个事件的集合,参考摘要的选取为每种语言选取4句作为标准。

a2、汉越双语新闻文档的预处理:包括文档切分、分词、去停用词等步骤。本方法分别使用NLPIR和JVnTextPro工具对中文及越南文进行预处理;

a3、使用Skip-gram模型计算出单语言下的词嵌入矩阵,从而得到词向量。在使用CCA算法将两种语言的词向量投影到一个同一个语义空间下,从而得到双语词向量;

a4、在双语词向量的基础上融入多个统计特征构建多特征融合向量;融入的多个统计特征包括双语新闻要素共现程度、句子位置、词频特征和句子相关度特征;

1)计算双语新闻要素共现程度

在双语新闻要素共现程度的计算中,计算中文和越南文的要素的交集得到汉越双语共现要素,再计算出汉越双语共现要素在总要素数中的占比得到汉越双语新闻要素共现程度。

其中,双语新闻要素共现程度分析,使用基于模板和最大熵模型相结合的方法抽取中文和越南语要素,分别获取新闻文档包含的中文要素集和越南文要素集,借助双语词典得到对齐的汉越新闻要素集合。对于包含新闻要素的汉语句子,可将其表示为则共现度为:其中Dve为越南文档的实体结合,表示中文句子中包含的新闻要素;对于包含新闻要素的越南语句子,共现度的计算方式与上述类似;计算中文和越南文的要素的交集得到汉越双语共现要素,再计算出汉越双语共现要素在总要素数中的占比得到汉越双语新闻要素共现程度。

2)根据公式得到句子位置信息:其中si为第i个句子,N为文档句子数。

3)通过TF-IDF算法得到词频特征:其中Wi,j为表示词的权重,tfi,j表示文档ti在文本中出现的频率,N是文本数量,nj为包含ti的文本数目

4)通过PageRank算法得到句子的余弦相似度;

a5、构建基于要素关联注意力的LSTM神经网络模型,具体步骤如下:

a5.1、构建基于注意力机制的LSTM模型,输入的向量为上步骤Step2中得到的训练向量,将向量输入LSTM网络中,经过LSTM神经网络计算得到隐状态H,将隐状态H与双语要素及其共享程度做拼接得到联合向量其中WH和WE为权重矩阵,EC为双语要素共现程度;通过公式计算注意力分布α=softmax(WTΜ),其中W为权重矩阵,最后依据注意力权重分布来计算隐状态的大小,得到依据注意力结合双语要素关联得到的向量表示x=HαT

a5.2、根据公式得到最终的每个句子表示h*:h*=tanh(Wxx+WhhN),其中Wx和Wh为权重矩阵,hN为每个LSTM的隐状态输出;

a5.3、根据公式得到每个句子的显著性分值其中Wh和bh是回归权重;

a5.4、定义损失函数为其中si为目标函数,根据反向传播算法,包括单词向量的模型参数都进行微调,并通过强化学习的方式将评价指标中的标准分值引入损失函数,以有监督的方式指导权重更新。

a6、将多特征融合向量输入基于要素关联注意力的LSTM神经网络模型输出汉越双语新闻文档摘要。

为了验证本发明提出方法的效果,使用多特征融合向量作为输入,分别在传统统计模型Text-Rank、LReg(LogisticRegression逻辑回归)和本文提出的LSTM-Feature模型(基于要素关联注意力机制的LSTM神经网络模型)上训练得到各自模型的最优权重。

不添加要素关联分析的情况下,在LSTM-Att模型(深度学习模型)训练得到模型最优权重。表1为三个模型所得到的ROUGE-1、ROUGE-2和ROUGE-3;表2是否添加要素关联分析的结构对比;

表1为汉越双语不同摘要方法结果对比表

ROUGE-1ROUGE-2ROUGE-3TextRank0.31660.14820.2519Lreg0.32270.14700.2650LSTM-Feature0.38240.22700.3069

从以上数据可以看出,就不同的摘要方法而言,在该组对比实验中,LSTM-Feature的表现优于TextRank和LReg方案。对汉越新闻下的摘要生成取得了GOUGE-1=0.3824、GOUGE-2=0.2270和GOUGE-3=0.3069的结果。LSTM-Feature的实验结果与模型本身对文本语义结构信息及摘要特征的学习能力有关,同时由于采用了基于要素关联的注意力机制对双语文本间的关联关系进行建模,使得模型能够定位到文档集中具有代表性的句子上设置较高的重要性分值。

表2为是否添加要素关联分析的实验对比表

ROUGE-1ROUGE-2ROUGE-3LSTM-Feature0.38270.22700.3069LSTM-Att0.36180.21590.3041

LSTM-Att与LSTM-Feature的对比实验结果表明融合双语要素关联注意力机制的权值分配方式更有利于摘要句的识别,原因在于两点:(1)新闻要素特征的加入能有效提升学习的性能;(2)描述同一新闻事件的汉越双语新闻文本中存在大量一致的信息,这些信息的共现程度对原文档集中重要句子的识别有促进作用。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号