首页> 中国专利> 提取文档关键句的方法及装置

提取文档关键句的方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种提取文档关键句的方法及装置，其中所述方法包括：根据层级语义向量模型训练得到与文档相关的句子向量和文档向量，所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式；计算所述句子向量和所述文档向量之间的相关性；选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。本发明实施例能够提取出的精确表达文档信息的关键句。

著录项

公开/公告号CN105243053A

专利类型发明专利
公开/公告日2016-01-13

原文格式PDF
申请/专利权人百度在线网络技术(北京)有限公司;
展开▼

申请/专利号CN201510587652.4
发明设计人姜迪;石磊;连荣忠;殷瑞;蒋佳军;
展开▼

申请日2015-09-15
分类号G06F17/27(20060101);G06K9/62(20060101);
代理机构11332 北京品源专利代理有限公司;
代理人孟金喆;胡彬
地址 100085 北京市海淀区上地十街10号百度大厦三层
入库时间 2023-12-18 13:28:42

法律信息

法律状态公告日

法律状态信息

法律状态
2018-02-09

授权

授权
2016-02-10

实质审查的生效 IPC(主分类):G06F17/27 申请日:20150915

实质审查的生效
2016-01-13

公开

公开

说明书

技术领域

本发明实施例涉及信息技术领域，尤其涉及一种提取文档关键句的方法及装置。

背景技术

在互联网快速发展的今天，信息获取已不再是一个难题，而如何从成千上万的信息中快速筛选出有效信息才是我们面临的挑战。而文档关键句可以简明扼要地归纳文档信息，不仅可以使用户快速获取文档的主要信息，而且显著降低了用户获取信息的时间成本。然而，如何从包含大量信息的文档中自动提取出关键句仍然存在巨大的挑战。

目前，文档关键句抽取的方法，主要是利用了词频、位置和关键词等统计信息对文档信息进行抽取，得到关键句。主要包括以下步骤：A、统计文档中出现的高频词汇；B、定位高频词汇所在的句子；C、根据句子在文档中的出现位置及句子中包含的关键词，对每个句子进行评分；D、将评分最高的句子作为文档的关键句。

但是，上述关键词提取方法只利用到了词频和位置等信息，忽略了语义上的信息，生成的关键句并不能精确反应文档的信息。

发明内容

本发明实施例提供一种提取文档关键句的方法及装置，能够精确提取出表达文档信息的关键句。

第一方面，本发明实施例提供了一种提取文档关键句的方法，包括：

根据层级语义向量模型训练得到与文档相关的句子向量和文档向量，所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式；

计算所述句子向量和所述文档向量之间的相关性；

选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。

第二方面，本发明实施例还提供一种提取文档关键句的装置，包括：

向量训练模块，用于根据层级语义向量模型训练得到与文档相关的句子向量和文档向量，所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式；

相关性计算模块，用于计算所述句子向量和所述文档向量之间的相关性；

关键句选取模块，用于选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。

本发明实施例通过根据层级语义向量模型训练得到与文档相关的句子向量和文档向量，所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式；计算所述句子向量和所述文档向量之间的相关性；选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。本发明实施例能够提取出的精确表达文档信息的关键词信息。

附图说明

图1为本发明实施例一提供的提取文档关键句的方法的流程示意图；

图2为本发明实施例二提供的提取文档关键句的装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明实施例提供的提取文档关键句的方法的执行主体，可为本发明实施例提供的提取文档关键句的装置，或者集成了提取文档关键句的装置的终端设备(例如，智能手机、平板电脑等)，该提取文档关键句的装置可以采用硬件或软件实现。

实施例一

图1为本发明实施例一提供的提取文档关键句的方法的流程示意图，如图1所示，具体包括：

S11、根据层级语义向量模型训练得到与文档相关的句子向量和文档向量，所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式；

其中，句子向量和文档向量的维数可自定义设置。

具体的，根据文档中的词、句子信息采用所述层级语义向量模型中包含的句子向量更新公式训练得到句子向量，进一步根据句子向量采用所述层级语义向量模型中包含的文档向量更新公式训练得到文档向量。

S12、计算所述句子向量和所述文档向量之间的相关性；

其中，相关性表述了所述句子向量和所述文档向量之间关联，当相关性越高时，则表明所述句子向量能够准确的表示所述文档的重要内容。

S13、选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。

其中，预设条件可设为获取的关键句的数量上限，或者相关性下限。所述相关性可采用计算所述句子向量与所述文档向量之间的余弦距离、欧式距离或正选距离来进行衡量。

具体的，当所述预设条件为获取的关键句的数量上限时，则将计算得到的各句子向量与文档向量的相关性按照由高到低的顺序进行排序，按照相关性从高到低选取满足数量的关键句作为第一关键句。当所述预设条件为相关性下限时，则将计算得到的各句子向量与文档向量的相关性按照由高到低的顺序进行排序，按照相关性从高到低选取相关性超过下限的关键句作为第一关键句。

本实施例通过根据层级语义向量模型训练得到与文档相关的句子向量和文档向量，所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式；计算所述句子向量和所述文档向量之间的相关性；选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。本实施例能够提取出的精确表达文档信息的关键词信息。

示例性的，在上述实施例的基础上，本发明实施例还提供了层级语义向量模型的建立过程，具体的主要包括：

根据所述文档训练资料库，为所述训练资料库中的每个文档分别构建初始词向量、初始句子向量和初始文档向量；

根据所述文档训练资料库的初始词向量、初始句子向量和初始文档向量建立所述文档训练资料库中所有文档的联合似然函数；

对所述联合似然函数进行参数估计得到所述词向量更新公式、句子向量更新公式和文档向量更新公式。

具体的，将文档训练资料库中的文档作为输入语料，并为所述训练资料库中的每个文档分别构建初始词向量、初始句子向量和初始文档向量，建立所述初始词向量、初始句子向量和初始文档向量建立所述文档训练资料库中所有文档的联合似然函数。其中，所述联合似然函数如下述公式一所示：

其中，x_W表示当前词w的上下文向量，u为当前词w的词向量v的辅助向量，v为当前词w所在句子s的句子向量，v为文档向量，为损失函数。

通过对上述联合似然函数进行参数估计，可得到所述词向量更新公式、句子向量更新公式和文档向量更新公式。

其中，所述词向量更新公式如下述公式二所示：

$v_{w} : = v_{w} + η \frac{v_{s} \sqrt{v_{w} \cdot v_{w}} \sqrt{v_{s} \cdot v_{s}} - (v_{w} \cdot v_{s}) \sqrt{v_{s} \cdot v_{s}} \frac{1}{v_{w} \cdot v_{w}} v_{w}}{(v_{s} \cdot v_{s}) * (v_{w} \cdot v_{w})}$

具体的，为了验证本发明实施例提供的采用层级语义向量模型训练得到的词相关的有效性，分别在不同规模的实验数据集上进行了多组词相关性的对比实验，实验效果均超过了传统基于主题模型的方法的最佳结果：

实验目的：人工标注的具有相似性的词在词向量空间同样具有相似性。

训练数据：从网页中抓取的1G文档

测试数据：word240和word279，分别包含240对、279对词，每组词包含一个人工对其相似性的打分。

评估方法：分别使用层级语义向量模型、CBOW和skipGram模型训练得到的词向量，计算上述数据集中每对词的cosin距离，每个数据集可以得到一个包含cosin距离的向量以及包含人工打分的向量，通过计算两者的spearman相关系数来判断模型的优劣。

实验设置：分别考虑了文档内句子向量依赖、独立两种情况，层级语义向量模型分别表示为MLSM-d、MLSM-i，并且将上述两种模型与CBOW和skipGram模型进行比较。

实验结果：

实验结果分析：从上述实验结果可以看出，无论是否考虑句子向量间的依赖性，本发明实施例提出的基于层级化向量语义模型的词相关性的结果都优于仅考虑词向量的语义模型。同时当考虑了文档间词向量的依赖性时，能进一步提升模型的语义表达力。

其中，所述句子向量更新公式如下述公式三所示：

$v_{s} : = v_{s} + η \frac{v_{w} \sqrt{v_{s} \cdot v_{s}} \sqrt{v_{w} \cdot v_{w}} - (v_{w} \cdot v_{s}) \sqrt{v_{w} \cdot v_{w}} \frac{1}{v_{s} \cdot v_{s}} v_{s}}{(v_{s} \cdot v_{s}) * (v_{w} \cdot v_{w})}$

所述文档更新公式如下述公式四所示：

$v_{d} : = v_{d} + η \frac{v_{s} \sqrt{v_{s} \cdot v_{s}} \sqrt{v_{d} \cdot v_{d}} - (v_{d} \cdot v_{s}) \sqrt{v_{s} \cdot v_{s}} \frac{1}{v_{d} \cdot v_{d}} v_{d}}{(v_{s} \cdot v_{s}) * (v_{d} \cdot v_{d})}$

示例性的，在上述层级语义向量模型的基础上，根据层级语义向量模型训练得到与文档信息相关的句子向量和文档向量进一步包括：

获取所述文档中包含的词和句子，为每个词分别定义初始词向量、为每个句子分别定义初始句子向量，为所述文档定义初始文档向量；

采用所述层级语义向量模型的词向量更新公式更新所述初始词向量，得到所述文档中每个词对应的词向量；

将所述词向量作为已知向量，根据所述词向量采用所述句子向量更新公式更新所述初始句子向量，得到所述文档中每个句子对应的句子向量；

将所述句子向量作为已知向量，根据所述句子向量采用所述文档向量更新公式更新所述初始文档向量，得到所述文档对应的文档向量。

具体的，在更新所述词向量时，采用上述公式二进行更新。在更新所述句子向量时，针对所述句子中包含的每个词对应的词向量，将所述词向量作为已知向量，依次采用上述公式三对所述初始句子向量进行更新，得到所述文档中每个句子对应的句子向量。同理，在更新所述文档向量时，针对所述文档中包含的每个句子对应的句子向量，将所述句子向量作为已知向量，依次采用上述公式四对所述初始文档向量进行更新，得到所述文档的文档向量。

示例性的，为使选取出的第一关键句更为精确，所述选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句进一步包括：

选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句。

相应的，本发明实施例还包括根据选取的关键句组成文档摘要的相关操作，具体的，选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句之后还包括：

计算所述第一关键句与其它句子向量的冗余距离；

计算其它各句子向量和所述文档向量之间的距离与对应的冗余距离之间的差值；

用所述差值表示其它各句子向量和所述文档向量之间的相关性；

从其它各句子向量中选取与所述文档向量相关性最高的句子向量作为所述第一关键句，返回执行计算冗余距离操作，直至达到结束条件；

将每次循环计算得到的所述第一关键句作为所述文档的摘要返回用户。

具体的，为了验证根据本发明实施例提供的层级语义向量模型训练得到的关键句组成的摘要的有效性，进行了如下实验，实验效果均超过了传统基于主题模型的方法的最佳结果：

实验目的：验证层级化语义模型表示的文档关键句组成的摘要的效果

训练数据：从网页中抓取的1G文档

测试数据：人为概括摘要的118个文档，含摘要

评估方法：Rouge-1评估

$R O U G E - N = \frac{\underset{S \in {Re f >Summaries}}{Σ} \underset{n - g r a m \in S}{Σ} {Count}_{m a t c h} (n - g r a m)}{\underset{S \in {Re f >Summaries}}{Σ} \underset{n - g r a m \in S}{Σ} C o u n t (n - g r a m)}$

其中，RefSummaries表示人为概括摘要，N取1，按单个字进行匹配，n-gram表示n元词，Countmatch(n-gram)表示本发明实施例提供的摘要和人为概括摘要中同时出现n-gram的个数，Count(n-gram)则表示人为概括摘要中出现的n-gram个数。

实验设置：按照上文的步骤，计算rouge-1得分，跟传统的方法进行比较。

实验结果：

News-test Web-test 传统方法 46.96 52.10 层级语义模型 47.25 52.31

其中，News-test和Web-test为两种不同的测试机。

实验结果分析：加入了语义信息之后，效果得到了0.2-0.3的提升，证明融合层级化语义向量表示的文档关键句抽取方法具有很好的效果。

上述各实施例同样通过根据层级语义向量模型训练得到与文档相关的句子向量和文档向量，所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式；计算所述句子向量和所述文档向量之间的相关性；选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句，能够提取出的精确表达文档信息的关键词信息。

实施例三

图2为本发明实施例二提供的提取文档关键句的装置的结构示意图，如图2所示，具体包括：向量训练模块21、相关性计算模块22和关键句选取模块23；

所述向量训练模块21用于根据层级语义向量模型训练得到与文档相关的句子向量和文档向量，所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式；

所述相关性计算模块22用于计算所述句子向量和所述文档向量之间的相关性；

所述关键句选取模块23用于选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。

本实施例所述的提取文档关键句的装置同样用于执行上述各实施例所述的提取文档关键句的方法，其技术原理和产生的技术效果类似，这里不再累述。

示例性的，在上述实施例的基础上，所述向量训练模块21具体用于：

获取所述文档中包含的词和句子，为每个词分别定义初始词向量、为每个句子分别定义初始句子向量，为所述文档定义初始文档向量；采用所述层级语义向量模型的词向量更新公式更新所述初始词向量，得到所述文档中每个词对应的词向量；将所述词向量作为已知向量，根据所述词向量采用所述句子向量更新公式更新所述初始句子向量，得到所述文档中每个句子对应的句子向量；将所述句子向量作为已知向量，根据所述句子向量采用所述文档向量更新公式更新所述初始文档向量，得到所述文档对应的文档向量。

示例性的，在上述实施例的基础上，所述关键句选取模块23具体用于：

选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句。

示例性的，在上述实施例的基础上，所述装置还包括：冗余距离计算模块24和摘要生成模块25；

所述冗余距离计算模块24用于在所述关键句选取模块23选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句之后，计算所述第一关键句与其它句子向量的冗余距离；

所述相关性计算模块22具体用于计算其它各句子向量和所述文档向量之间的距离与对应的冗余距离之间的差值，用所述差值表示其它各句子向量和所述文档向量之间的相关性；

所述关键句选取模块23具体用于从其它各句子向量中选取与所述文档向量相关性最高的句子向量作为所述第一关键句，返回所述冗余距离计算模块执行计算冗余距离操作，直至达到结束条件；

所述摘要生成模块25用于将每次循环计算得到的所述第一关键句作为所述文档的摘要返回用户。

示例性的，在上述实施例的基础上，所述装置还包括：层级语义向量模型训练模块26；

所述层级语义向量模型训练模块26用于根据所述文档训练资料库，为所述训练资料库中的每个文档分别构建初始词向量、初始句子向量和初始文档向量；根据所述文档训练资料库的初始词向量、初始句子向量和初始文档向量建立所述文档训练资料库中所有文档的联合似然函数；对所述联合似然函数进行参数估计得到所述词向量更新公式、句子向量更新公式和文档向量更新公式。

示例性的，在上述实施例的基础上，所述相关性为所述句子向量与所述文档向量之间的余弦距离。

上述各实施例所述的提取文档关键句的装置同样用于执行上述各实施例所述的提取文档关键句的方法，其技术原理和产生的技术效果类似，这里不再累述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 提取文档关键句的方法及装置 [P] . 中国专利： CN105243053B . 2018.02.09
2. 关键句提取方法及装置 [P] . 中国专利： CN110852064B . 2021.10.26
3. DOCUMENT STRUCTURE EXTRACTION DEVICE, DOCUMENT STRUCTURE EXTRACTION METHOD AND DOCUMENT STRUCTURE EXTRACTION PROGRAM WHICH IMPLEMENTED THIS METHOD [P] . 日本专利： JP2008129894A . 2008-06-05

机译：实施该方法的文档结构提取装置，文档结构提取方法和文档结构提取程序
4. Document file difference extraction system, image processing apparatus, document file difference extraction method, and program [P] . 日本专利： JP5708372B2 . 2015-04-30

机译：文档文件差异提取系统，图像处理装置，文档文件差异提取方法和程序
5. METHOD AND DEVICE FOR EXTRACTING DOCUMENT INFORMATION, AND STORAGE MEDIUM STORED WITH DOCUMENT INFORMATION EXTRACTION PROGRAM [P] . 日本专利： JPH11345239A . 1999-12-14

机译：提取文档信息的方法和装置，以及存储有文档信息提取程序的存储介质