首页> 中文学位 >面向主题的多文档自动文摘关键技术研究
【6h】

面向主题的多文档自动文摘关键技术研究

代理获取

目录

声明

摘要

表格索引

插图索引

第一章 绪论

1.1 研究背景

1.2 研究历史与现状

1.3 自动文摘系统的评测方法

1.3.1 基于Pyramid方法的内容评测

1.3.2 其他评测指标

1.3.3 基于ROUGE的自动评测

1.3.4 基于BE的自动评测

1.4 论文主要工作

1.4.1 研究意义

1.4.2 研究内容

1.4.3 课题来源

1.5 论文组织结构

第二章 基于LDA的主题建模

2.1 引言

2.2 任务定义

2.2.1 方法概述

2.3 识别主题

2.3.1 实体主题模型

2.3.2 模型推断

2.3.3 同其他模型的比较

2.4 生成句子模式

2.5 实验结果与分析

2.5.1 数据集

2.5.2 定量评估

2.5.3 定性评估

2.6 模板应用实例

2.6.1 句子排序

2.6.2 句子选择

2.6.3 方法评价

2.7 相关研究工作

2.8 本章小结

第三章 基于事件主题模型的自动文摘

3.1 引言

3.2 基于新闻事件主题模型的句子聚类

3.2.1 新闻事件的主题模型

3.2.2 模型推断

3.3 句子排序

3.4 句子压缩

3.5 句子选择

3.6 实验结果与分析

3.6.1 数据集

3.6.2 文摘质量

3.6.3 面向主题的句子聚类的质量

3.6.4 句子压缩的质量

3.7 相关研究工作

3.8 本章小结

第四章 基于语言生成模型的自动文摘

4.1 引言

4.2 基于语言生成模型的句子重构算法

4.2.1 抽取信息元

4.2.2 利用信息元生成句子

4.2.3 句子选择

4.3 实验结果与分析

4.4 相关研究工作

4.5 本章小结

第五章 跨媒体互补性自动文摘

5.1 引言

5.2 相关工作

5.3 问题定义

5.4 学习互补关系

5.4.1 度量公共性和差异性

5.4.2 跨数据集主题方面模型(ccTAM)

5.4.3 模型推断

5.5 生成互补式文摘

5.5.1 跳跃概率

5.5.2 句子排序

5.5.3 文摘生成

5.6 实验结果与分析

5.6.1 数据收集

5.6.2 基准方法

5.6.3 实验结果分析

5.7 本章小结

第六章 自动文摘更新过程中的蕴含识别

6.1 文本蕴含识别的定义

6.2 案例分析

6.3 基于机器学习的文本蕴含识别系统

6.3.1 预处理

6.3.2 知识库

6.3.3 基于Struct-SVM的RTE

6.3.4 基于最大熵的RTE

6.4 实验结果与分析

6.5 相关研究工作

6.6 本章小结

全文总结与展望

6.7 总结

6.8 展望

参考文献

致谢

攻读博士学位期间已发表论文

展开▼

摘要

随着移动互联网的迅速崛起,用户经常使用移动终端在大批量文本信息中快速查找并获取有用的信息。这就要求信息服务供应商具备能够提供对大批量文本内容快速并且有效的挖掘,并且用简洁概括的方式向用户呈现重要的信息的能力。用户可以使用手机订阅自动文摘服务。该服务就可以自动从多篇文档中抽取出重要信息,并按照主题将信息呈现给用户。高质量的自动文摘内容脉络清晰,可读性强,能够多角度向用户呈现事件的来龙去脉,节省用户浏览信息的时间,同时能够减轻用户需要从多个信息源获取完整信息的负担。本文正是在这种技术趋势下,对面向主题的多文档自动文摘关键技术进行了探索性研究。
   本文的研究提出了以下创新性的理论和方法:
   1.提出一种新颖的基于LDA的建模方法来捕获文档集中的主题。为了能够定量评估该建模方法的有效性,本文使用该建模方法从大批量同类型文本集合中生成面向主题的文摘描述模板。首先提出一种基于LDA的实体主题模型,该模型用来同时对句子和句子中的词进行语义标注和聚类。其次,在已经聚类并且标注好的句子的依存解析树上利用频繁子树模式挖掘算法来构建面向主题的文摘描述模板。为了进一步验证生成模板的有效性,本文实现了一种基于模板的面向主题的自动文摘生成方法。
   2.提出一种非监督机器学习方法去生成面向主题的多文档自动文摘。在该方法中,提出了基于LDA的事件-主题模型,该模型扩展了的传统的LDA模型,通过计算单词在领域中出现的概率分布,以及在特定事件文档中出现的概率分布,有利于改善句子聚类的效果。其次使用扩展的LexRan算法对每个聚类簇中的句子进行排序,接着从每个聚类簇中使用整数线性规划生成能反映主题的代表性句子用来作为文摘。该方法的主要优势是把句子聚类,排序和选择有机地串联在一起。同时我们又改进了基于依存解析树句子压缩算法,使压缩效果显著提高。
   3.提出一种新颖的基于语言生成模型的自动文摘生成方法。该方法首先从句子的依存解析树中抽取重要的片段信息,其次利用这些片段信息同时结合英语句法知识对原始句子进行重构。句子重构的实现是利用英语句法结构把片段信息翻译成语言生成模型的输入,然后通过自然语言生成模型,生成包含片段信息的简单句子。最后使用整数线性规划方法从重构后的句子集合中选择出与主题最相关的句子集合。
   4.提出一种新颖的ccTAM(Cross collection topic aspect model)模型来对文档集中的主题和方面建模。然后利用该模型的输出,在二分图上使用迭代互增强来抽取互补式文摘。
   5.实现了两种有监督机器学习方法,用来解决自动文摘更新过程中的蕴含识别问题。
   基于上述理论和方法,本文实现了一个面向主题的多文档自动文摘系统。该系统连续两年参加国际权威会议TAC组织的自动文摘系统评测,各项指标取得了良好效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号