首页> 中文学位 >演进式动态新闻文档摘要生成方法研究
【6h】

演进式动态新闻文档摘要生成方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

表格

插图

第一章 引言

1.1 背景介绍

1.2 拟解决的问题

1.3 相关研究

1.4 本章小结

第二章 核心新闻信息要素抽取

2.1 研究问题

2.2 相关研究

2.3 时序文本砖模型

2.4 新闻元增长模型

2.5 位移约束

2.6 实体约束

2.7 时间约束

2.8 连词约束

2.9 视觉约束

2.10 实验与评测

2.11 参数调节

2.12 本章小结

第三章 演进式动态文本摘要方法研究

3.1 图排序演进式摘要算法

3.2 局部-整体结合

3.3 基于迭代式的替换生成算法

3.4 实验与评测

3.5 本章小结

第四章 多媒体演进式动态新闻摘要生成

4.1 “为文字加点色彩”

4.2 视觉化演进式新闻文档摘要生成

4.3 实验与评测

4.4 结果比较

4.5 参数和部件

4.6 用户研究

4.7 本章小结

第五章 可能的研究扩展

5.1 个性化

5.2 大众热点

5.3 本章小结

第六章 总结与展望

6.1 本文工作及创新性

6.2 未来工作展望

参考文献

博士期间发表(待发表)论文与项目实践

致谢

展开▼

摘要

在现今社会,随着近十年计算机科学迅猛发展的浪潮,多文档摘要技术已经逐渐成长为一个令人兴奋并充满着挑战的研究前沿,往往通过自然语言处理和信息检索的联合技术来加以解决。面对着当今互联网上的信息快速增长,找寻信息的人们往往会发现自己很难能跟上信息更新的频率和速度。新闻信息如洪水一般在互联网上汹涌袭来,人们很容易被“淹没”在浩如烟海的信息中,不知道从何开始。因此,人们认为对新闻信息的自动理解已经成为Web信息处理的一个重要成分。
  对于一个演进式的新闻主题而言,人们往往有着多重兴趣,如:该事件是如何起始的,如何发展的,当前状况又是如何,但是传统的新闻理解技术并不足以应对用户的这种需求。普通的搜索引擎仅仅只能按照它们的理解对新闻数据按照查询相关度来进行排序,但是它们很难应对各种意图模糊的新闻主题类查询。再比如说,即使搜索引擎返回给用户的结果排序十分理想(虽然这不太可能),用户也不太会愿意将这些文档一一阅读。人们希望能够有一种简单浏览的方式来掌握整个事态的发展流程和演化轨迹。而新闻摘要则正是一个很好的解决方式,可以提供一个经过了压缩,具有极大信息含量的文档重组织和展现形式,可以让用户能轻松掌握事件的发展。我们提出了“时序年表”(Timeline)的概念,把一个演进式的新闻按照时间的维度,动态的摘要生成为一系列相互独立又互相依赖的子摘要,从而提供了一个展示事件发展全景概况的灵活方式。
  本文具体工作和创新性如下:
  1.我们提出了一个面向新闻文档的全新文本分段算法。相比于传统的多文档摘要任务而言,演进式新闻文档摘要面向的是更为庞大的海量新闻数据集。因此,我们在开始摘要生成工作之前,首先会进行一些针对新闻特征的预处理。由于一篇新闻文档并非是完全不可再分的:一篇新闻文档通常包含了不止一个事件,而每个事件可能代表着某个新闻主题的某个侧面,因此我们从新闻文档中,抽取出具有原子事件特征的新闻元片段。在同一篇新闻文档中的所有新闻元事件在一定程度上也是彼此互相独立的。所以,对于它们而言,并不是所有新闻元都和某个特定的新闻主题紧密关联。经过一个细粒度的事件元提取过程,我们可以去除一些事件无关的描述性语句或者过滤掉和当前新闻主题无关的新闻元事件,通过这种方式对海量数据进行一步压缩和预处理。这项工作的挑战也很明显,我们需要应对来自文法(如文本,命名实体,时间等)、句法(句子位移,连接词等)以及视觉要素上的一些约束来进行新闻元片段提取。
  2.我们引入了一种全新的摘要任务“演进式动态新闻文档摘要”,并提出了两种解决的算法框架,这些算法框架都可以推广到所有依赖式摘要生成问题中。给定一个新闻主题文档集合,系统会自动输出一个时间年表,而该时间年表下的一系列子摘要代表着该事件随着时间推移的发展轨迹。两个方法之一是基于全局优先图排序算法和局部优先图排序算法的优化结合框架,考虑到句子之间跨时间的依赖关系以及同时间下的相互依赖关系。其中,跨时间依赖关系是通过一个时序投影函数,将所有其他时间结点下的句子都投影到某个特定的时间平面上来加以建模的。第二种方式是一个基于约束条件下的迭代式句子替换框架,从一个句子集合中优选出最佳句子的子集合生成摘要:子摘要之间不是完全独立的,而是通过邻居子摘要来互相优化互相精炼生成,反映出新闻演进式的特征。对于每一个子摘要,我们都从两种角度去考量评价:一种是局部的,基于周围邻居时间结点;一种是全局的,基于全数据时间结点。
  3.我们首次提出了视觉化演进式动态新闻文档摘要的概念,并提出了针对视觉化摘要和基于迭代式互相增强算法框架的解决方法。给定某个新闻主题以及相关带有时间标签的文档集,系统会生成一个带视觉信息的演进式动态新闻文档摘要,其中分别包含文字部分以及图片部分,两个部分互为说明互为补充。每个子摘要代表着事件的发展过程,被全局信息的优化条件所约束。在这里,图片信息可以被用作提示句子摘要信息的线索,从而改变传统文本摘要的生成方式,这一点将是非常有利的。对于视觉化演进式动态新闻文档摘要的生成,我们使用了两个异质数据流,其中图片数据流在以往文档摘要的生成方法中是往往被忽略了的。此外,由于我们要同时使用两种异质数据流,我们需要通过翻译模型来建立两个语义维度的桥梁跨越语义隔阂。对于每个子摘要而言都包含有两个部分:文本部分和图片部分。对图片的选择会影响到对文本的选择,反之亦然。我们提出了一个有效的方式来保证这两部分能够很好的通过互相增强的方式匹配起来,并且通过全局-局部的约束,将各个子摘要的生成进行统一优化。
  4.我们提出了两种可能整合到演进式动态新闻文档摘要中的扩展特性。第一种是引入用户个性化。因为用户有着个人的喜好,所以可能对自己喜欢阅读什么样的内容具有某种倾向性,很明显的是对于所有用户都生成一个一模一样的摘要是不够的。我们提出了一个交互式的摘要生成方法,允许用户可以使用“点击”和“查看”的方式来和摘要生成系统进行交互。人机交互的方式支持用户点击句子,并且查看该内容的来源文档,提供了实时的伪相关反馈。这种隐式的“点击日志”能反映出人们的兴趣。由于用户的点击可能比较稀疏,我们使用了“点击平滑”的方式来扩大点击数据的影响。第二种可扩展的方向是引入大众热点信息,我们使用了Twitter网社交媒体的数据来捕获这样的辅助信息。Twitter系统并不是只有一系列的帖子组成:在帖子的背后是一个潜在的用户关系网络图,包括用户之间的“粉丝”关系,和帖子之间的“转发”关系。对于大众热点信息,应该是热门的并且尽可能避免重复。我们通过一个对用户以及帖子两种异质结点进行共同排序的框架,整合信息热度和信息差异性,基于随机游走的排序框架甄选出大众热点信息。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号