首页> 中文学位 >摘要自动生成技术研究及其在提案管理的应用
【6h】

摘要自动生成技术研究及其在提案管理的应用

代理获取

目录

声明

摘要

1.1 研究背景

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 研究内容及意义

1.4 论文的组织结构

第2章 摘要自动生成相关技术概述

2.1 中文分词概述

2.2 知网概述

2.2.1 知识结构表示

2.2.2 词汇表示

2.2.3 词语语义相似度计算

2.3 现有摘要自动生成策略总结

2.3.1 基于统计的自动摘要

2.3.2 基于理解的自动摘要

2.3.3 基于篇章结构的自动摘要

2.3.4 基于信息抽取的自动摘要

2.4 本章小结

第3章 自动摘要算法的研究设计

3.1 摘要自动生成基本流程

3.2 改进的词语语义相似度计算

3.2.1 已知的义原相似度算法改进

3.2.2 改进的义原相似度计算

3.2.3 基于词性的概念选择

3.2.4 基于《知网》词语使用示例的概念选择

3.2.5 基于《知网》义原关系的概念选择

3.3 文章主题划分

3.3.1 Texttilling划分方法

3.3.2 统计主题词频划分方法

3.3.3 概念统计划分方法

3.3.4 基于互信息的文章主题划分

3.4 句子相关度计算

3.4.1 基于改进的BM25算法的句子相关度计算

3.4.2 句子语义相似度计算

3.5 句子权重计算

3.5.1 融合语义相似度的TextRank算法句子权重计算

3.5.2 基于句子特征的句子权重计算

3.6 摘要候选句的平滑处理

3.6.1 删除非陈述性语句

3.6.2 删除高冗余候选句

3.6.3 基于中文语法规则的文本连贯性加工

3.6.4 删除特殊性短语以及句子标题编号

3.6.5 对句子进行排序

3.7 本章小结

第4章 自动摘要系统实现及其在提案管理的应用

4.1 自动摘要系统的实现

4.1.1 系统总体实现

4.1.2 文档预处理模块

4.1.3 文档主题划分模块

4.1.4 摘要生成模块

4.2 实验及结果分析

4.2.1 改进的词语语义相似度计算实验结果及分析

4.2.2 基于互信息的主题划分实验结果及分析

4.2.3 自动摘要实验结果及分析

4.3 本章小结

1 研究总结

2 未来研究展望

致谢

参考文献

攻读学位期间发表的论文及科研成果

展开▼

摘要

随着信息科学与技术的发展,计算机与互联网已经成为了人们生活中必不可少的一部分,大量的信息开始以电子文档的形式出现在人们面前,也慢慢进入了一个信息过载的时代。所以越来越希望用比较简练的文字来实现对信息的压缩以表达出电子文档的主要内容。自动摘要技术的出现使得在信息检索的过程中提高了获取知识和信息的效率,减少了用户查询所关心的信息的时间。同样的,在中国每年的全国政协会议期间,数千位政协委员要提交平均大于5000件的提案,所以一份良好的提案摘要可以很方便的指出该提案的中心主旨,可以在一定程度上提高政协委员参政议政的效率,并且为提案的数字化管理提供了极大的便利条件。
  基于上述背景,本研究对自动摘要技术进行了深入的研究,主要包括以下几个方面的工作:
  1.在对文摘句抽取的过程中融合了统计信息和语义信息,改进了基于《知网》的义原相似度计算算法,同时在此基础上设计了一种基于上下文的词语语义相似度计算算法并将其应用到句子语义相似度当中,同时改进了衡量句子相关性的算法BM25。
  2.对文章主题划分进行了研究,使用互信息的概念衡量段落之间的关联程度。然后通过对分主题分别抽取摘要句提高摘要的主题覆盖率。
  3.使用基于图的自动文摘算法TextRank计算句子的全文权重,同时结合句子本身特征实现摘要句的抽取。将文档划分成若干个句子构成图的节点,以句子之间的相似度构成边,形成图模型,然后利用投票迭代至收敛的算法原理并加以句子特征形成摘要候选句集,最后对候选句集进行平滑处理并按原文顺序输出形成摘要。
  4.设计并实现了自动文摘原型系统,并且将此系统应用到政协提案管理中,通过对比实验验证并评价了本系统的性能。实验结果表明,本文的自动摘要算法具有一定的适用性。
  最后对本文研究内容进行总结,提出下一步的工作展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号