首页> 中文学位 >基于多词共现与互信息的文本自动摘要技术研究
【6h】

基于多词共现与互信息的文本自动摘要技术研究

代理获取

目录

第1章绪论

1.1背景与意义

1.2国内外现状

1.3论文研究内容及组织结构

第2章文本自动摘要综述

2.1定义与特性

2.2通用体系结构

2.3分类

2.4文本处理的特征提取方法

2.5现存的提取方法

2.6评价方法

2.7相关会议

2.8本章小结

第3章基于词共现的文本主题词提取

3.1相关模型概念

3.2主题词抽取常用方法

3.3词共现与文本主题的对应关系分析

3.4基于词共现的主题词抽取

3.5实验与分析

3.6本章小结

第4章基于互信息的文本主题划分

4.1文本划分的主要方法

4.2向量空间模型

4.3基于互信息的关联度计算

4.4主题划分方法步骤

4.5实验与分析

4.6本章小结

第5章自动摘要的生成算法与系统实现

5.1主题句的抽取

5.2摘要的生成

5.3摘要的平滑处理

5.4系统的实现

5.5相关实验

5.6本章小结

第6章结论

6.1研究总结

6.2研究展望

参考文献

致谢

攻读硕士学位期间的研究成果

展开▼

摘要

文本自动处理作为一种提取文本中重要信息的基础性工具,在人们的工作学习生活中充当着重要的角色。文本自动处理就是利用计算机自动的从文档中提取重要信息生成反映某一文献中心内容的短文的过程,短文中包括原文的核心内容或用户感兴趣的内容,可以加快信息传播效率、提高信息检索速度。因此,如何快速准确实现文本自动的提取已成为近年来人们研究的热点。本文研究了基于词共现与互信息的文本自动处理技术,将词共现技术应用于文本核心词提取,利用互信息计算进行文本特征量化及主题句提取,有效提高了文本提取的准确率。
  本研究主要内容包括:⑴为了提高文本核心词提取的准确度,本课题分析了文本中的词共现现象,通过计算词语之间共现度确定了文本中共现词与主题表达之间存在的具体对应关系,并将词共现计算技术应用于文本核心词提取,优化了文本核心词提取算法。实验证明核心词提取的准确度平均提高了6.5%。⑵为了提高文本主题划分的准确度,使文本处理尽可能全面反映文本的中心思想,本课题将互信息技术引入到文本的关联度计算,通过计算文本中词与词、句子与句子、段落与段落之间的互信息值量化文本段落之间的关联度,依据文本段落间关联度将文本划分成隶属于不同主题的若干个块,实现了对文本主题的合理划分。实验证明文本主题划分的准确度平均提高了10%。⑶为了提高语句提取的准确率,本课题通过引入七个关键要素(句子的重要性、句子中包含词汇的重要性、核心词的重要性、句子在文档中出现的位置、句子中是否含有线索词、句子长度及句子之间存在的关联关系)对句子的重要程度进行量化并赋予重要程度权值,依据主题对文本的重要程度确定从主题中提取关键句的数量,从文块中选择权值较高的句子作为核心句。实验证明,该方法使核心句提取的准确率平均提高了3.5%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号