首页> 中文学位 >中英文新闻网页关键词抽取技术研究
【6h】

中英文新闻网页关键词抽取技术研究

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

致谢

第一章绪论

1.1目的与意义

1.2关键词抽取的国内外研究现状

1.3本文的主要研究内容

1.4本文的内容组织

第二章课题的背景及相关工作

2.1语言学背景知识

2.1.1连贯性

2.1.2集聚与词汇集聚

2.2词汇链

2.2.1词汇链的定义

2.2.2词汇链应用的一般模型

2.2.3词汇链的构建算法

2.2.4词汇链算法的评估

2.3知识库

2.3.1 HowNet

2.3.2 WordNet

2.4词语相似度计算

2.5词语相关度计算

2.6本章小结

第三章基于词汇链的关键词抽取方法

3.1候选关键词

3.2歧义消解

3.3特征选择

3.4算法步骤描述

3.5实验与评价

3.5.1测试集与评价标准

3.5.2实验设计与结果分析

3.6本章小结

第四章基于词汇链与词共现的关键词抽取方法

4.1词共现

4.2特征选择

4.3算法步骤描述

4.4实验与评价

4.5本章小结

第五章新闻网页过滤与总结系统简介

5.1系统简介

5.1.1系统登录界面

5.1.2用户使用说明

5.2系统实验示例

5.3本章小结

第六章结束语

6.1本文总结

6.2工作展望

参考文献

攻读硕士学位期间参加研究的课题和发表的论文

展开▼

摘要

信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索,提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体,众多新闻网页没有关键词。对这些网页进行关键词抽取,将提高用户浏览的速度和信息的访问效率。 从这点出发,本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状,分析比较了各类关键词抽取算法的基础上,提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD和算法KELCC。大量的随机新闻网页实验结果表明,本文提出的算法是有效的新闻网页关键词抽取算法。 综上所述,本文的主要工作如下: (1)对新闻网页关键词抽取展开研究,从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD实验验证的基础上,将词语相关性引入词语语义相似度分析中,提出了基于词汇链与词共现的新闻网页关键词抽取算法KELCC; (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中,语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息,在构建词汇链过程中将词语的各个词义纳入到整个语境下考查,通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义; (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验,本文从文章、词汇链和知识库中提出了大量有效特征,借助选取的特征从候选词集中选择出最终抽取的关键词; (4)引入词语的相关性以解决未包含词语的抽取问题。提出的KEUD算法由于需要判断词语间的语义相似度,而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题,本文在该算法的基础上加入了词共现模型,提出了基于词汇链与词共现的新闻网页关键词抽取算法KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度,提高了对未包含词语的抽取能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号