基于词语网络的关键字提取策略研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

关键字是表述文档中心内容的词汇，是计算机系统标引论文内容特征的词汇，是便于信息系统汇集以供读者检索的词汇。关键字提取是文本挖掘领域的一个分支，是文档检索、文档比较、摘要生成、文档分类和聚类的基础性工作。关键字提取算法可分为两类：基于训练集的关键字提取策略和不需要训练集的关键字提取策略。基于训练集的方法将关键字提取视为分类问题，通过将文档中出现的词语划分到关键字类或非关键字类，再从关键字类中选择若干个词语作为关键字，该类算法由Peter．D．Turney首次提出，其技术已日趋成熟。不需要训练集的算法，可分为以下四类：基于统计的方法，如频率统计：基于词语图的方法，如KeyGraph：基于词语网络的方法，如中介性指标(BC，Betweenness Centrality)；基于SWN的方法；上述四种方法都是建立在词频统计基础上。基于统计的方法简单快速，能够提取高频词语，却忽略对文档具有重要意义但出现频率不高的词语，因此提取的关键字具有片面性。基于词语图的方法需要设定的参数过多，如顶点数、边数等，因而常造成边界上的取舍问题，影响算法的稳定性和精度。基于SWN的方法是以平均距离K度为关键字提取依据，而SWN理论以连通图为基础，故对非连通的文档结构图，无法衡量顶点的重要性，也无法正确地提取文档关键字。本文主要研究基于词语网络的关键字提取算法，在分析已有基于词语网络的关键字提取算法的基础上，针对存在问题，提出一个新的基于词语网络的英文文档关键字提取策略，采用节点删除指标度量顶点(词语)的重要性。所提取的关键字不仅包括高频单词和短语，而且包括对文档中心内容贡献大但出现频率不高的单词和短语。实验数据来自KEA和Extractor算法中的测试数据集，及世界著名的科技出版集团之一——德国施普林格提供的学术期刊及电子图书的论文为测试数据。以论文作者提供的关键字为基准，采刖平均准确率和平均召同率作为衡量提取效果的依据，通过将本文算法的实验结果与TF和BC算法的实验结果相比较，证明了本文算法的正确性和有效性。

著录项

作者
阚洳沂;
展开▼
作者单位

西南大学;

展开▼
授予单位西南大学;
学科计算机软件与理论
授予学位硕士
导师姓名唐雁;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
词语网络; 共现分析; 节点删除指标; 关键字提取; 中介性指标;

相似文献

中文文献
外文文献
专利

1. 基于竞争学习网络的中文关键字提取算法 [J] . 沈学利 ,程宇伟 . 计算机工程 . 2013,第002期
2. 一种基于自适应关联熵的关键字提取算法 [J] . 罗有志 ,陈征明 ,陈明 . 计算机与现代化 . 2020,第004期
3. 基于TextRank的单文本关键字提取算法 [J] . 朱必熙 . 兰州工业学院学报 . 2018,第003期
4. 一种基于TextRank的单文本关键字提取算法 [J] . 柳林青 ,余瀚 ,费宁 . 计算机应用研究 . 2018,第003期
5. 基于TextRank的单文本关键字提取算法 [J] . 朱必熙 . 兰州工业学院学报 . 2018,第003期
6. 基于关键字的IRC僵尸网络检测系统的设计与实现 [C] . 胡瑄 ,李芝棠 ,李冬 . 中国教育和科研计算机网CERNET第十七届学术年会 . 2010
7. 基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究 [A] . 温安国 . 2009

基于词语网络的关键字提取策略研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅