首页> 中文学位 >一种利用本体关联度改进的TF-IDF特征词提取方法
【6h】

一种利用本体关联度改进的TF-IDF特征词提取方法

代理获取

目录

文摘

英文文摘

声明

第1章导言

第2章相关理论和方法综述

第3章领域本体构建及本体关联度计算方法

第4章利用本体关联度改进的文本特征词提取方法

第5章实验及结果分析

第6章工作总结与展望

参考文献

致谢

攻读学位期间取得的科研成果

展开▼

摘要

传统的TF-IDF文本特征词提取方法是一种基于统计的方法,它将词语作为独立的单元进行处理,通过统计文本中词语出现的频次及文本集合中包含同一词语的文本数量确定文本的特征词。该方法虽然能够在一定程度上降低计算时间、简化文本特征词提取的步骤,但存在未考虑词语之间的关联关系、忽略区分度较高的低频词等不足,从而限制了文本特征词提取的精确度。
   本体具有良好的概念层次结构和对逻辑推理的支持,并能够通过概念层次图表示概念术语间的关联关系。为了优化传统的文本特征词提取方法,将本体引入到文本特征词提取中,并构建了适合论文实验的两个简单领域本体,通过改进现有的语义相似度和语义相关度计算方法得到一种本体关联度计算方法,利用该计算方法计算领域本体中概念之间的本体关联度。
   本文提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF 方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词;再利用候选特征词与其本体关联词之间的本体关联度、候选特征词的初始权重、本体关联词的个数以及本体关联词自身的权重调整候选特征词的权重;最后根据调整后的权重得到新的候选特征词排序。该方法考虑了词语之间的关联关系,并且能够将区分度较高的低频词识别出来作为文本特征词,从而弥补了传统的TF-IDF文本特征词提取方法在词语之间关联关系、区分度较高的低频词识别等方面的不足。实验结果证明,该方法能够有效提高文本特征词提取的准确度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号