一种利用本体关联度改进的TF-IDF特征词提取方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

传统的TF-IDF文本特征词提取方法是一种基于统计的方法，它将词语作为独立的单元进行处理，通过统计文本中词语出现的频次及文本集合中包含同一词语的文本数量确定文本的特征词。该方法虽然能够在一定程度上降低计算时间、简化文本特征词提取的步骤，但存在未考虑词语之间的关联关系、忽略区分度较高的低频词等不足，从而限制了文本特征词提取的精确度。
　　本体具有良好的概念层次结构和对逻辑推理的支持，并能够通过概念层次图表示概念术语间的关联关系。为了优化传统的文本特征词提取方法，将本体引入到文本特征词提取中，并构建了适合论文实验的两个简单领域本体，通过改进现有的语义相似度和语义相关度计算方法得到一种本体关联度计算方法，利用该计算方法计算领域本体中概念之间的本体关联度。
　　本文提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF 方法构建候选特征词集合和非候选特征词集合，然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词；再利用候选特征词与其本体关联词之间的本体关联度、候选特征词的初始权重、本体关联词的个数以及本体关联词自身的权重调整候选特征词的权重；最后根据调整后的权重得到新的候选特征词排序。该方法考虑了词语之间的关联关系，并且能够将区分度较高的低频词识别出来作为文本特征词，从而弥补了传统的TF-IDF文本特征词提取方法在词语之间关联关系、区分度较高的低频词识别等方面的不足。实验结果证明，该方法能够有效提高文本特征词提取的准确度。

著录项

作者
王金花;
展开▼
作者单位

河北大学;

展开▼
授予单位河北大学;
学科管理科学与工程
授予学位硕士
导师姓名徐建民;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
文本特征词提取; TF-IDF; 本体关联词; 本体关联度;

相似文献

中文文献
外文文献
专利

1. 基于改进的TF-IDF文本特征词提取算法研究 [J] . 贾强 ,冯锡炜 ,王志峰 . 辽宁石油化工大学学报 . 2017,第004期
2. 基于改进TF-IDF的微博短文本特征词提取算法 [J] . 邓丹君 ,姚莉 . 软件导刊 . 2016,第006期
3. 基于改进TF-IDF的微博短文本特征词提取算法 [J] . 邓丹君 ,姚莉 . 软件导刊 . 2016,第006期
4. 改进的 TF-IDF中文本特征词加权算法研究 [J] . 申剑博 . 软件导刊 . 2015,第004期
5. 改进的 TF-IDF中文本特征词加权算法研究 [J] . 申剑博 . 软件导刊 . 2015,第004期
6. 文本分类中TF-IDF算法的一种改进方法 [C] . ZHANG Lei ,张磊 ,XIE Xu-sheng . 中国计算机用户协会网络应用分会2014年第十八届网络新技术与应用年会 . 2014
7. 基于TF-IDF模型的高光谱影像端元提取方法研究 [A] . 夏璇 . 2016

一种利用本体关联度改进的TF-IDF特征词提取方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅