文本关联规则挖掘方法研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的大规模普及和企业信息化程度的提高，文本信息快速积累，人们迫切需要研究出方便有效的工具从大规模文本信息中提取符合需要的简洁、精炼、可理解的知识，文本挖掘就是为解决这个问题而产生的研究方向。由于文本数据与一般数据库数据有巨大的差异，文本数据是半结构化数据或非结构化数据，因此文本关联规则挖掘与数据库关联规则挖掘在目标上有相似性，但在实现技术上有一定的差异性。
　　本文研究了文本关联规则挖掘的关键技术和方法，并以机械行业用户需求挖掘为背景详细描述了文本关联规则挖掘的过程，完成了如下工作：
　　 (1)对各种中文分词器进行了比较，最终采用ETCLAS分词器对用户需求进行中文分词得到标注词性后的分词结果，通过词性标注可以将汉语中的虚词作为停用词去掉，达到粗降维的目的。通过中文分词和去停用词，得到用户需求的候选特征。
　　 (2)对每篇文档统计其候选特征并按频率从大到小排序，当累积频率达到一定阈值时截尾，提取高频词作为文档特征；为了避免将低频专业词汇去掉，建立专业关键词库，将文档中出现的专业词汇作为文档特征选出。汇总所有的文档特征得到文档特征集，采用文档频数法[DF)进行特征降维，将文档频数较高的非专业特征去掉。
　　 (3)采用向量空间模型将半结构化或非结构化的用户需求转化为结构化的向量，从而得到文档集的文本特征向量空问模型。
　　 (4)以文本特征向量空间模型为输入，利用灰色关联度计算公式计算出专业特征词和非专业特征词之间的关联度。
　　 (5)在关联度计算结果的基础上利用专业特征阵进行二次特征降维，选择一定数量的特征词用来描述文档集。
　　最后．对19篇挖掘机用户需求进行了实验，并详细介绍了通过文本挖掘得到的特征词在机构设计信息加工系统中的应用。

著录项

作者
万晓鸽;
展开▼
作者单位

西安建筑科技大学;

展开▼
授予单位西安建筑科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名董丽丽;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文分词; 特征提取; 特征降维; 向量空间模型; 灰色关联度; 文本挖掘;

相似文献

中文文献
外文文献
专利

1. 基于粗糙集的关联规则挖掘方法的研究与应用 [J] . 吴陈 ,李丹丹 . 电子测量技术 . 2016,第7期
2. 基于约束关联规则挖掘方法的研究与应用 [J] . 张茹 ,杨志义 . 科学技术与工程 . 2007,第004期
3. 大规模数据集事务间关联规则挖掘方法研究——大数据挖掘方法研究之二 [J] . 张诤 ,王惠文 . 生产力研究 . 2015,第001期
4. 大规模数据集关联规则挖掘方法研究——大数据挖掘方法研究之一 [J] . 张诤 ,王惠文 . 生产力研究 . 2014,第011期
5. 数据挖掘方法在文本分析中的应用——以十九大报告、习近平讲话等文本为例 [J] . 张林泉 . 哈尔滨师范大学自然科学学报 . 2020,第006期
6. 关联规则数据挖掘方法在中医药研究中的应用 [C] . 许海柱 ,张婷 ,孙建立 . 2013年全国中医肿瘤学术年会 . 2013
7. 关联规则挖掘方法的研究与应用 [A] . 赵月 . 2016

文本关联规则挖掘方法研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅