首页> 中文学位 >文本关联规则挖掘方法研究与应用
【6h】

文本关联规则挖掘方法研究与应用

代理获取

目录

1前言

2文本关联规则挖掘相关理论

3特征词提取及关联度计算

4二次特征降维

5机构设计信息加工系统介绍及实验

6结语

致 谢

参考文献

攻读硕士学位期间发表的论文及硕士学位期间参与的科研项目

声明

展开▼

摘要

随着互联网的大规模普及和企业信息化程度的提高,文本信息快速积累,人们迫切需要研究出方便有效的工具从大规模文本信息中提取符合需要的简洁、精炼、可理解的知识,文本挖掘就是为解决这个问题而产生的研究方向。由于文本数据与一般数据库数据有巨大的差异,文本数据是半结构化数据或非结构化数据,因此文本关联规则挖掘与数据库关联规则挖掘在目标上有相似性,但在实现技术上有一定的差异性。
   本文研究了文本关联规则挖掘的关键技术和方法,并以机械行业用户需求挖掘为背景详细描述了文本关联规则挖掘的过程,完成了如下工作:
   (1)对各种中文分词器进行了比较,最终采用ETCLAS分词器对用户需求进行中文分词得到标注词性后的分词结果,通过词性标注可以将汉语中的虚词作为停用词去掉,达到粗降维的目的。通过中文分词和去停用词,得到用户需求的候选特征。
   (2)对每篇文档统计其候选特征并按频率从大到小排序,当累积频率达到一定阈值时截尾,提取高频词作为文档特征;为了避免将低频专业词汇去掉,建立专业关键词库,将文档中出现的专业词汇作为文档特征选出。汇总所有的文档特征得到文档特征集,采用文档频数法[DF)进行特征降维,将文档频数较高的非专业特征去掉。
   (3)采用向量空间模型将半结构化或非结构化的用户需求转化为结构化的向量,从而得到文档集的文本特征向量空问模型。
   (4)以文本特征向量空间模型为输入,利用灰色关联度计算公式计算出专业特征词和非专业特征词之间的关联度。
   (5)在关联度计算结果的基础上利用专业特征阵进行二次特征降维,选择一定数量的特征词用来描述文档集。
   最后.对19篇挖掘机用户需求进行了实验,并详细介绍了通过文本挖掘得到的特征词在机构设计信息加工系统中的应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号