首页> 中文学位 >基于多源异构数据融合的概念层次体系构建及其应用研究
【6h】

基于多源异构数据融合的概念层次体系构建及其应用研究

代理获取

摘要

领域专家构建丰富的领域概念层次体系,将领域知识自顶向下、逐层分类,方便用户检索与获取信息。同时,概念层次体系构建还能为自动问答、机器翻译等研究提供支持。目前,传统的手工构建与半自动构建方法效率低、成本高、跨平台使用难度大;而自动构建方法则往往依赖于单一语料,抽取出的概念不够准确,层次关系比较单一。为此,本论文结合半结构化的专业语料库与非结构化的用户生成内容(UserGenetrated Conent,UGC),利用多源异构数据融合的方法构建概念层次体系。一方面,利用专业领域语料库,初步构建概念层次体系;另一方面,针对非结构UGC,分别进行关键词抽取、词语相似度计算、概念层次体系构建等三个方面的研究。
  首先,在关键词抽取研究中,本文结合模式匹配、统计特征排序、序列标注等多种关键词抽取策略,提出一种基于种子词扩展的关键词抽取方法。首先,基于模式匹配与统计特征排序的策略获得种子词;其次,基于条件随机场(Conditional RandomFields,CRFs)模型扩展种子词。本文通过与TF*IDF、TextRank、NC_value、CRFs等算法进行对比试验,证明本文策略不仅可以摆脱统计特征抽取对高频词的依赖,还能在一定程度上解决句法模板的限制,获得更高的召回率。
  其次,在词语相似度计算研究中,本文提出一种基于多源知识融合的词语相似度计算方法。首先,分别基于语词知识体系(同义词词林、知网)、大规模语料资源(微博语料、新闻语料)、搜索引擎资源(百度、必应),通过单独的算法计算词语相似度;其次,基于支持向量机回归机(Support Vector Regression,SVR)集成多个算法的计算结果,获得最终的词语相似度。实验结果表明,当训练集数据量足够大时,本文方法在性能及算法稳定性上,都要远高于其他几种单独的算法。
  最后,在概念层次体系构建研究中,本文通过Kmeans聚类算法获得概念间的层次关系。由于不同聚类算法获得的聚类结果存在较大差异,因此,本文对比相似性传播算法(Affinity Propagation,AP)、层次聚类算法(Hierarchical Clustering),通过聚类评估量化评价其聚类效果,并据此确定合适的聚类算法。
  本文将基于UGC的概念层次体系与基于专业领域语料库的概念层次体系进行融合,最终得到的该领域的概念层次体系。
  为了评价该概念层次体系的质量,本文使用外部评估方法,即通过应用来评价概念层次体系的质量。通过情感分析任务的实验表明,基于概念层次体系扩充情感向量空间维度,可以显著提升情感分析系统的性能,同时也证明本文构建的概念层次体系的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号