首页> 中文学位 >基于Hownet的汽车领域产品评论挖掘方法研究
【6h】

基于Hownet的汽车领域产品评论挖掘方法研究

代理获取

目录

基于Hownet的汽车领域产品评论挖掘方法研究

THE EXTRACTION OF PRODUCT COMENTS BASED ON THE HOWNET

摘 要

Abstract

目 录

第1章 绪论

1.1 课题背景与意义

1.2 国内外研究现状与分析

1.3 主要研究内容

第2章 汽车领域产品词汇的知识库建立

2.1 汽车领域特殊词汇

2.2 汽车领域独特的文本结构

2.3 汽车领域知识库建立的算法描述

2.4 本章小结

第3章 汽车领域产品词汇的扩展与提取

3.1基于Hownet的复合短语提取

3.2 汽车领域复合短语的标注

3.3 汽车领域知识库的扩展

3.4 本章小结

第4章 汽车产品特征与评论的提取与结果分析

4.1 汽车产品特征的提取

4.2 汽车产品评论的提取

4.3 特征提取与评论提取的算法描述

4.4 汽车产品特征与评论提取系统的设计

4.5 结果分析

4.6 本章小结

结论

参考文献

附录1 系统部分核心源代码

哈尔滨工业大学硕士学位论文原创性声明

致 谢

展开▼

摘要

产品特征与产品评论对该产品的用户与商家都有着重要的参考价值,所以自动地准确地提取文本中的这类词汇变得十分有意义。本文在基于《知网》(Hownet)提取复合短语的基础上,结合汽车领域的文本特征完成了挖掘工作。
  复合短语作为语言中一种普遍的语法现象,以其结构稳定性强,表意完整单一,含有歧义较少的特点,近年来正逐渐为自然语言处理领域的研究者所关注。目前,对复合短语的研究范围主要集中在名词性复合短语识别和复合短语关键词的识别和处理上。
  本文主要研究如何利用Hownet 来衡量词语的语义相关度,在此基础上完成了复合短语的挖掘与标注,最终基于词频、词性等因素完成了产品特征与产品评论的提取工作。在第一部分中,首先根据汉语词汇的特点对匹配词库做了切分。在基于词库切分之后,对切分结果做了除噪处理,去除了停用词,标点以及不能构成复合短语的单字词。第二部分中,首先对 Hownet 衡量语义相关度的算法进行了优化,建立了所需的复合短语备选集。然后在此基础上利用HMM算法完成了复合短语的标注工作。第三部分中,结合汽车领域内文本特征与已建立的领域知识库,采用基于词频、词性等因素的算法完成了产品特征与产品评论的挖掘。
  在完成理论研究的基础上,本文根据此理论进行了系统实施,并在本文最后对算法结果的准确率、召回率及F值进行了测试。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号