首页> 中文学位 >基于半监督学习的智能手机命名实体识别
【6h】

基于半监督学习的智能手机命名实体识别

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景与意义

1.2 主要研究内容

1.3 论文结构安排

2 命名实体识别相关技术

2.1 命名实体定义

2.2 识别算法

2.3 特征选择

2.4 本章小结

3 基于音译聚类的列表生成算法

3.1 基于word2vec的词聚类算法

3.2 基于音译映射的词聚类算法

3.3 基于音译映射的列表生成算法

3.4 本章小结

4 基于CRF的半监督识别算法

4.1 整体识别框架

4.2 候选名生成算法

4.3 基于半自动标注的CRF模型训练

4.4 本章小结

5 实验结果与分析

5.1 实验说明

5.2 特征对比实验

5.3 半监督算法对比实验

5.4 本章小结

6 总结展望

6.1 全文总结

6.2 工作展望

致谢

参考文献

展开▼

摘要

随着互联网的发展普及,越来越多的消费者通过各种论坛、微博等平台浏览产品信息以做出购买决策,同时分享自己的产品使用感受,这种现象在智能手机领域尤其明显。对手机品牌商来说,通过网络渠道收集用户对自身产品的使用反馈是件很有商业价值的事情。然而用户发布的产品信息中,可能包含各种类型的简写、昵称、错误拼写等,随意性强,识别难度大。因此非正式短文本手机命名实体识别是个既有意义又富有挑战的任务,也是本文的研究兴趣所在。
  为解决该识别问题,本文主要从以下方面开展研究:
  (1)在利用word2vec获得词向量后,本文提出基于音译映射的改进k-means词聚类算法,该改进算法很好地将诸如“PLUS、puls”等表示同一命名实体但不同表达的各种简写、昵称、错误拼写聚到一起,而将其与实际语法语义关联度低的噪声词分开。并由聚类结果得到构成产品名的品牌名、系列名、类型名、属性名列表,融入这些列表特征的识别算法较好地解决了简写、昵称、错误拼写的问题;
  (2)在基于音译映射聚类的列表特征及词向量特征基础上,本文还用1/2k-means聚类算法对词向量进行层级聚类,求得每个词的二进制类别编码,由此探索出了能进一步提升识别效果的1/2k-means层级聚类特征;
  (3)本文提出了一种新的半监督方法来解决标注语料不足的问题,该方法只需少量人工挑选词语的努力就可以半自动获取大量标注数据。利用手机名称的命名特点,先根据规则从规范手机全名列表中提取正例,再通过少量人工挑选获取负例,然后遍历训练集匹配正例、负例,从而自动标注每个训练样本。
  最后在1000条包含20个品牌智能手机的测试集上,完成了一系列特征组合对比实验,验证了本文所提出的基于音译映射聚类的列表特征、1/2k-means层级聚类特征的有效性,最佳特征组合的性能指标上达到了精度93.39%、召回率89.76%、F1值91.54%的水平,好于同类方法,同时也证明了半自动标注方法的可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号