基于半监督学习的智能手机命名实体识别

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展普及，越来越多的消费者通过各种论坛、微博等平台浏览产品信息以做出购买决策，同时分享自己的产品使用感受，这种现象在智能手机领域尤其明显。对手机品牌商来说，通过网络渠道收集用户对自身产品的使用反馈是件很有商业价值的事情。然而用户发布的产品信息中，可能包含各种类型的简写、昵称、错误拼写等，随意性强，识别难度大。因此非正式短文本手机命名实体识别是个既有意义又富有挑战的任务，也是本文的研究兴趣所在。
　　为解决该识别问题，本文主要从以下方面开展研究：
　　（1）在利用word2vec获得词向量后，本文提出基于音译映射的改进k-means词聚类算法，该改进算法很好地将诸如“PLUS、puls”等表示同一命名实体但不同表达的各种简写、昵称、错误拼写聚到一起，而将其与实际语法语义关联度低的噪声词分开。并由聚类结果得到构成产品名的品牌名、系列名、类型名、属性名列表，融入这些列表特征的识别算法较好地解决了简写、昵称、错误拼写的问题；
　　（2）在基于音译映射聚类的列表特征及词向量特征基础上，本文还用1/2k-means聚类算法对词向量进行层级聚类，求得每个词的二进制类别编码，由此探索出了能进一步提升识别效果的1/2k-means层级聚类特征；
　　（3）本文提出了一种新的半监督方法来解决标注语料不足的问题，该方法只需少量人工挑选词语的努力就可以半自动获取大量标注数据。利用手机名称的命名特点，先根据规则从规范手机全名列表中提取正例，再通过少量人工挑选获取负例，然后遍历训练集匹配正例、负例，从而自动标注每个训练样本。
　　最后在1000条包含20个品牌智能手机的测试集上，完成了一系列特征组合对比实验，验证了本文所提出的基于音译映射聚类的列表特征、1/2k-means层级聚类特征的有效性，最佳特征组合的性能指标上达到了精度93.39％、召回率89.76%、F1值91.54%的水平，好于同类方法，同时也证明了半自动标注方法的可行性。

著录项

作者
雷军安;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科信息与通信工程
授予学位硕士
导师姓名冯镔;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
智能手机; 命名实体识别; 半监督学习; 条件随机场; 自动标注; 词聚类;

相似文献

中文文献
外文文献
专利

1. 基于半监督学习与CRF的应急预案命名实体识别 [J] . 刘彤 ,魏静 ,倪维健 . 软件导刊 . 2020,第003期
2. 基于半监督学习的命名实体识别的方法 [J] . 刘一鸣 . 数字技术与应用 . 2020,第001期
3. 基于CRF和半监督学习的维吾尔文命名实体识别 [J] . 王路路 ,艾山·吾买尔 ,买合木提·买买提 . 中文信息学报 . 2018,第011期
4. 基于智能手机的照度测量准确度评价与优化——以安卓系统的三款智能手机为例 [J] . 李瑞 ,王爱英 ,胡振宇 . 照明工程学报 . 2021,第006期
5. 被盗智能手机的追赃对策研究——基于智能手机防盗技术视角 [J] . 白涛 . 河南工程学院学报（社会科学版） . 2019,第001期
6. 基于深度神经网络的维吾尔文命名实体识别研究 [C] . Wang Lu-lu ,王路路 ,Aishan Wumaier . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 基于深度学习的中学数学知识命名实体识别 [A] . 程哲 . 2021

基于半监督学习的智能手机命名实体识别

目录

摘要

著录项

相似文献

相关主题

期刊订阅