基于概率语义分布的短文本分类

马成龙; 颜永红

首页> 中文期刊> 《自动化学报》 >基于概率语义分布的短文本分类

基于概率语义分布的短文本分类

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

In short text classification, it is critical to deal with each word because of data sparsity. In this paper, we present a novel probabilistic semantic distribution model. Firstly, words are transformed to vectors by looking up word embeddings. Secondly, the universal background semantic model is trained based on unlabelled universal data through mixture Gaussian models. Then, target models are obtained by adapting the background model for each domain training data. Finally, the probability of the test data belonging to each target model is calculated. Experimental results demonstrate that our approach can make best use of each word and effectively reduce the influence of training data size. In comparison with the methods of support vector machine (SVM) and MaxEnt, the proposed method gains a 17.7%relative accuracy improvement.%在短文本分类中,面对特征稀疏的短文本,如何充分利用文本中的每一个词语成为关键.本文提出概率语义分布模型的思想,首先通过查询词矢量词典,将文本转换为词矢量数据；其次,在概率语义分布模型的假设下利用混合高斯模型对无标注的文本数据进行通用背景语义模型训练；利用训练数据对通用模型进行自适应得到各个领域的目标领域语义分布模型；最后,在测试过程中,计算短文本属于领域模型的概率,得到最终的分类结果.实验结果表明,本文提出的方法能够从一定程度上利用短文本所提供的信息,有效降低了对训练数据的依赖性,相比于支持向量机(Support vector machine, SVM)和最大熵分类方法性能相对提高了17.7%.

著录项

来源
《自动化学报》 |2016年第11期|1711-1717|共7页
作者
马成龙; 颜永红;
展开▼
作者单位

中国科学院声学研究所语言声学与内容理解重点实验室北京100190;

中国科学院声学研究所语言声学与内容理解重点实验室北京100190;

新疆民族语音语言信息处理实验室乌鲁木齐 830011;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
短文本分类; 词矢量; 语义分布; 高斯混合模型;

相似文献

中文文献
外文文献
专利

1. 基于查询概率和时间分布的假语义位置选择算法 [J] . 王永录 ,潘涛 . 新乡学院学报（自然科学版） . 2021,第009期
2. 基于PLSA学习概率分布语义信息的多标签分类算法 [J] . 王一宾 ,郑伟杰 ,程玉胜 . 南京大学学报：自然科学版 . 2021,第1期
3. 基于结构-语义图的短文本分类 [J] . 胡代艳 . 现代计算机（专业版） . 2019,第005期
4. 基于语言无关性语义Kernel学习的短文本分类 [J] . 易欣 ,郭武士 . 计算机应用与软件 . 2015,第007期
5. 基于语义与最大匹配度的短文本分类研究 [J] . 孙建旺 ,吕学强 ,张雷瀚 . 计算机工程与设计 . 2013,第010期
6. 基于高斯混合分布的风速风向联合概率分布建模方法 [C] . 赵震坤 ,全涌 ,顾明 . 第十八届全国结构风工程学术会议暨第四届全国风工程研究生论坛 . 2017
7. 基于语义扩展的短文本分类研究 [A] . 李珍 . 2019

基于概率语义分布的短文本分类

摘要

著录项

相似文献

相关主题

期刊订阅