您现在的位置: 首页> 研究主题> 短文本分类

短文本分类

短文本分类的相关文献在2008年到2023年内共计275篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究 等领域,其中期刊论文144篇、会议论文5篇、专利文献89829篇;相关期刊77种,包括现代图书情报技术、电脑知识与技术、计算机工程与科学等; 相关会议4种,包括第六届全国青年计算语言学会议、中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会、香港中医学会、教育研究基金会2017国际针灸高峰论坛等;短文本分类的相关文献由767位作者贡献,包括佟玲玲、刘晓芳、王洁等。

短文本分类—发文量

期刊论文>

论文:144 占比:0.16%

会议论文>

论文:5 占比:0.01%

专利文献>

论文:89829 占比:99.83%

总计:89978篇

短文本分类—发文趋势图

短文本分类

-研究学者

  • 佟玲玲
  • 刘晓芳
  • 王洁
  • 任博雅
  • 刘楚雄
  • 刘泽锦
  • 周宇博
  • 唐军
  • 张云华
  • 张灵
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

期刊

    • 贾洪健; 田刚; 王蕊; 宋庆松
    • 摘要: 针对短文本没有足够的上下文信息、短文本语义比较模糊,导致短文本分类困难的问题,提出一种新的基于外部知识注意的中文短文本分类模型。通过将单词和字符特征与可训练矩阵相乘,生成具有两级对齐特征矩阵的方式捕捉深层语义信息以解决上下文信息不足等问题;并从外部知识库中检索知识以增强短文本的语义表示,同时引入面向短文本的概念注意和面向概念集的概念注意两种注意力机制。实验结果表明,通过添加对齐特征矩阵方式,同时使用外部知识库检索知识对数据进行训练,该模型准确率优于现有模型准确率。基于外部知识注意的中文短文本分类模型证明了引入对齐特征矩阵和外部知识注意的有效性。
    • 郑承宇; 王新; 王婷; 尹甜甜; 邓亚萍
    • 摘要: 由于word2vec、Glove等静态词向量表示方法存在无法完整表示文本语义等问题,且当前主流神经网络模型在做文本分类问题时,其预测效果往往依赖于具体问题,场景适应性差,泛化能力弱。针对上述问题,提出一种多基模型框架(Stacking-Bert)的中文短文本分类方法。模型采用BERT预训练语言模型进行文本字向量表示,输出文本的深度特征信息向量,并利用TextCNN、DPCNN、TextRNN、TextRCNN等神经网络模型构建异质多基分类器,通过Stacking集成学习获取文本向量的不同特征信息表达,以提高模型的泛化能力,最后利用支持向量机(support vector machine,SVM)作为元分类器模型进行训练和预测。与word2vec-CNN、word2vec-BiLSTM、BERT-TexCNN、BERT-DPCNN、BERT-RNN、BERT-RCNN等文本分类算法在网络公开的三个中文数据集上进行对比实验,结果表明,Stacking-Bert集成学习模型的准确率、精确率、召回率和F_(1)均为最高,能有效提升中文短文本的分类性能。
    • 潘袁湘; 黄林; 牛新征
    • 摘要: 中文短文本具有长度短以及上下文依赖强的特点。目前主流的基于词向量的双向循环神经网络分类方法依赖于词向量语义表达以及上下文特征提取能力,其分类准确率有待进一步改善。针对此问题,论文提出融合语义增强的中文短文本分类方法,该方法提出融合语义增强的思想,在词向量表示阶段,引入Bert生成融合字、文本以及位置的向量作为训练文本的词表征进行文本语义增强,接着输送到Bi-GRU网络中提取上下文关系特征,并通过多头注意力机制调整权值强化重要特征表达,最后使用softmax分类器进行文本分类。通过与其他主流方法进行对比论证,实验表明,论文提出的方法在短文本分类效果上有显著提升。
    • 杨阳; 刘恩博; 顾春华; 裴颂文
    • 摘要: 针对短文本缺乏足够共现信息所产生的词与词之间弱连接,且难以获取主题词的情况,导致面向短文本分类工作需要人工标注大量的训练样本,以及产生特征稀疏和维度爆炸的问题,提出了一种基于注意力机制和标签图的单词共生短文本分类模型(WGA-BERT)。首先利用预先训练好的BERT模型计算上下文感知的文本表示,并使用WNTM对每个单词的潜在单词组分布进行建模,以获取主题扩展特征向量;其次提出了一种标签图构造方法捕获主题词的结构和相关性;最后,提出了一种注意力机制建立主题词之间,以及主题词和文本之间的联系,解决了数据稀疏性和主题文本异构性的问题。实验结果表明,WGA-BERT模型对于新闻评论类的短文本分类,比传统的机器学习模型在分类精度上平均提高了3%。
    • 张虎; 柏萍
    • 摘要: 随着图神经网络技术在自然语言处理领域中的广泛应用,基于图神经网络的文本分类研究受到了越来越多的关注,文本构图是图神经网络应用到文本分类中的一项重要研究任务,已有方法在构图时通常不能有效捕获句子中远距离词语的依赖关系。短文本分类是待分类文本中普遍较短的一类特殊文本分类任务,传统的文本表示通常比较稀疏且缺乏丰富的语义信息。基于此,文中提出了一种融入远距离词语依赖关系进行构图的图卷积短文本分类方法。首先结合词语共现关系、文档和词语之间的包含关系、远距离词语依赖关系为整个文本语料库构建一个文本图;然后将文本图输入到图卷积神经网络,通过2层卷积后,对每个文档节点进行类别预测。在on_line_shopping_10_cats、中文论文摘要和酒店评论3个数据集上的实验结果表明,所提方法相比已有基线模型取得了更好的效果。
    • 陈立潮; 秦杰; 陆望东; 潘理虎; 张睿
    • 摘要: 针对短文本信息量少导致隐藏的信息难以充分挖掘和深度学习模型易受干扰导致分类准确度下降的问题,提出一种融合对抗训练自注意力多层双向长短期记忆网络(Con-Att-BiLSTMs)短文本分类模型。将文本训练集按不同比例进行分类对抗训练,通过对抗训练提升模型的健壮性;利用多层双向长短期记忆网络对语义进行提取,利用自注意力机制层对语义信息进行加权强化;经过softmax函数使损失率极小化。将该方法与其它模型方法比较,实验结果表明,该方法有效提高了短文本分类的准确度。
    • 刘豪; 王雨辰
    • 摘要: 在文本分类任务中,由于短文本具有特征稀疏,用词不规范等特点,传统的自然语言处理方法在短文本分类中具有局限性.针对短文本的特点,本文提出一种基于BERT(bidirectional encoder representations from Transformers)与GSDMM(collapsed Gibbs sampling algorithm for the Dirichlet multinomial mixture model)融合和聚类指导的短文本分类算法,用以提高短文本分类有效性与准确性.本算法一方面通过BERT与GSDMM融合模型将短文本转化为集成语义向量,集成的向量体现了全局语义特征与主题特征,解决了短文本特征稀疏与主题信息匮乏的问题.另一方面在分类器前端训练中通过引入聚类指导算法实现对标注数据的扩展,同时也提升了结果的可解释性.最后利用扩展后的标注数据集训练分类器完成对短文本的自动化分类.将电商平台的差评数据作为验证数据集,在多组对比实验中验证了本算法在短文本分类方面应用的有效性与优势.
    • 杨世刚; 刘勇国
    • 摘要: 短文本分类是自然语言处理(NLP)中的重要研究问题,广泛应用于新闻分类、情感分析、评论分析等领域。针对短文本分类中存在的数据稀疏性问题,通过引入语料库的节点和边权值特征,基于图注意力网络(GAT),提出了一个融合节点和边权值特征的图注意力网络NE-GAT。首先,针对每个语料库构建异构图,利用引力模型(GM)评估单词节点的重要性,并通过节点间的点互信息(PMI)获得边权重;其次,为每个句子构建文本级别图,并将节点重要性和边权重融入节点更新过程。实验结果表明,所提模型在测试集上的平均准确率达到了75.48%,优于用于文本分类的图卷积网络(Text-GCN)、TL-GNN、Text-ING等模型;相较原始GAT,所提模型的平均准确率提升了2.32个百分点,验证了其有效性。
    • 范明炜; 张云华
    • 摘要: 短文本分类是自然语言处理中一项具有挑战性的任务。目前利用外部知识处理短文本稀疏性和歧义性的传统方法取得了较好的效果,基于RNN的方法在并行化方面表现不佳,导致效率较低。基于CNN的方法可以捕捉局部特征,但由于忽略上下文相关的特征以及一词多义等问题,准确率还有待提高。针对以上问题,提出基于CNN与TCN相结合,并加入权重优化与注意力机制的短文本分类模型。使用Probase作为外部知识来丰富语义表示,解决特征稀疏和语义不足的问题,通过BERT训练词向量,引入词性和词语权重对词向量优化,将优化的词向量作为输入层信息,经过CNN和TCN相结合的方法提取特征,最后结合注意力机制拼接向量,突显关键信息,获得文本特征表示。实验表明,与几种常用的基于CNN和RNN的短文本分类方法相比,该方法在短文本分类中更加准确高效。
    • 董晨
    • 摘要: 原始TextCNN深度神经网络模型在短文本分类过程中,首先将Embedding经过卷积后直接使用最大池化操作将词向量调整成1的长度,虽然保留了最显著的特征也会损失掉一部分信息。针对直接使用maxpool造成的信息丢失问题,首先利用全局注意力机制对词向量中的每个元素进行权重赋值,从而突出显著特征抑制无用特征。继而融合了平均池化和最大池化操作,使用MLP层进一步提取平均池化和最大池化产生的特征,提升特征的全局表示能力。最后通过两者相加,融合平均池化和最大池化产生的特征,并经过softsign激活后得到最终的词向量表示特征。所提出的方法在精确率、准确率、召回率、和F1值上均有所提升,其值分别是0.9145、0.9140、0.9129和0.9131,优于原始TextCNN、TextRNN、DPCNN,能在短文本分类中较好的识别。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号