您现在的位置: 首页> 研究主题> 短文本

短文本

短文本的相关文献在2004年到2023年内共计671篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播 等领域,其中期刊论文248篇、会议论文14篇、专利文献21541篇;相关期刊118种,包括情报杂志、电脑知识与技术、计算机工程等; 相关会议14种,包括第33届中国数据库学术会议(NDBC2016 )、第四届全国情报学博士生学术论坛、第六届中国智能计算大会等;短文本的相关文献由1660位作者贡献,包括张雷、胡学钢、费高雷等。

短文本—发文量

期刊论文>

论文:248 占比:1.14%

会议论文>

论文:14 占比:0.06%

专利文献>

论文:21541 占比:98.80%

总计:21803篇

短文本—发文趋势图

短文本

-研究学者

  • 张雷
  • 胡学钢
  • 费高雷
  • 郝红卫
  • 徐博
  • 李培培
  • 王崇骏
  • 王方圆
  • 胡光岷
  • 刘业政
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 向卓元; 吴玉; 陈浩; 张芙玮
    • 摘要: [研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指数和词对突发概率,从文档层面和词语层面进行特征选择,解决数据稀疏和高维度的问题。其次,通过双向长短期记忆(BiLSTM)训练词语之间的关系,结合词语的逆文档频率作为词对的先验知识,考虑了词之间的关系,解决忽略词之间关系的问题。再次,利用基于密度的方法自适应选择BBTM的最优话题数目,解决了传统的主题模型需要人工指定话题数目的问题。最后,利用真实微博数据集在热点话题发现准确度、话题质量、一致性三个方面进行验证。[研究结论]实验表明,BiLSTM-HBBTM在多种评价指标上都优于对比模型,实验结果验证了所提模型的有效性及可行性。
    • 徐菲菲; 冯东升
    • 摘要: 提出将注意力机制引入至孪生网络(Siamese Network)结构,通过注意力机制对句子中单词进行重要性评分,以双向长短时记忆网络(BiLSTM)作为基准系统,获得文本语义的深层次特征表示,从而有效地提升短文本相似度的准确率。实验采用通用公开标注数据集Quora语句对集和蚂蚁金服句对集,结果表明,与传统神经网络以及Siamese-Net网络相比,所提出的算法在短文本相似度总体效果上有明显提升,验证了所提算法的有效性。
    • 晏丞骁
    • 摘要: 随着现代信息技术的发展,各种网络平台快速普及,大众已经习惯于通过如微博、微信等网络媒体表达他们的观点和意见,且用户发表的多为短文本,其中包含大量有价值的信息。因此,网络短文本成为自然语言处理(Natural Language Processing,NLP)领域的研究热门。本文以短文本为研究对象,对短文本进行语义极性分析,利用计算机自动分析包含观点信息的句子,抽取主题词、特征词,利用主谓极性传递算法提取句子中的观点。
    • 罗孝波; 林佳瑜; 梁祖红; 王漳
    • 摘要: 中文短文本分类中存在大量低频词,利用好低频词中的信息能有效提高文本分类效果,针对基于词向量的文本分类研究中低频词不能被有效利用的问题,提出一种针对低频词进行数据增强的方法。首先,利用受限文本生成模型产生的数据来微调低频词的词向量,再利用一种词向量的构造算法将高频词的更新信息迁移到低频词中,使低频词获取更准确且符合训练集分布的词向量表示;其次,引入相似词和实体概念等先验知识来补充上下文信息;最后,利用改进的卡方统计去除明显的噪声词,以及设计词注意力层对每个词进行加权,减少无关噪声对分类的影响。在多个基础分类模型上进行实验,结果表明各基础模型经改进后都有明显提升,体现了提出方法的有效性,同时也说明了短文本分类任务中低频词能改善分类的效果。
    • 方悦; 张琨; 张云纯; 李寻; 刘志敏; 孙琦
    • 摘要: 现如今,深度学习技术迅速发展,在情感分析任务中被大量使用。针对传统神经网络模型中,卷积神经网络难以捕捉文本前后文关联语义信息以及长短时记忆网络训练所需时间长、缺乏深层次信息提取能力的问题,提出了一种双通道卷积神经网络和循环网络变体的特征融合情感分析模型(CSRMA),该模型能够获取更全面的情感特征,加快训练速度。该模型使用GloVe进行词向量化,将词向量分别传入卷积神经网络通道,和引入注意力机制与最大池化的BiSRU通道,得到局部深层次情感语义和前后文时序情感语义,最后融合特征进行分类,输出情感极性,完成情感分析任务。论文主要在四个英文短文本情感数据集上,与传统神经网络模型进行对照实验,从实验结果看来,CSRMA模型对于情感语料的分类准确性有进一步提高,训练时耗费时间缩短,具有良好的泛化性。
    • 高永兵; 张颖; 黎预璇; 马占飞
    • 摘要: 针对短文本中大量文法混乱语义不清的句子,提出一种将句法结构和修饰语义相结合的短文本质量评估算法。该方法将短文本分为单句和多句两种模式。对于单句模式,将句子解析为抽象语义表示,接着分析谓词的句法结构的完整程度;根据不同的修饰关系计算句子序列的紧密程度,结合句子的结构完整性与紧密性得出单句短文本质量评估值。对于多句模式,选取每句中的关键词;循环计算与其他句子中关键词的相似性,总相似度最高的单句作为核心句,用核心句的质量评估值作为多句短文本的质量评估值。实验结果表明,该方法在中文AMR数据集上的准确率为80%,在自建的多句微博数据集中准确率为74.73%。
    • 陈蓝; 杨帆; 曾桢
    • 摘要: 针对GloVe、BERT模型生成的字向量在小语料库中表义不足的问题,提出融合向量预训练模型,对小语料中文短文本分类的精确度进行提升。本文以今日头条新闻公开数据集为实验对象,使用GloVe、BERT模型通过领域预训练,对GloVe与BERT生成的预训练字向量进行向量融合,实现语义增强,从而提升短文本分类效果。结果表明,当语料库中的数据量为500时,融合字向量的准确度相较于BERT字向量的准确度提升了5个百分点,相较于GloVe字向量的准确度提升了3个百分点。词义选取的维度待进一步加强。本文所提方法能够对小语料库的短文本数据实现精准分类,对后续文本挖掘工作具有重要意义。
    • 汤凌燕; 熊聪聪; 王嫄; 周宇博; 赵子健
    • 摘要: 短文本情感倾向分析是自然语言处理领域的关键研究问题之一.情感倾向分析是用于检测语言所蕴含主观倾向语义的一系列方法、技术和工具,是对文本深层语义理解的关键.短文本数据的随意性、高歧义性以及简短性使得传统基于特征工程和机器学习分类技术的情感倾向分析任务性能有限.随着深度学习技术在自然语言处理中的广泛应用,基于深度学习的短文本情感倾向分析模型取得了新的突破.通过对相关文献的梳理,首先概述和对比了传统方法和深度学习方法,介绍和剖析了近年基于深度学习的短文本情感倾向分析模型,并阐述了模型的联系、区别与优势;其次归纳了深度学习在短文本情感倾向分析中的研究热点和进展思路,介绍了情感倾向分析常用的公开数据集以及评价指标;最后结合深度学习技术特点和任务难点,对深度学习在短文本情感倾向分析方向的应用前景进行预测.
    • 张翼翔; 芦天亮; 李默
    • 摘要: 随着互联网井喷式发展,社交媒体发展迅猛,但是伴随网络匿名特性出现的失范现象时有发生,如何准确判定社交媒体用户从属问题亟待解决.目前社交媒体信息载体多以短文本为主,语法语义过于灵活,难以准确获得文本特征向量.传统短文本作者识别多采用人工建模的方式对文本特征加以提取,设计纷繁复杂.结合深度学习的方法,提出BERT-BiGRU-ATT短文本作者身份识别模型.该模型对中文短文本使用BERT中文预训练模型生成字符向量,利用双向门控循环单元(BiGRU)结合注意力机制高效捕获序列上下文特征,最终通过A-softmax分类器实现文本作者的识别.在制作的中文微博短文本数据集上的实验结果表明,BERT-BiGRU-ATT模型与其他模型相比,在中文短文本作者识别的准确率上取得较好的成绩,其F1值达到93.6%的精度.
    • 乔亚勃; 高永兵; 马宁
    • 摘要: 随着各种社交媒体的相继出现,产生的数据量数以亿计,质量更是良莠不齐。因此,对文本质量进行评价成为亟待解决的问题。本文针对微博短文本进行质量评估研究,提出AMR质量评估与优美句识别相结合的方法。首先利用AMR质量评估模型对句子结构的完整性以及序列紧密性做出评估,其次通过优美句评估模型进行二次评定,最终将博文质量分为高、中、低三个等级。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号