短文本
短文本的相关文献在2004年到2023年内共计671篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播
等领域,其中期刊论文248篇、会议论文14篇、专利文献21541篇;相关期刊118种,包括情报杂志、电脑知识与技术、计算机工程等;
相关会议14种,包括第33届中国数据库学术会议(NDBC2016 )、第四届全国情报学博士生学术论坛、第六届中国智能计算大会等;短文本的相关文献由1660位作者贡献,包括张雷、胡学钢、费高雷等。
短文本—发文量
专利文献>
论文:21541篇
占比:98.80%
总计:21803篇
短文本
-研究学者
- 张雷
- 胡学钢
- 费高雷
- 郝红卫
- 徐博
- 李培培
- 王崇骏
- 王方圆
- 胡光岷
- 刘业政
- 刘均
- 刘悦
- 吴蓓
- 徐鸣
- 王嫄
- 石磊
- 程学旗
- 郑元浩
- 郑庆华
- 郭朝彤
- 陆恒杨
- 马慧芳
- 魏笔凡
- 冯旭鹏
- 刘利军
- 刘盛华
- 姜元春
- 孙春华
- 孙见山
- 樊兴华
- 王波
- 赵建强
- 陈涛
- 黄青松
- 不公告发明人
- 冼健
- 刘春阳
- 华锦芝
- 吴科炜
- 姜贵彬
- 孙正雅
- 安俊秀
- 席耀一
- 张龙伯
- 曹杰
- 李天彩
- 李宁
- 杨巨成
- 杨震
- 段立娟
-
-
向卓元;
吴玉;
陈浩;
张芙玮
-
-
摘要:
[研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指数和词对突发概率,从文档层面和词语层面进行特征选择,解决数据稀疏和高维度的问题。其次,通过双向长短期记忆(BiLSTM)训练词语之间的关系,结合词语的逆文档频率作为词对的先验知识,考虑了词之间的关系,解决忽略词之间关系的问题。再次,利用基于密度的方法自适应选择BBTM的最优话题数目,解决了传统的主题模型需要人工指定话题数目的问题。最后,利用真实微博数据集在热点话题发现准确度、话题质量、一致性三个方面进行验证。[研究结论]实验表明,BiLSTM-HBBTM在多种评价指标上都优于对比模型,实验结果验证了所提模型的有效性及可行性。
-
-
徐菲菲;
冯东升
-
-
摘要:
提出将注意力机制引入至孪生网络(Siamese Network)结构,通过注意力机制对句子中单词进行重要性评分,以双向长短时记忆网络(BiLSTM)作为基准系统,获得文本语义的深层次特征表示,从而有效地提升短文本相似度的准确率。实验采用通用公开标注数据集Quora语句对集和蚂蚁金服句对集,结果表明,与传统神经网络以及Siamese-Net网络相比,所提出的算法在短文本相似度总体效果上有明显提升,验证了所提算法的有效性。
-
-
晏丞骁
-
-
摘要:
随着现代信息技术的发展,各种网络平台快速普及,大众已经习惯于通过如微博、微信等网络媒体表达他们的观点和意见,且用户发表的多为短文本,其中包含大量有价值的信息。因此,网络短文本成为自然语言处理(Natural Language Processing,NLP)领域的研究热门。本文以短文本为研究对象,对短文本进行语义极性分析,利用计算机自动分析包含观点信息的句子,抽取主题词、特征词,利用主谓极性传递算法提取句子中的观点。
-
-
罗孝波;
林佳瑜;
梁祖红;
王漳
-
-
摘要:
中文短文本分类中存在大量低频词,利用好低频词中的信息能有效提高文本分类效果,针对基于词向量的文本分类研究中低频词不能被有效利用的问题,提出一种针对低频词进行数据增强的方法。首先,利用受限文本生成模型产生的数据来微调低频词的词向量,再利用一种词向量的构造算法将高频词的更新信息迁移到低频词中,使低频词获取更准确且符合训练集分布的词向量表示;其次,引入相似词和实体概念等先验知识来补充上下文信息;最后,利用改进的卡方统计去除明显的噪声词,以及设计词注意力层对每个词进行加权,减少无关噪声对分类的影响。在多个基础分类模型上进行实验,结果表明各基础模型经改进后都有明显提升,体现了提出方法的有效性,同时也说明了短文本分类任务中低频词能改善分类的效果。
-
-
方悦;
张琨;
张云纯;
李寻;
刘志敏;
孙琦
-
-
摘要:
现如今,深度学习技术迅速发展,在情感分析任务中被大量使用。针对传统神经网络模型中,卷积神经网络难以捕捉文本前后文关联语义信息以及长短时记忆网络训练所需时间长、缺乏深层次信息提取能力的问题,提出了一种双通道卷积神经网络和循环网络变体的特征融合情感分析模型(CSRMA),该模型能够获取更全面的情感特征,加快训练速度。该模型使用GloVe进行词向量化,将词向量分别传入卷积神经网络通道,和引入注意力机制与最大池化的BiSRU通道,得到局部深层次情感语义和前后文时序情感语义,最后融合特征进行分类,输出情感极性,完成情感分析任务。论文主要在四个英文短文本情感数据集上,与传统神经网络模型进行对照实验,从实验结果看来,CSRMA模型对于情感语料的分类准确性有进一步提高,训练时耗费时间缩短,具有良好的泛化性。
-
-
高永兵;
张颖;
黎预璇;
马占飞
-
-
摘要:
针对短文本中大量文法混乱语义不清的句子,提出一种将句法结构和修饰语义相结合的短文本质量评估算法。该方法将短文本分为单句和多句两种模式。对于单句模式,将句子解析为抽象语义表示,接着分析谓词的句法结构的完整程度;根据不同的修饰关系计算句子序列的紧密程度,结合句子的结构完整性与紧密性得出单句短文本质量评估值。对于多句模式,选取每句中的关键词;循环计算与其他句子中关键词的相似性,总相似度最高的单句作为核心句,用核心句的质量评估值作为多句短文本的质量评估值。实验结果表明,该方法在中文AMR数据集上的准确率为80%,在自建的多句微博数据集中准确率为74.73%。
-
-
陈蓝;
杨帆;
曾桢
-
-
摘要:
针对GloVe、BERT模型生成的字向量在小语料库中表义不足的问题,提出融合向量预训练模型,对小语料中文短文本分类的精确度进行提升。本文以今日头条新闻公开数据集为实验对象,使用GloVe、BERT模型通过领域预训练,对GloVe与BERT生成的预训练字向量进行向量融合,实现语义增强,从而提升短文本分类效果。结果表明,当语料库中的数据量为500时,融合字向量的准确度相较于BERT字向量的准确度提升了5个百分点,相较于GloVe字向量的准确度提升了3个百分点。词义选取的维度待进一步加强。本文所提方法能够对小语料库的短文本数据实现精准分类,对后续文本挖掘工作具有重要意义。
-
-
汤凌燕;
熊聪聪;
王嫄;
周宇博;
赵子健
-
-
摘要:
短文本情感倾向分析是自然语言处理领域的关键研究问题之一.情感倾向分析是用于检测语言所蕴含主观倾向语义的一系列方法、技术和工具,是对文本深层语义理解的关键.短文本数据的随意性、高歧义性以及简短性使得传统基于特征工程和机器学习分类技术的情感倾向分析任务性能有限.随着深度学习技术在自然语言处理中的广泛应用,基于深度学习的短文本情感倾向分析模型取得了新的突破.通过对相关文献的梳理,首先概述和对比了传统方法和深度学习方法,介绍和剖析了近年基于深度学习的短文本情感倾向分析模型,并阐述了模型的联系、区别与优势;其次归纳了深度学习在短文本情感倾向分析中的研究热点和进展思路,介绍了情感倾向分析常用的公开数据集以及评价指标;最后结合深度学习技术特点和任务难点,对深度学习在短文本情感倾向分析方向的应用前景进行预测.
-
-
张翼翔;
芦天亮;
李默
-
-
摘要:
随着互联网井喷式发展,社交媒体发展迅猛,但是伴随网络匿名特性出现的失范现象时有发生,如何准确判定社交媒体用户从属问题亟待解决.目前社交媒体信息载体多以短文本为主,语法语义过于灵活,难以准确获得文本特征向量.传统短文本作者识别多采用人工建模的方式对文本特征加以提取,设计纷繁复杂.结合深度学习的方法,提出BERT-BiGRU-ATT短文本作者身份识别模型.该模型对中文短文本使用BERT中文预训练模型生成字符向量,利用双向门控循环单元(BiGRU)结合注意力机制高效捕获序列上下文特征,最终通过A-softmax分类器实现文本作者的识别.在制作的中文微博短文本数据集上的实验结果表明,BERT-BiGRU-ATT模型与其他模型相比,在中文短文本作者识别的准确率上取得较好的成绩,其F1值达到93.6%的精度.
-
-
乔亚勃;
高永兵;
马宁
-
-
摘要:
随着各种社交媒体的相继出现,产生的数据量数以亿计,质量更是良莠不齐。因此,对文本质量进行评价成为亟待解决的问题。本文针对微博短文本进行质量评估研究,提出AMR质量评估与优美句识别相结合的方法。首先利用AMR质量评估模型对句子结构的完整性以及序列紧密性做出评估,其次通过优美句评估模型进行二次评定,最终将博文质量分为高、中、低三个等级。
-
-
WANG Wen;
王雯;
ZHAO Kankan;
赵衎衎;
LI Cuiping;
李翠平;
CHEN Hong;
陈红;
SUN Hui;
孙辉
- 《第33届中国数据库学术会议(NDBC2016 )》
| 2016年
-
摘要:
由于短文本字数少、数据量大导致实际短文本分类过程中面临特征维度高、特征稀疏、分类准确率差的问题.特征扩展为解决上述问题的有效方法,如主题模型、频繁模式挖掘等算法在特征扩展过程中被广泛研究与应用.但因短文本本身对分类效率要求较高,特征扩展方式使短文本分类过程面临更大的效率瓶颈.针对上述问题,综合考虑短文本分类准确率及效率提升,提出Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法,首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充,其次针对分类过程,提出基于距离选择的层叠支持向量机算法,最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率.实验结果显示,采用本文提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均约得到15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%.
-
-
WU Chuan;
武川
- 《第四届全国情报学博士生学术论坛》
| 2014年
-
摘要:
本文构建了一个面向短文本的实体链接系统,致力于鉴别出文本中指向Freebase实体的文本片段.本文将实体链接分为两步,利用现有的实体指称识别方法鉴别出实体指称,随后利用三类特征进行实体消岐,包括:实体指称-实体相似度、实体-实体相似度、候选实体上下文指称相似度.通过考虑所有的实体指称-实体对,选择得分最高的作为实体链接结果.
-
-
杜雨航;
欧明栋;
崔鹏
- 《第六届中国智能计算大会》
| 2012年
-
摘要:
在采用传统文本算法处理微博等短文本信息时,因微博自身具有的信息主动推送、噪声点信息较多和时间特征性强等特点,往往会碰到处理效率低下,准确率低等问题.本文针对这些问题进行了深入分析后,提出了包括信息焦点度、相关度和活跃度的多维度评价模型.实验结果证明,提出的多维度评价模型在短文本热点数据发现上达到了较好的性能.
-
-
-
-
-
-
-
胡佳妮;
郭军;
徐蔚然
- 《2007年全国网络与信息安全技术研讨会》
| 2007年
-
摘要:
短文本广泛存在于人们的生产和生活中,有很大的研究价值,其主要特点就是短小性和多样性。本文提出了一种基于短文本的独立语义特征抽取算法,旨在降低文本向量的稀疏性并提高语义表示性。本文提出的算法首先采用潜在语义分析降低文本的维数并去除噪声,然后运用独立成份分析方法在潜在语义特征中提取出最能表达语义且相互统计独立的特征。实验证明本文提出的算法优于潜在语义索引算法。
-