您现在的位置: 首页> 研究主题> 文本分类

文本分类

文本分类的相关文献在1999年到2023年内共计5135篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播 等领域,其中期刊论文2979篇、会议论文236篇、专利文献89803篇;相关期刊696种,包括情报学报、现代图书情报技术、电脑知识与技术等; 相关会议145种,包括第五届全国信息检索学术会议CCIR2009、第四届全国信息检索与内容安全学术会议、第三届全国信息检索与内容安全学术会议等;文本分类的相关文献由9840位作者贡献,包括刘海峰、朱颢东、王明文等。

文本分类—发文量

期刊论文>

论文:2979 占比:3.20%

会议论文>

论文:236 占比:0.25%

专利文献>

论文:89803 占比:96.54%

总计:93018篇

文本分类—发文趋势图

文本分类

-研究学者

  • 刘海峰
  • 朱颢东
  • 王明文
  • 王斌
  • 刘守生
  • 姚泽清
  • 张玉芳
  • 徐亮
  • 王进
  • 熊忠阳
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 李冉冉; 刘大明; 刘正; 常高祥
    • 摘要: 目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息。构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量。对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示。利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类。在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATTCapsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果。
    • 孙红; 陈强越
    • 摘要: 文本分类是自然语言处理的一个重要领域.近年来,深度学习的方法被广泛应用于文本分类任务中.在处理大规模的数据时,为了兼顾分类的精度和处理效率,本文使用BERT训练词向量作为嵌入层,进一步优化输入语句的词向量,然后用双层的GRU网络作为主体网络,充分提取文本的上下文特征,最后使用注意力机制,将目标语句重点突出,进行文本分类.实验证明,BERT作为嵌入层输入时,有效优化了词向量.同时,文本提出的BBGA模型具有高效的处理能力,在处理THUCNews数据集时,达到了94.34%的精确度,比TextCNN高出5.20%,比BERT;NN高出1.01%.
    • 沈自强; 李晔; 丁青艳; 王金颖; 白全民
    • 摘要: 在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。
    • 常俊豪; 武钰智
    • 摘要: 【目的】探究ERNIE模型(Enhanced Language Representation with Informative Entities)和双向门限循环单元(Bi GRU)在医疗疾病名称科室分类中的效果及差异。【方法】以医疗疾病名称为训练样本,以BERT(Bidirectional Encoder Representation from Transformers)为对比模型并在模型之后加入不同网络层进行训练探究。【结果】ERNIE模型在分类效果上优于BERT模型,精度约高4%,其中精确度可达79.48%,召回率可达79.73%,F1分数可达79.50%。【局限】仅对其中的八个科室进行分类研究,其他类别由于数据量过少而未纳入分类体系中。【结论】ERNIE-BiGRU分类效果较好,可应用于医疗导诊系统或者卫生统计学中。
    • 郑明明; 王知人; 谢璐妍
    • 摘要: 使用网络爬虫技术获取了旅游网站游客在线评论作为数据源,通过Python语言对数据进行数据清洗、中文分词、文本向量化,对完成预处理的数据作了描述性统计分析;建立了朴素贝叶斯(NB)、逻辑回归(LR)两个传统机器学习文本分类模型和长短期记忆网络(LSTM)深度学习模型,利用深度学习模型LSTM进行分类的准确率为92.15%,高于传统机器学习模型中准确率最高的LR约2.6个百分点。使用LSTM模型对评论文本进行分类并对完成分类的数据构建了LDA主题聚类模型挖掘潜在主题,提取不同主题对应的特征词进行对比分析,得出结论:负面评论对山海关景区基础设施、收费管理感到不满意;正面评论对山海关景区的历史文化底蕴、体验感受、景点服务以及景点趣味性都很满意。基于从评论文本中挖掘的信息,旨在提取游客关注点与需求,为潜在消费者提供消费选择,为景点管理部门提供营销决策。
    • 赵延平; 王芳; 夏杨
    • 摘要: 针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法。由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类。将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性。
    • 郑诚; 陈杰; 董春阳
    • 摘要: 随着图卷积网络的发展,图卷积网络已经应用到很多任务中,其中就包含文本分类任务。通过将文本数据表示成图数据,进而在图上应用图卷积,从而捕获文本的结构信息和单词间的长距离依赖关系获得了良好的分类效果。但将文本建模成图模型后,图卷积网络面临着文本上下文语义信息和局部特征信息表示不充分的问题。提出一种新的模型,利用双向长短时记忆网络(Bi_LSTM)和卷积神经网络(CNN)混合提取文本的上下文语义信息和局部特征信息去丰富图卷积网络(GCN)的文本表示,从而弥补图卷积网络的不足,同时使用图池化层筛选出重要节点帮助卷积神经网络捕获文本深层局部特征信息,使得模型能更好的表示文本信息。通过在3个英文数据集上的实验结果表明,该模型相比于基线模型有较好的分类效果。
    • 钟桂凤; 庞雄文; 隋栋
    • 摘要: 为了提高文本分类的准确性和运行效率,提出一种Word2Vec文本表征和改进注意力机制AlexNet-2的文本分类方法。首先,利用Word2Vec对文本词特征进行嵌入表示,并训练词向量,将文本表示成分布式向量的形式;然后,利用改进的AlexNet-2对长距离词相依性进行有效编码,同时对模型添加注意力机制,以高效学习目标词的上下文嵌入语义,并根据词向量的输入与最终预测结果的相关性,进行词权重的调整。实验在3个公开数据集中进行评估,分析了大量样本标注和少量样本标注的情形。实验结果表明,与已有的优秀方法相比,所提方法可以明显提高文本分类的性能和运行效率。
    • 张宇; 李炳龙; 李学娟; 张和禹
    • 摘要: 即时通信等社交软件产生的聊天文本内容证据数据量大且聊天内容含有“黑话”等复杂语义,数字取证时无法快速识别和提取与犯罪事件有关的聊天文本证据。为此,基于DSR(dynamic semantic representation)模型和BGRU(bidirectional gated recurrent unit)模型提出一个聊天文本证据分类模型(DSR-BGRU)。通过预处理手段处理聊天文本数据,使其保存犯罪领域特征。设计并实现了基于DSR模型的聊天文本证据语义特征表示方法,从语义层面对聊天文本进行特征表示,通过聚类算法筛选出语义词,并通过单词属性与语义词的加权组合对非语义词词向量进行特征表示,且将语义词用于对新单词进行稀疏表示。利用Keras框架构建了包含DSR模型输入层、BGRU模型隐藏层和softmax分类层的多层聊天文本特征提取与分类模型,该模型使用DSR模型进行词的向量表示组成的文本矩阵作为输入向量,从语义层面对聊天文本进行特征表示,基于BGRU模型的多层隐藏层对使用这些词向量组成的文本提取上下文特征,从而能够更好地准确理解聊天文本的语义信息,并利用softmax分类层实现聊天文本证据识别与提取目标。实验结果表明,基于DSR-BGRU的聊天文本证据分类模型能够更加准确地完成聊天记录证据的识别和提取任务,该模型能够有效地提取出聊天信息中的犯罪文本信息,取得有效的证据,并取得了92.06%的准确率,F1值为91.00%。高于其他用于文本分类的模型与方法。
    • 庞源焜; 张宇山
    • 摘要: 针对目前网络谣言鉴别研究,文本学习往往会受到文本读入内容过长导致长距离信息丢失或者是为了捕捉局部信息而依赖于长期输入表示从而影响鉴别结果。通过提出S-LSTM(sentence-state long short term memory networks)算法在保留字词节点信息的同时对句子进行聚合,从而保留句子的局部和全局信息,进而提升网络谣言鉴别的精确性和有效性。与TextGCN、Bi-GCN、Att_BiLSTM等几种深度网络谣言鉴别方法的对比中,该方法在两组模型测试上的准确率分别达到78.87%、90.30%,均取得了不错的效果,在考虑句子全局信息的情况下,其对谣言鉴别效果会有不错的提升。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号