您现在的位置：首页> 研究主题> 文本分类

文本分类

文本分类的相关文献在1999年到2023年内共计5135篇，主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播等领域，其中期刊论文2979篇、会议论文236篇、专利文献89803篇；相关期刊696种，包括情报学报、现代图书情报技术、电脑知识与技术等；相关会议145种，包括第五届全国信息检索学术会议CCIR2009、第四届全国信息检索与内容安全学术会议、第三届全国信息检索与内容安全学术会议等；文本分类的相关文献由9840位作者贡献，包括刘海峰、朱颢东、王明文等。

文本分类—发文量

期刊论文>

论文：2979篇占比：3.20%

会议论文>

论文：236篇占比：0.25%

专利文献>

论文：89803篇占比：96.54%

总计：93018篇

文本分类—发文趋势图

文本分类
-研究学者

刘海峰
朱颢东
王明文
王斌
刘守生
姚泽清
张玉芳
徐亮
王进
熊忠阳
王健宗
王元元
金戈
王勇
肖京
胡学钢
朱靖波
李斌
林鸿飞
钟勇
唐焕玲
张伟
张学仁
戴新宇
蒋良孝
陈龙
黄厚宽
余本功
余正涛
刘怀亮
张全
徐燕
晋耀红
朱全银
李超群
王宇
王辉
王鹏
路永和
鲁明羽
刘洋
史忠植
张燕平
张雷
李健
李寿山
林永民
胡运发
陈家骏
于舒娟

文本分类
-相关主题

文本分类
-相关期刊

文本分类
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2023
(15)
2022
(628)
2021
(650)
2020
(216)
2019
(195)
2018
(187)
2017
(135)
2016
(141)
2015
(90)
2014
(105)
2013
(107)
2012
(160)
2011
(133)
2010
(179)
2009
(203)
2008
(196)
2007
(191)
2006
(134)
2005
(117)
2004
(68)
2003
(34)
2002
(24)
2001
(9)
2000
(9)
1999
(4)

期刊

收录数据库

作者

刘海峰
(36)
朱颢东
(23)
王明文
(23)
王斌
(21)
刘守生
(20)
姚泽清
(18)
张玉芳
(18)
徐亮
(18)
王进
(16)
熊忠阳
(15)
王健宗
(15)
王元元
(15)
金戈
(15)
王勇
(14)
肖京
(14)
胡学钢
(14)
朱靖波
(13)
李斌
(13)
林鸿飞
(13)
钟勇
(13)
唐焕玲
(12)
张伟
(12)
张学仁
(12)
戴新宇
(12)
蒋良孝
(12)
陈龙
(12)
黄厚宽
(12)
余本功
(11)
余正涛
(11)
刘怀亮
(11)
张全
(11)
徐燕
(11)
晋耀红
(11)
朱全银
(11)
李超群
(11)
王宇
(11)
王辉
(11)
王鹏
(11)
路永和
(11)
鲁明羽
(11)
刘洋
(10)
史忠植
(10)
张燕平
(10)
张雷
(10)
李健
(10)
李寿山
(10)
林永民
(10)
胡运发
(10)
陈家骏
(10)
于舒娟
(9)

关键词

申请/权力人

;

1. 融合笔画特征的胶囊网络文本分类
- 李冉冉；刘大明；刘正；常高祥
- 摘要：目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息。构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量。对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示。利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类。在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATTCapsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果。
2. 融合BERT词嵌入和注意力机制的中文文本分类
- 孙红；陈强越
- 摘要：文本分类是自然语言处理的一个重要领域.近年来,深度学习的方法被广泛应用于文本分类任务中.在处理大规模的数据时,为了兼顾分类的精度和处理效率,本文使用BERT训练词向量作为嵌入层,进一步优化输入语句的词向量,然后用双层的GRU网络作为主体网络,充分提取文本的上下文特征,最后使用注意力机制,将目标语句重点突出,进行文本分类.实验证明,BERT作为嵌入层输入时,有效优化了词向量.同时,文本提出的BBGA模型具有高效的处理能力,在处理THUCNews数据集时,达到了94.34%的精确度,比TextCNN高出5.20%,比BERT;NN高出1.01%.
3. 基于BERT模型的科技政策文本分类研究
- 沈自强；李晔；丁青艳；王金颖；白全民
- 摘要：在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。
4. 基于ERNIE_BiGRU模型的中文医疗文本分类
- 常俊豪；武钰智
- 摘要：【目的】探究ERNIE模型(Enhanced Language Representation with Informative Entities)和双向门限循环单元(Bi GRU)在医疗疾病名称科室分类中的效果及差异。【方法】以医疗疾病名称为训练样本,以BERT(Bidirectional Encoder Representation from Transformers)为对比模型并在模型之后加入不同网络层进行训练探究。【结果】ERNIE模型在分类效果上优于BERT模型,精度约高4%,其中精确度可达79.48%,召回率可达79.73%,F1分数可达79.50%。【局限】仅对其中的八个科室进行分类研究,其他类别由于数据量过少而未纳入分类体系中。【结论】ERNIE-BiGRU分类效果较好,可应用于医疗导诊系统或者卫生统计学中。
5. 基于机器学习的景点评论文本分析
- 郑明明；王知人；谢璐妍
- 摘要：使用网络爬虫技术获取了旅游网站游客在线评论作为数据源,通过Python语言对数据进行数据清洗、中文分词、文本向量化,对完成预处理的数据作了描述性统计分析;建立了朴素贝叶斯(NB)、逻辑回归(LR)两个传统机器学习文本分类模型和长短期记忆网络(LSTM)深度学习模型,利用深度学习模型LSTM进行分类的准确率为92.15%,高于传统机器学习模型中准确率最高的LR约2.6个百分点。使用LSTM模型对评论文本进行分类并对完成分类的数据构建了LDA主题聚类模型挖掘潜在主题,提取不同主题对应的特征词进行对比分析,得出结论:负面评论对山海关景区基础设施、收费管理感到不满意;正面评论对山海关景区的历史文化底蕴、体验感受、景点服务以及景点趣味性都很满意。基于从评论文本中挖掘的信息,旨在提取游客关注点与需求,为潜在消费者提供消费选择,为景点管理部门提供营销决策。
6. 基于支持向量机的短文本分类方法
- 赵延平；王芳；夏杨
- 摘要：针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法。由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类。将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性。
7. 结合图卷积的深层神经网络用于文本分类
- 郑诚；陈杰；董春阳
- 摘要：随着图卷积网络的发展,图卷积网络已经应用到很多任务中,其中就包含文本分类任务。通过将文本数据表示成图数据,进而在图上应用图卷积,从而捕获文本的结构信息和单词间的长距离依赖关系获得了良好的分类效果。但将文本建模成图模型后,图卷积网络面临着文本上下文语义信息和局部特征信息表示不充分的问题。提出一种新的模型,利用双向长短时记忆网络(Bi_LSTM)和卷积神经网络(CNN)混合提取文本的上下文语义信息和局部特征信息去丰富图卷积网络(GCN)的文本表示,从而弥补图卷积网络的不足,同时使用图池化层筛选出重要节点帮助卷积神经网络捕获文本深层局部特征信息,使得模型能更好的表示文本信息。通过在3个英文数据集上的实验结果表明,该模型相比于基线模型有较好的分类效果。
8. 基于Word2Vec和改进注意力机制AlexNet-2的文本分类方法
- 钟桂凤；庞雄文；隋栋
- 摘要：为了提高文本分类的准确性和运行效率,提出一种Word2Vec文本表征和改进注意力机制AlexNet-2的文本分类方法。首先,利用Word2Vec对文本词特征进行嵌入表示,并训练词向量,将文本表示成分布式向量的形式;然后,利用改进的AlexNet-2对长距离词相依性进行有效编码,同时对模型添加注意力机制,以高效学习目标词的上下文嵌入语义,并根据词向量的输入与最终预测结果的相关性,进行词权重的调整。实验在3个公开数据集中进行评估,分析了大量样本标注和少量样本标注的情形。实验结果表明,与已有的优秀方法相比,所提方法可以明显提高文本分类的性能和运行效率。
9. 基于DSR和BGRU模型的聊天文本证据分类方法
- 张宇；李炳龙；李学娟；张和禹
- 摘要：即时通信等社交软件产生的聊天文本内容证据数据量大且聊天内容含有“黑话”等复杂语义,数字取证时无法快速识别和提取与犯罪事件有关的聊天文本证据。为此,基于DSR(dynamic semantic representation)模型和BGRU(bidirectional gated recurrent unit)模型提出一个聊天文本证据分类模型(DSR-BGRU)。通过预处理手段处理聊天文本数据,使其保存犯罪领域特征。设计并实现了基于DSR模型的聊天文本证据语义特征表示方法,从语义层面对聊天文本进行特征表示,通过聚类算法筛选出语义词,并通过单词属性与语义词的加权组合对非语义词词向量进行特征表示,且将语义词用于对新单词进行稀疏表示。利用Keras框架构建了包含DSR模型输入层、BGRU模型隐藏层和softmax分类层的多层聊天文本特征提取与分类模型,该模型使用DSR模型进行词的向量表示组成的文本矩阵作为输入向量,从语义层面对聊天文本进行特征表示,基于BGRU模型的多层隐藏层对使用这些词向量组成的文本提取上下文特征,从而能够更好地准确理解聊天文本的语义信息,并利用softmax分类层实现聊天文本证据识别与提取目标。实验结果表明,基于DSR-BGRU的聊天文本证据分类模型能够更加准确地完成聊天记录证据的识别和提取任务,该模型能够有效地提取出聊天信息中的犯罪文本信息,取得有效的证据,并取得了92.06%的准确率,F1值为91.00%。高于其他用于文本分类的模型与方法。
10. 句子级状态下LSTM对谣言鉴别的研究
- 庞源焜；张宇山
- 摘要：针对目前网络谣言鉴别研究,文本学习往往会受到文本读入内容过长导致长距离信息丢失或者是为了捕捉局部信息而依赖于长期输入表示从而影响鉴别结果。通过提出S-LSTM(sentence-state long short term memory networks)算法在保留字词节点信息的同时对句子进行聚合,从而保留句子的局部和全局信息,进而提升网络谣言鉴别的精确性和有效性。与TextGCN、Bi-GCN、Att_BiLSTM等几种深度网络谣言鉴别方法的对比中,该方法在两组模型测试上的准确率分别达到78.87%、90.30%,均取得了不错的效果,在考虑句子全局信息的情况下,其对谣言鉴别效果会有不错的提升。

1. 文本分类模型的训练方法、文本分类方法、装置和设备
- 中国联合网络通信集团有限公司
- 公开公告日期：2022-04-05
- 摘要：本申请提供一种文本分类模型的训练方法、文本分类方法、装置和设备，该方法包括：获取多条浏览器的历史弹窗内的文本信息；对每个文本信息进行分词处理，根据分词结果确定出每个文本信息对应的第一特征向量；对第一特征向量进行聚类，得到至少一个文本信息组；从每个文本信息组中，分别选出至少一条目标文本信息，并对每个目标文本信息添加类型标识，以形成至少一个文本信息模板；根据至少一个文本信息模板，对初始文本分类模型进行训练，得到文本分类模型。通过该方法，能够解决现有技术中无法对浏览器弹窗日志进行分析的问题，基于训练得到的文本分类模型对系统进行监测和分析，能够提高系统运维效率。
2. 文本分类模型构建方法与文本分类方法
- 顺丰科技有限公司
- 公开公告日期：2022-04-22
- 摘要：本申请涉及一种文本分类模型构建方法与文本分类方法。所述方法包括：获取携带类别标签的样本文本数据以及初始文本分类模型，初始文本分类模型包括Doc2vec模型层和逻辑回归模型层；根据样本文本数据训练Doc2vec模型层，得到与样本文本数据中各样本句对应的样本句子向量；根据类别标签和样本句子向量，训练逻辑回归模型层，得到稳定的Doc2vec模型层和逻辑回归模型层；根据稳定的Doc2vec模型层和逻辑回归模型层，得到文本分类模型。采用本方法能够得到可用于实现准确文本分类的文本分类模型，从而可以利用该文本分类模型进行文本挖掘，提高问题挖掘效率。
3. 文本分类模型训练方法、装置、文本分类方法及装置
- 浙江香侬慧语科技有限责任公司
- 公开公告日期：2022-04-15
- 摘要：本申请公开了一种文本分类模型训练方法、装置、文本分类方法及装置，属于数据控制技术领域。该方法主要包括：利用初始语言模型对多个无类别标注的待分类文本进行训练，获得自训练模型；利用预先获取的至少一个具有类别标注的分类文本，对自训练模型进行训练，获得对应的带类别标注模型；将待分类文本输入到带类别标注模型中，生成多个无类别标注的待分类文本分别对应的伪标注文本；根据伪标注文本，对带类别标注模型进行训练，获得文本分类模型。利用自训练从海量无标注的待分类文本中学习的优势，结合自监督方法产生大量伪标注文本，通过监督学习的方式增强模型，促进模型取得更好的鲁棒性与准确率，以生成更为准确的分类文本。
4. 带角色的文本分类模型以及对话文本分类方法及装置
- 阿里巴巴达摩院(杭州)科技有限公司
- 公开公告日期：2022-04-29
- 摘要：提供带角色的文本分类模型以及对话文本分类方法及装置。该模型包括：语句编码层、语句匹配层、语句分类层和对话分类层；对话文本经过语句编码层，其中的多个语句被编码为多个语句向量；多个语句向量经过语句匹配层，被分别归类为至少两个角色，构建每个语句向量的上下文语义表示，并基于每个语句向量及其对应的上下文语义表示构建上下文增强的语句向量；上下文增强的语句向量经过语句分类层，与相应的角色向量进行拼接，得到带角色信息的语句向量，并得到对应的风险预测结果；所有语句向量的风险预测结果经过对话分类层，被聚合得到对话文本的风险预测结果。该模型将对话文本中的角色和语句关联建模，从而得到与角色相关的风险预测结果。
5. 文本分类模型训练方法、文本分类方法、装置及电子设备
- 深圳市欢太科技有限公司
- OPPO广东移动通信有限公司
- 公开公告日期：2022-04-29
- 摘要：一种文本分类模型训练方法、文本分类方法、装置及电子设备。所述训练方法包括：获取第一文本样本集(101)，将第一文本样本集输入至文本分类模型得到第一预测结果(102)，若第一预测结果不满足预设条件，则对文本分类模型进行调整(105)，将第二样本集输入到调整后的文本分类模型中，直至文本分类模型的预测结果满足预设条件为止(107)。
6. 文本分类方法和文本分类模型的训练方法、装置
- 北京百度网讯科技有限公司
- 公开公告日期：2022-05-13
- 摘要：本公开提供了一种文本分类方法、文本分类模型的训练方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及文字识别领域、深度学习领域和图像处理领域，可应用于提取文档信息等场景。文本分类方法的具体实现方案为：根据待处理图像的图像特征和待处理图像包括的多个字段，确定多个字段中每个字段的文本特征；根据多个字段的多个文本特征和多个字段在待处理图像中的多个位置信息，确定每个字段的结构特征；以及根据每个字段的文本特征和每个字段的结构特征，确定每个字段的类别。
7. 文本分类方法、文本分类装置、电子设备及存储介质
- 平安科技（深圳）有限公司
- 公开公告日期：2022-08-26
- 摘要：本申请实施例提供了一种文本分类方法、文本分类装置、电子设备及存储介质，属于人工智能技术领域。该方法包括：获取待分类的原始文本；通过预设的主题词识别模型对原始文本进行主题词识别，得到实体主题词；对原始文本和实体主题词进行拼接处理，得到目标嵌入特征向量；通过预设的文本分类模型和参考分类标签对目标嵌入特征向量进行分类概率计算，得到每一参考分类标签对应的分类概率值；根据分类概率值对参考分类标签进行筛选处理，得到原始文本的目标分类标签。本申请实施例能够提高文本分类的准确性。
8. 文本分类方法、文本分类装置、存储介质及电子装置
- 青岛海尔科技有限公司
- 海尔智家股份有限公司
- 公开公告日期：2022-08-23
- 摘要：本申请公开了一种文本分类方法、文本分类装置、存储介质及电子装置，涉及智能家居技术领域，该文本分类方法包括：接收用户发出的语音交互指令，并将语音交互指令转换为待分类文本；采用已训练的改进卷积神经网络模型中的至少两个不同的卷积网络分别提取待分类文本的子特征数据，并将各子特征数据进行拼接，以获得目标特征数据，卷积网络包括池化层和至少一个卷积层；将目标特征数据输入已训练的改进卷积神经网络模型的全连接层中，根据目标特征数据对待分类文本进行意图类别的分类，以确定对应的目标意图类别；根据目标意图类别控制目标家居设备执行对应的操作。本申请提供的方法能够在保证模型的训练和分类速度的同时提高分类的准确率。
9. 小样本多标签文本分类模型训练方法及文本分类方法
- 人民网股份有限公司
- 公开公告日期：2022-07-29
- 摘要：本发明公开了一种小样本多标签文本分类模型训练方法、小样本多标签文本分类方法、装置、计算设备及计算机存储介质。该方法通过从文本标签对应的标注样本文本中提取关键短语，根据关键短语实现提示模板的扩充，并基于提示模板来实现数据增广，从而实现了基于小样本的标注样本文本进行模型训练，克服了大规模有标注的文本不可得的缺陷，而且提升了文本分类模型的训练效率，无需人工花费较长时间进行标注，降低了人工成本以及时间成本。
10. 文本分类模型的训练及文本分类方法、装置、设备和介质
- 北京百度网讯科技有限公司
- 公开公告日期：2022-07-12
- 摘要：本公开提供了一种文本分类模型的训练及文本分类方法、装置、设备和介质，涉及深度学习和自然语言处理等领域。具体实现方案为：对获取的多个样本文本进行聚类，得到至少一个目标聚簇；根据各样本文本所属的目标聚簇，生成各样本文本对应的簇标签；采用文本分类模型对各样本文本进行第一类别预测，得到各样本文本的预测标签；根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。由于聚类可捕捉到样本文本中显著的语义特征，通过对多个样本文本进行聚类的方式，来生成各样本文本对应的簇标签，并基于簇标签对文本分类模型进行预训练，可以使得文本分类模型在真实训练之前，有效学习到样本文本中显著的语义信息，提升模型表现和性能。

文本分类

文本分类—发文量

文本分类—发文趋势图

文本分类-研究学者

文本分类-相关主题

文本分类-相关期刊

文本分类-相关会议

文本分类
-研究学者

文本分类
-相关主题

文本分类
-相关期刊

文本分类
-相关会议