文本分类
文本分类的相关文献在1999年到2023年内共计5135篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播
等领域,其中期刊论文2979篇、会议论文236篇、专利文献89803篇;相关期刊696种,包括情报学报、现代图书情报技术、电脑知识与技术等;
相关会议145种,包括第五届全国信息检索学术会议CCIR2009、第四届全国信息检索与内容安全学术会议、第三届全国信息检索与内容安全学术会议等;文本分类的相关文献由9840位作者贡献,包括刘海峰、朱颢东、王明文等。
文本分类—发文量
专利文献>
论文:89803篇
占比:96.54%
总计:93018篇
文本分类
-研究学者
- 刘海峰
- 朱颢东
- 王明文
- 王斌
- 刘守生
- 姚泽清
- 张玉芳
- 徐亮
- 王进
- 熊忠阳
- 王健宗
- 王元元
- 金戈
- 王勇
- 肖京
- 胡学钢
- 朱靖波
- 李斌
- 林鸿飞
- 钟勇
- 唐焕玲
- 张伟
- 张学仁
- 戴新宇
- 蒋良孝
- 陈龙
- 黄厚宽
- 余本功
- 余正涛
- 刘怀亮
- 张全
- 徐燕
- 晋耀红
- 朱全银
- 李超群
- 王宇
- 王辉
- 王鹏
- 路永和
- 鲁明羽
- 刘洋
- 史忠植
- 张燕平
- 张雷
- 李健
- 李寿山
- 林永民
- 胡运发
- 陈家骏
- 于舒娟
-
-
李冉冉;
刘大明;
刘正;
常高祥
-
-
摘要:
目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息。构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量。对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示。利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类。在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATTCapsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果。
-
-
孙红;
陈强越
-
-
摘要:
文本分类是自然语言处理的一个重要领域.近年来,深度学习的方法被广泛应用于文本分类任务中.在处理大规模的数据时,为了兼顾分类的精度和处理效率,本文使用BERT训练词向量作为嵌入层,进一步优化输入语句的词向量,然后用双层的GRU网络作为主体网络,充分提取文本的上下文特征,最后使用注意力机制,将目标语句重点突出,进行文本分类.实验证明,BERT作为嵌入层输入时,有效优化了词向量.同时,文本提出的BBGA模型具有高效的处理能力,在处理THUCNews数据集时,达到了94.34%的精确度,比TextCNN高出5.20%,比BERT;NN高出1.01%.
-
-
沈自强;
李晔;
丁青艳;
王金颖;
白全民
-
-
摘要:
在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。
-
-
常俊豪;
武钰智
-
-
摘要:
【目的】探究ERNIE模型(Enhanced Language Representation with Informative Entities)和双向门限循环单元(Bi GRU)在医疗疾病名称科室分类中的效果及差异。【方法】以医疗疾病名称为训练样本,以BERT(Bidirectional Encoder Representation from Transformers)为对比模型并在模型之后加入不同网络层进行训练探究。【结果】ERNIE模型在分类效果上优于BERT模型,精度约高4%,其中精确度可达79.48%,召回率可达79.73%,F1分数可达79.50%。【局限】仅对其中的八个科室进行分类研究,其他类别由于数据量过少而未纳入分类体系中。【结论】ERNIE-BiGRU分类效果较好,可应用于医疗导诊系统或者卫生统计学中。
-
-
郑明明;
王知人;
谢璐妍
-
-
摘要:
使用网络爬虫技术获取了旅游网站游客在线评论作为数据源,通过Python语言对数据进行数据清洗、中文分词、文本向量化,对完成预处理的数据作了描述性统计分析;建立了朴素贝叶斯(NB)、逻辑回归(LR)两个传统机器学习文本分类模型和长短期记忆网络(LSTM)深度学习模型,利用深度学习模型LSTM进行分类的准确率为92.15%,高于传统机器学习模型中准确率最高的LR约2.6个百分点。使用LSTM模型对评论文本进行分类并对完成分类的数据构建了LDA主题聚类模型挖掘潜在主题,提取不同主题对应的特征词进行对比分析,得出结论:负面评论对山海关景区基础设施、收费管理感到不满意;正面评论对山海关景区的历史文化底蕴、体验感受、景点服务以及景点趣味性都很满意。基于从评论文本中挖掘的信息,旨在提取游客关注点与需求,为潜在消费者提供消费选择,为景点管理部门提供营销决策。
-
-
赵延平;
王芳;
夏杨
-
-
摘要:
针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法。由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类。将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性。
-
-
郑诚;
陈杰;
董春阳
-
-
摘要:
随着图卷积网络的发展,图卷积网络已经应用到很多任务中,其中就包含文本分类任务。通过将文本数据表示成图数据,进而在图上应用图卷积,从而捕获文本的结构信息和单词间的长距离依赖关系获得了良好的分类效果。但将文本建模成图模型后,图卷积网络面临着文本上下文语义信息和局部特征信息表示不充分的问题。提出一种新的模型,利用双向长短时记忆网络(Bi_LSTM)和卷积神经网络(CNN)混合提取文本的上下文语义信息和局部特征信息去丰富图卷积网络(GCN)的文本表示,从而弥补图卷积网络的不足,同时使用图池化层筛选出重要节点帮助卷积神经网络捕获文本深层局部特征信息,使得模型能更好的表示文本信息。通过在3个英文数据集上的实验结果表明,该模型相比于基线模型有较好的分类效果。
-
-
钟桂凤;
庞雄文;
隋栋
-
-
摘要:
为了提高文本分类的准确性和运行效率,提出一种Word2Vec文本表征和改进注意力机制AlexNet-2的文本分类方法。首先,利用Word2Vec对文本词特征进行嵌入表示,并训练词向量,将文本表示成分布式向量的形式;然后,利用改进的AlexNet-2对长距离词相依性进行有效编码,同时对模型添加注意力机制,以高效学习目标词的上下文嵌入语义,并根据词向量的输入与最终预测结果的相关性,进行词权重的调整。实验在3个公开数据集中进行评估,分析了大量样本标注和少量样本标注的情形。实验结果表明,与已有的优秀方法相比,所提方法可以明显提高文本分类的性能和运行效率。
-
-
张宇;
李炳龙;
李学娟;
张和禹
-
-
摘要:
即时通信等社交软件产生的聊天文本内容证据数据量大且聊天内容含有“黑话”等复杂语义,数字取证时无法快速识别和提取与犯罪事件有关的聊天文本证据。为此,基于DSR(dynamic semantic representation)模型和BGRU(bidirectional gated recurrent unit)模型提出一个聊天文本证据分类模型(DSR-BGRU)。通过预处理手段处理聊天文本数据,使其保存犯罪领域特征。设计并实现了基于DSR模型的聊天文本证据语义特征表示方法,从语义层面对聊天文本进行特征表示,通过聚类算法筛选出语义词,并通过单词属性与语义词的加权组合对非语义词词向量进行特征表示,且将语义词用于对新单词进行稀疏表示。利用Keras框架构建了包含DSR模型输入层、BGRU模型隐藏层和softmax分类层的多层聊天文本特征提取与分类模型,该模型使用DSR模型进行词的向量表示组成的文本矩阵作为输入向量,从语义层面对聊天文本进行特征表示,基于BGRU模型的多层隐藏层对使用这些词向量组成的文本提取上下文特征,从而能够更好地准确理解聊天文本的语义信息,并利用softmax分类层实现聊天文本证据识别与提取目标。实验结果表明,基于DSR-BGRU的聊天文本证据分类模型能够更加准确地完成聊天记录证据的识别和提取任务,该模型能够有效地提取出聊天信息中的犯罪文本信息,取得有效的证据,并取得了92.06%的准确率,F1值为91.00%。高于其他用于文本分类的模型与方法。
-
-
庞源焜;
张宇山
-
-
摘要:
针对目前网络谣言鉴别研究,文本学习往往会受到文本读入内容过长导致长距离信息丢失或者是为了捕捉局部信息而依赖于长期输入表示从而影响鉴别结果。通过提出S-LSTM(sentence-state long short term memory networks)算法在保留字词节点信息的同时对句子进行聚合,从而保留句子的局部和全局信息,进而提升网络谣言鉴别的精确性和有效性。与TextGCN、Bi-GCN、Att_BiLSTM等几种深度网络谣言鉴别方法的对比中,该方法在两组模型测试上的准确率分别达到78.87%、90.30%,均取得了不错的效果,在考虑句子全局信息的情况下,其对谣言鉴别效果会有不错的提升。
-
-
-
Mao Wenliang;
毛文梁;
Feng Dawei;
冯大为;
Li Dongsheng;
李东升
- 《2017年全国高性能计算学术年会》
| 2017年
-
摘要:
互联网技术的飞速发展使得文本数据呈指数级增长,如何有效分析和利用这些数据,充分发掘其中蕴含的价值是文本大数据分析处理的首要任务,而这其中针对文本的分类处理是一个重要分支.文本分类是一种有监督的学习过程,通过大量标注数据训练分类模型,实现基于文本内容按预先设定的分类体系自动确定文本类别.传统基于词嵌入技术的神经网络文本分类方法由于未充分考虑文本内容的全局特征,存在分类效果不佳等问题.因此,文中提出一种综合文本局部特性(词嵌入技术)和文本内容全局特征(主题嵌入技术)的文本表示方法,并在此基础上通过构造多层神经网络,实现对文本的自动分类.在诸如情感分析、主题分类等多种文本分类任务数据集上的测试结果表明,本文所提方法相较于传统基于词嵌入技术的文本分类方法有明显提升.
-
-
徐禹洪;
黄沛杰
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
针对现有文本分类方法在即时性文本信息上的挑战,考虑到即时性文本信息具有已标注数据规模小的特点,为了提高半监督学习的分类性能,本文提出一种基于优化样本分布抽样集成学习的半监督文本分类方法.首先,通过运用一种新的样本抽样的优化策略,获取多个新的子分类器训练集,以增加训练集之间的多样性和减少噪声的扩散范围,从而提高分类器的总体泛化能力;然后,采用基于置信度相乘的投票机制对预测结果进行集成,对未标注数据进行标注;最后,选取出适量的数据来更新训练模型.实验结果表明,该方法在长文本和短文本上都取得了优于研究进展方法的分类性能.
-
-
杨睿涵;
续子恺
- 《中国新闻技术工作者联合会2020年学术年会》
| 2020年
-
摘要:
解放日报社经过几十年的发展,积累了大量的历史图片,但这些图片资源由于缺少分类、关键字以及标签信息而不能得到充分地利用,造成了资源的浪费.自然语言处理技术经过多年的发展,在文本分类、自动摘要、信息抽取等方面发挥了重要的作用.本文介绍了自然语言处理技术在解放日报智能视觉创作系统中的应用情况,分析了自然语言处理技术在文章自动分类、实体及关键词抽取、文章自动摘要等方面的技术特点.
-
-
-
邱定;
张激;
王金华;
王盼盼;
游飞
- 《2017年西南三省一市(贵州、重庆、四川、云南)自动化与仪器仪表学术年会》
| 2017年
-
摘要:
针对Rocchio算法分类效果不理想,限定于对可划分空间地分类,和KNN对K值的选取过于依赖这些缺陷,提出了一个通过为整个分类空间建立不止一个代表的方法,并且根据数据集的具体数据分布,为整个分类空间建立不同个数的分类代表.有效解决了Rocchio线性地划分实例空间的造成数据划分不合理的问题,由构造的代表和每个类泛化的实例创建的分类模型有效提高了分类效率,而且解决了分类准确度依赖人工给定K值的问题,提高了分类的准确度.通过在20-newsgroup和Reuters-21578两个数据集上的实验,实验结果显示新的算法远优于Rocchio和KNN分类算法,与选择的基准比较算法SVM相比效果略优.
-
-
周大通;
林东龙;
戴倚霞;
岳脉健;
孙静
- 《2019年中国石油石化企业信息技术交流大会》
| 2019年
-
摘要:
本文依托"基于大数据的全球能源信息系统"中采集到的油气相关新闻信息,采用词向量法和KNN分类器结合油气相关词汇集建立了具有油气特色的新闻信息分类器,分类精度达到90%以上,并成功开发了应用系统.该系统最终被中国石油信息资源网维护人员所采用,大幅提高了维护人员的工作效率和分类准确度,这一业务解决方案具有广泛的推广借鉴价值.
-
-
周大通;
林东龙;
戴倚霞;
岳脉健;
孙静
- 《2019年中国石油石化企业信息技术交流大会》
| 2019年
-
摘要:
本文依托"基于大数据的全球能源信息系统"中采集到的油气相关新闻信息,采用词向量法和KNN分类器结合油气相关词汇集建立了具有油气特色的新闻信息分类器,分类精度达到90%以上,并成功开发了应用系统.该系统最终被中国石油信息资源网维护人员所采用,大幅提高了维护人员的工作效率和分类准确度,这一业务解决方案具有广泛的推广借鉴价值.
-
-
周大通;
林东龙;
戴倚霞;
岳脉健;
孙静
- 《2019年中国石油石化企业信息技术交流大会》
| 2019年
-
摘要:
本文依托"基于大数据的全球能源信息系统"中采集到的油气相关新闻信息,采用词向量法和KNN分类器结合油气相关词汇集建立了具有油气特色的新闻信息分类器,分类精度达到90%以上,并成功开发了应用系统.该系统最终被中国石油信息资源网维护人员所采用,大幅提高了维护人员的工作效率和分类准确度,这一业务解决方案具有广泛的推广借鉴价值.
-
-
周大通;
林东龙;
戴倚霞;
岳脉健;
孙静
- 《2019年中国石油石化企业信息技术交流大会》
| 2019年
-
摘要:
本文依托"基于大数据的全球能源信息系统"中采集到的油气相关新闻信息,采用词向量法和KNN分类器结合油气相关词汇集建立了具有油气特色的新闻信息分类器,分类精度达到90%以上,并成功开发了应用系统.该系统最终被中国石油信息资源网维护人员所采用,大幅提高了维护人员的工作效率和分类准确度,这一业务解决方案具有广泛的推广借鉴价值.