您现在的位置: 首页> 研究主题> 中文文本分类

中文文本分类

中文文本分类的相关文献在2002年到2022年内共计136篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、地球物理学 等领域,其中期刊论文73篇、会议论文5篇、专利文献93992篇;相关期刊52种,包括新疆农业大学学报、现代电子技术、电脑知识与技术等; 相关会议5种,包括2009国际信息技与应用论坛、第十届全国人机语音通讯学术会议、第六届全国搜索引擎和网上信息挖掘学术研讨会等;中文文本分类的相关文献由364位作者贡献,包括侯永进、周明全、张翔等。

中文文本分类—发文量

期刊论文>

论文:73 占比:0.08%

会议论文>

论文:5 占比:0.01%

专利文献>

论文:93992 占比:99.92%

总计:94070篇

中文文本分类—发文趋势图

中文文本分类

-研究学者

  • 侯永进
  • 周明全
  • 张翔
  • 施荣华
  • 李芳芳
  • 王进
  • 胡峰
  • 谢金宝
  • 冯小年
  • 庞宁
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 唐加山; 段丹丹
    • 摘要: 中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。
    • 何铠; 管有庆; 龚锐
    • 摘要: 文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处理研究的一个热点,其主要原理是将文本数据按照一定的分类规则实现自动化分类。目前常见的文本分类方式主要分为基于机器学习和基于深度学习两种,它们的本质是通过计算机自主学习从而提取文本信息中的规则来进行分类。针对数据量较小、硬件运算能力较低的应用场景,往往使用基于机器学习算法而衍生的文本分类模型。该文以期刊论文作为实验数据,研究中文文本分类问题,在改进传统词频算法的基础上提出了一种基于权重预处理的中文文本分类算法PRE-TF-IDF(pre-processing term frequency inverse document frequency)。传统词频算法在对词加权时仅考虑词的出现频率而不考虑词在文本中的位置;PRE-TF-IDF算法在TF-IDF(term frequency inverse document frequency)算法的基础上增加权重预处理和词密度权重两个环节。实验结果显示PRE-TF-IDF算法能够有效提高文本分类的准确性。
    • 丁正生; 马春洁
    • 摘要: 为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类。实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升。
    • 何铠; 管有庆; 龚锐
    • 摘要: NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术难点没有被完全攻克,主要包括不断产生的新词、中文词语的一词多义、自然语言的灵活性等问题。该文以期刊论文作为实验数据,研究中文文本分类问题,在传统卷积神经网络模型的基础上提出了一种基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)。相较于传统方法,CNNSVM增加了注意力机制,简化了模型参数,并使用基于支持向量机的分类器替代传统模型中的softmax层帮助实现文本的分类。实验结果显示,该模型提升了特征词语的提取效果,有效解决了softmax层泛化能力较弱的问题。
    • 秦硕; 郑虹; 侯秀萍; 郑肇谦
    • 摘要: 中文长新闻文本的分类问题主要采用截断式提取方法,但是这种方法会大幅降低特征提取的准确性。针对以上问题,文中提出了在文本处理阶段对长文本新闻进行摘要抽取处理,这样既能保留源文本的特征信息,也能降低时间复杂度。使用ERNIE进行词向量表示,经过自注意力和卷积网络后提高分类任务的准确性。
    • 尼格拉木·买斯木江; 艾孜尔古丽·玉素甫
    • 摘要: 以实现慕课网用户评论的情感倾向性分析为目的,本文提出一种基于BERT和双向GRU模型的用户评论情感倾向性分类方法.首先使用BERT模型提取课程评论文本的特征表示,其次将获取的词语特征输入BiGRU网络实现用户评论的情感特征的提取,最后用Softmax逻辑回归的方式进行情感倾向性分类.实验结果表明基于BERT和双向GRU模型的评论情感倾向性分类模型的F1值达到92.5%,提高了用户情感倾向性分析的准确率,从而验证了方法的有效性.
    • 胡玉兰; 赵青杉; 牛永洁; 陈莉
    • 摘要: 针对基于神经网络的文本分类模型在训练过程中容易发生过拟合及忽略句子中的关键词的问题,提出了一种基于分层Attention机制的Bi-GRU中文文本分类模型。该模型引入了分层的思想,利用双向门控循环神经网络学习词层面和句子层面的文本表示,采用Self-Attention层次模型获取词和句子对于文本分类影响程度的信息;通过绑定共享嵌入层和softmax层之间的权重,在减少模型中参数的同时采用AMSBound优化方法快速有效地获取最优权重矩阵。对常用的两个中文数据集Fudan Set和THUCNews,本文模型对中文较长文本分类数据集Fudan Set进行实验,实验结果表明,本文模型在精度、召回率、F-score等指标上均优于Text-CNN模型、Attention-BiLSTM模型、Bi-GRU_CNN模型,精度、召回率、F-score指标分别提高了5.9%、5.8%、4.6%。
    • 胡玉兰; 赵青杉; 牛永洁; 陈莉
    • 摘要: 针对基于神经网络的文本分类模型在训练过程中容易发生过拟合及忽略句子中的关键词的问题,提出了一种基于分层Attention机制的Bi-GRU中文文本分类模型.该模型引入了分层的思想,利用双向门控循环神经网络学习词层面和句子层面的文本表示,采用Self-Attention层次模型获取词和句子对于文本分类影响程度的信息;通过绑定共享嵌入层和softmax层之间的权重,在减少模型中参数的同时采用AMSBound优化方法快速有效地获取最优权重矩阵.对常用的两个中文数据集Fudan Set和THUCNews,本文模型对中文较长文本分类数据集Fudan Set进行实验,实验结果表明,本文模型在精度、召回率、F-score等指标上均优于Text-CNN模型、Attention-BiLSTM模型、Bi-GRU_CNN模型,精度、召回率、F-score指标分别提高了5.9%、5.8%、4.6%.
    • 郭书武; 陈军华
    • 摘要: 德目教育是个人发展的基石,也是学校的重要职责之一,而教材作为进行德目教育的重要载体,德目指标自然也就成为修订教材的重要标准之一.利用深度学习来实现教材德目指标的自动分类具有更高的效率和可靠性,但是教材文本数据集具有文本信息丰富、特征表现不明显、样本分布不均衡等特点,针对这些问题,结合一种新颖的数据增强方法,并根据词向量对分类结果的贡献度,通过注意力机制计算得到其注意力矩阵,然后结合词向量矩阵一同输入到模型中去,从而提出一种结合注意力机制的文本分类模型IoMET_A,利用IoMET_A对上海市中小学教材文本进行深度学习.实验结果表明,与原始的IoMET文本分类器相比,IoMET_A有效提升了评测效果.
    • 张雨婷; 陈军华
    • 摘要: 教材德目指标是学校道德养成体系中教材选用的重要标准之一,对提供个性化德育信息服务具有重要意义.目前该方面的量化评估的研究有限,评估具有主观特点,效率不高.针对这一问题,对上海中小学教材短文本德目指标进行研究,提出基于深度学习的短文本分类模型IoMET.采用数据增强技术和卷积神经网络对教材短文本进行深度学习,并使用精确率、召回率和F1-度量值进行评价.实验结果表明,IoMET模型对德目指标的预测效果较好,与未进行数据增强的原始短文本相比,IoMET模型评测效果有较大的提升.
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号