中文文本分类
中文文本分类的相关文献在2002年到2022年内共计136篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、地球物理学
等领域,其中期刊论文73篇、会议论文5篇、专利文献93992篇;相关期刊52种,包括新疆农业大学学报、现代电子技术、电脑知识与技术等;
相关会议5种,包括2009国际信息技与应用论坛、第十届全国人机语音通讯学术会议、第六届全国搜索引擎和网上信息挖掘学术研讨会等;中文文本分类的相关文献由364位作者贡献,包括侯永进、周明全、张翔等。
中文文本分类—发文量
专利文献>
论文:93992篇
占比:99.92%
总计:94070篇
中文文本分类
-研究学者
- 侯永进
- 周明全
- 张翔
- 施荣华
- 李芳芳
- 王进
- 胡峰
- 谢金宝
- 冯小年
- 庞宁
- 张太红
- 李颖
- 王元珍
- 王玉静
- 耿国华
- 谭真
- 赵翔
- 邓欣
- 郭爱博
- 钱铁云
- 陈乔松
- 陈军华
- 陈卓
- 仇俊豪
- 付强
- 何崑
- 何铠
- 侯凡
- 俞旸
- 凌志辉
- 刘兴
- 刘均
- 刘忠宝
- 单世超
- 吴娴
- 吴朝晖
- 姜明
- 常晓
- 张东明
- 张健
- 张军
- 张帆
- 张建兵
- 张旻
- 张晓辉
- 张海燕
- 张盼曦
- 戴新宇
- 晏世凯
- 李晓飞
-
-
唐加山;
段丹丹
-
-
摘要:
中文文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题,传统单一的特征降维方法难以满足大数据时代的文本分类需求。基于此,提出了一种基于卡方统计(Chi-square statistics,CHI)和主成分分析(principal component analysis,PCA)的混合特征降维方法(CHI-PCA),该方法使用CHI方法初筛出类别相关的特征词,使用PCA方法对特征词空间进行二次降维,在特征降维的同时仍保留了原始特征空间最多的特征信息。通过与文档频率(document frequency,DF)、信息增益(information gain,IG)、CHI和PCA这4种传统特征降维方法的实验对比,结果表明,在不同特征维度下,所提方法在Softmax回归、支持向量机(support vector machines,SVM)分类以及KNN分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类性能也是可观的,这说明基于CHI-PCA的2阶段特征降维方法是可行的,在特征降维的同时,还提高了分类性能。
-
-
何铠;
管有庆;
龚锐
-
-
摘要:
文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支。信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础。文本分类作为自然语言处理研究的一个热点,其主要原理是将文本数据按照一定的分类规则实现自动化分类。目前常见的文本分类方式主要分为基于机器学习和基于深度学习两种,它们的本质是通过计算机自主学习从而提取文本信息中的规则来进行分类。针对数据量较小、硬件运算能力较低的应用场景,往往使用基于机器学习算法而衍生的文本分类模型。该文以期刊论文作为实验数据,研究中文文本分类问题,在改进传统词频算法的基础上提出了一种基于权重预处理的中文文本分类算法PRE-TF-IDF(pre-processing term frequency inverse document frequency)。传统词频算法在对词加权时仅考虑词的出现频率而不考虑词在文本中的位置;PRE-TF-IDF算法在TF-IDF(term frequency inverse document frequency)算法的基础上增加权重预处理和词密度权重两个环节。实验结果显示PRE-TF-IDF算法能够有效提高文本分类的准确性。
-
-
丁正生;
马春洁
-
-
摘要:
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类。实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升。
-
-
何铠;
管有庆;
龚锐
-
-
摘要:
NLP(Natural Language Processing,自然语言处理)是人工智能领域的一个主要研究方向,而文本分类是NLP处理技术的重要分支。自然语言处理使计算机、手机等电子设备能够具有识别理解人类语言的能力,由于其自身的复杂性,目前仍有许多技术难点没有被完全攻克,主要包括不断产生的新词、中文词语的一词多义、自然语言的灵活性等问题。该文以期刊论文作为实验数据,研究中文文本分类问题,在传统卷积神经网络模型的基础上提出了一种基于卷积神经网络和支持向量机结合的文本分类模型CNNSVM(Convolutional Neural Network and Support Vector Machine Classifier)。相较于传统方法,CNNSVM增加了注意力机制,简化了模型参数,并使用基于支持向量机的分类器替代传统模型中的softmax层帮助实现文本的分类。实验结果显示,该模型提升了特征词语的提取效果,有效解决了softmax层泛化能力较弱的问题。
-
-
秦硕;
郑虹;
侯秀萍;
郑肇谦
-
-
摘要:
中文长新闻文本的分类问题主要采用截断式提取方法,但是这种方法会大幅降低特征提取的准确性。针对以上问题,文中提出了在文本处理阶段对长文本新闻进行摘要抽取处理,这样既能保留源文本的特征信息,也能降低时间复杂度。使用ERNIE进行词向量表示,经过自注意力和卷积网络后提高分类任务的准确性。
-
-
尼格拉木·买斯木江;
艾孜尔古丽·玉素甫
-
-
摘要:
以实现慕课网用户评论的情感倾向性分析为目的,本文提出一种基于BERT和双向GRU模型的用户评论情感倾向性分类方法.首先使用BERT模型提取课程评论文本的特征表示,其次将获取的词语特征输入BiGRU网络实现用户评论的情感特征的提取,最后用Softmax逻辑回归的方式进行情感倾向性分类.实验结果表明基于BERT和双向GRU模型的评论情感倾向性分类模型的F1值达到92.5%,提高了用户情感倾向性分析的准确率,从而验证了方法的有效性.
-
-
胡玉兰;
赵青杉;
牛永洁;
陈莉
-
-
摘要:
针对基于神经网络的文本分类模型在训练过程中容易发生过拟合及忽略句子中的关键词的问题,提出了一种基于分层Attention机制的Bi-GRU中文文本分类模型。该模型引入了分层的思想,利用双向门控循环神经网络学习词层面和句子层面的文本表示,采用Self-Attention层次模型获取词和句子对于文本分类影响程度的信息;通过绑定共享嵌入层和softmax层之间的权重,在减少模型中参数的同时采用AMSBound优化方法快速有效地获取最优权重矩阵。对常用的两个中文数据集Fudan Set和THUCNews,本文模型对中文较长文本分类数据集Fudan Set进行实验,实验结果表明,本文模型在精度、召回率、F-score等指标上均优于Text-CNN模型、Attention-BiLSTM模型、Bi-GRU_CNN模型,精度、召回率、F-score指标分别提高了5.9%、5.8%、4.6%。
-
-
胡玉兰;
赵青杉;
牛永洁;
陈莉
-
-
摘要:
针对基于神经网络的文本分类模型在训练过程中容易发生过拟合及忽略句子中的关键词的问题,提出了一种基于分层Attention机制的Bi-GRU中文文本分类模型.该模型引入了分层的思想,利用双向门控循环神经网络学习词层面和句子层面的文本表示,采用Self-Attention层次模型获取词和句子对于文本分类影响程度的信息;通过绑定共享嵌入层和softmax层之间的权重,在减少模型中参数的同时采用AMSBound优化方法快速有效地获取最优权重矩阵.对常用的两个中文数据集Fudan Set和THUCNews,本文模型对中文较长文本分类数据集Fudan Set进行实验,实验结果表明,本文模型在精度、召回率、F-score等指标上均优于Text-CNN模型、Attention-BiLSTM模型、Bi-GRU_CNN模型,精度、召回率、F-score指标分别提高了5.9%、5.8%、4.6%.
-
-
郭书武;
陈军华
-
-
摘要:
德目教育是个人发展的基石,也是学校的重要职责之一,而教材作为进行德目教育的重要载体,德目指标自然也就成为修订教材的重要标准之一.利用深度学习来实现教材德目指标的自动分类具有更高的效率和可靠性,但是教材文本数据集具有文本信息丰富、特征表现不明显、样本分布不均衡等特点,针对这些问题,结合一种新颖的数据增强方法,并根据词向量对分类结果的贡献度,通过注意力机制计算得到其注意力矩阵,然后结合词向量矩阵一同输入到模型中去,从而提出一种结合注意力机制的文本分类模型IoMET_A,利用IoMET_A对上海市中小学教材文本进行深度学习.实验结果表明,与原始的IoMET文本分类器相比,IoMET_A有效提升了评测效果.
-
-
张雨婷;
陈军华
-
-
摘要:
教材德目指标是学校道德养成体系中教材选用的重要标准之一,对提供个性化德育信息服务具有重要意义.目前该方面的量化评估的研究有限,评估具有主观特点,效率不高.针对这一问题,对上海中小学教材短文本德目指标进行研究,提出基于深度学习的短文本分类模型IoMET.采用数据增强技术和卷积神经网络对教材短文本进行深度学习,并使用精确率、召回率和F1-度量值进行评价.实验结果表明,IoMET模型对德目指标的预测效果较好,与未进行数据增强的原始短文本相比,IoMET模型评测效果有较大的提升.
-
-
刘博;
杨柳;
袁方
- 《第六届全国搜索引擎和网上信息挖掘学术研讨会》
| 2008年
-
摘要:
介绍了基于KNN方法的中文文本分类流程及相关技术,在分析传统KNN方法不足的基础上提出一种改进的KNN方法。该方法在特征选取、权值确定、相似度计算等方面进行了改进,并给出了优化措施。实验表明:与传统的KNN方法相比,改进后的KNN方法在保证分类准确率的同时,使分类效率得到了有效提高。
-
-
谷波;
刘开瑛
- 《2005第一届中国分类技术与应用研讨会(CSCA)》
| 2005年
-
摘要:
随着互联网的飞速发展,网上文档的数量激增.文本分类是对这些文档进行有效组织和挖掘其相关信息的一种重要的文本挖掘方法.针对中文文本分类的任务,提出了一种简单高效的特征词选择方法.根据特征词在训练集中不同类别中的分布信息,自动构建一个文本分类停用词表,去除了对分类任务作用很小的特征词.并利用上述特征词选择方法,使用决策树模型和最大熵模型进行了中文文本分类实验.实验结果显示,两种算法在进行特征选择后准确率均有提高。
-
-
-
王文峰;
唐兴全
- 《第七届中文信息处理国际会议》
| 2007年
-
摘要:
本文用HNC语境理论来分析现在中文信息处理的一个热门话题--中文文本分类.HNC理论认为只有深入到语境层面,理解语句及篇章,才能更好的完成文本分类的工作。本文介绍了一种新的文本语义形式化模型--语境框架.语境框架是一个三维的语义描述,它把文本内容抽象成领域(静态范畴)、情景(动态范畴)、背景(褒贬、参照等)三个框架.并在语境框架的基础上,设计实现了文本特征提取算法。
-
-
-
-
-
-
-
-
-
- 海南师范大学
- 公开公告日期:2022.03.01
-
摘要:
本发明方案公开了基于Attention神经网络的多元特征融合中文文本分类方法,属于自然语言处理领域。为了进一步提高中文文本分类的准确性,本发明通过融合3条CNN通路充分挖掘文本数据在3种不同尺寸卷积核粒度下的特征;通过融合LSTM通路来体现文本数据之间的相互联系;特别地,通过融合所提出的Attention算法模型使相对重要的数据特征在中文文本类别识别过程中发挥更大的作用,从而提高模型对中文文本类别的识别能力。实验结果表明,同等实验条件下,相比于CNN模型,LSTM结构模型及其两者的组合模型,本发明提出的模型的中文文本分类准确率明显提高,能够更好的应用于对分类准确率要求高的中文文本分类领域。
-
-
-
-
- 南京邮电大学
- 公开公告日期:2021.02.02
-
摘要:
本发明公开了一种结合监督学习的中文文本分类方法,属于自然语言处理技术领域,WMD算法用于文本分类领域时,因分类标准的不同导致特定条件下文本分类的结果准确度较低。为使WMD算法适应不同分类条件,本发明结合监督学习的方法,引入变换矩阵A和初始值为1的权重向量w来改进算法。为了训练参数A,w,利用NCA算法对带标签的训练集进行训练,得到变换矩阵A的初始值,而后利用随机数β对A,w进行迭代更新直到该算法的损失函数收敛。利用最终的A,w改进WMD算法表达式并以此计算文本的最小距离,该距离的大小代表在特定分类条件下待测试文本的相似度的高低。本发明改进了不同分类条件下文本相似度的准确性,具有一定实用价值。
-
-
-
- 青岛科技大学
- 公开公告日期:2021-01-22
-
摘要:
本发明公开了一种基于分类器的中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数;步骤包括101)文本预处理步骤、102)分类器步骤、103)测试与评价步骤、104)调整步骤;本发明提供了建模更合理、分类准确率提高、召回率提高,整体精准快捷的一种基于分类器的中文文本分类方法。
-
-