文档分类
文档分类的相关文献在1987年到2022年内共计226篇,主要集中在自动化技术、计算机技术、信息与知识传播、管理学
等领域,其中期刊论文86篇、会议论文9篇、专利文献79014篇;相关期刊61种,包括现代图书情报技术、科技与企业、计算机工程等;
相关会议7种,包括2006年全国第十届企业信息化与工业工程学术年会、第16届全国计算机新科技与教育研讨会、第二十一届中国数据库学术会议等;文档分类的相关文献由484位作者贡献,包括周水庚、胡运发、于俊凤等。
文档分类—发文量
专利文献>
论文:79014篇
占比:99.88%
总计:79109篇
文档分类
-研究学者
- 周水庚
- 胡运发
- 于俊凤
- 冯海洲
- 徐兴军
- 朱世伟
- 李战怀
- 李晨
- 王自强
- 王蕾
- 蔡斌雷
- 钱旭
- 魏墨济
- 孟海东
- 强晟
- 范灵
- 谢福进
- T·卡瓦塔尼
- 丁希晨
- 丘佩文
- 余芳强
- 俞梦真
- 俞红奇
- 兰明敬
- 刘健鹏
- 刘小洋
- 刘广峰
- 南煜
- 卢一峰
- 后藤和之
- 吴宗大
- 吴家强
- 周刚
- 周艳芳
- 商琳
- 喻波
- 姚智
- 姚毅
- 姚磊岳
- 姬旭光
- 娄颖
- 孙亚东
- 孙占全
- 守本正宏
- 安见才让
- 宋凌云
- 宫部泰成
- 尚学群
- 尹建伟
- 尹龙
-
-
苏东出;
孙萍
-
-
摘要:
以书目题名数据为例,探究了一种基于线性空间基的超短文本特征向量生成方式,并在此基础上,利用改进的卷积神经网络进行深度学习,对超短文本进行多元分类的思路。经过测试,该算法针对22分类的准确率可达67%以上,部分专业分类准确率达到85%以上。由于语料集较小,验证设备配置太低,因此分类准确率有待提高。该方法对文献自动分类、图书馆智能助手应用都具有参考价值。
-
-
任建华;
李静;
孟祥福
-
-
摘要:
文档分类是自然语言处理(NLP)领域中的一个基本问题.近年来,尽管针对这一问题的层级注意力网络已经取得了进展,但由于每条句子被独立编码,使得模型中使用的双向编码器仅能考虑到所编码句子的相邻句子,仍然集中于当前所编码的句子,并没有有效地将文档结构知识整合到体系结构中.针对此问题,提出一种上下文感知与层级注意力网络的文档分类方法(CAHAN).该方法采用分层结构来表示文档的层次结构,使用注意力机制考虑文档中重要的句子和句子中重要的单词因素,在单词级和句子级不仅依赖双向编码器来获取上下文信息,还通过在单词级注意机制中引入上下文向量,使单词级编码器基于上下文信息做出注意决策全面获取文本的上下文信息,从而提取出深度文档特征.此外,还利用门控机制准确地决定应该考虑多少上下文信息.在两个标准数据集上的实验结果表明,提出的CAHAN模型较长短时记忆网络(LSTM)、卷积神经网络(CNN)、分层注意网络(HAN)等模型分类效果更好,能够提高文档分类任务的准确度.
-
-
马雯琦;
何跃
-
-
摘要:
自然语言处理中的文档分类任务需要模型从低层级词向量中抽取高层级特征.通常,深度神经网络的特征抽取会利用文档中所有词语,这种做法不能很好适应内容较长的文档.此外,训练深度神经网络需要大量标记数据,在弱监督情况下往往不能取得良好效果.为迎接这些挑战,本研究提出应对弱监督长文档分类的方法.一方面,利用少量种子信息生成伪文档以增强训练数据,应对缺乏标记数据造成的精度难以提升的局面.另一方面,使用循环局部注意力学习,仅基于若干文档片段抽取出摘要特征,就足以支撑后续类别预测,提高模型的速度和精度.实验表明,本研究提出的伪文档生成模型确实能够增强训练数据,对预测精度的提升在弱监督情况下尤为显著;同时,基于局部注意力机制的长文档分类模型在预测精度上显著高于基准模型,处理速度也表现优异,具有实际应用价值.
-
-
孟醒
-
-
摘要:
文档分类是实现自动化网络舆情处理的一项必不可少的技术.针对文档分类任务中文档信息复杂、难以提取任务相关特征的问题,提出了一种结合注意力机制的层次卷积神经网络模型HCNN-AM.在模拟文档结构的层次化模型架构下,使用结合注意力机制的卷积神经网络提取同分类任务相关的整合相邻单元信息的文档特征.在大规模文档语料上的实验结果表明,HCNN-AM模型能够有效地提升文档分类精度.
-
-
朱晓亮;
石昀东
-
-
摘要:
随着教育技术与信息技术的融合,实现面向小学生的语文写作自动辅助成为可能.快速自动地进行范文素材的分类入库是实现写作自动辅助的关键.作文素材语义信息丰富、种类较多,若采用现有方法进行自动分类入库操作往往难以取得好的效果.因此,在分析小学作文的类别特征并构建了一个数据集的基础上,提出基于TextRank和字符级卷积神经网络的小学作文自动分类模型.运用基于TextRank的关键句提取模型为范文素材,去除部分冗余的语义信息.应用word embedding对数据集进行文本表示,并将其作为卷积神经网络的输入.通过不断地迭代训练和测试,最终实现了该模型.实验表明了该方法对于作文分类任务能显著地提高分类的性能.
-
-
-
-
-
刘广峰;
黄贤英;
刘小洋;
范海波
-
-
摘要:
针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.采用基于CBOW方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,使用基于Gibbs采样的LDA算法计算出文档主题分布矩阵,继而通过层次LSTM神经网络获取更为完整的文本上下文信息从而提取出深度情感特征,将文档主题分布矩阵作为模型注意力机制提取文档特征,从而实现情感分类.实验结果表明:提出的TWE-ANN模型较TSA、HAN模型分类效果较好,在Yelp2015、IMDB、Amazon数据集上的F值分别提升了1.1%、0.3%、1.8%,在Yelp2015和Amazon数据集上的RMSE值分别提升了1.3%、2.1%.
-
-
欧阳文俊;
徐林莉
-
-
摘要:
许多自然语言应用需要将输入的文本表示成一个固定长度的向量, 现有的技术如词嵌入 (Word Embeddings)和文档表示(Document Representation)为自然语言任务提供特征表示, 但是它们没有考虑句子中每个单词的重要性差别, 同时也忽略一个句子在一篇文档中的重要性差别. 本文提出一个基于层级注意力机制的文档表示模型(HADR), 而且考虑文档中重要的句子和句子中重要的单词因素. 实验结果表明, 在考虑了单词的重要和句子重要性的文档表示具有更好的性能. 该模型在文档(IMBD)的情感分类上的正确率高于Doc2Vec和Word2Vec模型.
-
-
万良君;
姜晓丹;
吕翊
- 《2006年全国第十届企业信息化与工业工程学术年会》
| 2006年
-
摘要:
随着存储在信息系统中的企业文档数量的激增,为用户提供有效的分类服务成为一项重要的研究课题.传统的文档管理和目录服务需要执行大量的目录定义和操作完成对一个文档集合的分类.为了解决这个问题,本文给出了直接分类模式、树分类模式、分类法则和科目约束表达式等概念和形式化定义.在这些概念的基础上描述了文档分类元模型,并且构造了一个文档分类管理系统结构模型.采用这些研究方法设计的文档分类管理系统,允许任何独立用户和群组用户同时对任何文档集合定义和启用多个不同的分类模式.
-
-
陈频;
王周敬
- 《第16届全国计算机新科技与教育研讨会》
| 2005年
-
摘要:
目前,对文档的分类的研究主要集中在提高分类准确率和效率两个方面.由于在现实世界中,大多数文档特别是学术性比较强的文档都是由标题,摘要,作者,日期,关键词,参考文献等外延构成。本文给出了结合外延的文档分类方法,该方法既兼顾文档分类的效率.又提高了文档分类的准确性.
-
-
王元志;
孟祥山
- 《第16届全国计算机新科技与教育研讨会》
| 2005年
-
摘要:
随着网络的迅猛发展,其中所包含的文本文档数以百万计,及时进行文档分类处理是十分必要的.本文基于"生产者/消费者"模型,提出了文档分类处理中的并行模型,进行了初步研究,并提出了改进模型性能的几种方法,在0penMP中得到了初步的实现.
-
-
-
伍赛;
杨冬青;
韩近强;
张铭;
王文清;
冯英
- 《第二十一届中国数据库学术会议》
| 2004年
-
摘要:
本文提出了一种基于单词相关度的聚类方法WCM(Document Clustering Method Based onWord Relation)。总体的思想首先充分利用单词之间的相关度分类夹确定词的分类,然后计算每个文档向量和各个类之间的距离将其归入一个或者多个类别中。该算法在“网上科研服务原型系统”项目中加以实现。在该系统中本文实现了一个基于SDARTS协议的元搜索器,搜索器退回的结果使用WCM进行分类显示,大大方便了使用者的查询。本文第2节简单介绍相关的研究,第3节介绍单词相关度模型,第4节介绍基于单词相关度的聚类WCM,第5节介绍文档分类,第6节为实验情况简介,最后是总结和展望。
-
-
-
-
罗威
- 《第十六届全国计算机信息管理学术研讨会》
| 2002年
-
摘要:
在知识管理系统中实现文本挖掘,可帮助知识用户发现并不确切知道自己已有的信息.本文介绍了在知识管理系统中实现文本挖掘的问题.作者首先对目前知识管理的产品进行分类,然后阐述了在知识管理系统中实现文本挖掘的必要性,最后列出了目前主要的文本挖掘技术及其常见实现.
-
-
罗威
- 《第十六届全国计算机信息管理学术研讨会》
| 2002年
-
摘要:
在知识管理系统中实现文本挖掘,可帮助知识用户发现并不确切知道自己已有的信息.本文介绍了在知识管理系统中实现文本挖掘的问题.作者首先对目前知识管理的产品进行分类,然后阐述了在知识管理系统中实现文本挖掘的必要性,最后列出了目前主要的文本挖掘技术及其常见实现.
-
-
罗威
- 《第十六届全国计算机信息管理学术研讨会》
| 2002年
-
摘要:
在知识管理系统中实现文本挖掘,可帮助知识用户发现并不确切知道自己已有的信息.本文介绍了在知识管理系统中实现文本挖掘的问题.作者首先对目前知识管理的产品进行分类,然后阐述了在知识管理系统中实现文本挖掘的必要性,最后列出了目前主要的文本挖掘技术及其常见实现.