您现在的位置: 首页> 研究主题> 文本表示

文本表示

文本表示的相关文献在2000年到2022年内共计266篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播 等领域,其中期刊论文183篇、会议论文13篇、专利文献28621篇;相关期刊102种,包括情报学报、现代图书情报技术、智能计算机与应用等; 相关会议12种,包括第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛、SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)、2011年江苏省人工智能学术会议等;文本表示的相关文献由620位作者贡献,包括王健、叶麟、姚念民等。

文本表示—发文量

期刊论文>

论文:183 占比:0.64%

会议论文>

论文:13 占比:0.05%

专利文献>

论文:28621 占比:99.32%

总计:28817篇

文本表示—发文趋势图

文本表示

-研究学者

  • 王健
  • 叶麟
  • 姚念民
  • 廖涛
  • 张宏莉
  • 李尚
  • 罗森林
  • 黄江平
  • 刘宗田
  • 周法国
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 蒋延杰; 李云红; 苏雪平; 张蕾涛; 贾凯莉; 陈锦妮
    • 摘要: 针对传统文本表示方法无法准确表达文本信息、稀疏维度高等问题,提出基于特征权重的词向量文本表示模型。通过Glove模型获得词向量,然后分别与TF-IDF、N-Gram模型相结合,分析考虑了文本的全局信息,解决了传统表示方法中稀疏维度高的问题,更好地捕捉了文本的语义和语序等局部信息,提高了文本特征表达能力。最后,通过20NewsGroup和5AbstractsGroup测试,分类准确率分别为85.93%、87.02%,验证了文本表示模型的有效性。
    • 宋泽宇; 李旸; 李德玉; 王素格
    • 摘要: 随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.
    • 赵海燕; 曹杰; 陈庆奎; 曹健
    • 摘要: 现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层次多标签文本分类的研究现状进行了系统化的总结.目前的方法从是否使用层次结构可以分为平面方法和层次方法,而层次方法又可以分为局部方法、全局方法和混合方法.这些方法包含了使用不同技术的多种模型.文中还分析了层次多标签文本分类任务的挑战和难点,并对本领域未来的研究方向进行了展望.
    • 蔡宇翔; 王佳斌; 郑天华
    • 摘要: 针对Spark平台下文本分类中文本表示方法不够完善,导致分类准确率低的问题,结合SparkML下的TF-IDF算法和Word2vec模型,提出一种基于SparkML的加权词向量文本表示方法。首先对文本进行分词,去停用词等预处理,基于SparkML计算出每个词语的词频和逆文档频率,同时计算词语的词向量。使用词语的TF-IDF值作为词向量的权重,将文本表示为加权词向量,再使用SVM分类器进行分类。在THUNews数据集上进行实验。实验结果表明,该方法相比于传统的TF-IDF算法、平均Word2Vec词向量文本表示,可以提升分类的精度。
    • 敖绍林; 秦永彬; 黄瑞章; 陈艳平; 刘丽娟; 郑庆华; 陈昌恒; 程少芬
    • 摘要: 法院系统中主要有人工指定分案和简单随机分案两种模式。这两种模式无法做到人案的自动匹配,存在金钱案、关系案等弊端。目前分案方法的相关研究主要存在法官表示和案件匹配两个难点。结合法官历史审判数据,在法官表示中融合法官擅长的审判领域,提出一种融合审判质量的法官表示方法。然后,通过卷积神经网络学习案件表示和法官表示中不同粒度的抽象语义特征向量,计算案件和多个法官的特征向量间的余弦相似度,用向量相似度表示案件与法官的匹配度,输出匹配值较高的前N个法官作为案件的推荐法官。在贵州省某法院真实数据下进行实验,结果表明该方法推荐法官的正确率比传统方法高80%。
    • 赵京胜; 宋梦雪; 高祥; 朱巧明
    • 摘要: 自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力.
    • 贾君霞; 王会真; 任凯; 康文
    • 摘要: 针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成句向量,充分考虑文档词排列顺序和语义;然后利用CNN提取文本的深层语义特征,解决特征维度高的问题,得到能够用于聚类的文本特征向量;最后使用k-means算法进行聚类。实验结果表明,在爬取的搜狗新闻数据上,该文本聚类模型的准确率达到了0.776,F值指标达到了0.780,相比其他文本聚类模型均有所提高。
    • 李保珍; 顾秀莲
    • 摘要: 文本表示需要解决文本词语的歧义性问题,并能够准确界定词语在特定上下文语境中的语义特征。针对词语的多义性及语境特征问题,提出了一种文本语义消歧的SCDVAB模型。其基于分区平均技术,将场景语料库转换为文档嵌入,并引入各向异性,改进了软聚类的稀疏复合文档向量(SCDV)算法,以提高BERT的语境化表示能力;将调整各向异性后的BERT词语嵌入,作为静态词语向量的文档嵌入,以提升文本语义消歧的能力。通过大量实验进一步证明,SCDVAB模型的效果明显优于传统的文本消歧算法,可有效提高文本语义消歧的综合性能。
    • 周玄郎; 邱卫根; 张立臣
    • 摘要: 为了提高文本分类的准确率并解决文本图卷积神经网络对节点特征利用不足的问题,提出了一种新的文本分类模型,其内在融合了文本图卷积和Stacking集成学习方法的优点。该模型首先通过文本图卷积神经网络学习文档和词的全局表达以及文档的语法结构信息,再通过集成学习对文本图卷积提取的特征进行二次学习,以弥补文本图卷积节点特征利用不足的问题,提升单标签文本分类的准确率以及整个模型泛化能力。为了降低集成学习的时间消耗,移除了集成学习中的k折交叉验证机制,融合算法实现了文本图卷积和Stacking集成学习方法的关联。在R8、R52、MR、Ohsumed、20NG等数据集上的分类效果相对于传统的分类模型分别提升了1.5%、2.5%、11%、12%、7%以上,该方法在同领域的分类算法比较中表现优异。
    • 廖运春; 舒坚
    • 摘要: 随着网络和各类社交媒体的盛行,越来越多的文本信息通过互联网呈现在人们面前。对于海量的文本数据,自然语言处理技术变得越来越实用,新闻文本分类便是其中一项重要的任务,其对制定新闻检索策略、新闻推荐、社会舆情监控等具有积极作用。文章通过分析文本表示模型与分类模型的研究现状,提出一种基于加权Word2Vec和TextCNN的新闻文本分类方法,在新闻文本多分类数据上进行实验。从实验结果上来看,在文本表示模型中,该文方法比TF-IDF模型、Word2Vec模型以及随机词嵌入模型在精确率、召回率和F1值上均有提高;在文本分类模型中,文章使用的TextCNN模型要比传统的机器学习模型以及循环神经网络模型在分类效果以及模型性能方面表现更出色。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号