文本表示
文本表示的相关文献在2000年到2022年内共计266篇,主要集中在自动化技术、计算机技术、科学、科学研究、信息与知识传播
等领域,其中期刊论文183篇、会议论文13篇、专利文献28621篇;相关期刊102种,包括情报学报、现代图书情报技术、智能计算机与应用等;
相关会议12种,包括第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛、SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)、2011年江苏省人工智能学术会议等;文本表示的相关文献由620位作者贡献,包括王健、叶麟、姚念民等。
文本表示—发文量
专利文献>
论文:28621篇
占比:99.32%
总计:28817篇
文本表示
-研究学者
- 王健
- 叶麟
- 姚念民
- 廖涛
- 张宏莉
- 李尚
- 罗森林
- 黄江平
- 刘宗田
- 周法国
- 宋枫溪
- 张祖平
- 晋耀红
- 李堂秋
- 李建华
- 武娇
- 潘丽敏
- 王枞
- 章成志
- 舒振
- 蔡飞
- 金世举
- 陈洪辉
- 陈涛
- 顾兴全
- 顾永春
- 黄瑞章
- G·格莱恩斯
- J·H·M·科斯特
- M·伊莎贝尔
- M·范德克科霍夫
- T·戴维斯
- 仲兆满
- 何冉
- 何敏
- 兰云飞
- 冯国明1
- 刘俊
- 刘俊先
- 刘功申
- 刘博阳
- 刘建毅
- 刘望桐
- 刘洋
- 刘海娟
- 刘素辉1
- 卜东波
- 卢俊宇
- 古倩
- 吴振豪
-
-
蒋延杰;
李云红;
苏雪平;
张蕾涛;
贾凯莉;
陈锦妮
-
-
摘要:
针对传统文本表示方法无法准确表达文本信息、稀疏维度高等问题,提出基于特征权重的词向量文本表示模型。通过Glove模型获得词向量,然后分别与TF-IDF、N-Gram模型相结合,分析考虑了文本的全局信息,解决了传统表示方法中稀疏维度高的问题,更好地捕捉了文本的语义和语序等局部信息,提高了文本特征表达能力。最后,通过20NewsGroup和5AbstractsGroup测试,分类准确率分别为85.93%、87.02%,验证了文本表示模型的有效性。
-
-
宋泽宇;
李旸;
李德玉;
王素格
-
-
摘要:
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.
-
-
赵海燕;
曹杰;
陈庆奎;
曹健
-
-
摘要:
现实世界的大量应用,比如文档归类、网页分类、专利分类等,其类别信息(标签)是一个具有层次关系的体系,对它们进行自动分类涉及到在此层次标签体系中选择多个正确的标签,因此形成了一类层次多标签文本分类问题.如何学习和利用这些不同层级的关系、并对分类结果从层级关系遵循性的角度进行评价成为层次多标签分类问题的难点和挑战.本文对层次多标签文本分类的研究现状进行了系统化的总结.目前的方法从是否使用层次结构可以分为平面方法和层次方法,而层次方法又可以分为局部方法、全局方法和混合方法.这些方法包含了使用不同技术的多种模型.文中还分析了层次多标签文本分类任务的挑战和难点,并对本领域未来的研究方向进行了展望.
-
-
蔡宇翔;
王佳斌;
郑天华
-
-
摘要:
针对Spark平台下文本分类中文本表示方法不够完善,导致分类准确率低的问题,结合SparkML下的TF-IDF算法和Word2vec模型,提出一种基于SparkML的加权词向量文本表示方法。首先对文本进行分词,去停用词等预处理,基于SparkML计算出每个词语的词频和逆文档频率,同时计算词语的词向量。使用词语的TF-IDF值作为词向量的权重,将文本表示为加权词向量,再使用SVM分类器进行分类。在THUNews数据集上进行实验。实验结果表明,该方法相比于传统的TF-IDF算法、平均Word2Vec词向量文本表示,可以提升分类的精度。
-
-
敖绍林;
秦永彬;
黄瑞章;
陈艳平;
刘丽娟;
郑庆华;
陈昌恒;
程少芬
-
-
摘要:
法院系统中主要有人工指定分案和简单随机分案两种模式。这两种模式无法做到人案的自动匹配,存在金钱案、关系案等弊端。目前分案方法的相关研究主要存在法官表示和案件匹配两个难点。结合法官历史审判数据,在法官表示中融合法官擅长的审判领域,提出一种融合审判质量的法官表示方法。然后,通过卷积神经网络学习案件表示和法官表示中不同粒度的抽象语义特征向量,计算案件和多个法官的特征向量间的余弦相似度,用向量相似度表示案件与法官的匹配度,输出匹配值较高的前N个法官作为案件的推荐法官。在贵州省某法院真实数据下进行实验,结果表明该方法推荐法官的正确率比传统方法高80%。
-
-
赵京胜;
宋梦雪;
高祥;
朱巧明
-
-
摘要:
自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力.
-
-
贾君霞;
王会真;
任凯;
康文
-
-
摘要:
针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成句向量,充分考虑文档词排列顺序和语义;然后利用CNN提取文本的深层语义特征,解决特征维度高的问题,得到能够用于聚类的文本特征向量;最后使用k-means算法进行聚类。实验结果表明,在爬取的搜狗新闻数据上,该文本聚类模型的准确率达到了0.776,F值指标达到了0.780,相比其他文本聚类模型均有所提高。
-
-
李保珍;
顾秀莲
-
-
摘要:
文本表示需要解决文本词语的歧义性问题,并能够准确界定词语在特定上下文语境中的语义特征。针对词语的多义性及语境特征问题,提出了一种文本语义消歧的SCDVAB模型。其基于分区平均技术,将场景语料库转换为文档嵌入,并引入各向异性,改进了软聚类的稀疏复合文档向量(SCDV)算法,以提高BERT的语境化表示能力;将调整各向异性后的BERT词语嵌入,作为静态词语向量的文档嵌入,以提升文本语义消歧的能力。通过大量实验进一步证明,SCDVAB模型的效果明显优于传统的文本消歧算法,可有效提高文本语义消歧的综合性能。
-
-
周玄郎;
邱卫根;
张立臣
-
-
摘要:
为了提高文本分类的准确率并解决文本图卷积神经网络对节点特征利用不足的问题,提出了一种新的文本分类模型,其内在融合了文本图卷积和Stacking集成学习方法的优点。该模型首先通过文本图卷积神经网络学习文档和词的全局表达以及文档的语法结构信息,再通过集成学习对文本图卷积提取的特征进行二次学习,以弥补文本图卷积节点特征利用不足的问题,提升单标签文本分类的准确率以及整个模型泛化能力。为了降低集成学习的时间消耗,移除了集成学习中的k折交叉验证机制,融合算法实现了文本图卷积和Stacking集成学习方法的关联。在R8、R52、MR、Ohsumed、20NG等数据集上的分类效果相对于传统的分类模型分别提升了1.5%、2.5%、11%、12%、7%以上,该方法在同领域的分类算法比较中表现优异。
-
-
廖运春;
舒坚
-
-
摘要:
随着网络和各类社交媒体的盛行,越来越多的文本信息通过互联网呈现在人们面前。对于海量的文本数据,自然语言处理技术变得越来越实用,新闻文本分类便是其中一项重要的任务,其对制定新闻检索策略、新闻推荐、社会舆情监控等具有积极作用。文章通过分析文本表示模型与分类模型的研究现状,提出一种基于加权Word2Vec和TextCNN的新闻文本分类方法,在新闻文本多分类数据上进行实验。从实验结果上来看,在文本表示模型中,该文方法比TF-IDF模型、Word2Vec模型以及随机词嵌入模型在精确率、召回率和F1值上均有提高;在文本分类模型中,文章使用的TextCNN模型要比传统的机器学习模型以及循环神经网络模型在分类效果以及模型性能方面表现更出色。
-
-
-
Shutian Ma;
马舒天;
Chengzhi Zhang;
章成志
- 《第五届全国情报学博士生学术论坛暨2015中国信息资源管理论坛》
| 2015年
-
摘要:
本文通过可比语料聚类实验以比较三种不同的文本表示方法,分别是空间向量模型(VSM),潜在语义索引(LSI),深度学习(DL).将可比语料中的源语言文本翻译为目标语言文本,然后和可比语料中的目标语言文本归为一个文本集合中.分别利用VSM,LSI和DL,三种方法来表示文本并进行聚类.实验结果显示:根据聚类得到测评数据中净相似度与可识别的类簇数量,用深度学习表示文本的方法比其他的几种表示方法聚类效果要好.三种方法的实验数据表明,新文本集合为英语的语料比新文本集合为汉语的聚类效果要好.基于LSI文本表示的方法随着文本表示维度的增加,识别出的类簇数量会逐渐减小并最终趋于稳定.
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
传统的基于"词袋"的文本表示方法假定词的权重只和它本身的出现频率有关,而忽略上下文信息.本文提出了一种基于上下文的图模型文本表示方法,使用一种类似PageRank的图模型来建立词和词之间的相互推荐关系,该方法克服了传统文本表示认为词和词之间相互独立,忽略词的上下文环境的缺陷.在复旦中文文本分类和20newsgroup英文文本分类的语料库上的实验表明,我们的方法可以有效地提升文本分类的性能.
-
-
-
-
-
-
张晓艳;
王挺;
陈火旺
- 《第七届中文信息处理国际会议》
| 2007年
-
摘要:
本文在理论分析的基础上,并通过基准实验验证,提出一种多向量表示模型,该模型在尽量不丢失新闻报道信息的情况下,对特征集合尽可能细的划分,在模型比较时采用支持向量机对多个向量相似度进行整合.并在此基础上实现了话题发现与追踪中的话题关联识别系统。试验表明相对于基准系统,该系统的检测代价有明显降低,很大的提高了系统性能。
-
-
刘建毅;
王菁华;
王枞
- 《中国人工智能学会第12届全国学术年会》
| 2007年
-
摘要:
文本表示是文本信息处理的基础问题,目前常用的文本表示模型没有考虑文本中词汇间的关系,在表示文本时损失了大量的文本结构信息,而这些文本结构信息对于理解文本是至关重要的。本文提出了用词汇网络来表示文本,保留了文本结构,并根据词汇间关系的不同层次,依次介绍了共现网络-语法网络-语义网络。将文本网络表示方法应用在文本分类中,检验了模型的表示能力。实验结果表明,文本网络表示方法要优于向量空间模型。
-