关键词抽取
关键词抽取的相关文献在1998年到2023年内共计218篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文126篇、会议论文8篇、专利文献26338篇;相关期刊70种,包括情报理论与实践、情报学报、现代图书情报技术等;
相关会议8种,包括2011年安徽省智能电网论坛、第十一届全国计算语言学学术会议、第六届全国信息检索学术会议等;关键词抽取的相关文献由549位作者贡献,包括吴信东、李涓子、谢飞等。
关键词抽取—发文量
专利文献>
论文:26338篇
占比:99.49%
总计:26472篇
关键词抽取
-研究学者
- 吴信东
- 李涓子
- 谢飞
- 唐杰
- 夏天
- 孙新
- 张超
- 张颖怡
- 张颖捷
- 曾伟辉
- 李淼
- 李钰曼
- 林民
- 樊绮娜
- 王昊
- 王磊
- 申长虹
- 祁点点
- 章成志
- 胡子扬
- 胡少虎
- 许福
- 陈志泊
- 陈里波
- 万根顺
- 万琪
- 付莎
- 何婷婷
- 俞璐
- 冯迎辉
- 冯韬
- 刘世林
- 刘云峰
- 刘佳雯
- 刘先旺
- 刘啸剑
- 刘均
- 刘建毅
- 刘盼盼
- 刘聪
- 刘远超
- 吕学强
- 吴悦
- 吴朝晖
- 周思敏
- 周进华
- 唐文军
- 孙宇清
- 宁祥东
- 宋子岳
-
-
孟旭阳;
白海燕
-
-
摘要:
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。
-
-
于腊梅;
杨良斌
-
-
摘要:
将信息熵融入TextRank算法中分词器部分以改善关键词抽取的准确度。在分词前,先用信息熵的方式提取文章的关键新词,加入到分词字典中,使分词器能够自主识别新词,以增强文章关键词提取的准确性。当语料中存在新词的时候,关键词抽取准确度效果提升明显,对不存在新词的语料关键词抽取准确度无明显提升。改善分词效果可以提升关键词抽取准确度。
-
-
韩红旗;
桂婕;
张运良;
翁梦娟;
薛陕;
悦林东
-
-
摘要:
现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。
-
-
段建勇;
鲁朝阳;
王昊;
李欣;
何丽
-
-
摘要:
[目的/意义]关键词抽取技术可以帮助用户从海量文本中快速定位核心内容,对情报收集工作有着重要意义。目前,关键词抽取主要依靠词频和共现关系,忽视了知识库对关键词抽取的指导作用。[方法/过程]本文提供了一种融合知识的关键词抽取方法,首先基于义原和词林构建词汇知识图谱,其次结合词语的共现关系,生成新的概率转移矩阵,最后实现关键词抽取。[结果/结论]基于海量摘要数据集的实验表明,融合知识的关键词抽取方法,能有效提高现有关键词抽取方法的性能。
-
-
苗宇;
金醒男;
杜永萍
-
-
摘要:
在大数据时代,用户画像对于企业了解并获取目标用户的重要性日益提升,但基于统计的用户画像方法无法处理非结构化的文本数据,而传统的基于模型的用户画像方法亦无法从多角度深层次提取用户特征。为实现更加全面且精准的用户属性预测,该文提出一种基于多层级特征提取的融合网络用户画像生成方法,通过对用户原始文本关键词的提取和排序,分别生成基于top 2关键词的子句表示和top N关键词的词向量,并结合循环神经网络和注意力机制,构建多层次用户特征提取的分类模型,利用原始用户数据进行用户属性预测。在搜狗用户搜索文本数据集上的实验表明,文中模型较其他基线模型在分类准确率上显著提升,达到0.73,通过消融实验进一步表明各个模块均为有效提取用户特征从而提升分类准确率发挥了重要作用。
-
-
张晓涵;
吕金鑫
-
-
摘要:
随着互联网行业的发展,在灾难发生期间,社交媒体已经成为公众重要的交流手段,通过对受灾地区公众的社交媒体数据进行合理的抽取与内容分析,可以为应急管理人员提供有效的决策支持。本研究选取了2021年10月山西暴雨期间的微博数据作为研究数据,通过运用词频-逆文档频率算法(TF-IDF)、中文词法分析(LAC)和百度AI(Artificial Intelligence)情感分析等方法对社交媒体数据进行综合分析以获取该灾害下公众情感以及公众注意力焦点变化趋势,为新媒体时代救援减灾工作提供支撑。
-
-
姚奕;
杨帆
-
-
摘要:
关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何精准地抽取文档的关键词仍是一个挑战。一方面,关键词是人们主观的认识,判断一个词是否是关键词本身具有主观性;另一方面,中文词汇往往具有丰富的语义信息,单纯依赖传统统计特征和主题特征难以准确提炼文本所表达的主旨思想。针对中文关键词抽取中存在的准确率低、信息冗余和信息缺失等问题,提出了一种联合知识图谱和预训练模型的无监督关键词抽取方法。该方法首先利用预训练模型进行主题聚类,并通过一种以句子为单位的聚类方法保证最终选取的关键词对全文内容的覆盖度;同时,通过知识图谱进行实体链接,以此实现精准分词及歧义消除;然后,根据主题信息构建语义词图,并以此为基础计算词语间的语义权重;最后,通过加权的PageRank算法进行关键词排序。在DUC 2001和CSL两个公开数据集和一个单独标注的CLTS数据集上,以预测结果的准确率、召回率及F1值为指标进行对比实验。实验结果表明,该模型相比多种基线方法,准确率均有所提升,在CLTS数据集上与传统统计方法 TF-IDF相比F1值提高了9.14%,与传统图方法 TextRank相比F1值提高了4.82%。
-
-
胡觉亮;
徐瑶瑶;
董建明
-
-
摘要:
为有效指导服装企业生产经营决策,选取服装网购评论为数据样本和研究对象,提出了基于服装网购评论的消费热点情报分析方法,以探究消费者对所采购的服装的关注热点.采用网络爬虫技术采集服装网购评论数据并进行预处理后,利用SnowNLP技术进行情感倾向性分类.在关键词抽取时针对分词过程存在错分专业词汇问题,引入服装专业领域分词词典和停用词典,并结合GooSeeker方法和人工调整方法进一步提高关键词抽取精准度.关键词抽取后建立共词矩阵,并聚类进行社会网络分析得到消费热点情报信息.以真丝服装网购评论进行实证分析以验证方法的有效性.结果发现:真丝服装网购消费者依次易就面料、颜色、尺码、质量等热点关键词给出负面反馈;此外还得到这些热点关键词关联的负面反馈信息及与其他热点关键词之间的相互关系,如面料的负面反馈主要与薄透、褶皱、缩水和引申的丝料价格贵有关,对面料差评的消费者往往会更关注尺码、物流、价格以及退换货等信息.
-
-
章成志;
胡少虎;
张颖怡
-
-
摘要:
眼动数据记录了浏览者在浏览信息时的眼球轨迹,已有研究依据眼动数据度量阅读者在不同单词上的注意力强弱,并进一步将该特征加入微博关键词抽取模型中,从而提高抽取模型的性能.然而,目前的微博关键词抽取模型仅考虑通用领域眼动数据的总注视时长这一特征,尚未全面探究眼动数据对微博关键词抽取任务性能的影响.因此,本文将从眼动特征的选择、眼动特征与文本特征的组合这两个方面,全面考察通用语料的眼动数据对微博关键词抽取任务性能的影响.同时,由于眼动数据集与测试数据集在数据规模上相差较大,使得眼动特征过于稀疏,进而影响其作用的发挥,本文提出了一个眼动数据的扩充方案用于解决这一问题.
-
-
胡少虎;
张颖怡;
章成志
-
-
摘要:
[目的]对关键词提取研究的主要方法、相关特征以及评价方法进行总结梳理,为后续的关键词提取研究提供借鉴.[文献范围]以“Keyword Extraction”、“Keyword Generation”、“Keyphrase Extraction”、“Keyphrase Generation”、“关键词抽取”、“关键词生成”等检索式在Web of Science、DBLP、Engineering Index、Google Scholar、CNKI和万方等数据库进行检索,结合个人积累与文献溯源得到代表性文献89篇.[方法]梳理关键词提取的发展脉络,从研究方法、相关特征与评价方法三个主要方面对关键词提取的相关研究进行深入分析与总结.[结果]关键词提取方法随着机器学习技术的发展,逐步从特征驱动的模型转向数据驱动的模型,并面临数据标注、评价规范等问题.[局限]更为关注关键词提取研究中主流的方法.[结论]本文通过对关键词提取方法,尤其是关键词生成方法进行总结,阐明了关键词提取方法的研究重心从特征转向数据的趋势与原因,并指出现有关键词提取评价体系所存在的缺陷.
-
-
-
-
- 《第四届全国信息检索与内容安全学术会议》
| 2008年
-
摘要:
本文提出一种基于TextRank的多文档关键词抽取方法,该方法利用ATF*PDF方法计算文档集中的词语权重,抽取权重较大的实词为候选关键词,并根据候选关键词之间的语义相似关系建立TextRank模型,递归计算至收敛,最后生成关键词序列并抽取关键词.该方法综合考虑了词语的频率,词性以及词语之间的语义关系等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高了4.2%.召回率提高7%,F-measure提高4.6%.
-
-
-
-
-
周法国;
杨炳儒
- 《第七届中文信息处理国际会议》
| 2007年
-
摘要:
计算句子的相似度在机器问答系统,基于实例的机器翻译,文本分类等自然语言处理的许多领域中都有着非常重要的作用。该文对基于相同关键词的句子相似模型做了进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词以及近义词的情形.实验结果表明,改进方法比以前方法具有较高的准确率。
-
-
-