关键词提取
关键词提取的相关文献在2003年到2022年内共计516篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文173篇、会议论文14篇、专利文献164554篇;相关期刊116种,包括情报学报、现代图书情报技术、计算机工程等;
相关会议12种,包括信息系统协会中国分会第六届学术年会、中国社会科学情报学会2012年学术年会、第五届全国青年计算语言学研讨会(YWCL 2010)等;关键词提取的相关文献由1191位作者贡献,包括李超、王亮、刘刚等。
关键词提取—发文量
专利文献>
论文:164554篇
占比:99.89%
总计:164741篇
关键词提取
-研究学者
- 李超
- 王亮
- 刘刚
- 吴俊杰
- 尹庆宇
- 朱频频
- 王煦祥
- 刘德荣
- 孟洛明
- 徐炜民
- 朱汝维
- 熊翱
- 王鹏
- 白杨
- 章成志
- 贾祯
- 邱雪松
- 陆元飞
- 陈骁
- 骆祥峰
- 刘作涛
- 刘学颖
- 刘鹏
- 史亮
- 吕跃华
- 周会祥
- 孟二利
- 张旭
- 张晨
- 张清华
- 曾庆田
- 李帅
- 李长亮
- 杜雪涛
- 汤奇峰
- 王斌
- 盛武平
- 纪鸿旭
- 肖京
- 胡晓慧
- 蒋维
- 过群
- 郭庆
- 金平艳
- 陈凯
- 陈磊
- 鲁骁
- 齐保元
- CAO Bin
- FAN Jing
-
-
黄金源;
孙若莹
-
-
摘要:
为了高效地对大宗商品交易领域的文本数据进行挖掘,基于书籍文本面向大宗商品交易领域构建了领域词典。通过关键词提取以及融合现有基础词典,构建大宗商品交易领域词典。为了使得领域词典更加完善,利用分布式表示方法中的Word2vec算法进行词典扩充。实验结果表明,所构建的领域词典在文本分类任务中具有良好的性能表现。
-
-
沈自强;
李晔;
丁青艳;
王金颖;
白全民
-
-
摘要:
在智慧政务的应用背景下,利用深度学习的方法对海量的科技政策文本数据进行自动分类,可以降低人工处理的成本,提高政策匹配的效率。利用BERT深度学习模型对科技政策进行自动分类实验,通过TextRank算法和TF-IDF算法提取政策文本关键词,将关键词与政策标题融合后输入BERT模型中以优化实验,并对比不同深度学习模型的分类效果来验证该方法的有效性。结果表明,通过BERT模型,融合标题和TF-IDF政策关键词的分类效果最佳,其准确率可达94.41%,证明利用BERT模型在标题的基础上加入政策关键词能够提高政策文本自动分类的准确率,实现对科技政策文本的有效分类。
-
-
李明超;
吕沅庚;
田丹;
沈扬
-
-
摘要:
进度控制是水电工程管理的重要任务,及时总结进度管理信息有助于工程进度计划的制定与调整。水电工程建设中的进度信息多以半结构化、非结构化的文本形式呈现,增加了信息提取难度,实现水电工程进度文本信息自动化与智能化挖掘是当前亟待解决的问题。本文提出基于改进LDA的水电工程进度信息智能提取方法,智能提取进度管理文本中的关键信息。该方法基于传统LDA模型针对吉布斯采样机制,充分考虑词语间的关联关系,将原有随机单个采样过程改进为以共现度为基准的词对采样,强化了词语间的语义关联,提高了主题词语间的紧密性以及主题词语对主题描述的准确性。将所提出的方法应用于实际水电工程,对221份水电工程施工监理周报进行分析,共提取12个主题的工序关键词,并依照计算结果提取出主副工序;结果表明,改进LDA主题模型在水电工程进度文本工序特征词提取效果优于传统LDA主题模型,有助于提高工程施工进度关键工序词提取与信息挖掘效率,为水电工程施工智能化管理提供了新的手段。
-
-
龚圣杰
-
-
摘要:
随着商业广告投放数量的高速增长,对广告精准推送能力的要求也随之提高。文章利用关键词提取技术获取文章和广告的中心词汇,尝试计算文章和广告的匹配程度,为广告的智能推荐提供可行方法。运用OCR技术从图片录入广告信息,并使用Python关键词提取库提取文章和广告的关键词,最后根据余弦相似度计算文章和广告的匹配程度,将结果降序排序,输出关联程度最高的3篇广告。OCR技术能以较高的准确率将图片中的文字转换为文本,从而为用户提供了广告图片的输入接口,而关键词提取技术获取了能较好反映文本中心的词汇,最后的广告匹配算法也能从数据库中找到语义最相近的广告。智能广告推荐算法的一种可行方式为:通过OCR技术将广告图片转换为文字并批量录入到数据库中,提取广告关键词以反映其中心思想,再运用文本匹配技术为文章寻找最合适的广告。测试结果表明,关键词提取技术和余弦相似度匹配是广告推荐领域中行之有效的方法。
-
-
冉丈杰
-
-
摘要:
在科技资源服务交易的过程中,技术需求文本往往存在描述模糊、非结构化等问题,为应对由此引起的服务供需匹配困难的现象,开展面向科技资源服务交易的供需匹配技术研究。提出一种服务供需匹配模型,首先提取技术需求文本的关键词,接着构建技术供给核心库,采用相关模型训练词向量并计算供需文本之间的语义相似度,最后计算出二者的匹配值。对线上电子信息技术领域的供需文本进行测试,计算出给定供需文本之间的匹配值,为实现科技服务交易中的供需对接与供需匹配提供一种新思路。
-
-
尼格拉木·买斯木江;
艾孜尔古丽·玉素甫
-
-
摘要:
为了高效提取高度集中、覆盖范围广和差异性明显的慕课网用户评论关键词,文中提出一种融合BERT和LDA⁃TextRank的关键词提取方法。实现关键词提取的第一步是获取候选关键词,在获得候选关键词之前需对爬取的课程评语进行预处理,再通过BERT模型训练得到慕课网在线评语的词向量;然后利用LDA主题模型得到候选关键词的主题分布;最后结合TextRank算法计算各主题的关系词及生成评论文本的词主题挖掘。基于此,文中利用BERT文本表示方法,能够更好地联系不同词语之间的相关性;在传统的LDA主题抽取模型的基础上结合TextRank方法,并在节点运算中通过迭代算法计算各词的得分,将权值的转移概率作为词语之间的相似度,使得关键词提取性能得到了提升。实验结果表明,与传统方法相比,所提方法的困惑程度值明显降低,证实了该方法的有效性。
-
-
罗婉丽;
张磊
-
-
摘要:
传统的TextRank算法进行关键词提取时词语之间的连接边采用权值均分的形式进行加权,未考虑词语的语义信息。针对这种情况,提出结合拓扑势与TextRank算法的关键词提取方法。方法使用词频和词语在文中的分布情况对词语加权作为词语的全局影响;使用拓扑势的思想结合词语全局影响计算词语间的转移概率作为词语的局部影响;将转移概率矩阵应用于传统TextRank算法中。实验表明,考虑词语全局及局部重要性等语义信息可有效提升TextRank算法的准确率和召回率。
-
-
谭小玲;
李勇;
欧阳雨舟
-
-
摘要:
文章基于相关招聘数据,分析招聘单位对新媒体人才的具体需求,以优化高校的新媒体人才培养方案和教学计划。文章以前程无忧和智联招聘两个综合性招聘网站发布的招聘信息为数据来源,通过对样本进行分词、关键词提取和LDA主题分析等,从招聘地区与行业、招聘企业类型与规模、招聘人员基本资格、工作内容与任职技能四个方面分析现今新媒体行业的人才需求,并依据分析结果,从新媒体人才培养的主体、培养机制以及人才认证标准方面提出对应策略。
-
-
和志强;
王梦雪;
马宁;
刘院英
-
-
摘要:
开展产业技术演化路径的识别与分析,对整体把握产业技术发展态势、促进区域经济发展具有重要的现实意义。为识别产业技术演化路径,提出了一种基于专利文献数据挖掘的技术演化路径识别方法。该方法采用主题模型提取技术主题与技术关键词,同时抽取各技术主题的代表性专利。并在此基础上,利用专利间相似度来发现专利间关联关系实现技术演化路径识别。通过选取塑料包装产业相关专利进行实证研究,表明该方法能够有效提取产业相关技术的代表性技术并识别其演化路径。
-
-
林佳依;
赵涔辰;
陈凯
-
-
摘要:
采用教育数据挖掘法,利用NLPIR软件对《义务教育化学课程标准(2022年版)》进行文本挖掘。结果发现新课标中最关注与化学学科特色相关词,注重中学知识内容的衔接:“学习主题”“学习任务”“学业质量”的内容发生变化,学习方式从“探究”逐步向“实践”转变,其中“跨学科实践”是改革的亮点;与此同时,体现了化学课程的社会性与个体性的统一。从词频筛选结果也可发现多维度的学科素养相互联系,其中大概念引导化学观念建构,科学思维和科学探究与实践相互促进,科学态度与责任素养需要在教学情境中潜移默化。
-
-
罗繁明;
杨海深
- 《中国社会科学情报学会2012年学术年会》
| 2012年
-
摘要:
为克服传统词频—逆向文本频率(TFIDF)关键词提取精度低下的缺点,提出一种基于多级统计特征的关键词提取(TFIDF-SK)算法.该算法采用词语TfDf指标的离散系数公式来剔除噪音词,接着构建基于词偏度、词语位置权重信息和词频—逆向文本频率的评估函数来度量关键词的重要性.实验结果表明该算法优于传统方法,在网络情报监测中具有广泛的应用价值.
-
-
-
- 《第四届全国学生计算语言学研讨会(SWCL-2008)》
| 2008年
-
摘要:
本文针对面向查询的多文档自动文摘,提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句打分,进一步利用改进的MMR技术来调整候选句的得分,最后生成文摘。本文将特征融合引入到词语层面,存DUC2005的语料中测试效果很好。
-
-
-
-
-
-
-