海量数据集上基于特征组合的关键词自动抽取

张庆国; 薛德军; 张振海; 张君玉

首页> 中文期刊> 《情报学报》 >海量数据集上基于特征组合的关键词自动抽取

海量数据集上基于特征组合的关键词自动抽取

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受.

著录项

来源
《情报学报》 |2006年第5期|587-593|共7页
作者
张庆国; 薛德军; 张振海; 张君玉;
展开▼
作者单位

中国学术期刊(光盘版)电子杂志社;

清华同方光盘股份有限公司;

北京;

100084;

中国学术期刊(光盘版)电子杂志社;

清华同方光盘股份有限公司;

北京;

100084;

中国学术期刊(光盘版)电子杂志社;

清华同方光盘股份有限公司;

北京;

100084;

中国科学院研究生院数学系;

北京;

100049;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动化技术及设备;
关键词
关键词自动抽取; 特征组合; 海量数据集; TF×IDF;

相似文献

中文文献
外文文献
专利

1. 海量车牌识别数据集上基于时空划分的旅行时间计算方法 [J] . 赵卓峰 ,丁维龙 ,张帅 . 电子学报 . 2016,第005期
2. 语义相似度领域基于XGBOOST算法的关键词自动抽取方法 [J] . 王成柱 ,魏银珍 . 计算机与数字工程 . 2020,第006期
3. 基于万有引力模型的关键词自动抽取方法 [J] . 李欢 ,吕学强 ,李宝安 . 计算机工程与设计 . 2019,第004期
4. 基于BiLSTM-CRF的关键词自动抽取 [J] . 陈伟 ,吴友政 ,陈文亮 . 计算机科学 . 2018,第0z1期
5. 基于二分网络分析方法的学术文献关键词自动抽取方法研究 [J] . 李树青 ,曹杰 ,庄光光 . 情报学报 . 2016,第012期
6. 面向传媒语言语料库的关键词自动抽取研究 [C] . 吴继媛 ,孙淳 ,侯敏 . 第五届全国青年计算语言学研讨会(YWCL 2010) . 2010
7. 基于小世界理论的中文关键词自动抽取与标引 [A] . 洪晓韵 . 2005

海量数据集上基于特征组合的关键词自动抽取

摘要

著录项

相似文献

相关主题

期刊订阅