基于TextRank和簇过滤的林业文本关键信息抽取研究

陈志泊; 李钰曼; 许福; 冯国明; 师栋瑜; 崔晓晖

首页> 中文期刊>农业机械学报 >基于TextRank和簇过滤的林业文本关键信息抽取研究

基于TextRank和簇过滤的林业文本关键信息抽取研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难。为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以“关键词+信息类型”两部分表示文本关键信息。首先,抽取关键词并进行Word2Vec向量化,然后通过构建融合词语特征值、边权值的图模型对TextRank进行改进,对经迭代收敛得到的稳定图进行归并聚类形成簇;然后,设计簇品质评价公式进行簇过滤,再次应用TextRank形成最终簇集合;最后,对簇进行信息类型标注。对于测试文本,通过比较关键词向量和簇心向量的距离获得词语的信息类型,将信息类型与关键词结合得到文本的关键信息。基于2000篇与林业政策新闻相关的林业文本进行实验,最终簇集合的紧密度为0.9680,间隔度为0.0572,综合评价指标为0.8871;对其中400篇文本进行关键词人工标注,将本文关键词抽取方法与TextRank、TF IDF等6种算法进行比较,结果表明,本文方法在MRR、Bpref、准确率和综合评价指标上均获得了较好的效果,说明本文方法在提取林业文本关键词方面具有优势。

著录项

来源
《农业机械学报》|2020年第5期|207-214172|共9页
作者
陈志泊; 李钰曼; 许福; 冯国明; 师栋瑜; 崔晓晖;
展开▼
作者单位

北京林业大学信息学院北京100083;

中国联合网络通信集团有限公司北京100033;

中国电信系统集成有限责任公司北京100035;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
林业文本; 关键词抽取; TextRank; 簇过滤; 信息类型;
入库时间 2023-07-24 21:53:38

相似文献

中文文献
外文文献
专利

1. 一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现 [J] . 郎冬冬 ,刘晨晨 ,冯旭鹏 . 计算机应用与软件 . 2018,第003期
2. 融合多特征的TextRank藏文文本关键词抽取方法研究 [J] . 艾金勇 . 情报探索 . 2020,第007期
3. 基于聚簇隐马尔可夫模型的文本信息抽取 [J] . 周顺先 ,林亚平 ,王耀南 . 系统仿真学报 . 2007,第21期
4. 基于TextRank的产品评论关键词抽取方法研究 [J] . 尤苡名 . 软件导刊 . 2020,第004期
5. 基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究 [J] . 刘奇飞 ,沈炜域 . 情报探索 . 2018,第006期
6. 基于改进TextRank的藏文抽取式摘要生成 [C] . LI Wei ,李维 ,YAN Xiaodong . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于Word2Vec与TextRank的关键词抽取研究 [A] . 陈芬 . 2020

基于TextRank和簇过滤的林业文本关键信息抽取研究

摘要

著录项

相似文献

相关主题

期刊订阅