首页> 中国专利> 一种基于Spark的海量文本关键词快速提取方法

一种基于Spark的海量文本关键词快速提取方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于Spark的海量文本关键词快速提取方法，读取指定文件夹下所有的文本文件，创建SequenceFile作为原始文本文件；将所述SequenceFile上传到Hadoop平台并加载到内存中；对每个文本文件分词，统计并计算每个单词的词频‑逆文档频率值；把每个单词的词频‑逆文档频率值从大到小排列，提取排名靠前的结果；将所述提取结果保存为Hadoop平台上的SequenceFile，以供查询。本发明通过将文本文件打包成SequenceFile后整体处理，提高了程序对海量文本文件的处理效率；利用Spark将待处理文本数据加载到内存中再利用TFIDF算法处理，实现了对文本关键词的快速准确提取；将提取结果存储到Hadoop平台上，实现了对提取结果的实时快速查询。

著录项

公开/公告号CN106202556B

专利类型发明专利
公开/公告日2019-08-30

原文格式PDF
申请/专利权人中国电子科技集团公司第二十八研究所;
展开▼

申请/专利号CN201610609580.3
发明设计人刘旸;郭乔进;周鹏飞;祁骏;胡杰;陈文明;孟剑萍;
展开▼

申请日2016-07-28
分类号
代理机构南京苏高专利商标事务所(普通合伙);
代理人柏尚春
地址 210007 江苏省南京市苜蓿园东街1号
入库时间 2022-08-23 10:38:40

法律信息

法律状态公告日

法律状态信息

法律状态
2019-08-30

授权

授权
2017-01-04

实质审查的生效 IPC(主分类):G06F17/30 申请日:20160728

实质审查的生效
2017-01-04

实质审查的生效 IPC(主分类):G06F 17/30 申请日:20160728

实质审查的生效
2016-12-07

公开

公开
2016-12-07

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于Spark的海量文本关键词快速提取方法 [P] . 中国专利： CN106202556B . 2019.08.30
2. 一种基于Spark的海量文本关键词快速提取方法 [P] . 中国专利： CN106202556A . 2016-12-07
3. ASSOCIATED KEYWORD EXTRACTION METHOD BASED ON NORMALIZED KEYWORD WEIGHT [P] . 世界知识产权组织专利： WO2016093532A1 . 2016-06-16

机译：基于归一化关键词权重的关联关键词提取方法
4. METHOD OF EXTRACTING RELATED KEYWORD BASED ON NOMALIZED KEWORD WEIGHT [P] . 韩国专利： KR101624909B1 . 2016-05-27

机译：基于归一化关键词权重的相关关键词提取方法
5. KEYWORD EXTRACTION SYSTEM AND KEYWORD EXTRACTION METHOD USING CATEGORY MATCHING [P] . 日本专利： JP2012113716A . 2012-06-14

机译：基于类别匹配的关键词提取系统及关键词提取方法