首页> 中国专利> 一种海量数据下的实时中文文本分词方法

一种海量数据下的实时中文文本分词方法

摘要

本发明属于数据分析处理领域,尤其涉及一种海量数据下的实时中文文本分词方法。该方法具体步骤为:将采集的数据源上送至消息组件,通过实时流处理引擎消费,并清洗,封装,存入分布式文件系统;使用Pyflink程序读取分布式文件系统中的文本数据,并进行脱敏处理;利用分布式文件系统进行分词和词性标注,再进行规范化处理,进行关键词抽取,并统计,对结果进行封装,存储到分布式文件系统。本发明通过大数据技术和文本分词算法的融合,具有在线处理海量数据的能力和实时性的特点,实现了海量数据的场景下对文本数据的在线实时分析,同时,通过自主地动态调整停用词和数据字典,能够广泛地应用于即时分析和风险防控等场景中。

著录项

  • 公开/公告号CN112131877A

    专利类型发明专利

  • 公开/公告日2020-12-25

    原文格式PDF

  • 申请/专利权人 民生科技有限责任公司;

    申请/专利号CN202010996063.2

  • 申请日2020-09-21

  • 分类号G06F40/289(20200101);G06F40/242(20200101);G06F40/216(20200101);G06F16/182(20190101);G06F16/215(20190101);

  • 代理机构11401 北京金智普华知识产权代理有限公司;

  • 代理人巴晓艳

  • 地址 101300 北京市顺义区马坡镇顺安南路86号

  • 入库时间 2023-06-19 09:19:57

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号