首页> 中国专利> 一种海量数据下的实时中文文本分词方法

一种海量数据下的实时中文文本分词方法

页面导航

摘要
著录项
相似文献

摘要

本发明属于数据分析处理领域，尤其涉及一种海量数据下的实时中文文本分词方法。该方法具体步骤为：将采集的数据源上送至消息组件，通过实时流处理引擎消费，并清洗，封装，存入分布式文件系统；使用Pyflink程序读取分布式文件系统中的文本数据，并进行脱敏处理；利用分布式文件系统进行分词和词性标注，再进行规范化处理，进行关键词抽取，并统计，对结果进行封装，存储到分布式文件系统。本发明通过大数据技术和文本分词算法的融合，具有在线处理海量数据的能力和实时性的特点，实现了海量数据的场景下对文本数据的在线实时分析，同时，通过自主地动态调整停用词和数据字典，能够广泛地应用于即时分析和风险防控等场景中。

著录项

公开/公告号CN112131877A

专利类型发明专利
公开/公告日2020-12-25

原文格式PDF
申请/专利权人民生科技有限责任公司;
展开▼

申请/专利号CN202010996063.2
发明设计人李振;鲁宾宾;宋璞;曾琦凯;王云端;陈枫;
展开▼

申请日2020-09-21
分类号G06F40/289(20200101);G06F40/242(20200101);G06F40/216(20200101);G06F16/182(20190101);G06F16/215(20190101);
代理机构11401 北京金智普华知识产权代理有限公司;
代理人巴晓艳
地址 101300 北京市顺义区马坡镇顺安南路86号
入库时间 2023-06-19 09:19:57

相似文献

专利
中文文献
外文文献

1. 一种海量数据下的实时中文文本分词方法 [P] . 中国专利： CN112131877A . 2020-12-25
2. 一种超算环境下的海量数据实时采集与处理方法 [P] . 中国专利： CN108681489A . 2018-10-19
3. RECORD MEDIA WRITTEN WITH DATA STRUCTURE FOR REAL-TIME PROCESSING OF HUGE-SIZED DATA AND REAL-TIME IMAGE PROCESSING METHOD USING THAT DATA STRUCTURE [P] . 韩国专利： KR100527257B1 . 2005-11-09

机译：用数据结构写入的记录媒体用于海量数据的实时处理，以及使用该数据结构的实时图像处理方法
4. RECORD MEDIA WRITTEN WITH DATA STRUCTURE FOR REAL-TIME PROCESSING OF HUGE-SIZED DATA AND REAL-TIME IMAGE PROCESSING METHOD USING THAT DATA STRUCTURE [P] . 韩国专利： KR100527257B1 . 2005-11-02

机译：用数据结构写入的记录媒体用于海量数据的实时处理，以及使用该数据结构的实时图像处理方法
5. METHOD FOR INPUTTING CHINESE CHARACTERS IN A MOBILE PHONE, PARTICULARLY FOR ALLOWING A USER TO SELECT A CHINESE CHARACTER IN AN INPUT MODE AND THEN DIRECTLY INPUT A PHONETIC SYMBOL IN A SELECT MODE [P] . 韩国专利： KR20050006931A . 2005-01-17

机译：在移动电话中输入中文字符的方法，特别是允许用户在输入模式下选择中文字符然后在选择模式下直接输入语音符号的方法