首页> 中国专利> 一种基于大数据和中文特征的中文文本分词方法

一种基于大数据和中文特征的中文文本分词方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于大数据和中文特征的中文文本分词方法，第一步：首先建立文本库；第二步：然后对文本库中的文章进行分词；第三步：再对切分词组进行拼接；第四步：拼接得到的词组进行词频统计；第五步：之后对不同候选词库中的词组进行相似度计算；第六步：最后对候选词库进行整合优化形成行业词典。算法运行稳定、效果良好，技术成熟；全切分分词方法获得输入句子的所有可能的切分形式，从根本上避免可能切分形式的遗漏，实现完备的歧义检测；结合上下文识别新词，自动消除和切分歧义，分词准确度更高；将网络电子文本作为自动分词资源，利用相关手段在电子资源库中直接获取需要的知识，应用范围广泛，不受待处理文本的领域限制。

著录项

公开/公告号CN110287488A

专利类型发明专利
公开/公告日2019-09-27

原文格式PDF
申请/专利权人上海晏鼠计算机技术股份有限公司;
展开▼

申请/专利号CN201910524347.9
发明设计人陈刚;
展开▼

申请日2019-06-18
分类号
代理机构
代理人
地址 200082 上海市杨浦区国定路335号3201-3室
入库时间 2024-02-19 13:49:37

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-24

实质审查的生效 IPC(主分类):G06F17/27 申请日:20190618

实质审查的生效
2019-09-27

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于大数据和中文特征的中文文本分词方法 [P] . 中国专利： CN110287488A . 2019-09-27
2. 一种基于主动学习的中文正式文本分词方法 [P] . 中国专利： CN108519978A . 2018-09-11
3. CHINESE ADVERTISEMENT MARKETING SYSTEM BASED ON BIG DATA AND METHOD THEREOF [P] . 韩国专利： KR20200025965A . 2020-03-10

机译：基于大数据的中文广告营销系统及其方法
4. CHINESE MEANING BASED CHINESE ENCODING METHOD AND SYSTEM, AND MEDIUM DEVICE [P] . 世界知识产权组织专利： WO2018228101A1 . 2018-12-20

机译：基于中文意念的中文编码方法和系统以及中型设备
5. METHOD FOR LEARNING CHINESE CHARACTER SCRIPT AND CHINESE CHARACTER-BASED SCRIPTS OF OTHER LANGUAGES [P] . AU2015268741A1 . 2016-01-21

机译：学习其他语言的中文字符脚本和基于中文字符的脚本的方法