首页> 中国专利> 一种基于词典的正向逐次加一字最大匹配中文分词方法

一种基于词典的正向逐次加一字最大匹配中文分词方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及一种基于词典的正向逐次加一字最大匹配中文分词方法，属于计算机中文文本处理技术领域。本发明包括步骤：首先读入待切分文本，根据标点、数字、西文、图表等明显的分隔符将输入的文本进行粗切分，分割成一个个短文本；将粗切分的短文本作为进一步切分对象，设定进一步分词查找长度；取粗切分后的短文本按照正向逐次加一字的方式与字典匹配分词，直到所有短文本分词结束。本发明避免了传统正向最大匹配分词速率—准确率难以平衡的缺点，在切词速度和分词准确率方面都比传统正向和逆向最大匹配分词算法有所提高。

著录项

公开/公告号CN105138514B

专利类型发明专利
公开/公告日2018-11-09

原文格式PDF
申请/专利权人昆明理工大学;
展开▼

申请/专利号CN201510522091.X
发明设计人彭艺;苏黎韡;邵玉斌;龙华;宋浩;
展开▼

申请日2015-08-24
分类号G06F17/27(20060101);
代理机构
代理人
地址 650093 云南省昆明市五华区学府路253号
入库时间 2022-08-23 10:20:23

法律信息

法律状态公告日

法律状态信息

法律状态
2018-11-09

授权

授权
2016-01-06

实质审查的生效 IPC(主分类):G06F17/27 申请日:20150824

实质审查的生效
2016-01-06

实质审查的生效 IPC(主分类):G06F 17/27 申请日:20150824

实质审查的生效
2015-12-09

公开

公开
2015-12-09

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于词典的正向逐次加一字最大匹配中文分词方法 [P] . 中国专利： CN105138514B . 2018.11.09
2. 一种基于逆向最大匹配的中文分词算法 [P] . 中国专利： CN102999534A . 2013-03-27
3. Method and apparatus for decoding and correcting a first byte based on a status of a second byte adjacent to the first byte and in response to a failure to decode the first byte [P] . 美国专利： US9165601B2 . 2015-10-20

机译：用于基于与第一字节相邻的第二字节的状态并响应于对第一字节的解码失败而解码和校正第一字节的方法和装置
4. METHOD AND APPARATUS FOR DECODING AND CORRECTING A FIRST BYTE BASED ON A STATUS OF A SECOND BYTE ADJACENT TO THE FIRST BYTE AND IN RESPONSE TO A FAILURE TO DECODE THE FIRST BYTE [P] . 美国专利： US2014189467A1 . 2014-07-03

机译：基于与第一字节相邻的第二字节的状态并响应于未能对第一字节进行解码来解码和校正第一字节的方法和装置
5. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system [P] . 美国专利： US8548795B2 . 2013-10-01

机译：使用翻译数据库，术语词典，翻译词典和机器翻译系统将文档从一种语言翻译成另一种语言的方法