首页> 中国专利> 一种基于seq2seq模型的中文分词方法

一种基于seq2seq模型的中文分词方法

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种基于seq2seq模型的中文分词方法，包括：步骤1、对文本语料进行预处理，把输入的每一个句子中的文字按照字频高低转为汉字数字序列，并按照字在词中的位置，转化为对应的标签序列；步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中，输出字向量矩阵；步骤3、将步骤2得到的字向量矩阵采用mini‑batch进行分块，输入到采用注意力机制的seq2seq模型中，得到预测标签序列；步骤4、序列后处理，将步骤3中的预测标签序列与原始文本语料的标签序列进行比对，按每个标签的含义合成最终分词后的句子，按空格分隔开。所述方法采用seq2seq深度学习框架，结合注意力机制用于中文分词任务当中，有效提高了分词的准确率。

著录项

公开/公告号CN108491372B

专利类型发明专利
公开/公告日2021-06-08

原文格式PDF
申请/专利权人华南理工大学;
展开▼

申请/专利号CN201810094751.2
发明设计人史景伦;刘玉德;宁培阳;王桂鸿;
展开▼

申请日2018-01-31
分类号G06F40/30(20200101);G06N3/04(20060101);
代理机构44245 广州市华学知识产权代理有限公司;
代理人李斌
地址 510640 广东省广州市天河区五山路381号
入库时间 2022-08-23 11:56:06

相似文献

专利
中文文献
外文文献

1. 一种基于seq2seq模型的中文分词方法 [P] . 中国专利： CN108491372B . 2021.06.08
2. 一种基于seq2seq模型和CNN模型的农产品价格预测方法 [P] . 中国专利： CN109658162A . 2019-04-19
3. Method and arrangement for the computer-assisted determination of at least one property of a hair color seeds on the basis of a formulation of chemically reactive and / or unreactive raw materials, a method and arrangement for the computer-assisted determination of a formulation of a hair color seeds based on chemically reactive and / or unreactive raw materials, and apparatus and method for computer-aided training a predetermined model for the computer-assisted determination of at least one property of a hair color seeds on the basis of a formulation of chemically reactive and / or unreactive raw materials [P] . 德国专利： DE102007050434A1 . 2009-04-23

机译：用于基于化学反应性和/或非反应性原料的制剂的计算机辅助测定染发种子的至少一种性质的方法和装置，用于计算机辅助的测定毛发种子的制剂的方法和装置基于化学反应性和/或非反应性原料的染发种子，以及用于计算机辅助训练预定模型的设备和方法，该预定模型用于基于化学制剂确定计算机辅助确定染发种子的至少一种特性反应性和/或不反应性原料
4. A CRYSTALLOGRAPHIC MODEL OF THE BINDING SITE AND A MODULATOR REGULATING THE CATALYTIC ACTIVITY OF PHOSPHOFRUCTOKINASE (PFK), A METHOD OF DESIGNING, SELECTING AND PRODUCING THE PFK MODULATOR, A COMPUTER-BASED METHOD FOR THE ANALYSIS OF THE INTERACTIONS BETWEEN THE MODULATOR AND PFK, A COMPUTER-BASED METHOD FOR THE ANALYSIS O [P] . 世界知识产权组织专利： WO2009067033A2 . 2009-05-28

机译：调节磷酸果糖激酶（PFK）催化活性的结合位点和调节剂的结晶学模型，一种设计，选择和生产PFK调节剂的方法，一种基于计算机的方法和相互作用之间的相互作用分析的计算机方法基于计算机的分析方法
5. The system and method based on computer for the development of monolingual documents systems based computer to translate text input in language source for a foreign language and to desInvolvement of documents mono and multilingual translation method based on the computer to translate the text in the language source for a language estrageira method based on computer for developmentThe documents mono and multilingual translation and domain model tripartite [P] . BR9307175A . 1999-03-30

机译：用于开发单语文档的基于计算机的系统和方法基于计算机的系统，用于翻译外语源中的文本输入，并且基于计算机的单，多语翻译方法涉及用于翻译语言源中的文本的计算机。一种基于计算机的语言开发方法用于文档开发单，多语言翻译和领域模型三方