首页> 中国专利> 一种数据集自动生成的中文分词与实体识别联合学习方法

一种数据集自动生成的中文分词与实体识别联合学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种数据集自动生成的中文分词与实体识别联合学习方法，所述方法包括以下步骤：第一步、目标领域数据集的构建；第二步、将第一步中得到的数据集中的带有的一串汉字字符序列的句子s输入到神经网络模型的字符向量表示层，得到每个汉字字符的向量表示；第三步、将第二步中得到的汉字字符的向量表示的序列输入到带有K个相互独立的开关切换的Bi‑LSTM细胞层和一个开关切换的双向LSTM神经网络中，得到每个汉字字符的隐藏状态；第四步：将第三步中得到的每个汉字字符的隐藏状态分别输入到条件随机场层CRF，CRF对汉字字符标签进行联合解码，提升NER模型识别实体边界的能力以及准确率。

著录项

公开/公告号CN111967265A

专利类型发明专利
公开/公告日2020-11-20

原文格式PDF
申请/专利权人广东工业大学;
展开▼

申请/专利号CN202010895913.X
发明设计人程良伦;莫非;张伟文;
展开▼

申请日2020-08-31
分类号G06F40/295(20200101);G06F40/30(20200101);G06F40/211(20200101);G06F16/33(20190101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人胡素莉
地址 510060 广东省广州市越秀区东风东路729号大院
入库时间 2023-06-19 08:59:45

法律信息

法律状态公告日

法律状态信息

法律状态
2023-09-15

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种数据集自动生成的中文分词与实体识别联合学习方法 [P] . 中国专利： CN111967265A . 2020-11-20
2. 一种中文分词增量学习方法 [P] . 中国专利： CN105068996B . 2017.11.17
3. A learning image data set generation method and computing device used for detecting dangerous elements, and a learning method and learning device using this {METHOD AND COMPUTING DEVICE FOR GENERATING IMAGE DATA SET TO BE USED FOR HAZARD DETECTION AND LEARNING DEVICE USING THE SAME} [P] . JP6869565B2 . 2021-05-12

机译：用于检测危险元件的学习图像数据集生成方法和计算设备，以及使用该学习方法和学习设备的学习方法和学习设备，用于生成用于使用相同的危险检测和学习设备的图像数据集的方法和计算设备。
4. NEW LEARNING DATASET GENERATION METHOD, NEW LEARNING DATASET GENERATION DEVICE AND LEARNING METHOD USING GENERATED LEARNING DATASET [P] . US2021158137A1 . 2021-05-27

机译：新的学习数据集生成方法，新的学习数据集生成设备和使用生成的学习数据集的学习方法
5. IMAGE LEARNING PROGRAM, IMAGE LEARNING METHOD, IMAGE RECOGNITION PROGRAM, IMAGE RECOGNITION METHOD, CREATION PROGRAM FOR LEARNING DATA SET, CREATION METHOD FOR LEARNING DATA SET, LEARNING DATA SET, AND IMAGE RECOGNITION DEVICE [P] . 日本专利： JP2020038572A . 2020-03-12

机译：图像学习程序，图像学习方法，图像识别程序，图像识别方法，用于学习数据集的创建程序，用于学习数据集的创建方法，学习数据集以及图像识别设备