首页> 中国专利> 一种用于HMM的分词训练语料标注方法

一种用于HMM的分词训练语料标注方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开一种用于HMM的分词训练语料标注方法,属于大数据语言处理领域；利用trie将已有实体词词典的内容构建成字典树：构建trie字典树函数，标注字典文件全路径及文件名，将字典文件中每个词加入Set，利用开源org.ahocorasick.trie将输入的词加入trie树，从字符串中识别出trie树包含的词函数，读取特定文档，判断是否有文本行，若有则取出文本行与字典树匹配，匹配成功的词加入tagList中，遍历tagList，在待识别实体词的特定文档中识别出的词的一部分，按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。

著录项

公开/公告号CN105045888A

专利类型发明专利
公开/公告日2015-11-11

原文格式PDF
申请/专利权人浪潮集团有限公司;
展开▼

申请/专利号CN201510448878.6
发明设计人范莹;刘福明;于治楼;
展开▼

申请日2015-07-28
分类号G06F17/30(20060101);
代理机构37100 济南信达专利事务所有限公司;
代理人姜明
地址 250101 山东省济南市高新区舜雅路1036号
入库时间 2023-12-18 12:02:04

法律信息

法律状态公告日

法律状态信息

法律状态
2019-06-28

发明专利申请公布后的驳回 IPC(主分类):G06F17/30 申请公布日:20151111 申请日:20150728

发明专利申请公布后的驳回
2015-12-09

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150728

实质审查的生效
2015-11-11

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种用于HMM的分词训练语料标注方法 [P] . 中国专利： CN105045888A . 2015-11-11
2. 一种为语料标注分词结果的方法、装置、设备及存储介质 [P] . 中国专利： CN109800428A . 2019-05-24
3. Systems and methods for automatically configuring training data for training machine learning models of a machine learning-based dialogue system including seeding training samples or curating a corpus of training data based on instances of training data identified as anomalous [P] . 美国专利： US10679150B1 . 2020-06-09

机译：用于自动配置用于训练基于机器学习的对话系统的机器学习模型的训练数据的系统和方法，该系统和方法包括基于被识别为异常的训练数据的实例来播种训练样本或策划训练数据的语料库
4. SYSTEMS AND METHODS FOR AUTOMATICALLY CONFIGURING TRAINING DATA FOR TRAINING MACHINE LEARNING MODELS OF A MACHINE LEARNING-BASED DIALOGUE SYSTEM INCLUDING SEEDING TRAINING SAMPLES OR CURATING A CORPUS OF TRAINING DATA BASED ON INSTANCES OF TRAINING DATA IDENTIFIEDAS ANOMALOUS [P] . 美国专利： US2020193331A1 . 2020-06-18

机译：用于自动配置基于机器学习的对话系统的训练机器学习模型的训练数据的系统和方法，包括基于异常的训练数据标识的实例的训练样本或创建训练数据的语料库
5. Systems and methods for constructing an artificially diverse corpus of training data samples for training a contextually-biased model for a machine learning-based dialogue system [P] . 美国专利： US10796104B1 . 2020-10-06

机译：用于构建人工多样化的训练数据样本语料库的系统和方法，用于训练基于机器学习的对话系统的上下文有偏模型