首页> 中国专利> 一种基于主动学习的中文正式文本分词方法

一种基于主动学习的中文正式文本分词方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本申请提供一种基于主动学习的中文正式文本分词方法，包括：使用当前的标注数据集L训练一个朴素贝叶斯分类器；使用当前的朴素贝叶斯分类器标注未标注数据集U；使用抽样方法选择最有信息量的片段给专家标注；将新抽样的标注好的片段添加到标注数据集L中；不断迭代直到预先设定的满足条件停止。本申请的方法能够有效减少人工标注数据的同时得到一个性能较好的分词器。采用主动学习的方法抽取数据训练得到的模型比随机抽取的方法抽取数据训练得到的模型性能(采用F值度量)提升5个百分点左右。主动学习结合EM迭代后抽取数据训练得到的模型比单独采用主动学习方法抽取数据训练得到的模型，每次性能均提升1.5个百分点左右。

著录项

公开/公告号CN108519978A

专利类型发明专利
公开/公告日2018-09-11

原文格式PDF
申请/专利权人成都信息工程大学;
展开▼

申请/专利号CN201810316873.1
发明设计人王亚强;何梦秋;何思佑;唐聃;舒红平;
展开▼

申请日2018-04-10
分类号G06F17/27(20060101);
代理机构11246 北京众合诚成知识产权代理有限公司;
代理人夏艳
地址 610225 四川省成都市西南航空港经济开发区学府路一段24号
入库时间 2023-06-19 06:28:31

法律信息

法律状态公告日

法律状态信息

法律状态
2018-10-09

实质审查的生效 IPC(主分类):G06F17/27 申请日:20180410

实质审查的生效
2018-09-11

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于主动学习的中文正式文本分词方法 [P] . 中国专利： CN108519978A . 2018-09-11
2. 一种基于C++语言的混合型中文文本分词方法 [P] . 中国专利： CN113033193A . 2021-06-25
3. A method of information modeling, representation and integration of arbitrary objects of information processes with different models of knowledge representation without the use of formal languages, a method of presenting semi-structured data describing these objects based on a limited collection of structured data [P] . RU2020107083A . 2021-08-16

机译：一种信息建模，表示和集成的信息进程与不同型号的知识表示的无需使用正式语言的方法，这是一种基于结构化数据的有限集合来呈现描述这些对象的半结构化数据的方法
4. Method of classifying and active learning that ranks entries based on multiple scores, presents entries to human analysts, and detects and/or prevents malicious behavior [P] . 美国专利： US7941382B2 . 2011-05-10

机译：一种分类和主动学习的方法，该方法基于多个分数对条目进行排名，将条目提供给分析人员，并检测和/或防止恶意行为
5. ARTIFICIAL COGNITIVE SYSTEM HAVING A PROACTIVE STUDYING FUNCTION USING AN UNCERTAINTY MEASURE BASED ON CLASS PROBABILITY OUTPUT NETWORKS AND PROACTIVE STUDYING METHOD FOR THE SAME [P] . 韩国专利： KR20140028784A . 2014-03-10

机译：具有基于类概率输出网络的不确定性度量的主动学习功能的人工认知系统及其主动学习方法