首页> 中国专利> 一种基于文本的自动识别文献研究的方法

一种基于文本的自动识别文献研究的方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于文本的自动识别文献研究的方法，包括首先基于CRF模型对已经标注少量的数据建模，然后对未标注数据进行预测，再从大部分预测标注集合中挑选尽量少的部分数据进行人工标注，接着将标注后的结果在加入到原有语料中重新建模，适当迭代该过程得到最终模型，而此模型即可用于对科技文献的研究对象进行抽取，步骤一，获取科技文献标题，并做初次标注，步骤二，对数据进行标准化处理，步骤三，模型特征化提取，步骤四，训练数据，步骤五，提取部分未标注数据，并进行标记，步骤六，对模型准确率评估，在机器学习模型中优化的引入人工评定，可有效提高学习模型的改进效果的同时，能够尽量节省人工标注的成本。

著录项

公开/公告号CN107291708A

专利类型发明专利
公开/公告日2017-10-24

原文格式PDF
申请/专利权人中国学术期刊(光盘版)电子杂志社有限公司;
展开▼

申请/专利号CN201610191091.0
发明设计人贺惠新;刘丽娟;曹宇;
展开▼

申请日2016-03-30
分类号G06F17/30(20060101);G06F17/27(20060101);
代理机构11369 北京远大卓悦知识产权代理事务所(普通合伙);
代理人史霞
地址 100084 北京市海淀区清华园清华大学36区1407、1408、1409
入库时间 2023-06-19 03:35:50

法律信息

法律状态公告日

法律状态信息

法律状态
2017-11-24

实质审查的生效 IPC(主分类):G06F17/30 申请日:20160330

实质审查的生效
2017-10-24

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于文本的自动识别文献研究的方法 [P] . 中国专利： CN107291708A . 2017-10-24
2. 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置 [P] . 中国专利： CN111158641A . 2020-05-15
3. Method for automatic recognition and storage of product properties from product description texts, involves searching description texts from lists based on specific terms so that agreeing terms are stored as product property terms [P] . 德国专利： DE102013000669A1 . 2014-07-17

机译：从产品描述文本自动识别和存储产品属性的方法，涉及基于特定术语从列表中搜索描述文本，以便将约定的术语存储为产品属性术语
4. The system and method based on computer for the development of monolingual documents systems based computer to translate text input in language source for a foreign language and to desInvolvement of documents mono and multilingual translation method based on the computer to translate the text in the language source for a language estrageira method based on computer for developmentThe documents mono and multilingual translation and domain model tripartite [P] . BR9307175A . 1999-03-30

机译：用于开发单语文档的基于计算机的系统和方法基于计算机的系统，用于翻译外语源中的文本输入，并且基于计算机的单，多语翻译方法涉及用于翻译语言源中的文本的计算机。一种基于计算机的语言开发方法用于文档开发单，多语言翻译和领域模型三方
5. A method for automatically detecting for the purpose of cross notch in the form of text - or line masters eingefuegten halftone images are during the scanning operation in the method according to the facsimile or otherwise, in particular or otherwise for the remote transmission of printed products, e.g, newspaper pages [P] . 德国专利： DE1241866B . 1967-06-08

机译：一种用于自动识别文本或线型原版网版半色调图像的方法，该方法是在扫描操作过程中根据传真或其他方式（尤其是远程传输印刷产品）进行的，例如报纸页