首页> 中国专利> 一种基于模式识别的英文论文文档多粒度内容处理方法

一种基于模式识别的英文论文文档多粒度内容处理方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及一种基于模式识别的英文论文文档多粒度内容处理方法，属于信息处理技术领域。本方法，针对英文PDF格式论文文档内容识别处理面临的问题，将论文按章、节、段落拆分为更小粒度的内容子单元，并将论文中的表格、图形、算法等非文本内容单独抽取，同时，保留各个子单元原有的语义关系和上下文联系，以便后续应用。在进行信息抽取时，通过利用文本内容之间的语义关联及文本位置信息，能够高效、快速、准确地识别目标文本内容对象。

著录项

公开/公告号CN112597267A

专利类型发明专利
公开/公告日2021-04-02

原文格式PDF
申请/专利权人北京理工大学;
展开▼

申请/专利号CN202011474201.7
发明设计人牛振东;易坤;张春霞;朱一凡;何慧;
展开▼

申请日2020-12-14
分类号G06F16/31(20190101);
代理机构11639 北京正阳理工知识产权代理事务所(普通合伙);
代理人张利萍
地址 100081 北京市海淀区中关村南大街5号
入库时间 2023-06-19 10:27:30

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-20

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种基于模式识别的英文论文文档多粒度内容处理方法 [P] . 中国专利： CN112597267A . 2021-04-02
2. 一种科技期刊论文word文档的结构化处理方法及装置 [P] . 中国专利： CN108153717A . 2018-06-12
3. Method and apparatus for document processing using agents to process transactions created based on document content [P] . 美国专利： US6012083A . 2000-01-04

机译：使用代理处理基于文档内容创建的交易的文档处理方法和装置
4. Method for learning to infer the topical content of documents based upon their lexical content [P] . 美国专利： US5687364A . 1997-11-11

机译：一种基于词汇内容来推断文档主题内容的学习方法
5. The data processing method the present application and switching facilities to support the link layer security transmission, submitted to the China Patent Office on December 20, 2010, application number is 201010596665.5, invention names support the "link layer security transmission This application claims priority based on Chinese patent application is a data processing method "and switching equipment to, and incorporated herein in its entirety by disclosure. [P] . 日本专利： JP2014505402A . 2014-02-27

机译：本申请支持交换层安全传输的数据处理方法和交换设备，于2010年12月20日提交给中国专利局，申请号为201010596665.5，发明名称支持“链路层安全传输，本申请要求基于中国专利申请是一种“数据处理方法”和“将设备切换到”，并通过公开内容整体并入本文。