首页> 中国专利> 一种面向航天情报的自动信息提取方法及系统

一种面向航天情报的自动信息提取方法及系统

摘要

本发明涉及航天情报获取技术领域,尤其涉及一种面向航天情报的自动信息提取方法及系统,所述方法包括:对接收的航天情报进行预处理;将预处理后的文本数据输入预先训练好的信息提取模型,得到符合预设的情报信息类型的关键信息;所述信息提取模型为BiLSTM‑CRF模型。本发明通过融合多源异构的知识资源构建自动标注工具,并构建了独有的中文航天文本专业语料库;自动标注航天情报文本,提高研究人员标注航天情报文档的效率;本发明提供的面向航天情报的自动信息提取方法,从标注到训练的一体式方法,在处理航天情报或者航天文档时,无需人工审阅总结,提高效率,并具有很高的准确率。

著录项

  • 公开/公告号CN113127503A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 中国科学院国家空间科学中心;

    申请/专利号CN202110291047.8

  • 发明设计人 魏明飞;陈志敏;高翔;姚秀娟;

    申请日2021-03-18

  • 分类号G06F16/242(20190101);G06F16/951(20190101);G06N3/04(20060101);

  • 代理机构11472 北京方安思达知识产权代理有限公司;

  • 代理人陈琳琳;杨青

  • 地址 100190 北京市海淀区中关村南二条1号

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及航天情报获取、航天文档管理、卫星网络资料申报、卫星网络频率和轨位资源态势分析技术领域,尤其涉及一种面向航天情报的自动信息提取方法及系统。

背景技术

当前航天情报资料的处理基本依赖主管部门或领域专家的人工操作的判断,且包含大量的重复性工作。随着商业航天的井喷式发展,积累的航天情报资料和航天技术文档在数量上呈指数级增长。此时传统的依赖人工的信息处理方式已经不足以应对实际的需要。

此外,由于航天领域的特殊性,往往领先者可以占据绝大部分优质的诸如频道、轨道的空间资源。鉴于这一特性,航天情报信息处理对时间效率具有极高的要求。

标注是信息提取的第一步,也是信息提取中工作量最大的一步。

发明内容

本发明的目的在于克服现有技术缺陷,提出了面向航天情报的自动信息提取方法及系统。

为了实现上述目的,本发明提出了一种面向航天情报的自动信息提取方法,所述方法包括:

对接收的航天情报进行预处理;

将预处理后的文本数据输入预先训练好的信息提取模型,得到符合预设的情报信息类型的关键信息;所述信息提取模型为BiLSTM-CRF模型。

作为上述方法的一种改进,所述对接收的航天情报进行预处理;具体为:对航天情报进行数据清洗,去除特殊符号、图片、视频和url链接,得到文本格式数据。

作为上述方法的一种改进,所述信息提取模型的输入为预处理后的文本格式数据,输出为符合预设的情报信息类型的关键信息,所述情报信息类型包括发射地点或地面观测点、发射工具的名称型号信息、航天器名称、主管或关联单位信息和其他技术信息,其中,所述其他技术信息包括重要携带设备、关键技术和技术参数;所述BiLSTM-CRF模型包括嵌入层、BiLSTM层和CRF层,其中嵌入层的词向量维数为256,BiLSTM层的隐向量维数为256。

作为上述方法的一种改进,所述方法还包括基于监督学习对信息提取模型进行训练的步骤;具体包括:

获取知识信息,进行知识结构化,建立知识库;

获取原始语料,进行预处理得到文本格式数据;

对预处理后的一部分文本格式数据基于知识库进行自动标注,对预处理后的另一部分文本格式数据进行人工标注,自动标注和人工标注后的数据格式均为BIO格式;

从BIO格式数据中选取部分组成训练集;

将训练集输入信息提取模型进行训练,学习率为0.001,训练次数为30,调整模型参数,直至得到训练好的信息提取模型。

作为上述方法的一种改进,所述获取知识信息,进行知识结构化,建立知识库;具体为:

从现有的卫星数据库和发射数据库获取知识信息;

从网络获取火箭发射记录和卫星发射记录;

从网络获取航天相关的百科信息;

从知识信息、发射记录和百科信息中提取情报信息,并将情报信息结构化为Json格式,建立知识库。

作为上述方法的一种改进,所述获取原始语料,进行预处理得到文本格式数据;具体为:

获取航天类网站的文章作为原始语料;

对原始语料进行数据清洗,去除特殊符号、图片、视频和url链接,得到文本格式数据。

作为上述方法的一种改进,所述对预处理后的一部分文本格式数据基于知识库进行自动标注,具体为:

将文本格式数据以句子为最小单位进行切分;

以知识库为标注指导,由前向匹配、后向匹配或双向匹配算法对单个句子进行匹配,选取最优结果,完成自动标注;所述最优结果为将句子切分的子单位数量最少并且标注的实体的总长度最长。

一种面向航天情报的自动信息提取系统,所述系统包括:预先训练好的信息提取模型、预处理模块和提取输出模块;

所述预处理模块,用于对接收的航天情报进行预处理;

所述提取输出模块,用于将预处理后的文本数据输入预先训练好的信息提取模型,得到符合预设的情报信息类型的关键信息。

与现有技术相比,本发明的优势在于:

1、本发明提供从标注到训练的一体式方法,在处理航天情报或者航天文档时,无需人工审阅总结,提高效率,而且具有很高的准确率;

2、本发明通过融合多源异构的知识资源构建自动标注工具,自动标注航天情报文本,提高研究人员标注航天情报文档的效率,从而提升研究航天情报信息提取的效率,助力航天情报信息提取的效率。

3、本发明适合目前航天行业井喷的新装。

附图说明

图1是本发明的数据标注过程示意图;

图2是本发明的信息提取模型训练过程示意图;

图3是本发明的信息提取模型结构示意图。

具体实施方式

本发明算法采用前向最大匹配、后向最大匹配、双向最大匹配的三种匹配方式,基于多数据库以及网络百科等多源异构知识。构建了一个自动标注工具,该工具能够自动标注一定年限内的航天文本。本发明过程中还构建了独有的中文航天文本专业语料库,同时提出了一个基于深度神经网络的航天情报信息提取算法。

本发明通过融合多源异构的知识资源构建自动标注工具,自动标注航天情报文本。提高研究人员标注航天情报文档的效率,从而提升研究航天情报信息提取的效率,助力航天情报信息提取的效率。

本发明对《无线电规则》条款的信息提取主要包括2个处理模块:文本预处理和条款理解。此外,还构建了基于频率申报领域的专业语料库。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

本发明的实施例1提出了一种面向航天情报的自动信息提取方法。方法包括:

对接收的航天情报进行预处理;将预处理后的文本数据输入预先训练好的信息提取模型,得到符合预设的情报信息类型的关键信息。

本发明对航天文本的信息提取主要包括2个部分:航天情报自动标注部分、航天情报信息提取部分,此外,还构建了基于频航天情报领域的专业语料库,具体说明如下:

一、航天情报自动标注

以国际电联官方的数据库和相关部门的数据库为基础,融合NASA官网、维基百科、百度百科、航天爱好者网等网络知识。基本覆盖一定时间区间内所有的航天事件及航天积累信息。然后将所有知识进行格式化、结构化,并存储为Json格式的文件。以这些知识为基础,利用前向、后向、双向这三种最大匹配算法对航天情报进行标注。自动标注模块如图1所示。具体标注流程包括:

1知识库构建:

知识信息:

a)卫星数据库、发射数据库等(这部分只有国内信息)

b)网络爬取火箭发射记录、卫星发射记录等等。(国内外信息)

c)爬取航天相关的百科信息(国内外信息)

知识结构化:

d)整理以上知识,选取待抽取的情报信息类(比如:发射地或地面观测点、发射工具(火箭或航天飞机的名称型号信息)、卫星或飞行器名称、主管单位或关联的组织机构、其他重要携带设备/关键技术/技术参数等。共五类信息)

e)使用智能算法和人工辅助将获取的知识信息筛选、归纳为d步骤中的五类。并结构化为Json格式

2原始语料的获取:

a)将所有积累的航天情报文本,爬取国家航天局、国家空间科学中学、太空网、航天爱好者网等航天类网站的文章共同作为原始语料。

b)对原始语料进行数据清洗,去除特殊符号、图片、视频、url链接等等,仅保留文章信息。

c)将所有文章以句子为最小单位切分,按时间年限切分训练集、验证集、测试集。保存为txt格式文本。

3自动标注:

以知识库为标注指导,以前向匹配、后向匹配、双向匹配算法对处理后中的单个句子进行匹配,选取最优结果(最优结果标注的标准为:将句子切分的子单位数量最少、标注的实体的总长度最长)。

4人工标注

使用标注工具brat标注部分测试集。

最终获得:训练集/验证集/测试集。标注格式为BIO格式。

二、航天情报信息提取

首先将积累的航天情报文本做简单的预处理,然后使用自动标注模块对其进行标注。即得到标注好的航天领域专业语料库。同时用该语料库训练深度神经网络,最终得到可以自动从航天情报文本中进行信息提取的算法。具体流程如图2所示。神经网络为BiLSTM+CRF,网络结构图如图3所示。

损失函数:真实标注得分与预测标注得分的差值(得分是由CRF的前向算法计算得到)

参数设置:

batch_size=64

#学习速率

lr=0.001

epoches=30

print_step=5

emb_size=256#词向量的维数

hidden_size=256#lstm隐向量的维数

三、航天情报信息提取专业语料库

以某一份航天情报中的一段话为例:

“一枚“联盟-2.1b”运载火箭于莫斯科时间9月28日14时20分(北京时间19时20分)从俄西北部阿尔汉格尔斯克州普列谢茨克发射场发射升空,火箭载有3颗“信使-M”通信卫星和19颗微型卫星。目前,所有卫星已成功进入预定轨道。报道说,这是俄罗斯今年首次使用“联盟-2.1b”运载火箭发射“信使-M”卫星。“信使”系列卫星组成俄罗斯唯一一套低轨道移动通信卫星系统,可在全球范围内交换和转播信息,能把移动目标的格洛纳斯导航坐标数据传递给远方的监控中心。”

大多情报都与以上情报类似,在一段情报文本中包含若干个重要的信息,通过归纳总结将待抽取的信息划分为五类:发射场地或地面监测站、运载工具、飞行器或卫星、相关联的组织机构、其他重要的技术指标和参数。通过融合多源异构知识的标注工具,为航天情报标注以上五大类信息。标注格式选用实体识别中常用的“BIO”标注格式。最终使用自动标注工具标注近万份航天情报,同时用人工标注了几百份航天情报,得到最终的航天情报信息提取专业语料库。

实施例2

本发明的实施例2提出了一种面向航天情报的自动信息提取系统,所述系统包括:预先训练好的信息提取模型、预处理模块和提取输出模块;

所述预处理模块,用于对接收的航天情报进行预处理;

所述提取输出模块,用于将预处理后的文本数据输入预先训练好的信息提取模型,得到符合预设的情报信息类型的关键信息。

具体处理方法同实施例1。

本发明的创新点如下:

1)融合数据库、网络知识、技术文档等多源异构知识作为标注工具的标注依据。

2)使用前向最大匹配,后向最大匹配、双向最大匹配三种匹配算法对航天情报标注。

3)通过自动标注工具对航天情报进行标注,构建航天情报语料库,使用该语料库训练航天情报信息抽取神经网络,最终得到可以自动从航天情报中抽取关键信息的系统。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号