首页> 中国专利> 一种基于领域分析的金融产品图片信息识别方法

一种基于领域分析的金融产品图片信息识别方法

摘要

本发明公开了一种基于领域分析的金融产品图片信息识别方法,包括如下步骤:数据准备工作,从各渠道汇总金融市场数据在数据仓库中进行持久化,并对原始数据建立数据模型;用形式化的方法准确描述金融产品的领域模型,建立领域模型中模型属性与金融市场数据仓库中数据字段的关联关系;识别用户提供的金融产品图片中所有位置连续的数值型变量;利用大数据分析平台的大规模并行计算能力,根据领域模型计算输出结果与领域模型属性的匹配度,从而对金融产品图片信息进行解读。本发明降低普通用户理解金融产品的门槛,提高了金融产品相关图片信息的识别精度。

著录项

  • 公开/公告号CN107423359A

    专利类型发明专利

  • 公开/公告日2017-12-01

    原文格式PDF

  • 申请/专利号CN201710458165.7

  • 发明设计人 杨益明;

    申请日2017-06-16

  • 分类号

  • 代理机构上海汉声知识产权代理有限公司;

  • 代理人郭国中

  • 地址 200120 上海市浦东新区自由贸易试验区杨高南路729号第41层

  • 入库时间 2023-06-19 03:56:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-29

    授权

    授权

  • 2017-12-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170616

    实质审查的生效

  • 2017-12-01

    公开

    公开

说明书

技术领域

本发明涉及到图片识别领域,具体地,涉及到一种基于领域分析的金融产品图片信息识别方法,通过对图片中数值的识别、结合领域模型分析被识别数值之间的关联关系,从而对该金融产品图片进行准确解读。

背景技术

金融产品具有专业性与严谨性的特点:专业性体现在拥有大量的专业术语与背后隐含的内在含义,使得未经专业训练的普通公众对于理解金融产品的消费与解读存在门槛;严谨性体现在金融产品的各种属性之间存在数理上的关联关系,细小的误差会造成失之毫厘谬以千里的结果。目前的OCR技术对于识别文字与数字有广泛应用,但是对于金融产品图片的识别无论在精度还是在解读上均无法满足要求。图片识别技术,例如人脸识别、验证码识别,主要基于特征的比对技术,得到2张图片的相似度值。

现有技术中不能够准确识别金融产品图片中各数值项代表的含义,也不能解读金融产品图片中各数值项之间的关联关系,这样就降低普通用户理解金融产品的门槛。

发明内容

针对上述技术问题,本发明的目的在于提供一种基于领域分析的金融产品图片信息识别方法,将图片识别中的数字识别技术与领域模型相结合,能够达到准确识别与解读金融产品图片信息的功效。

为实现上述目的,本发明是根据以下技术方案实现的:

一种基于领域分析的金融产品图片信息识别方法,其特征在于,包括如下步骤:

步骤S1:数据准备工作,从各渠道汇总金融市场数据在数据仓库中进行持久化,并对原始数据建立数据模型;

步骤S2:用形式化的方法准确描述金融产品的领域模型,建立领域模型中模型属性与金融市场数据仓库中数据字段的关联关系;

步骤S3:识别用户提供的金融产品图片中所有位置连续的数值型变量;

步骤S4:利用大数据分析平台的大规模并行计算能力,根据领域模型计算输出结果与领域模型属性的匹配度,从而对金融产品图片信息进行解读。

上述技术方案中,所述步骤S1包括:

步骤S101:定义目标数据的范围,及获取渠道;

步骤S102:从数据建模角度建立数据的实体对象、对象间的关系、对象的属性列表,所述实体对象包括基金、指数,所述基金拥有净值、历史净值集合、基金代码属性;

步骤S103:通过http、socket或向外部采购数据,获取上一步骤所需要的数据,并持久化到数据仓库中。

上述技术方案中,所述步骤S2包括:

步骤S201:从业务角度识别金融产品领域中的领域实体对象E、对象间的关系、对象的属性集合;对象属性集合分为2种类型:实体客观事实的属性F,代表随客户个体差异而可变的实体属性P;客观事实属性F直接对应金融超市数据仓库中的实体属性;

步骤S202:使用形式化语言,建立领域实体属性之间的关系集合FORMULA,formula为FORMULA中的一条规则;FORMULA由业务专家根据面向的金融产品来定义。规则f的形式为等式,formula中的变量来自于F和P。

步骤S203:建立领域实体客观事实属性F到数据实体属性之间的映射关系。

上述技术方案中,所述步骤S3包括:

步骤S301:建立一次识别过程,通过交互式手段获取针对一个金融产品的不同截图;

步骤S302:使用OCR技术识别图片中的连续数字,并为其赋予临时变量名及查准度;

步骤S303:去除查准度低于预设阈值的结果,其他结果作为本步骤的输出集合O。

上述技术方案中,所述步骤S4包括:

步骤S401:循环取出所有关系集合FORMULA中的公式formula;

步骤S402:从数据仓库中获取每一个公式formula中所有实体客观事实的属性F数据的值,作为公式formula中F的确定值;

步骤S403:从步骤S3输出的连续数字变量集合中,取出所有数字变量的组合C={c1,c2…cn},C的大小为公式formula中P={p1,p2..pn}变量的个数,代入计算公式f是否在该组组合C下成立,如果成立,则标记cn命中pn的数量加1,循环结束;

步骤S404:获取命中率最高的一组cn→pn的映射,作为对数字变量c的识别结果。

本发明与现有技术相比,具有如下有益效果:

由于采用了上述技术方案,本发明降低普通用户理解金融产品的门槛,此外,本发明还提高了金融产品相关图片信息的识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1为本发明的一种基于领域分析的金融产品图片信息识别方法的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

图1为本发明的一种基于领域分析的金融产品图片信息识别方法的示意图,如图1所示,本发明的一种基于领域分析的金融产品图片信息识别方法,包括如下步骤:

步骤S1:数据准备工作,从各渠道汇总金融市场数据在数据仓库中进行持久化,并对原始数据建立数据模型;

步骤S2:用形式化的方法准确描述金融产品的领域模型,建立领域模型中模型属性与金融市场数据仓库中数据字段的关联关系;

步骤S3:识别用户提供的金融产品图片中所有位置连续的数值型变量;

步骤S4:利用大数据分析平台的大规模并行计算能力,根据领域模型计算输出结果与领域模型属性的匹配度,从而对金融产品图片信息进行解读。

步骤S1包括:

步骤S101:定义目标数据的范围,及获取渠道;常见的金融市场数据有指数,例如沪深300、中证500等、基金包括基金净值、日涨跌幅、交易费率等。需要获取的数据,和识别面向的产品类型有关,一般需要由业务专家来挑选。过大的目标数据范围会导致识别速度和准确率的降低,过小的目标数据范围则可能造成识别失败。

步骤S102:从数据建模角度建立数据的实体对象、对象间的关系、对象的属性列表,所述实体对象包括基金、指数,所述基金拥有净值、历史净值集合、基金代码的属性;

步骤S103:通过http、socket或向外部采购数据,获取上一步骤所需要的数据,并持久化到数据仓库中。

步骤S2包括:

步骤S201:从业务角度识别金融产品领域中的领域实体对象、对象间的关系、对象的属性集合;客观事实属性F直接对应金融超市数据仓库中的实体属性。

步骤S202:使用形式化语言,建立领域实体属性之间的关系集合FORMULA,formula为FORMULA中的一条具体规则;FORMULA由业务专家根据面向的金融产品来定义。规则f的形式为等式,formula中的变量来自于F和P。形式化语言中,E代表实体、F代表实体客观事实的属性,这些属性对应公开市场的数据,并不以用户个体的差异而有改变,例如基金净值,P代表可随客户个体差异而可变的实体属性,例如个人的基金持仓份额,操作符为数学运算符,例如E[个人基金持仓].P[日涨跌幅]=E[个人基金持仓].P[持有份额]*(E[基金].F[T-1净值]-E[基金].F[T-2净值]),表示基金个人持仓日涨跌幅的计算公式。不同的识别对象,选择的公式也会不同,这些公式由业务专家定义,一般是行业内的标准规范。

步骤S203:建立领域实体属性到数据实体属性之间的映射关系。

步骤S3包括:

步骤S301:建立一次识别过程,通过交互式手段获取针对一个金融产品的不同截图;

步骤S302:使用OCR技术识别图片中的连续数字,并为其赋予临时变量名及查准度;

步骤S303:去除查准度低于预设阈值的结果,其他结果作为本步骤的输出集合O。

步骤S4包括:

步骤S401:循环取出所有关系集合FORMULA中的公式formula;

步骤S402:从数据仓库中获取每一个公式formula中所有实体客观事实的属性F数据的值,作为公式formula中F的确定值;

步骤S403:从步骤S3输出的连续数字变量集合中,取出所有数字变量的组合C={c1,c2…cn},C的大小为公式formula中P={p1,p2..pn}变量的个数,代入计算公式formula是否在该组组合C下成立,如果成立,则标记cn命中pn的数量加1,循环结束;

步骤S404:获取命中率最高的一组cn→pn的映射,作为对数字变量c的识别结果。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号