首页> 中国专利> 用于电子商务的商品信息翻译方法、系统和可读存储介质

用于电子商务的商品信息翻译方法、系统和可读存储介质

摘要

本发明涉及一种用于电子商务的商品信息翻译方法、系统和可读存储介质,方法包括:通过各电子商务平台的数据接口获取包括标签图像和商品识别信息的商品信息;进行风控内容过滤;对标签图像进行分析归类;进行字符识别,识别出标签及其标签内容,获取文本行;将属于同一行的多个文本行修复为同一行,得到修复文本行;采用数据匹配方法,根据修复文本行,匹配对应的预设的关键词模板,从而对关键词模板进行信息填充,获得标签信息表格;根据标签信息表格,生成商品数据。与现有技术相比,本发明便于在当前开放式的网络环境下,对各平台商品信息的提取与翻译,保证了翻译的商品信息的可靠性,提高了商品信息翻译的效率和便捷性。

著录项

  • 公开/公告号CN112308059A

    专利类型发明专利

  • 公开/公告日2021-02-02

    原文格式PDF

  • 申请/专利权人 中智关爱通(上海)科技股份有限公司;

    申请/专利号CN202011187164.1

  • 发明设计人 景海星;

    申请日2020-10-29

  • 分类号G06K9/20(20060101);G06K9/62(20060101);G06F16/33(20190101);G06F16/35(20190101);G06F40/186(20200101);G06F16/9535(20190101);G06Q10/06(20120101);G06Q30/06(20120101);

  • 代理机构31225 上海科盛知识产权代理有限公司;

  • 代理人赵继明

  • 地址 200233 上海市徐汇区宜山路700号12幢1-2层

  • 入库时间 2023-06-19 09:58:59

说明书

技术领域

本发明涉及电子商务信息处理领域,尤其是涉及用于电子商务的商品信息翻译方法、系统和可读存储介质。

背景技术

在当今电子商务日新月异的年代,降低自身采购成本并提高商品毛利率是在目前环境下电商企业的核心诉求之一。在开放式的网络环境下,电商企业获取其他平台的商品文本、图像进行翻译后转化为自己平台的商品。因此,如何基于众多平台当前接口进行可靠、高效率的商品信息翻译,是本发明所要解决的问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种可靠、高效率的用于电子商务的商品信息翻译方法。

本发明的目的可以通过以下技术方案来实现:

一种用于电子商务的商品信息翻译方法,包括以下步骤:

通过各电子商务平台的数据接口获取商品信息,该商品信息包括标签图像和商品识别信息;

对所述商品信息进行内容识别,从而过滤出与预设的风控内容一致的商品信息;

对所述标签图像进行预处理,实现分析归类;

根据预设的标签,对所述商品识别信息和预处理后的所述标签图像进行字符识别,识别出标签及其标签内容,从而获取文本行;

对所述文本行进行修复,将属于同一行的多个所述文本行修复为同一行,得到修复文本行;

采用预设的数据匹配方法,根据所述修复文本行中的标签及其标签内容,匹配对应的预设的关键词模板,从而对所述关键词模板进行信息填充,获得标签信息表格;

根据所述标签信息表格,生成商品数据。

进一步地,所述关键词模板包括名称关键词和关键信息,所述数据匹配方法包括以下步骤:

将一个所述修复文本行作为当前文本行;

若所述当前文本行包含所述标签及其标签内容,则根据所述标签匹配对应的关键词模板,将所述标签与所述关键词模板中的名称关键词对应,将所述标签内容与所述关键词模板中的关键信息对应;

若所述当前文本行只包含所述标签内容,则将所述标签内容与上一次处理的所述修复文本对应的关键词模板中的关键信息对应。

进一步地,所述名称关键词与多个所述标签对应。

进一步地,所述商品信息翻译方法还包括:若所述预设的关键词模板中不包含与所述修复文本行中的标签对应的关键词模板,则将所述修复文本行中的标签和标签文本填入预设的空白模板中,并存储为标签信息表格。

进一步地,所述将属于同一行的多个所述文本行修复为同一行具体为,依次对多个所述文本行进行识别,获取标签及其标签信息,若所述标签及其标签信息不在同一文本行中,则将该标签对应的标签信息填入该标签所在的文本行中。

进一步地,所述商品信息翻译方法还包括对所述商品数据进行商品SEO优化,所述商品SEO优化包括优化标题、主图、促销、评价和销量。

进一步地,所述商品信息翻译方法还包括对所述商品数据进行分类存储。

进一步地,所述预处理包括,对所述标签图像进行预处理,分类出图片主图及商品详情图。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上储存有计算机程序,所述计算机程序被处理器执行如上所述的方法。

本发明还提供一种采用如上所述的一种用于电子商务的商品信息翻译方法的商品信息翻译系统,包括:

商品信息识别翻译子系统,用于通过各电子商务平台的数据接口获取商品信息,该商品信息包括标签图像和商品识别信息;

对所述商品信息进行内容识别,从而过滤出与预设的风控内容一致的商品信息;

对所述标签图像进行预处理,实现分析归类;

根据预设的标签,对所述商品识别信息和预处理后的所述标签图像进行字符识别,识别出标签及其标签内容,从而获取文本行;

识别控制系统服务,用于对所述文本行进行修复,将属于同一行的多个所述文本行修复为同一行,得到修复文本行;

采用预设的数据匹配方法,根据所述修复文本行中的标签及其标签内容,匹配对应的预设的关键词模板,从而对所述关键词模板进行信息填充,获得标签信息表格;

根据所述标签信息表格,生成商品数据;

商品信息识别翻译存储服务,用于进行数据存储。

与现有技术相比,本发明具有以下优点:

(1)本发明对商品信息进行预先的处理后将所有收到的内容进行标签和标签信息提炼,并将这些标签与预设的关键词模板进行匹配,找到合适的商品模板,并将收到的内容填入对应值内,获得标签信息表格,从而生成商品数据,用于电子商务的展示,便于在当前开放式的网络环境下,对各平台商品信息的提取与翻译;

本发明对商品信息的预先处理过程包括风控内容的过滤,确保获取的信息符合规范;对标签图像的分析归类,便于后续的信息填充;

本发明还包括对识别出的文本行进行修复,将属于同一行的多个文本行修复为同一行,防止了在后续的关键词模板匹配过程中出现内容缺陷的问题;

从整体上,本发明保证了翻译的商品信息的可靠性,提高了商品信息翻译的效率和便捷性。

(2)本发明在数据匹配方法首先根据标签匹配关键词模板,将剩下的内容匹配关键信息,在数据匹配过程中还考虑到当前文本行不完整的问题,若当前文本行只包含标签内容,则将标签内容与上一次处理的修复文本对应的关键词模板中的关键信息对应。

(3)名称关键词与多个标签对应,可匹配多种形式的标签,适应性强。

(4)本发明还考虑到没有与标签对应的关键词模板的问题,采用将修复文本行中的标签和标签文本填入预设的空白模板中的方式,保证整个商品信息翻译过程的稳定可靠。

附图说明

图1为本发明用于电子商务的商品信息翻译方法的流程示意图;

图2为本发明用于电子商务的商品信息翻译系统的框图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

实施例1

如图1所示,本实施例提供一种用于电子商务的商品信息翻译方法,包括以下步骤:

通过各电子商务平台的数据接口获取商品信息,该商品信息包括标签图像和商品识别信息;

对商品信息进行内容识别,从而过滤出与预设的风控内容一致的商品信息;风控内容可以包括色情、暴恐、政治敏感、公众人物、广告检测、低俗辱骂、低质灌水、违禁图片、图文审核、低俗辱骂、低质灌水等文本内容,风控内容的识别与过滤方法为现有技术。

对标签图像进行预处理,实现分析归类;如分类出图片主图及商品详情图;

根据预设的标签,对商品识别信息和预处理后的标签图像进行字符识别,识别出标签及其标签内容,从而获取文本行;

对文本行进行修复,将属于同一行的多个文本行修复为同一行,得到修复文本行;

采用预设的数据匹配方法,根据修复文本行中的标签及其标签内容,匹配对应的预设的关键词模板,从而对关键词模板进行信息填充,获得标签信息表格;

根据标签信息表格,生成商品数据;

对商品数据进行分类存储;

对商品数据进行商品SEO优化,商品SEO优化包括优化标题、主图、促销、评价和销量;

关键词模板包括名称关键词和关键信息,数据匹配方法包括以下步骤:

将一个修复文本行作为当前文本行;

若当前文本行包含标签及其标签内容,则根据标签匹配对应的关键词模板,将标签与关键词模板中的名称关键词对应,将标签内容与关键词模板中的关键信息对应;

若当前文本行只包含标签内容,则将标签内容与上一次处理的修复文本对应的关键词模板中的关键信息对应。

进一步地,若当前文本行只包含标签,则根据标签匹配对应的关键词模板,将标签与关键词模板中的名称关键词对应。

名称关键词与多个标签对应。如名称关键词为商品类目,对应的标签可以为category、classify、itemize、classification等;名称关键词为商品名称,对应的标签可以为name、Pname、名称、品名、商品名称等。

商品信息翻译方法还包括:若预设的关键词模板中不包含与修复文本行中的标签对应的关键词模板,则将修复文本行中的标签和标签文本填入预设的空白模板中,并存储为标签信息表格。

将属于同一行的多个文本行修复为同一行具体为,依次对多个文本行进行识别,获取标签及其标签信息,若标签及其标签信息不在同一文本行中,则将该标签对应的标签信息填入该标签所在的文本行中。

数据接口为API数据接口。

本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上储存有计算机程序,所述计算机程序被处理器执行如上所述的方法。

如图2所示,本实施例还提供一种采用如上的一种用于电子商务的商品信息翻译方法的商品信息翻译系统,包括:

商品信息识别翻译子系统,用于通过各电子商务平台的数据接口获取商品信息,该商品信息包括标签图像和商品识别信息;

对商品信息进行内容识别,从而过滤出与预设的风控内容一致的商品信息;

对标签图像进行预处理,实现分析归类;

根据预设的标签,对商品识别信息和预处理后的标签图像进行字符识别,识别出标签及其标签内容,从而获取文本行;

识别控制系统服务,用于对文本行进行修复,将属于同一行的多个文本行修复为同一行,得到修复文本行;

采用预设的数据匹配方法,根据修复文本行中的标签及其标签内容,匹配对应的预设的关键词模板,从而对关键词模板进行信息填充,获得标签信息表格;

根据标签信息表格,生成商品数据;

商品信息识别翻译存储服务,用于进行数据存储。

具体地,商品信息识别翻译子系统连接有外部API接口数据、内容风控检索判定模块、图像预处理模块和文本预处理模块,商品信息识别翻译子系统包括商品模板检索判定模块、商品图像识别获取模块、商品文本识别获取模块、标签图像识别获取模块、商品属性识别获取模块和关键字识别获取模块;

识别控制系统服务包括商品模板修正模块、内容提取系统、内容数据信息匹配模块、修复处理系统和关键词检索记录;

商品信息识别翻译存储服务包括商品模板存储模块、商品图像存储模块、商品文本存储模块、商品属性存储模块、标签图像存储模块、表单生成填写模块和关键词存储模块。

具体实施过程:

本实施例提供一种商品信息识别并通过自身架构翻译为自己商品的能力,用于多平台类型商品图像、文本等进行识别,并根据识别内容信息进行自动化填写从而显示给用户查看,其特征在于包括:商品模板储存、标签图像获取、图像预处理、标签文本识别、文本行修复处理、模板检索判定、识别控制、关键词检索记录、数据信息匹配、表格生成填写、数据储存等。

本实施例的目的可以通过以下技术方案来实现:

一种电子商务商品信息识别获取翻译系统的方法,包括步骤:

1、内容风控检索判定,根据数据内容进行风控检索;由图像及文本预处理服务进行过滤综合了色情、暴恐、政治敏感、公众人物、广告检测、低俗辱骂、低质灌水、违禁图片、图文审核、低俗辱骂、低质灌水等文本内容进行识别并配合用户自定义黑白名单综合判断给出结果;

2、根据商品主属性进行商品模板检索判定,找出最符合当前商品的商品模板;

2.1、商品模板储存多类型多种商品识别信息以及该商品识别信息对应的关键字模板,该关键字模板包含名称关键字以及与所述名称关键字对应的单位信息;

2.2、标签图像:获取所述商品的标签图像以及相应的商品识别信息;

2.3、预处理:对标签图像和商品识别信息进行预处理,实现分析归类,例如对标签图像进行图片主图及商品详情图及其他类型图片的识别和分类,对数据接口提供的商品识别信息进行分析归类;

2.4、标签文本识别:通过对所述预处理后的标签图像和商品识别信息预处理标签进行字符识别,识别出预设的标签及其标签内容,从而构建文本行;

如,对相机的商品信息进行字符识别,预设的标签有“光圈”属性和“值”属性,一相机的商品信息中包含光圈的值为1.4~1.8f,进行字符识别后,光圈和值即为两个标签,这两个标签直接关联,标签内容是1.4~1.8f。

2.5、文本修复处理:根据所述信息将所述多个文本行中实际属于同一行的多行标签信息修复为同一行从而得到修复文本行。

举例,当模板内商品属性为服装,销售属性内有颜色和尺码,当分析预处理后的标签图像和商品识别信息后识别出标签为颜色,内容为“红”、“蓝”等情况的时候,将得到的文本行修复为同一行。将红和蓝作为销售属性填入对应字段内容。

2.6、商品模板检索判定:根据所述标签及其标签内容对所述商品模板储存进行检索从而判定所述标签图像文本是否具有相应的关键词模板。

2.7、所述模板检索判定具有所述关键词模板,识别控制所述关键词检索记录根据所述关键词模板依次对各行所述修复文本行中存在的所述标签及其标签信息进行检索,以及将所述标签及其标签信息分类为相应的名称关键词文本及与所述关键词对应的关键信息,控制所述文本依次获取,并控制所述数据信息匹配,通过预设的数据匹配方法将所述修复文本行中的所述标签及其标签信息进行对应匹配从而得到多个与所述名称关键词对应的数据结果信息,进一步控制所述生成填写表单根据所述关键词模板生成相应的模板表格并将所述数据结果信息依据相应的所述名称关键词填入所述模板表格从而得到标签信息表格。

3、若所述模板检索判定部判定不具有所述关键字模板,所述识别控制系统按所述标签文本内容自定义空白商品模板,将所述标签定义为新标签模板,将提取的标签信息作为提示文本、图像标签等填入此空白模板并行程标签表单储存。

4、根据默认数据匹配及修复处理后的数据将图像、文本填入商品表单后形成自己平台的商品并将数据分类储存。

5、提取名称关键词进行商品SEO优化,即优化标题、主图、促销、评价以及销量等,提升商品的综合排序。

数据匹配方法为:依次选择每一行的所述修复文本行作为当前文本行,若所述当前文本行中同时含有所述标签及其标签信息,则取出本行中的标签,对应所述关键字文本,并将剩下的所述数据文本以及所述单位文本(即标签信息)与该名称关键字进行匹配;若所述当前文本行只含有所述标签信息,则对该当前文本行不作处理;则将该行数据文本以与所述上一行的所述名称关键词进行匹配。

数据文本:即内容文本,标签对应的内容;单位文本:如果计量单位,长度单位等。

举例:

1)根据API对应关键词数据找到对应商品模板;

2)商品API数据中字段名称:category、classify、itemize、classification等作为我们商品类目进行商品关键词;

3)商品API数据中字段名称:name、Pname、名称、品名、商品名称提取后作为我们商品的名称“商品名称”;

4)商品API数据中字段名称:properity、attribute、tdTitle、ware、颜色、尺码、brandName、品牌、机型名称等提取后作为我们商品的“商品属性”;

5)商品API数据中字段名称:saleUnit、Company提取后作为我们商品的“销售单位”;

6)商品API数据中字段名称:imagePath、image提取后作为商品图片(img src、url);

7)商品API数据中字段名称:introduction、introduce提取后作为我们商品的介绍;

8)商品API数据中字段名称:skuPictureList、SkuPicture提取后作为我们商品的Sku(url)图;

9)商品API数据中字段名称:market price、pric、unit-price、selling price提取后作为我们商品的市场价与售价;

综上所述提取名称关键词及关键信息进行模板匹配,将有效值生成表单进行存储并形成自己的商品。

本实施例对商品信息进行预先的处理后将所有收到的内容进行标签和标签信息提炼,并将这些标签与预设的关键词模板进行匹配,找到合适的商品模板,并将收到的内容填入对应值内。

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号