首页> 中国专利> 一种从文本中获取物品属性值的方法和装置

一种从文本中获取物品属性值的方法和装置

摘要

本发明提供一种从文本中获取物品属性值的方法和装置,能够使具有相同属性的商品有相同的属性值。该方法包括:根据预先针对物品的各种属性分别设置的属性值抽取规则,从所述文本中抽取物品的一个或多个属性的属性值;对于成功抽取到属性值的属性,以该属性值的预设标准形式将该属性值保存在所述物品的条目中;对于未能抽取出属性值的属性,在预先保存的该属性的属性值集合中查找该属性值,然后以预设的该属性值的标准形式将该属性值保存在所述物品的条目中。

著录项

  • 公开/公告号CN103235803A

    专利类型发明专利

  • 公开/公告日2013-08-07

    原文格式PDF

  • 申请/专利权人 北京京东尚科信息技术有限公司;

    申请/专利号CN201310133719.8

  • 发明设计人 陆强;

    申请日2013-04-17

  • 分类号G06F17/30;G06F17/21;

  • 代理机构中原信达知识产权代理有限责任公司;

  • 代理人刘光明

  • 地址 100080 北京市海淀区苏州街20号2号楼2层

  • 入库时间 2024-02-19 19:20:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-12-28

    授权

    授权

  • 2013-09-04

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130417

    实质审查的生效

  • 2013-08-07

    公开

    公开

说明书

技术领域

本发明涉及一种从文本中获取物品属性值的方法和装置。

背景技术

当前电子商务空前繁荣,各种大大小小的电商网站已近千家,为 满足用户从如此繁多的电商网站上方便、快捷地找到性价比高、价格 便宜、服务质量好的心仪商品,目前已实现了全网B2C(Business to  Consumer)网站(是指提供企业对客户间电子商务活动平台的网站) 的商品比价系统。比价系统的关键是商品的归一化。即:同一款商品 在不同网站有其各自不同的描述方式,在这五花八门的描述中,需要 识别出属于同一款的商品。例如,某一网站中的手机“中兴U950”在 另一网站中被描述成“ZTE U950”,虽然描述该商品采用的文本不相 同,但实质上是同一型号的商品,但是现有技术中的比价系统通常采 用文本匹配的方式识别商品,就会认为这是两种商品,将它们分列在 两个商品的条目中,后续还需人工进行修改。在当前商品种类呈现海 量状态的情况下,人工修改由于其效率较低,难以较好地做到同一型 号商品都列在同一商品条目中。比价系统是按商品条目中的各个B2C 网站的价格进行比较,如以下商品的条目:

表1

商品 网站1 网站2 网站3 网站4 中兴U950 949   955(带票)   ZTEU950   945   940

可以看出,由于对同一商品的描述不同,比价系统中的商品条目 中,认为手机“中兴U950”只在网站1和网站3中销售,手机“ZTE U950” 只在网站2和网站4中销售。这样,用户搜索“中兴U950”进行比价 时,只是将网站1和网站3的价格比较;用户搜索“ZTE U950”进行 比价时,只是将网站2和网站4的价格比较。这样比价的全面性显然 受到影响。原因在于从“中兴U950”和“ZTE U950”中得到的信息不 同。一般来说,每种商品包含一组属性,例如“品牌”、“型号”、 “颜色”等。相同的商品,其属性应当相同,例如中兴品牌的U950型 手机,它们的品牌与型号的属性应该相同。但是目前各种场合中,包 括各个B2C网站以及其他的媒体中,对于商品的相同属性却有不同的 描述,其中原因也比较复杂,例如8G的手机内存,其描述有“8G”、 “8GB”等,又如一款手机的相同型号的描述有“HTC G13”、“HTC Wildfire S”、“HTC野火S”“HTC A510e”等不同形式。

对于各网站对于商品的种种不同的描述,需要有一种从这些描述 的文本中获取商品属性值的方法,使具有相同属性的商品有相同的属 性值。

发明内容

有鉴于此,本发明提供一种从文本中获取物品属性值的方法和装 置,能够使具有相同属性的商品有相同的属性值。

为实现上述目的,根据本发明的一个方面,提供了一种从文本中 获取物品属性值的方法。

本发明的从文本中获取物品属性值的方法中,所述文本中包含物 品的一个或多个属性和对应的属性值,该方法包括:根据预先针对物 品的各种属性分别设置的属性值抽取规则,从所述文本中抽取物品的 一个或多个属性的属性值;对于成功抽取到属性值的属性,以该属性 值的预设标准形式将该属性值保存在所述物品的条目中;对于未能抽 取出属性值的属性,在预先保存的该属性的属性值集合中查找该属性 值,然后以预设的该属性值的标准形式将该属性值保存在所述物品的 条目中。

可选地,所述属性值抽取规则是针对物品的每项属性分别设置的 多条属性值抽取规则;在从所述文本中抽取物品的一个或多个属性的 属性值的步骤中,针对物品的每项属性,依次按照所述属性值抽取规 则进行属性值抽取,当抽取到一个属性值后,开始针对物品的下一项 属性进行属性值抽取。

可选地,所述物品是电子商务中的商品。

可选地,所述文本中包含所述商品的品牌和型号。

根据本发明的另一方面,提供了一种从文本中获取物品属性值的 装置。

对于本发明的从文本中获取物品属性值的装置,该文本中包含物 品的一个或多个属性和对应的属性值,该装置包括:第一抽取模块, 用于根据预先针对物品的各种属性分别设置的属性值抽取规则,从所 述文本中抽取物品的一个或多个属性的属性值;保存模块,用于对于 成功抽取到属性值的属性,以该属性值的预设标准形式将该属性值保 存在所述物品的条目中;第二抽取模块,用于对于所述第一抽取模块 未能抽取出属性值的属性,在预先保存的该属性的属性值集合中查找 该属性值,然后以预设的该属性值的标准形式将该属性值保存在所述 物品的条目中。

可选地,所述属性值抽取规则是针对物品的每项属性分别设置的 多条属性值抽取规则;所述第一抽取模块还用于在从所述文本中抽取 物品的一个或多个属性的属性值时,针对物品的每项属性,依次按照 所述属性值抽取规则进行属性值抽取,当抽取到一个属性值后,开始 针对物品的下一项属性进行属性值抽取。

可选地,所述物品是电子商务中的商品。

可选地,所述文本中包含所述商品的品牌和型号。

根据本发明的技术方案,通过预设的属性值抽取规则或者属性值 集合来获得物品的属性值,再将该属性值标准化,实现了向物品的条 目中添加该物品的标准化的属性值,这样对于从各种来源获得的物品 条目,只要它们具有相同的属性,条目内就具有相同的属性值,从而 可以利用该属性值获取具有相同属性值的物品的各种来源的条目信 息。在电子商务领域,根据上述步骤处理商品的信息,可以使多个电 子商务网站的商品记录中包含的商品属性具有标准化的字段,使具有 相同属性的商品具有相同的属性值,从而利用这一点可以实现全面的 电子商务网站间的商品比价等横向信息处理。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是根据本发明实施例的从文本中获取物品属性值的方法的基 本步骤的示意图;

图2是根据本发明实施例的从文本中获取物品属性值的装置的基 本结构的示意图;

图3是根据本发明实施例的商品属性抽取系统的优选结构的示意 图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发 明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。 因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做 出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清 楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的从文本中获取物品属性值的方法的基 本步骤的示意图。如图1所示,本发明实施例的从文本中获取物品属 性值的方法主要包括步骤S11至步骤S15。

步骤S11:读取一条文本。该文本中包含物品的一个或多个属性 和对应的属性值。例如电子商务中的商品,物品即为商品,属性例如 品牌、型号等,属性值是具体的品牌名、型号名等。例如某手机,品 牌属性的一个属性值是HTC,型号属性的一个属性值是G13。本步骤 中的文本可以是从各个网站获得。例如对于数码产品,从各种数码产 品的专业网站中,采用网络数据抓取技术可以获取各种商品的属性以 及相应的属性值。获取到的文本通常包含多个条目,每个条目有一种 商品的品牌、型号,有时也包含该商品的外观信息例如颜色。例如“西 门子3518i珠莹灰”。图1所示的流程是针对1条文本条目的处理, 对于更多的文本可以逐条采用图1的流程处理。该文本也可以包含更 多信息,以商品为例,该文本可以是一条商品记录,其中可以包含商 品价格、促销信息等,而商品的属性值通常是商品记录的标题。

步骤S12:从步骤S11中读取的文本中抽取物品的一个或多个属 性的属性值。本步骤中的属性值抽取是根据预先设定的属性值抽取规 则。属性值抽取规则是根据各种已知的属性值的文本字段的特点归纳 而得到,对此将在后文中作进一步说明。

采用属性值抽取规则进行属性值抽取,有时能够抽取到属性值, 有时则不能。对于抽取到属性值的情况,本步骤之后转入步骤S13;对 于没有抽取到属性值的情况,本步骤之后转入步骤S14。

步骤S13:以抽取到的属性值的预设标准形式将该属性值保存在 物品的条目中。例如预先设定:品牌属性值“中兴”、“ZTE”、“ZTE (中兴)”的标准形式是“中兴”,从网站1抽取的品牌属性值为“中 兴”,型号属性值为“U950”,从网站2抽取的品牌属性值为“ZTE”, 型号属性值为“U950”,则在商品记录中都保存为“中兴”。并且将 “中兴”、“ZTE”保存在品牌属性的属性值集合中。该集合包含各种 品牌属性,例如该集合中包含“中兴”、“ZTE”、“ZTE(中兴)”、 “西门子”、“SIEMENS”、“HTC”、“华为”、“HUAWEI”等。

物品的条目包含物品的详细信息,以商品为例,商品条目包含商 品的品牌、型号(这两项通常在商品条目的标题中),还可以包含商 品的颜色、价格、促销信息等。

步骤S14:在预先保存的该属性的属性值集合中查找该属性值。 可以采用字段匹配的方式来查找。例如从文本条目“HTC野火S黑色” 中,抽取到了品牌属性值“HTC”,但未抽取到型号属性值,即从型 号属性值集合中查找“野火S”。例如该型号属性值集合中包含“G13”、 “Wildfire S”、“野火S”、“A510e”、“3518”、“3518i”、“U950” 等,即可查到“野火S”。如果对于某项属性的属性值仍未查到,可以 采取人工的方式将该属性值添加到属性值集合中,这样属性值集合会 不断扩充和完善。本步骤之后进入步骤S15。

步骤S15:以预设的该属性值的标准形式将步骤S14中查找到的 属性值保存在物品的条目中。

图2是根据本发明实施例的从文本中获取物品属性值的装置的基 本结构的示意图。这里所说的文本中,包含物品的一个或多个属性和 对应的属性值。如图2所示,从文本中获取物品属性值的装置20主要 包括第一抽取模块21、保存模块22、第二抽取模块23。

第一抽取模块21用于根据预先针对物品的各种属性分别设置的 属性值抽取规则,从文本中抽取物品的一个或多个属性的属性值。保 存模块22用于对于成功抽取到属性值的属性,以该属性值的预设标准 形式将该属性值保存在物品的条目中。第二抽取模块23用于对于第一 抽取模块未能抽取出属性值的属性,在预先保存的该属性的属性值集 合中查找该属性值,然后以预设的该属性值的标准形式将该属性值保 存在物品的条目中。

第一抽取模块21所根据的属性值抽取规则可以是针对物品的每 项属性分别设置的多条属性值抽取规则。第一抽取模块21还用于在从 文本中抽取物品的一个或多个属性的属性值时,针对物品的每项属性, 依次按照属性值抽取规则进行属性值抽取,当抽取到一个属性值后, 开始针对物品的下一项属性进行属性值抽取。

下面以电子商务中的商品的属性抽取为例对本发明实施例作进一 步说明。参考图3,图3是根据本发明实施例的商品属性抽取系统的优 选结构的示意图,该商品属性抽取系统具有从文本中获取物品属性值 的功能。如图3所示,商品属性抽取系统30由数据模块31、数据遍历 模块32、规则抽取模块33、字典生成模块34、以及字典抽取模块35 组成。

数据模块31包含了类型属性模板集合和全网B2C商品记录。全 网B2C商品记录是指通过网络数据抓取技术来获取(例如使用网络爬 虫来爬取)全网B2C商品页面,通过页面抽取技术,将网页中的标题、 产品层次结构、促销信息、价格、参数详情、产品描述等信息抽取出 来,通过文本分类技术,自动将产品分到对应类型,同时保存商品记 录到数据库或其他存储介质中。由于不同类型的商品具有不同的特征, 在类型属性模板中,保存了特定类型所需要抽取的属性及属性抽取规 则。如手机类型的商品记录配置如下:

数据遍历模块32主要用于通过商品类型查询对应的商品记录列 表。每次获取的数据都属于同一类型的商品。

规则抽取模块33主要用于对具体商品记录通过对需要抽取的属 性按其对应的特殊规则进行规则匹配,如果属性不存在任何规则,可 跳过此步。此处所谓的规则,是指具体类型的商品记录的标题、层次 关系、商品参数等属性具备的某些共同或特殊描述方式。如“ZTE(中 兴)”这种以“英文字符串+左括号+中文字符串+右括号”形式开头的 商品标题、层次关系、商品参数中对应的品牌属性值,我们可认为它 是品牌属性的一个抽取规则。又如内存的描述一般为8G、8GB,抽象 出来的具体规则即为:“非英文字符+一至两位数字+(G,GB)+非英 文字符串”。另外,某一属性可以具有多个抽取规则,抽取时满足其 中之一即可。

字典生成模块34具有规则字典生成与第三方数据字典生成两部 分功能。此处所谓的字典,是指将商品需要抽取的某一属性对应的所 有属性值保存到以属性名命名的文件中,称这个文件为属性值字典文 件,即上文中的属性值集合。“规则字典生成”是指:数据遍历模块 获得某一指定类型的商品列表后,根据类型获取对应的类型属性模板 信息,通过模板信息,可以知道该类型的商品需要抽取哪些属性,以 及每个属性用什么样的规则去抽取。如果属性值通过模板中配置的规 则抽取成功,将抽取的属性值赋给对应的属性,同时将属性值保存到 属性值字典中。例如抽取“ZTE(中兴)U9503G手机(黑色)”,通 过上述的品牌规则,可以得到该记录的品牌属性对应的属性值为“ZTE (中兴)”,根据对该品牌预设的标准形式,将抽取的属性值改为“中 兴”并保存。并且可能由其他的品牌抽取规则,抽取到了“ZTE”、“中 兴”这样的品牌属性值,此时将这些属性值和标准形式“中兴”一并 保存到品牌属性值字典(例如文件名“品牌.dict”)中。

也存在另外一些类型的属性,可能它们的属性值根本不存在任何 规则,或是当前规则无法抽取出它们的属性值,此时,可以通过第三 方数据创建属性值字典,也就是下面要描述的“第三方数据字典生成”。 比如需要构建笔记本的第三方属性值字典,可以通过网络爬虫去定点 爬取太平洋电脑网、中关村在线等专业的第三方网站的笔记本模块中 的产品信息,由于这些网站对产品的描述非常规范、全面,因此我们 可以很容易对它们的网页数据进行结构化抽取,同时分析出如“品牌”、 “型号”、“CPU”等我们需要创建属性值字典的数据。

对于那些无法通过属性规则抽取的商品记录,由字典抽取模块35 以属性值字典匹配方式进行抽取。字典匹配的最简单方式就是判断商 品记录的标题、层次关系、商品参数等属性是否包含对应属性值字典 中的值。下面对图2所示系统的处理流程作详细说明。

第一步是通过第三方网站创建属性值字典,待字典达到一定规模 后,此步可和第二步和第三步同时运行。通过第三方网站创建属性值 字典主要是为了丰富字典内容。另外也可以直接从第二步开始执行。 第三方字典生成流程如下:

1、配置类型属性模板。主要包括类型信息、需要抽取的属性、属 性抽取规则、第三方专业网站对应的网站URL、第三方数据字典生成 器等。

2、执行第三方字典生成任务执行器。任务执行器将加载类型属性 模板集合,遍历模板集合中的类型(包含全网B2C商品记录中所对应 的类型)。根据配置的第三方专业网站对应的网站URL、第三方数据 字典生成器等信息,生成该类型对应属性的第三方属性值字典。

第二步是属性规则抽取,它是在第一步收集到的属性值字典达到 一定规模后开始运行。属性规则抽取流程如下:

1、加载类型属性模板集合信息C。

2、按一定顺序获取C中各类型属性模板信息M。

3、根据类型属性模板M中的类型信息,查询“全网B2C商品记 录”中该类型的商品列表L。

4、从L中获取一条未被属性抽取处理的商品记录P。如果L中的 所有商品记录都已经完成了规则属性抽取处理,进入步骤2,获取下一 个类型属性模板。

5、获取类型属性模板M中一条未处理的属性配置信息。

6、根据属性配置信息中的属性抽取规则对商品记录P进行属性抽 取。如果抽取成功,进入步骤7,否则进入步骤8。

7、将被抽取出的属性及属性值以键值对的形式保存到商品记录P 中。同时将属性值保存到以属性名命名的属性值字典MD中。

8、判断类型模板M中的所有属性是否全部处理完,如果是,进 入步骤4,否则进入步骤5。

第三步是属性字典抽取,本步主要处理那些无法通过规则抽取的 属性。属性字典抽取流程如下:

1、获取通过规则抽取后仍有未抽取出来的属性的未完全抽取商品 记录列表PL。

2、按一定顺序遍历PL中的未完全抽取商品记录。

3、获取未完全抽取记录P通过规则抽取失败的属性列表。

4、按一定顺序取该属性列表中的一条属性。如果全部属性已处理 完成,进入步骤3。

5、根据商品类型及属性名找到特定类型的属性值字典位置,加载 属性值字典。

6、遍历字典中的所有字典值,寻找商品记录的标题(例如“ZTE (中兴)U9503G手机(黑色)”)中是否包含字典值,如果包含,则 匹配成功,将匹配结果以属性名、属性值键值对形式保存到商品记录 中。否则匹配失败,进入步骤4。

根据上述步骤,实现了向物品的条目中添加该物品的标准化的属 性值,这样对于从各种来源获得的物品条目,只要它们具有相同的属 性,条目内就具有相同的属性值,从而可以利用该属性值获取具有相 同属性值的物品的各种来源的条目信息。在电子商务领域,根据上述 步骤处理商品的信息,可以使多个电子商务网站的商品记录中包含的 商品属性具有标准化的字段,使具有相同属性的商品具有相同的属性 值,从而利用这一点可以实现全面的电子商务网站间的商品比价等横 向信息处理。

以上结合具体实施例描述了本发明的基本原理,但是,需要指出 的是,对本领域的普通技术人员而言,能够理解本发明的方法和设备 的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、 存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们 的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的 情况下运用他们的基本编程技能就能实现的。

因此,本发明的目的还可以通过在任何计算装置上运行一个程序 或者一组程序来实现。所述计算装置可以是公知的通用装置。因此, 本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序 代码的程序产品来实现。也就是说,这样的程序产品也构成本发明, 并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存 储介质可以是任何公知的存储介质或者将来开发出的任何存储介质。

还需要指出的是,在本发明的装置和方法中,显然,各部件或各 步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发 明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明 的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些 步骤可以并行或彼此独立地执行。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域 技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种 各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内 所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号