首页> 中国专利> 一种适用于电子商务中文网站商品标签化的方法

一种适用于电子商务中文网站商品标签化的方法

摘要

一种适用于电子商务中文网站产品标签化的方法,步骤包括分词词库的构建方法、标签采集的方法及标签标示商品的方法;所谓分词词库的构建方法,指基于对电子商务中文网站内各商品关键词在不同商品描述中的频次统计,保留频次大于3的商品关键词,并从中筛选出商品关键词字数小于等于5的关键词作为词库数据;所谓标签采集方法,指基于已构建的分词词库,通过逆向最大匹配分词算法对电子商务中文网站内所有商品名称进行分词处理;经最大逆向匹配算法的分词处理后,选取商品经分词处理后形成的最后一个词作为该商品的商品标签;最终,这些所有标签组成标签数据集合;标签标示商品的方法,指通过利用文本挖掘算法,寻找商品属性和标签之间的关系。

著录项

  • 公开/公告号CN105320778A

    专利类型发明专利

  • 公开/公告日2016-02-10

    原文格式PDF

  • 申请/专利权人 焦点科技股份有限公司;

    申请/专利号CN201510828440.0

  • 发明设计人 沈华楠;赵亮亮;姜平;何学勇;

    申请日2015-11-25

  • 分类号G06F17/30(20060101);

  • 代理机构南京瑞弘专利商标事务所(普通合伙);

  • 代理人陈建和

  • 地址 210003 江苏省南京市高新技术产业开发区星火路软件大厦A座8-12F

  • 入库时间 2023-12-18 14:21:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-02

    授权

    授权

  • 2016-03-09

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151125

    实质审查的生效

  • 2016-02-10

    公开

    公开

说明书

技术领域

本发明属于计算机互联网领域,特别是涉及一种适用于电子商务中文网站商品标签化的方 法。

背景技术

在电子商务中文网站中,用户利用关键词检索商品时,通常是直接检索商品的基本信息, 然而由于网站内的商品信息多是由商家自己填写和维护,商家虽会按照网站的商品规则维护商 品信息,但仍不能避免两类问题的出现:其一是商品信息作弊的问题,商家为了提供自家商品 在商品搜索过程中的曝光率和出现频率,使发布的商品引人注目,使商品购买者能更多地搜索 到发布的商品,他们在对商品描述时滥用品牌名称或与本商品不存在关联的关键词,从而导致 商品购买者无法准确地找到需要的商品;其二是商品信息不全面的问题,商家在描述商品时遗 漏商品描述的关键信息,包括商品标题、图片、描述等重要信息缺失,而信息缺失将导致用户 做商品检索时,网站无法返回更多相关的商品检索结果。

针对商家作弊商品信息的问题,电子商务网站通常设定规则来解决,对那些不符合规则的 作弊商品进行降权,然而规则存在一定程度的缺陷,严格的规则可能导致未作弊的商品降权; 宽松的规则可能会使防作弊的效果不够明显;在解决商家填写信息不全的问题上,为保证尽可 能多地召回相关产品,电子商务网站不惜牺牲检索质量而选择扩大检索商品信息的检索范围, 即在多个商品信息字段上做匹配,有时甚至连“商品描述”这类数据量庞大但质量较差的字段 都被选用,这种方式虽然能召回更多的商品,但召回的商品并不能令用户满意,进而导致流量 大量流失。

发明内容

针对现有技术的不完善,本发明目的是,提供一种适用于电子商务中文网站商品标签化的 方法,通过综合分析商品名称和商品属性的信息,提供与商品相关的标签对其标示,以完善电 子商务中文网站中的商品信息。这些用以标示商品的标签数据将会在商品搜索过程中作为重要 的检索字段参与检索,以保证在召回更多相关商品的同时,也能提升商品检索的准确率。

本发明的技术方案如下,一种适用于电子商务中文网站产品标签化的方法,其特征在于, 具体步骤包括分词词库的构建方法、标签采集的方法及标签标示商品的方法;

所谓分词词库的构建方法,指基于对电子商务中文网站内各商品关键词在不同商品描述中 的频次统计,保留频次大于3的商品关键词,并从中筛选出商品关键词字数小于等于5的关键 词作为词库数据,当长度比较长的商品关键词包含多个短的关键词的时,这些长的词将不会入 库;

所谓商品关键词,是指由商家通过网站后台系统自由添加的词语,是商家对商品关键特征 的描述;

特别地,考虑到电子商务中文网站内商品关键词通常由商品卖家添加,因而从这些关键词 中选取简短精炼且高频出现的词列入分词词库中,能最大程度保证分词的准确性;

所谓标签采集方法,指基于已构建的分词词库,通过逆向最大匹配分词算法对电子商务中 文网站内所有商品名称进行分词处理;经最大逆向匹配算法的分词处理后,按照汉语语法特点, 即在“形容词+名词”的语句形式中,名词位于句末,进而选取商品经分词处理后形成的最后一 个词作为该商品的商品标签;最终,这些所有标签组成标签数据集合;

所谓商品名称,是指由商家自行添加的一段对商品的简短文字描述;

所谓标签标示商品的方法,指通过利用文本挖掘算法,寻找商品属性和标签之间的关系。 特别地,利用文本挖掘算法的前提是商品属性和标签都具备能体现两者关系且有代表性的内容 作为判断依据。商品属性能多方位表明商品特征,如果标签也有自己的特征数据,通过比较两 者在特征的相似性,即可确定商品属性和标签之间的相似关系。

进一步的,标签标示商品的方法具体包括的步骤有:

步骤1:标签特征的获取

在标签集合的基础上确定隶属每一个标签的特征信息。如果某个商品的标签出现在某个商 品的商品名称中,则默认这个标签与该商品存在相关关系。

按照上述思路,首先筛选出包含某一特定标签词的商品名称,然后根据商品名称找到该商 品的商品特征信息数据,统计出所有商品特征信息数据作为该标签的特征信息数据;特别地, 商品特征信息数据来自于商品属性信息;

步骤2:判断商品和标签间的相似关系

基于某一标签的所有标签特征,分析每个标签特征的权重,评估每一个标签特征在所有标 签的特征中的代表性,具体包括:

步骤2-1:分析每一个标签特征在标签集合的分布情况:如果一个标签特征集中于一个标签 中,则默认该标签特征的代表性强;如果一个标签特征分布在多个标签中,则默认该标签特征 的代表性不强;

步骤2-2:参照TF*IDF权重计算方法,针对代表性强的标签特征,做加权,权重为标签特 征在该标签中出现的频次乘以初始权重;针对代表性弱的标签特征,做降权,权重为初始权重 除以该标签在不同标签中出现的频次;标签特征在标签中的权重Boostp可参照如下公式:

Boostp=(count(p,t)size(t))×log(Ntags(p,t))

其中,count(p,t)表示标签特征p在标签t中出现的次数,size(t)表示标签t所包含的标签 特征的个数,N表示标签集合中的标签总数,tags(p,t)表示包含标签特征p的标签t的个数。

步骤2-3:将标签的特征信息集合和商品的特征信息集合分别抽象成一个多维的空间向量, 利用空间向量余弦相似性原理,通过计算两个空间向量间的相似度,判定商品和标签之间的相 关关系;

步骤3:确定商品的相关标签

由于商品和标签之间的相关程度有高低好坏之分,因而标签和商品的相关程度系数值还不 足直接将标签赋予商品,需通过设定合理阀值,筛选出两个空间向量间的相似度即商品和标签 之间相关关系系数在阀值之上的标签作为商品的标签,阀值范围在0~1之间;阀值的设定可根 据数据质量要求给出严格或宽松的值,若希望商品搜索过程更严格,阀值越接近1。此外,也 可以取所有相关程度系数值的平均值作为阀值;

特别地,为更准确地选取商品的标签,可视情况控制每个商品的标签个数,并选择限定个 数以内的最相关的标签作为商品标签。

商品属性信息代表了商品的若干特征,如果标签也有自己的特征数据,那么我们挖掘出两 者在特征数据之间的关系就能知道商品和标签的关系。

本发明与现有技术相比,其有益效果:

(1)本发明利用商品关键词构建分词词库,实现基于网站内现有商品的关键特征对商品描 述做分词处理,从而保证分词准确性,有利于在商品描述中精确地锁定商品名称;

(2)本发明通过辨识和确定标签的特征,将标签特征与商品特征进行相似度比较,从而确 认商品名称的相似名称,为商品标示更丰富的标签,完善商品信息,有助于在搜索过程中提升 搜索的召回率和准确率;

(3)本发明通过为电子商务网站内的商品找到实体标签和相关标签,在保证商品标签更具

客观性的同时,也能提高商品信息的可靠性;

附图说明

图1本发明实施例中一种适用于电子商务中文网站商品标签化方法的结构图;

图2本发明实施例中标签标示商品方法实现的流程图;

图3本发明实施例中判定商品和标签间相似关系方法实现的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图, 对本发明进一步详细说明。

本发明具体包括分词词库构建的方法、标签采集的方法及标签标示商品的方法;分词词库 构建的方法用于对电子商务中文网站内的商品名称做分词处理;标签采集的方法用于根据商品 名称为电子商务中文网站内的所有商品寻找与它相应的标签;标签标示商品的方法用于为电子 商务中文网站内所有商品寻找与它存有相关关系的标签。所述商品名称是电子商务中文网站的 商家用户对自己商品所做的简短文字描述。

以中国制造网中文站为例,一种适用于电子商务中文网站商品标签化的方法,包括分词词 库的构建方法、标签采集的方法及标签标示商品的方法,参阅图1所示;

所谓分词词库的构建方法,指基于对电子商务中文网站内各商品关键词在不同商品描述中 的频次统计,保留频次大于3的关键词,并从中筛选出关键词字数小于等于5的关键词作为词 库数据,当长度比较长的关键词包含多个短的关键词的时,这些长的词将不会入库,比如:“电 动自行车”,这个词包含“电动”和“自行车”两个短词,那么“电动自行车”这个词不会登录 到分词词库中。

特别地,考虑到电子商务中文网站内商品关键词通常由商品卖家添加,因而从这些关键词 中选取简短精炼且高频出现的词列入分词词库中,能最大程度保证分词的准确性;

现有如下15件商品和商家为其添加的商品关键词:

经过统计,选择频数大于等于3的商品关键词进入分词词库,如下表所示:

关键词 频次统计 丝印机 5

网印机 4 全自动 7 丝网 4 印刷机 6 车床 4 多色 3 数控 3

所谓标签采集方法,指基于已构建的词库,通过逆向最大匹配分词算法对电子商务中文网 站内所有商品名称进行分词处理;按照汉语语法特点,选取商品名称经分词处理后形成的最后 一个词作为该商品的商品标签;最终,所有商品标签组成标签数据集合;

按照上述的实例,15件商品商品经分词后的结果和形成的商品标签如下:

所谓基于词库的逆向最大匹配分词算法,指对需要分词的语句从后往前反复扫描,每次扫 描的短语最大长度是词库中长度最大的词的长度,当扫描的短语在词库中,则扫描到的位置就 作为切分点,下次扫描从这个切分点开始往前继续扫描;如果扫描长度从最大到最小还没有找 到在词库中,则扫描位置向前移动一位,这个位置作为新的切分点,然后继续扫描。下面是具 体例子:

以商品名称“力超全自动薄膜开关丝印机”为例,现基于我们已经构建的词库进行分词:

步骤一:确认词库中长度最大的词是“丝印机”或者“全自动”等长度是3的词,所以扫 描的长度从最大是3开始递减,最小扫描长度为2;

步骤二:从后往前开始扫描待分词语句,首先扫描到的三个字是“丝印机”,这三个字组成 的词在词库中,所以“丝印机”前的这个位置作为切分点,语句变为“力超全自动薄膜开关/丝印机”;

步骤三:从上次扫描到的切分点开始继续扫描,首先扫描到的三个字是“膜开关”,这三个 词组成的词不在词库中,所以扫描长度减1再次扫描,扫描到的两个字是“开关”,这两个字组 成的词还是不在词库中,这个时候需要向前移动一位找到新的切分点,这个时候语句变为“力 超全自动薄膜开/关/丝印机”;

步骤四:继续按照步骤二和步骤三的扫描切分,一直切分到最后,语句变为“力/超/全自 动/薄/膜/开/关/丝印机”,然后停止退出;

经过上面四步,可以得到指定语句基于词库的分词结果。

所谓标签标示商品的方法,指通过利用文本挖掘算法,寻找商品和标签之间的关系。特别 地,利用文本挖掘算法的前提是商品和标签都具备能体现两者关系且有代表性的内容作为判断 依据。商品属性能多方位表明商品特征,如果标签也有自己的特征数据,通过比较两者在特征 的相似性,即可确定商品和标签之间的相似关系。

参阅图2所示,标签标示商品的方法具体包括的步骤有:

步骤101:标签特征的获取

在标签集合的基础上确定隶属每一个标签的特征信息。如果某个标签出现在某个商品的名 称中,则默认这个标签与该商品存在相关关系。

按照这个思路,首先筛选出包含某一特定标签词的商品名称,然后根据商品名称找到该商 品的商品特征信息数据,统计出所有商品特征信息数据作为该标签的特征信息数据;特别地, 商品特征信息数据来自于商品属性信息;

按照上述的例子,首先整理出15件商品和他们的商品属性,相应地,标签“丝印机”的标 签特征包括:操作方式_全自动、印刷面_平面、印刷颜色_多色;标签“涂布机”的标签特征包 括:印刷颜色_多色、操作方式_全自动、印刷面_平面;标签“网印机”的标签特征包括:印刷 颜色_多色、品牌_冠达、操作方式_全自动、印刷面_平面;其他更具体如下表:

步骤102:判断商品和标签间的相似关系

基于某一特定标签的所有标签特征,分析每个标签特征的权重,评估每一个标签特征在所 有标签特征中的代表性,具体包括:

步骤102-1:分析每一个标签特征在标签集合的分布情况:如果一个标签特征集中于同一个 标签中,则默认该标签特征的代表性强;如果一个标签特征分布在多个标签中,则默认该标签 特征的代表性不强;

为方便理解,选取标签“丝印机”、“网印机”和“车床”,并统计他们标签特征的出现的频 次,如下表:

步骤102-2:参照TF*IDF权重计算方法,针对代表性强的标签特征,做加权,权重为标签 特征在该标签中出现的频次乘以初始权重(初始权重按需要确定);针对代表性弱的标签特征, 做降权,权重为初始权重除以该标签在不同标签中出现的频次;标签特征在标签中的权重Boostp可参照如下公式:

Boostp=(count(p,t)size(t))×log(Ntags(p,t))

其中,count(p,t)表示标签特征p在标签t中出现的次数,size(t)表示标签t所包含的标签 特征的个数,N表示标签集合中的标签总数,tags(p,t)表示包含标签特征p的标签t的个数。

以下是标签“丝印机”、“网印机”和“车床”各自的特征属性的权重:

[Boost丝印机](操作方式_全自动)=(3/7)*log(3/2)=0.075

[Boost丝印机](印刷面_平面)=(2/7)*log(3/2)=0.050

[Boost丝印机](印刷颜色_多色)=(2/7)*log(3/2)=0.050

[Boost网印机](印刷颜色_多色)=(3/11)*log(3/2)=0.048

[Boost网印机](操作方式_全自动)=(3/11)*log(3/2)=0.048

[Boost网印机](印刷面_平面)=(3/11)*log(3/2)=0.048

[Boost网印机](品牌_冠达)=(2/11)*log(3/2)=0.032

[Boost车床](安装形式_落地式)=(3/16)*log(3/1)=0.089

[Boost车床](精密度_精密)=(4/16)*log(3/1)=0.119

[Boost车床](布局形式_卧式)=(2/16)*log(3/1)=0.060

[Boost车床](自动化程度_自动)=(3/16)*log(3/1)=0.089

[Boost车床](刀架数量_双刀架数控车床)=(2/16)*log(3/1)=0.060

[Boost车床](控制方式_数控)=(2/16)*log(3/1)=0.060

步骤102-3:将标签的特征信息集合和商品的特征信息集合分别抽象成一个多维的空间向量, 以特征的权重值作为向量值,利用空间向量余弦相似性原理,通过计算两个空间向量间的相似 度,判定商品和标签之间的相关关系;

依据相似度公式:

cos(力超全自动薄膜开关丝印机,标签(车床))=0.0%

cos(双色全自动丝印机,标签(车床))=0.0%

cos(网版涂布机,标签(车床))=0.0%

cos(台励福数控冲床,标签(网印机))=0.0%

cos(台励福数控冲床,标签(丝印机))=0.0%

步骤103:确定商品的相关标签

由于商品和标签之间的相关程度有高低好坏之分,因而标签和商品的相关程度系数值还不 足以直接将标签赋予商品,需通过设定合理阀值,筛选出相关程度系数在阀值之上的标签作为 商品的标签;阀值的设定可根据数据质量要求给出严格或宽松的值,也可以取所有相关程度系 数值的平均值作为阀值;

特别地,为更准确地选取商品的标签,可视情况控制每个商品的标签个数,并选择限定个 数以内的最相关的标签作为商品标签;

商品属性信息代表了商品的若干特征,如果标签也有自己的特征数据,那么我们挖掘出两 者在特征数据之间的关系就能知道商品和标签的关系;

按照上述步骤,我们得出了每个商品和标签之间的相似度,为了确保相关标签的质量,我 们将阀值设置为90%,当商品和标签之间的相似度在90%以上,我们认为这个标签可以作为商 品的一个标签使用,所以我们给“台励福数控冲床”打上“车床”的标签,给“网版涂布机” 这个商品打上“丝印机”和“网印机”标签。在这种情况下,当用户搜索“丝印机”或者“网 印机”的时候就能把“网版涂布机”这个商品召回来。通过本方法,我们可以给更多的商品打 上相关的标签,从而提升商品信息的完善度,保证搜索的召回率。

所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限 制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号