法律状态公告日
法律状态信息
法律状态
2020-07-28
授权
授权
2018-08-24
实质审查的生效 IPC(主分类):G06F17/30 申请日:20180320
实质审查的生效
2018-07-31
公开
公开
技术领域
本发明涉及电子商务技术领域,具体涉及一种基于隐马尔可夫模型的商品属性信息抽取方法。
背景技术
电子商务网站包含大量的商品属性信息,有效地获取商品属性信息,在商品价格分析、商品推荐和数据集成等领域有重要的应用价值。但多样性的网页结构、HTML标签、动态更新且含有噪音的页面内容以及缺失语法结构且文本信息短小等特征,使自动且高准确率的商品属性信息抽取面临着巨大挑战。
从Web页面抽取属性信息的策略有模板依赖和模板独立两类。模板依赖策略需要针对每一类网站或具有相同模板的一组页面标注足够的训练数据,对特定的Web页面抽取具有较好的效果,但工作繁琐且不能很好地适应网站中的多种HTML标签和结构;模板独立策略采用自动学习Web页面的特征方法,无需人工参与,对不同Web站点中的抽取具有较好的适应性,但由于Web环境的复杂度和多样性,在抽取准确度方面存在提升空间。
发明内容
本发明提供一种基于隐马尔可夫模型的商品属性信息抽取方法,其能够自动识别商品各个属性信息在Web页面中的存在区域并准确地将(属性名称,属性值)抽取出来。
为解决上述问题,本发明是通过以下技术方案实现的:
一种基于隐马尔可夫模型的商品属性信息抽取方法,其他包括步骤如下:
步骤1、利用HTML解析工具对电子商务网站中的相关页面进行解析并构建DOM子树;再运用正则表达式将与商品属性文本信息明显无关的噪音标签去掉;后选择以body结点为初始结点的DOM子树进行操作,采用广度优先搜索遍历算法遍历该DOM子树,遍历过程中对DOM子树的各个结点依次进行顺序编号;
步骤2、获取Web页面属性区域的共性特征,并将这些共性特征存放到属性特征容器中;在特征容器基础上,按照从叶子结点到根结点的顺序依次对DOM子树中每个非叶子结点计算其特征权重值;
步骤3、依据DOM子树中结点之间的关系构建隐马尔可夫模型,并依据DOM子树中每个非叶子结点的特征权重值并结合维特比算法求出从根结点出发的最大概率路径,即确定待抽取的商品属性内容所在的区域;后将确定的商品属性区域中的完整属性以<属性名称,值>偶对的形式抽取出来。
上述步骤2中,允许属性特征容器支持其它共性特征的扩展,以为后面计算非叶子结点特征权重值提供依据。
上述步骤2中,非叶子结点i的特征权重值WVCi为:
其中,TFk为满足第k个特征的叶子结点个数,N为DOM子树中所有叶子结点总个数,k=1,2,…,m,m为属性特征容器中特征数目。
上述步骤3中,隐马尔可夫模型用三元组(π,A,B)表示,其中π表示初始状态分布,A表示状态转移概率分布,B表示观测状态与隐藏状态的对应权重值概率分布。
与现有技术相比,本发明基于半监督模式且模板独立的Web页面商品属性信息抽取方法,它不依赖特定的网页结构,不受网页动态性噪音的影响,不需要大量的人工标注样本,能保证抽取的商品属性名称和属性值的完整性,具有好的商品属性抽取性能和自适应性。
具体实施方式
本发明的主要目标是:基于给定一组电子商务类网站的Web页面,自动识别商品各个属性信息在Web页面中的存在区域并准确地将(属性名称,属性值)抽取出来。本发明融合商品属性文本特征、Web页面的DOM子树结构和隐马尔可夫模型,采用半监督策略实现商品属性信息的抽取,下面对本发明的技术方案开展详细描述。
一种基于隐马尔可夫模型的商品属性信息抽取方法,其具体包括步骤如下:
步骤1.构建DOM子树和页面预处理。
基于Web页面的HTML描述机制,本发明利用Jsoup工具对电子商务网站中的相关页面进行解析并构建DOM子树。再运用正则表达式将与商品属性文本信息明显无关的噪音标签去掉。然后,选择以body结点为初始结点的DOM子树进行操作,采用广度优先搜索遍历算法遍历该DOM子树,遍历过程中对子树的各个结点依次进行顺序编号。
步骤2.计算结点特征权重值。
本发明构建属性特征容器,存放Web页面属性区域的共性特征。然后,利用tf*idf公式为每个非叶子结点计算其特征权重值。
步骤2.1.构建特征容器。
基于对少量Web页面的观察,获取Web页面属性区域的共性特征,主要包括以下几个方面:(1)商品属性名称和属性值之间有分隔符号;(2)商品属性的描述可以由自定义商品属性词典进行覆盖;(3)属性区域通常由有限的HTML标签进行限定;(4)商品网页标题中的关键词与属性存在重叠;(5)商品属性区域中的叶子结点包含的文本内容长度短。构建一个属性特征容器存放上述特征,并允许该容器支持其它特征的扩展,为后面计算非叶子结点特征权重值提供依据。
步骤2.2.综合特征容器中特征和tf-idf公式计算每个非叶子结点的特征权重值。
在特征容器基础上,按照从叶子结点到根结点的顺序依次对DOM子树中每个非叶子结点计算其特征权重值WVC。非叶子结点对第k个特征的特征权重值WVCk计算公式如下:
其中,TFk表示满足第k个特征的叶子结点个数,N为所有叶子结点总个数,m为特征容器中特征数目。非叶子结点i的总特征权重值为:
步骤3.查找包含商品属性区域的最大概率路径。
依据DOM子树中结点之间的关系构建隐马尔可夫模型,然后依据每个非叶子结点的特征权重值并结合维特比算法求出从根结点出发的最大概率路径,即确定待抽取的商品属性内容所在的区域。最后将确定的商品属性区域中的完整属性以<属性名称,值>偶对的形式抽取出来。
步骤3.1.构建面向Web页面商品属性信息抽取的隐马尔可夫模型。
我们用三元组(π,A,B)表示隐马尔可夫模型λ。其中,π表示初始状态分布、A表示状态转移概率分布、B表示观测状态与隐藏状态的对应权重值概率分布。隐含状态指DOM子树预处理后的所有编号的结点;转移概率指父结点到子结点的特征权重分配概率,此处采用等概率分配;观测序列指从根结点到每个叶子结点对应路径中的HTML标签序列;隐含状态序列;指从根结点到商品属性区域路径中的结点编号序列。
步骤3.2.采用维特比算法求解最大概率路径,确定商品属性区域。
维特比算法采用动态规划策略,基于一个隐马尔可夫模型λ和一个观察序列O,寻找其中最可能的隐含状态序列,即定位商品属性区域的最大概率路径。具体步骤如下:
输入:λ=(π,A,B),O=(O0,O1,O2,...,Ot),Oi(0≤i≤t)表示结点HTML标签
输出:最大概率路径
t0层的状态:
δ0(0)=π0>
其中,δj(i)表示在j时刻(即tj层)结点Oi的权重值,ψ(j)表示在j时刻(即tj层)权重值最大的结点。这里,body结点作为初始结点,记为O0,其在t0层的状态用δ0(0)表示,等于其初始状态概率π0;因body结点是该层唯一结点,其同时是权重值最大的结点。
t1层的状态:
δ1(i)=π0aoi*b(Oi)>i(δ1(i))
其中,a0i表示结点O0到结点Oi的转移概率,此处采用等概率分配;b(Oi)表示结点Oi的权重值。
(2)递推(t2,t3,...,tt层);
δk(i)=πjaji*b(Oi),2≤k≤t
ψ(k)=argmaxi(δk(i))
其中,j为上一层中被选中的结点,aji表示结点j到当前层每一个结点i的概率值(即转移概率分布),记录第k层输入的所有结点中权重值最大的结点。
(3)终止;
若在第m层时,有ψ(m)≥ψ(m+1),则表示m+1层或已经到达叶子结点,则终止,并将求出的隐含状态序列作为最大概率路径输出,表示为:
步骤3.3、抽取属性区域块中的属性对。
属性区域块是DOM子树中由最大概率路径定位的区域,将该属性区域块中所有文本结点中的内容提取出来,以<属性名称,值>偶对的形式进行保存。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
机译: 使用训练数据向量和基于用于描述隐马尔可夫模型的条件参数的最近邻聚类方法训练隐马尔可夫模型
机译: 一种基于隐马尔可夫模型的部分可靠传输方法
机译: 基于隐马尔可夫模型的声学模型建立装置和方法