首页> 中文学位 >电子商务中针对产品的摘要挖掘技术研究
【6h】

电子商务中针对产品的摘要挖掘技术研究

代理获取

目录

电子商务中针对产品的摘要挖掘技术研究

RESEARCH ON PRODUCT SUMMARY MINING IN ELECTRONIC COMMERCE

摘 要

Abstract

目 录

第1章 绪 论

1.1 课题背景及研究内容和意义

1.1.1课题背景

1.1.2 课题研究内容

1.1.3 课题研究意义

1.2 多文档文摘研究现状

1.2.1 多文档文摘主要方法

1.2.2 多文档文摘的自动评测

1.2.3 相关国际评测

1.3 本文组织结构

第2章 基于句子聚类的子主题生成研究

2.1 引言

2.1.1 子主题的定义

2.1.2 句子聚类形成子主题总体思路

2.2 句子聚类

2.2.1 特征表示

2.2.2 相似度计算方法

2.2.3 聚类方法

2.3子主题形成及重要性排序

2.4 本章小结

第3章 基于分类的摘要短语抽取研究

3.1最大熵模型介绍

3.1.1条件最大熵模型

3.1.2最大熵最优解

3.1.3模型训练算法

3.2 候选短语获取

3.2.1 指示词表的构建

3.2.2 候选短语获取方法

3.3 短语识别

3.4 短语打分与摘要生成

3.5 本章小结

第4章 产品摘要挖掘系统实现

4.1系统介绍

4.2 主要模块介绍

4.2.1文本预处理

4.2.2句子聚类形成子主题

4.2.3短语识别与抽取

4.3 本章小结

第5章 实验结果及分析

5.1 引言

5.2 短语识别实验

5.2.1 数据

5.2.2 评价指标

5.2.3实验结果与分析

5.3 摘要生成实验

5.3.1 数据资源

5.3.2 评价指标

5.3.3实验结果与分析

5.4 本章小结

结 论

参考文献

攻读硕士学位期间发表的论文及其它成果

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

展开▼

摘要

随着互联网的迅速发展,网上购物由于其便利节时越来越受到人们的欢迎,电子商务时代已经来临。目前购物网站中存在海量的商品供人们进行选购,然而由于商品量巨大且卖家对商品的描述信息量非常大,因此给买家选购需要的商品造成了不便。
  事实上很多商品其实是同一款产品,生产厂家相同只是卖家不同而已,因此在商品基础上构建出虚拟的产品节点,并根据产品对应的商品描述信息挖掘出产品相关的信息,比如产品的图文描述、产品摘要、产品属性、产品评论、产品价格趋势等,以一种简洁友好的方式全面详细的展示产品的信息,是很有必要的。
  本文着眼于产品的摘要,提出了一种面向电子商务领域的产品摘要挖掘方法。产品摘要是用最简短的语言,由3-5个短语组成,主要突出产品的卖点和特色。产品摘要希望能从用户角度出发,在用户选购产品的时候提供一个有特色的描述,让用户对产品有一个整体的印象,更好的帮助用户做选择,减少用户选购产品的时间。
  产品摘要挖掘是一种多文档自动文摘,与传统自动文摘选取句子来组成摘要不同,产品摘要由短语组成。本文方法涉及到的关键部分,一是对产品描述的句子进行聚类,形成子主题;二是从子主题中抽取重要短语,作为摘要短语。
  对于句子聚类形成子主题,本文探讨了句子的特征表示、相似度计算方法、聚类方法等,采用层次聚类和划分聚类(K-中心聚类)相结合的方法对句子聚类形成子主题,来从多个侧面描述产品。最后根据子主题中描述句子的多少来对子主题的重要性进行排序。
  对于产品摘要短语的获取,本文采用基于分类的方法,处理时以一个子主题为处理单元。首先利用指示词对子主题中的句子进行切分,得到候选短语,然后利用最大熵分类器对短语进行分类,得到可以作为摘要的短语,最后对短语进行打分,并根据得分排序,将得分最高的短语作为子主题的摘要短语。最终的产品摘要由多个子主题摘要短语组成,子主题根据其重要性来选择。
  本文提出方法的评价,采用专家人工评价方式,以产出的前 M个短语成功编辑出产品摘要的比例作为指标。实验表明在前10个结果短语中编辑产品摘要成功的比例在85%以上,因此本文提出的方法是可行有效的,能够大大提高编辑人员的工作效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号