首页> 中文学位 >基于HMM模型的Web信息抽取方法的研究与改进
【6h】

基于HMM模型的Web信息抽取方法的研究与改进

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪论

1.1 信息抽取技术的研究背景

1.2信息抽取技术概述

1.3 信息抽取技术的挑战和发展趋势

1.4 本论文的组织形式

2 典型的信息抽取技术和系统

2.1 典型的信息抽取技术

2.2 典型的信息抽取系统

2.3 本章小结

3 隐马尔可夫模型

3.1 隐马尔可夫模型简介

3.2 隐马尔可夫模型的三个主要问题

3.3 隐马尔可夫模型的主要算法

3.4 二阶隐马尔可夫模型

4 HMM模型在信息抽取中的应用和改进

4.1 引言

4.2 从数据中学习模型结构

4.3 已标记的、未标记的和远距离标记的数据

4.4 HMM模型在信息抽取中的改进

5 基于HMM的信息抽取模型的建立及实验结果

5.1 待建信息抽取模型的应用背景

5.2 信息抽取模型的实现

5.3 实验结果及对比分析

6 总 结

致谢

参考文献

附录

展开▼

摘要

随着因特网技术的迅速发展,网上信息成几何级数增长,如何在海量联机文本中获取所需的信息成为目前重要的研究课题,因此,通用搜索引擎和垂直搜索引擎技术也日益成为人们研究的重点。相对于通用搜索引擎,垂直搜索引擎在信息抽取技术的支撑下,为用户提供更有针对性、更加直观的结构化信息。信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将其形成结构化的数据填入数据库中供用户查询使用的过程。目前,信息抽取技术已经获得了长足的发展,然而在垂直搜索引擎中,基于网页模板的信息抽取仍然是最常使用的信息抽取方法。这种方法虽然有准确率和回召率高的优点,但在抽取网页格式多、变化频率高时,会降低抽取系统的灵活性,增加维护成本。
  本文研究基于隐马尔可夫模型的Web信息抽取方法,并对隐马尔可夫模型在Web信息抽取中的应用提出了改进的方法。基于隐马尔可夫模型的Web信息抽取方法是基于机器学习的抽取方法,可以有效提高抽取模型的灵活度,降低维护成本。
  本文阐述了Web信息抽取出现的背景和发展历史,剖析了Web信息抽取的典型系统所采用的方法,分析了信息抽取发展过程中有代表意义的利用机器学习算法学习文本特征的抽取技术和抽取系统。研究了隐马尔科夫模型与二阶隐马尔科夫模型的原理以及主要算法。如评估中的向前算法和向后算法;学习中用于完全标记训练样本的Maximum-Likelihood算法和用于部分标记训练样本的Baum-Welch算法;解码中的Viterbi算法。并着重探讨了隐马尔科夫模型在文本信息抽取中应该如何应用,对隐马尔科夫模型在文本信息抽取中的应用提出了改进的方法。并建立了基于HMM的Web信息抽取模型。
  通过对信息抽取后的数据进行对比和分析,验证了对HMM模型的改进是行之有效的,达到了在垂直搜索引擎中的应用标准。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号