基于HMM模型的Web信息抽取方法的研究与改进

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着因特网技术的迅速发展，网上信息成几何级数增长，如何在海量联机文本中获取所需的信息成为目前重要的研究课题，因此，通用搜索引擎和垂直搜索引擎技术也日益成为人们研究的重点。相对于通用搜索引擎，垂直搜索引擎在信息抽取技术的支撑下，为用户提供更有针对性、更加直观的结构化信息。信息抽取是指从一段文本中抽取指定的信息（例如事件、事实），并将其形成结构化的数据填入数据库中供用户查询使用的过程。目前，信息抽取技术已经获得了长足的发展，然而在垂直搜索引擎中，基于网页模板的信息抽取仍然是最常使用的信息抽取方法。这种方法虽然有准确率和回召率高的优点，但在抽取网页格式多、变化频率高时，会降低抽取系统的灵活性，增加维护成本。
　　本文研究基于隐马尔可夫模型的Web信息抽取方法，并对隐马尔可夫模型在Web信息抽取中的应用提出了改进的方法。基于隐马尔可夫模型的Web信息抽取方法是基于机器学习的抽取方法，可以有效提高抽取模型的灵活度，降低维护成本。
　　本文阐述了Web信息抽取出现的背景和发展历史，剖析了Web信息抽取的典型系统所采用的方法，分析了信息抽取发展过程中有代表意义的利用机器学习算法学习文本特征的抽取技术和抽取系统。研究了隐马尔科夫模型与二阶隐马尔科夫模型的原理以及主要算法。如评估中的向前算法和向后算法；学习中用于完全标记训练样本的Maximum-Likelihood算法和用于部分标记训练样本的Baum-Welch算法；解码中的Viterbi算法。并着重探讨了隐马尔科夫模型在文本信息抽取中应该如何应用，对隐马尔科夫模型在文本信息抽取中的应用提出了改进的方法。并建立了基于HMM的Web信息抽取模型。
　　通过对信息抽取后的数据进行对比和分析，验证了对HMM模型的改进是行之有效的，达到了在垂直搜索引擎中的应用标准。

著录项

作者
刘斌斌;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科软件工程
授予学位硕士
导师姓名祝伟华;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
Web信息抽取方法; 垂直搜索引擎; 隐马尔可夫模型; 机器学习算法;

相似文献

中文文献
外文文献
专利

1. 基于改进HMM模型的组合服务故障诊断方法 [J] . 印莹 ,李明 ,赵宇海 . 东北大学学报（自然科学版） . 2014,第005期
2. 基于改进遗传退火HMM的Web信息抽取研究 [J] . 李荣 ,冯丽萍 ,王鸿斌 . 计算机应用与软件 . 2014,第004期
3. 基于FHMM模型的离心泵故障诊断方法研究 [J] . 柳长昕 ,王锋 ,刘传海 . 水电能源科学 . 2008,第5期
4. 基于设计程序与方法导向的传统实验教具的改进设计流程方法的研究——以液体表面性质测量教具的设计改进研究为例 [J] . 董洁 ,苏艺 . 科学技术创新 . 2021,第034期
5. 基于改进缺陷因子方法的FCM燃料有效多群截面计算方法研究 [J] . 易思宇 ,刘宙宇 ,尹文 . 原子能科学技术 . 2022,第1期
6. 基于HMM模型的网络入侵误用检测方法 [C] . 彭竹苗 ,张正道 ,白瑞林 . 2007中国控制与决策学术年会 . 2007
7. 基于HMM模型的对于Snout入侵检测系统的研究与改进 [A] . 朱琳 . 2011

基于HMM模型的Web信息抽取方法的研究与改进

目录

摘要

著录项

相似文献

相关主题

期刊订阅