模糊树自动机的构造及最小化算法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

如今，随着人们经济条件的提高和科学技术水平的发展，Web信息也越来越庞大和复杂。如何从网页的海量信息中抽取出用户所需要的信息，成为研究的热点之一。而网页信息数据间的语义交叉和语义模糊，使得传统的信息抽取技术不能满足用户的需要。为了解决这一问题，本论文研究了如何使用模糊树自动机技术来实现 Web信息抽取，并提出了模糊树自动机的构造方法、树自动机和模糊树自动机的最小化算法。
　　本论文主要工作及采用的主要技术如下：
　　（1）构造无秩树自动机模型。依据网站中网页信息的树状结构，将页面中的HTML/XML通过DOM解析器，生成无秩DOM树集，为了解决无秩树节点数目不确定性，本文依据DOM树集构造(k,l)contextual树，得到可控制高度和宽度的树，利用双向转移函数，构造无秩树自动机。
　　（2）采用Rough集技术处理信息模糊性及构造模糊树自动机模型。依据Rough集理论构造符合处理网页信息模糊性的容错关系模型，再结合容错关系模型与Rough集理论中的上近似关系，实现了“核信息”词语的扩展，较好地解决了信息间的模糊性，增加抽取信息的准确性；并在此基础上提出了构造模糊树自动机的过程，通过实验，验证了该模糊树自动机模型在抽取信息中的有效性。
　　（3）树自动机及模糊树自动机的最小化。树自动机最小化的难点在于对树状态进行分类时，可能产生新的字符串状态分类。本文提出了通过定义三个操作符，追踪标记树状态和字符串状态的方式来解决这个难点；利用状态集的模糊等价，构造模糊等价类；利用互模拟技术的前向互模拟，得到最大前向互模拟，由此构造出最小的模糊树自动机，提出了模糊树自动机的前向互模拟算法；通过实例验证，该算法可以得到比原模糊树自动机状态少的等价模糊树自动机。

著录项

作者
孙丹丹;
展开▼
作者单位

华东交通大学;

展开▼
授予单位华东交通大学;
学科软件工程
授予学位硕士
导师姓名黄兆华;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动机理论;
关键词
模糊树自动机; 最小化算法; Rough集; 信息抽取;

相似文献

中文文献
外文文献
专利

1. 模糊有限自动机的最小化算法优化 [J] . 张婧 ,张苗苗 . 计算机应用 . 2008,第012期
2. 增加结构非循环模糊自动机最小化算法 [J] . 胡红莉 ,莫智文 . 工程数学学报 . 2006,第004期
3. 最小化基于合成模糊变换的模糊自动机 [J] . 胡红莉 ,莫智文 . 模糊系统与数学 . 2004,第z1期
4. 树自动机超最小化 [J] . 胡芙 ,黄兆华 . 南昌航空大学学报（自然科学版） . 2015,第002期
5. 基于模糊字符串的Mealy格值有限自动机及其最小化 [J] . 汪洋 ,莫智文 . 模糊系统与数学 . 2009,第3期
6. 最小化基于合成模糊变换的模糊自动机 [C] . 胡红莉 ,莫智文 . 中国系统工程学会模糊数学与模糊系统专业委员会第12届年会 . 2004
7. 基于神经网络的模糊自动机——模糊文法推导及格值自动机的最小化 [A] . 廖泽楷 . 2008

模糊树自动机的构造及最小化算法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅