基于语义相似度的WEB结构挖掘研究及实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前，Internet/Web技术逐渐趋于成熟，Web已经成为人们的重要信息来源之一。但在提供丰富的信息资源的同时，它所具有的数据半结构化或非结构化、数据海量、实时的动态性以及用户的多态性等特点也给Web资源的使用造成了一定的难度。因此，将数据挖掘技术和Web特性结合起来，在浩瀚的信息资源中快捷、准确地检索到人们需要的信息，已成为一项迫切而有意义的研究课题。本文以体现网页链接结构关系的当代经典PageRank算法为对象，深入分析其基本思想并指出其对网页评分时存在的不足。PageRank算法主要缺陷是将PageRank值在所有的出链接上进行平均分配，而实际上每个链接的重要性和链接之间的相关性都是有差异的。它完全忽略了网页内容的语义信息，很容易受到无关链接的影响，降低了搜索结果的用户满意度。针对上述缺陷，本文通过引入基于《知网》的语义相似度，使链接锚文本的质量和其所指向网页的内容产生联系。融入出链接与目标网页主题相似度信息，使得那些没有价值的页面，或者主题不相关的网页分得较少的PageRank值，提升了真正与主题相关、有价值的页面的PageRank值。据此更加精确的体现各个链接之间的竞争。最后实现了一个模拟的搜索引擎。该模拟系统几乎包含了搜索引擎的全部基本功能。并且在互联网真实环境下进行测试，对融入语义相似度的PageRank算法进行验证。通过实验和分析，新的算法在不影响原算法的优点和效率的情况下能更好地对网页进行评分，提升了用户满意度。它在网页优先级算法上向人工智能和语义Web又迈进了一步。

著录项

作者
袁瑞红;
展开▼
作者单位

南京理工大学;

展开▼
授予单位南京理工大学;
学科计算机应用技术
授予学位硕士
导师姓名王玲;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类国际互联网 ;
关键词
语义相似度; 搜索引擎; WEB结构; 结构挖掘; 信息资源; 数据挖掘; 人工智能; 语义Web;

相似文献

中文文献
外文文献
专利

1. 基于《现代汉语词典》语义空间的中文文本语义相似度研究 [J] . 高俊芳 ,夏劲伟 . 情报探索 . 2018 ,第011期
2. 基于概念语义树的语义相似度计算方法研究 [J] . 韩欣 ,秦帆 . 电脑知识与技术 . 2011 ,第016期
3. 基于概念语义树的语义相似度计算方法研究 [J] . 韩欣 ,秦帆 . 电脑知识与技术：学术交流 . 2011 ,第006期
4. 基于语义树的概念语义相似度计算方法研究 [J] . 安建成 ,武俊丽 . 微电子学与计算机 . 2011 ,第1期
5. 基于Word2Vec的高效词汇语义相似度计算系统的设计实现 [J] . 孙洪迪 . 北京工业职业技术学院学报 . 2019 ,第004期
6. 基于非对称语义相似度的语义Web服务匹配 [C] . 彭晖 ,史忠植 ,常亮 . 中国人工智能学会第12届全国学术年会 . 2007
7. 基于快速相似度的Web结构挖掘的研究 [A] . 马燕 . 2011

基于语义相似度的WEB结构挖掘研究及实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅