基于模式识别算法的网页重复信息抽取仿真

李玉琦; 李龙

首页> 中文期刊> 《计算机仿真》 >基于模式识别算法的网页重复信息抽取仿真

基于模式识别算法的网页重复信息抽取仿真

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

当前的网页重复信息抽取方法缺少信息分类步骤,导致传统方法存在抽取全面率低、重复信息比例高以及整体性能差的问题。于是提出基于模式识别算法的网页重复信息抽取方法。利用类间平衡因子和词频获取网页信息的互信息特征。在关联规则的基础上根据网页置信度向量化互信息特征,完成网页信息特征的提取。利用模式识别中的支持向量机对网页信息分类,优化惩罚函数,建立软间隔支持向量机分类器。计算不同类别网页信息的结构相似度和语义相似度,结合上述计算结果获得网页信息相似性,完成网页重复信息的抽取。仿真结果表明,所提方法的抽取全面率高、重复信息比例低,且整体应用性能好,实验结果表明所提方法具有理想的应用效果。

著录项

来源
《计算机仿真》 |2022年第3期|439-443|共5页
作者
李玉琦; 李龙;
展开▼
作者单位

北京邮电大学;

中国科学技术大学;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
模式识别算法; 网页重复信息; 特征提取; 支持向量机; 信息抽取;

相似文献

中文文献
外文文献
专利

1. 重复模式识别算法及在Web信息抽取和聚类分析中的应用 [J] . 木妮娜·玉素甫 ,古丽娜·玉素甫 . 计算机科学 . 2017,第0z2期
2. 基于领域本体的Web信息抽取方法的设计与实现——以网易汽车资讯网页信息抽取为例 [J] . 吴恒亮 . 图书馆论坛 . 2010,第003期
3. 基于正文特征及网页结构的主题网页信息抽取 [J] . 段晓丽 ,王宇 ,谷静 . 计算机工程与应用 . 2012,第030期
4. 基于网页结构特征的网页主要文本信息抽取策略 [J] . 火善栋 . 现代计算机（专业版） . 2008,第004期
5. 基于卷积神经网络的网页信息资源定向抽取方法研究 [J] . 周沭玲 . 齐齐哈尔大学学报（自然科学版） . 2021,第004期
6. 基于统计的中文网页正文信息抽取方法研究 [C] . 李芳芳 ,葛斌 . 第三届全国社会计算会议、平行控制会议、平行管理会议 . 2011
7. 基于改进HITS算法及位置信息的关键网页信息抽取方法 [A] . 陈翰生 . 2009

基于模式识别算法的网页重复信息抽取仿真

摘要

著录项

相似文献

相关主题

期刊订阅