实时Web内容重复识别及排序系统的设计与实现

李超; 陈世强; 谢坤武; 向军

首页> 中文期刊> 《计算机工程与设计》 >实时Web内容重复识别及排序系统的设计与实现

实时Web内容重复识别及排序系统的设计与实现

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

To solve the problem that too much similar contents even the same web pages exist in the retrieved web information results,a method to mine the content and structure information of real-time pages as well as the way to recognize its repeats is given. The comparison of document similarity is accomplished based on the PageRank values obtained from the document content and structure information provided by Google. Thc test implemented thc repetition identification and sorting of the real-time webs, and achieved a higher matching degree.%为了解决现有Web信息检索结果中存在较多内容相似甚至相同页面的问题,给出了实时Web内容和结构信息提取的算法及内容重复识别的方法.利用Google提供的PageRank查询接口取得各个页面的PageRank值,结合特定用户的特征信息、查询请求及提取的各Web页内容及结构信息,完成了文档相似度比较,实现了实时页面的重复识别及二次排序,实验结果表明该方法达到了较好的效果.

著录项

来源
《计算机工程与设计》 |2011年第3期|1138-1140封3|共4页
作者
李超; 陈世强; 谢坤武; 向军;
展开▼
作者单位

湖北民族学院;

信息工程学院;

湖北;

恩施;

445000;

湖北民族学院;

信息工程学院;

湖北;

恩施;

445000;

湖北民族学院;

信息工程学院;

湖北;

恩施;

445000;

湖北民族学院;

信息工程学院;

湖北;

恩施;

445000;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
实时Web; 结构信息; 相似性; 重复识别; 排序;

相似文献

中文文献
外文文献
专利

1. 基于ElasticSearch的重复报警识别系统设计与实现 [J] . 相银堂 ,祁骏 ,许锦程 . 工业控制计算机 . 2021,第001期
2. 基于WebSocket技术无线频谱大数据实时监测系统设计与实现 [J] . 高锐 ,闫光辉 ,罗浩 . 兰州交通大学学报 . 2022,第1期
3. 基于Web的AGV实时状态监控与任务管理系统设计与实现 [J] . 刘胜 ,苏宇 ,吴若 . 制造业自动化 . 2021,第011期
4. ERP系统中基于websocket协议的实时通讯机制的设计与实现 [J] . 李翔 . 数字通信世界 . 2020,第002期
5. 基于Flink的Web日志实时分析系统的设计与实现 [J] . 金雷 . 市场周刊：商务营销 . 2020,第051期
6. 网页内容实时监控审计系统的设计与实现 [C] . 张建标 ,肖创柏 . 第十九次全国计算机安全学术交流会 . 2004
7. 基于文本挖掘与排序学习的内容推荐系统设计与实现 [A] . 王冉 . 2019

实时Web内容重复识别及排序系统的设计与实现

摘要

著录项

相似文献

相关主题

期刊订阅