首页> 中文学位 >互联网上的网页智能获取与应用研究
【6h】

互联网上的网页智能获取与应用研究

代理获取

目录

文摘

英文文摘

致谢

第一章背景介绍

§1.1自动分词技术

§1.2自动文摘

§1.3互联网上的信息搜索

§1.4网页评价

§1.5用户兴趣模型

§1.6本章小结

第二章互联网竞争情报收集与处理系统-ClSnet

§2.1 ClSnet简介

§2.2 ClSnet的优势

§2.2.1 ClSnet的特点

§2.2.2 ClSnet与传统搜索引擎的比较

§2.2.3 ClSnet与其它情报收集系统的比较

§2.3系统构成

§2.4主要技术

§2.5网页规则生成和评价去冗余

§2.6本章小结

第三章网页抽取规则的自动生成

§3.1网页抽取模块介绍

§3.2计算机辅助的人工规则生成器

§3.3智能网页规则生成器

§3.3.1打分规则

§3.3.2实验结果

§3.4基于自然语言查询的供求信息搜索

§3.4.1知网简介

§3.4.2国内对知网的研究与应用

§3.4.3基于知网的动名语义搭配研究

§3.4.4支持自然语言查询的供求信息搜集系统

§3.5本章小结

第四章网页下载和主题相关性评价

§4.1网页下载与评价介绍

§4.2网页下载

§4.2.1 Bot,Spider,与智能代理

§4.2.2网页下载的难点与解决

§4.2.3网页下载的实现

§4.3网页打分与去冗余

§4.3.1网页打分与去冗余的实现

§4.3.2网页打分与去冗余实验及结果

§4.4本章小结

第五章结论与展望

§5.1本文工作总结

§5.2进一步研究展望

硕士期间发表的文章和参与的项目

参考文献

展开▼

摘要

互联网上的信息资源浩如烟海,信息丰富自然给人类带来莫大的益处,但如何在纷繁复杂的信息海洋中寻找相关主题的竞争情报信息变得越来越困难.该文就如何从互联网上过滤出用户感兴趣的网页做了研究.该文首先在第一、二章里介绍了互联网竞争情报收集和处理系统——ClSnet的整体结构和用到的主要技术,它是一个面向政府机关和企事业单位用户,对互联网上发布的信息进行搜集、监测和处理的工具.然后在第三章针对网页规则生成的不足之处,利用语义知识库知网以及传统的自然语言理解技术给出了高效的解决方法.同时,对知网的语义信息抽取进行了探讨,并对如何利用知网进行动词名词之间的搭配做了一些研究.最后在第四章里给出了网页评价和去冗余实验的结果.第五章对以后的研究和工作做出了展望.该文的主要工作有:1.描述了互联网竞争情报收集和处理系统ClSnet的整体结构和主要技术.2.针对计算机辅助生成网页规则的低效,利用语义知识库知网以及传统的自然语言理解技术,提出了一个对网页表单打分的算法,实现了自动生成网页规则.3.提出了一个利用知网对动词名词进行搭配的算法,并实现了这个算法,给出了搭配结果实验.4.实现了互联网竞争情报系统CISnet中的高效网页下载.5.实现了互联网竞争情报系统CISnet中的网页评价和去冗余,并给出了实验结果.该文从语言学角度研究了汉语中动词和名词之间的最频繁的两种语义关系—施事与受事关系的搭配,对语义知识库知网的语义信息抽取研究提供了参考价值.该文还将知网的语义信息应用在互联网信息采集中,使其支持用户用自然语言查询,自动生成网页搜索结果,极大的提高了规则抽取的效率,而且保持很高的准确率,为以后的信息智能采集系统提供了有意义的参考.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号