公开/公告号CN1235447A
专利类型发明专利
公开/公告日1999-11-17
原文格式PDF
申请/专利权人 龙卷风科技股份有限公司;
申请/专利号CN98107500.2
发明设计人 赵国仁;
申请日1998-05-11
分类号H04L12/02;
代理机构柳沈知识产权律师事务所;
代理人马莹
地址 台湾省台北市忠孝东路五段412号4楼之一
入库时间 2023-12-17 13:29:41
法律状态公告日
法律状态信息
法律状态
2012-07-11
未缴年费专利权终止 IPC(主分类):H04L12/02 授权公告日:20030924 终止日期:20110511 申请日:19980511
专利权的终止
2003-09-24
授权
授权
1999-11-17
公开
公开
1999-11-10
著录项目变更 变更前: 变更后: 申请日:19980511
著录项目变更
1998-10-28
实质审查请求的生效
实质审查请求的生效
本发明涉及一种全文检索系统,特别涉及一种万维网站(world wide web)的网页全文检索系统。
目前互联网极为盛行,有各式各样的万维网站连接于其上,任何使用者只要通过互联网便能连接到各种不同的万维网站去寻找所需要的数据。但是目前互联网上的万维网站的数目太多,而且各个网站的网页数量也很多,而且常常会被更新,因此使用者在寻找所需要的信息时,常会不知道从何处着手。为了解决使用者这方面的困扰,目前已有一些网站检索系统在市场上被推出。这些检索系统可以让使用者利用关键字来对检索系统内所存的各个网站的网页进行全文检索以找出相关的网站及网页数据,其后使用者可以利用超连接(hyperlink)的功能直接与找出的相关网站连接以取得相关网页的数据。
这些检索系统在建立各网站的网页数据时,首先会收集各网站所有的网页数据,然后再对这些网页数据进行分析、整理以供使用者检索。然而,由于每个网页通常包含有图形文件、文本文件(text file)、声音文件、动画文件等许多个文件,而每个网站可能又包含有数百页、甚至上万页的网页,因此光是收集一个网站的网页数据便构成了一件庞大的工作,而一个检索系统往往需建立数十个甚至数百个以上的网站数据,在时间和存储器容量上的耗费便形成了一个棘手的问题。
因此,本发明的目的在于提供一个万维网站的网页全文检索系统,其可通过读取一万维网站的各个网页中的文本数据和路径数据的方法,来快速取得及建立该检索系统所需的数据,并节省大量的存储器容量。
附图的简单说明
图1为本发明网页全文检索系统的示意图。
图2为图1检索系统的功能方块图。
图3为图1检索系统建立一网站的网页数据的流程图。
图4为图1检索系统进行全文检索的流程图。
请参考图1。图1为本发明网页全文检索系统10的示意图。检索系统10可通过互联网14和万维网站12及使用者16相互连接。万维网站12上通常含有一个首页和多个网页开放给大众查询,而检索系统10会通过互联网14逐页读取万维网站12上的各个网页,并只存储文本数据及路径数据来快速地建立检索系统10内的网页数据以供使用者16做线上查询。
请参考图2。图2为图1检索系统10的功能方块图。检索系统10包含有一服务器20连接于互联网14,一个以上的数据组22以及一管理程序24存储于服务器20内。服务器20包含有一存储器21用来存储程序及数据,以及一处理器23用来执行存储器21内所存储的程序。管理程序24用来管理服务器20的操作,其包含有一数据组建立模块25用来建立万维网站12的数据组22以供使用者16做全文检索,以及一全文检索模块27用来对使用者16提供数据组22的全文检索服务。每一个数据组22都是由互联网14上的一万维网站12的网页数据所制成,其包含有一文本文件26,用来记录万维网站1 2中各网页的文本数据,一路径文件(path file)28,用来记录文本文件26中各网页的路径数据,以及一索引文件(index file)30,用来对文本文件26内各网页的文本数据作全文检索。
数据组建立模块25用来建立互联网14上各个不同的万维网站12的数据组22以供使用者16做全文检索。在建立一万维网站12的数据组22时,它会经由互联网14对该万维网站12进行网络连线,并以逐页读取的方式将该万维网站12的各个网页的路径数据及各网页内所存的文本数据取出以建立该万维网站12的数据组22的文本文件26、路径文件28及可供全文检索的索引文件30。
全文检索模块27用来对使用者16提供数据组22的全文检索服务。当使用者16希望通过检索系统10来查询互联网14上的一些万维网站12的网页数据时,使用者16需先输入欲查询网页的关键字或关键字的组合,然后全文检索模块27会利用服务器20内所存的各个数据组22的索引文件30找出各数据组22的文本文件26中符合该检索条件的网页,然后将符合检索条件的网页的文本数据及路径数据由各数据组22的文本文件26及路径文件28中取出,并以符合http标准的网页形式传给使用者16。每一数据组22的路径文件28中存有与该数据组22相对应的万维网站12的网址,以及该数据组22的文本文件26中各网页在该万维网站12内的路径数据。
请参考图3。图3为图1检索系统10的数据组建立模块25建立一万维网站12的数据组22的流程图,其包含下列步骤:步骤30:通过互联网14与一万维网站12相连;步骤31:建立该万维网站12的文本文件26及路径文件28,以及建立一超
连接数据文件,并将该万维网站12的网址存入该路径文件28;步骤32:要求该万维网站12提供首页数据;步骤33:将该首页内的文本数据存入该文本文件26,将该首页内的路径数
据存入该路径文件28,将该首页内其他网页的超连接数据取出并
存入该超连接数据文件,并依据文本文件26内所存的文本数据建
立一可供全文检索的索引文件30,而后将该首页内的其他数据弃
置;步骤34:将该超连接数据文件内的一未读取过的网页的超连接数据取出,并
依据该超连接数据要求该万维网站12提供该网页的数据;步骤35:将该网页内的文本数据存入该文本文件26中,将该网页的路径数
据存入该路径文件28,将该网页内其他网页的超连接数据取出并
将未存入该超连接数据文件中的网页的超连接数据存入该超连接
数据文件,并依据文本文件26内所存的各网页的文本数据建立一
可供全文检索的索引文件30,而后将该网页内的其他数据弃置;步骤36:检查是否该超连接数据文件内的所有网页都已被读过;若否,则跳
至步骤34;步骤37:结束。
数据组建立模块25除了可以依据上述步骤逐页读取一万维网站12的所有网页外,也可以将上述步骤略做修改以读取一预定数目的网页或是一预定树状结构内的所有网页。在上述的步骤中,数据组建立模块25会将万维网站12的各个网页的文本数据及路径数据分别存入文本文件26及路径文件28,而其他不相关的数据则会予以弃置,这使得检索系统10可以快速地建立一个万维网站12的数据组22供使用者16查询并且可以节省大量的存储器空间。
请参考图4。图4为图1检索系统10的全文检索模块27对使用者16提供全文检索服务的流程图,其包含下列步骤:步骤40:使用者16通过互联网14与检索系统10连接;步骤41:使用者16将欲检索的关键字输入检索系统10;步骤42:管理程序24的全文检索模块27根据输入的关键字到各个数据组
22的索引文件30中寻找符合条件的网页的索引数据;步骤43:全文检索模块27根据各数据组22的相关网页的索引数据到各数据
组22的文本文件26中取出各网页的文本数据,以及到各数据组22
的路径文件28中取出各网页的路径数据;步骤44:全文检索模块27将各网页的文本数据以及路径数据做适当组合后
传回给使用者16。
在步骤44中,全文检索模块27可依据使用者16的要求将各网页的文本数据中的标题或部分文字段落取出,而不是将各网页所有的文本数据全部传给使用者16。全文检索模块27会将各网页的文本数据依某一顺序排列后以符合http标准的网页形式传给使用者16,其中各网页的路径数据是以超连接数据的形式存放在传给使用者16的网页中,因此使用者16可利用各网页的超连接数据与各网页的原始网站相连接以取得各网页的完整数据。
现有网站检索系统在建立检索数据时,通常会先完整地下载一个网站的所有网页数据,然后再对该网站的所有网页数据进行分析整理以制作出必要的检索数据。这种方式需耗费大量的数据存储空间以及处理时间。本发明的网页全文检索系统10则会以逐页读取的方式来取得一万维网站12内各网页的文本数据及路径数据,并同时将各网页内其他不相关的数据弃置,因此在存储空间以及处理时间上的需求均可大量地被减低。
以上所述仅为本发明的较佳实施例,凡依本发明权利要求所做的均等变化与修饰,皆应属本发明专利的涵盖范围。
机译: 用于防止重复访问一系列链接的网页的系统,该一系列链接的网页通过万维网接收显示站处的万维网浏览器从万维网访问
机译: 用于在万维网服务器的网页上提供全文搜索的搜索系统
机译: 用于在万维网服务器的网页上提供全文搜索的搜索系统和方法