首页> 中国专利> 解析非拉丁字母统一资源定位地址的方法

解析非拉丁字母统一资源定位地址的方法

摘要

一种解析具有域名并由用户通过互联网浏览器输入的非拉丁字母URL的方法,包括以下步骤:连接一个支持非拉丁字母URL解析方案的网站,从该网站下载非拉丁字母URL的输入程序,利用该程序输入URL并发送URL到该网站;利用URL的字符组合,在该网站确定一个或多个支持所选字符组合的域名的名称服务器;从该网站对至少一个具有所述域名的名称服务器进行查询;如果查询结果满足要求则从URL上取出内容并将内容传送给用户。

著录项

  • 公开/公告号CN1454356A

    专利类型发明专利

  • 公开/公告日2003-11-05

    原文格式PDF

  • 申请/专利权人 旋风资讯私人有限公司;

    申请/专利号CN00819620.6

  • 发明设计人 Y·K·R·谢;C·K·王;C·M·李;

    申请日2000-06-07

  • 分类号G06F17/28;G06F17/30;

  • 代理机构11245 北京纪凯知识产权代理有限公司;

  • 代理人程伟;戈泊

  • 地址 新加坡新加坡城

  • 入库时间 2023-12-17 15:01:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2010-08-11

    未缴年费专利权终止 IPC(主分类):G06F17/28 授权公告日:20050713 申请日:20000607

    专利权的终止

  • 2005-07-13

    授权

    授权

  • 2004-01-14

    实质审查的生效

    实质审查的生效

  • 2003-11-05

    公开

    公开

说明书

技术领域和背景技术

本发明涉及URL地址(即统一资源定位地址)检索。

每个互联网网站具有一个唯一的网站URL(Uniform ResourceLocation,即统一资源定位地址)地址,用户使用浏览器进入该站点。一个统一资源定位地址包括两个部分,表示主机或者IP(Internet协议)地址的域名和资源路径。用户以字符形式输入统一资源定位地址,然后被转换为一个数字地址。通常统一资源定位地址由包括拉丁字符和数字组成的标准字符组合构成,借助ICANN提供的与每个国家的“分支”国家注册设备相连的“根”注册设备进行解析。

这种统一资源定位地址有一个问题就是只使用拉丁字母而不可能使用其它的语言表示非拉丁字母统一资源定位地址,例如汉字或象泰语这种非拉丁文字符,因为这些不能被解析。已经提出了一些表示非拉丁字母统一资源定位地址的方案,以下称i18n(国际化的简称)地址,现在iDNS(国际域名系统)和CNNIC(中国联网信息的中心)提供的两个国际域方案在实施。每个方案采用不同的名称服务器。问题是还没有提出一个可以接受的标准实施方案,能够使不同的方案都进入国际域,且采用不同方案的国际统一资源定位地址不会发生混淆,特别是随着使用非拉丁字符集的国家需求的增长,非拉丁语域名方案和注册设备的数目的不断增加后更可能发生混淆问题。

用户输入非拉丁字母也是一个问题。世界上大多数的计算机使用仅能输入拉丁字符组合的操作系统。对于这些计算机用户没有设备写入国际域非拉丁语URL,也不能进入这些的URL。一些操作系统具有输入一种(或一些)非拉丁字符组合的能力(例如中文Windows95,日文Windows 98)。也有与操作系统结合的语言输入程序允许输入非拉丁字母(例如用于中文输入的Hans Vision)。这种系统的问题在于不能键入国际域URL,也不能进入不同的字符组合的国际站点URL(例如,一个使用中文操作系统的用户想去一个泰米尔语URL地址)。

本发明的目的是提供一种URL地址检索的方法,解决现有技术中至少一个问题或向用户提供一些帮助。

发明内容

本发明首先提供一种解析由用户输入的具有域名的非拉丁字母URL的方法,步骤包括:选择写URL的字符集;从字符集中选择字符输入URL;利用输入的URL字符组合,确定一个或多个支持所选字符组合的域名名称服务器;从至少一个所述具有域名的名称服务器上进行查询;如果查询结果满足要求,则从该URL取出内容。

本发明的第二方面,提供一种解析由用户使用浏览器输入的具有域名的非拉丁字母URL的方法,步骤包括:连接一个支持非拉丁字母URL解析的网站,从该网网站下载非拉丁字母URL输入程序,利用该程序输入URL并发送URL到该网站;利用URL字符组合,在该网站确定一个或多个支持所选字符组合的域名名称服务器;从该网站对至少一个所述具有域名的名称服务器进行查询;如果查询结果满足要求,则从该URL取出内容并将内容传送给用户。

实现上述发明方法的设备也是本发明的一部分,更多的特征在所附的权利要求中描述。

在本发明所描述的方法中,在计算机上不用安装任何辅助的软件,也不用对用户端设置进行任何变化,用户可以使用任何一种具有Java脚本和/或Java支持的浏览器输入一个非拉丁字母URL(统一资源定位地址),检索并查看非拉丁字母内容。实施例将提供不同的国际域(解析)方案。提供一个非拉丁字母编辑器用于输入非拉丁字母URL,并动态地将非拉丁字母网页转换成图形用于查看,无需辅助软件。用户选择一种语言编码输入法。对于每种输入法,备选字符清单通过从一个网络服务器取得的图形来显示,从而允许用户选择他输入的字符。每个字符由一个唯一的统一字符编码(通用字符集——国际标准组织ISO/国际电工委员会IEC10646方案)表示,记录统一字符编码的保存路经,显示以统一字符编码为文件名的统一字符编码并用图形表示的字符。

统一字符编码只是本发明可以采用的一种字符编码。在优选方案中,字符图形网络服务器可以包含不同语言的多种字符图形集以及符号编码,各自存放在一个具有一个命名标准文件夹中,将字符码映射到一个URL名称。取出的URL内容可以动态地转换成图形表示,使用户无需辅助软件就可以查看任何非拉丁字母内容。

上述方法可以解析包括任何国际域解决方案的国际域URL。(现在有两种已知的解决方案,由i-DNS和CNNIC提供)。域名查询发送给一个支持国际域具体解决方案的名称服务器。在客户端最好向用户提供对国际解决方案进行选择的功能。最好提供一个解析国际解决方案的默认设置,以便第一个国际域方案的域主机IP地址成功返回一个IP地址。内容取出之后,如果URL的内容包含国际域,可以进行筛选,将URL替换为能解析国际域的Java脚本编码。

附图说明

现在参考附图描述本发明的一个实施例:

图1是一个说明本发明实施例主要部分的框图。

图2是一个说明本发明方法的实施例程序框图。

图3是一个说明图2获得多种语言URL的步骤的程序框图。

图4是一个说明解析图2国际域URL的步骤的程序框图。

图5是一个说明图2中取出并筛选内容步骤的程序框图。

具体实施方式

为了说明本发明的方法的原理,图1表示由不同部分组成的本发明方法的原理高级框图。用户打开浏览器110使其计算机与互联网100通连。用户连接到包含可下载的非拉丁字母编辑器工具条120以及支持本发明方法的Java脚本和Java应用程序125的网络服务器上。该服务器140配备名称解析程序,用来在服务器端解析域名。三种不同类型的服务器可以连接到互联网,普通名称服务器10(例如Bind),通过IDNS解析国际域的名称服务器11以及通过CNNIC解析国际域的名称服务器12。

首先概要说明该方法的运行过程。用户打开互联网浏览器110浏览网络服务器地址140。浏览器110利用有关Java脚本以及隐藏的Java应用程序125,检索非拉丁字母编辑器工具条网页120。非拉丁字母编辑器120按照统一字符编码对国际字符进行解析,也可以采用任何其它的编码方案,或允许用户选择编码方案。用户选择一种组成地址以及任何非拉丁字母域URL的字符输入法,通过带有显示输入字符的工具条的客户浏览器,运行Java脚本程序125。Java脚本程序记录用户输入的地址并判断用户选择的输入法的统一字符编码字符。接着Java脚本将从支持将统一字符编码字符动态转换为图形的网络服务器取出图形文件(其具有一个相当于统一字符编码的文件名)来显示通用字符,不需要用户在其计算机上安装任何非拉丁字母软件。

然后用户回车确认他刚输入的希望浏览的非拉丁字母域URL。关键要使用本发明的软件用于输入URL。如果用户在其它软件的帮助下在浏览器110地址栏中输入URL并回车,浏览器110将直接地采用操作系统配置的缺省名服务器(通常如此)或者浏览器配置的缺省名服务器取出URL。如果名称服务器不能解析国际地址,查找一个主机名将失败。即使缺省名服务器有国际功能,很可能只按照国际域名标准的一个解决方案进行解析(例如iDNS或CNNIC,而不会是两者),也可能发生主机名查找失败(例如,如果用户想要在iDNS标准下的国际域,但是缺省名服务器的设置是CNNIC)。

下一步将非拉丁字母域解析成一个IP地址。计算机上设置的名称服务器通常指向当前一个普通名称服务器11。如果一个域名查询被发给这种名称服务器11,该服务器11将返回出错信息,因为非拉丁字母域名不是有效的标准域名(其只允许由拉丁文字母数字和连字符组成的域名)。本方法中,不论URL是不是拉丁字母形式,域名查询都通过根据统一字符编码Java应用程序125或者名称解析器145来进行。名称解析器保存了已知的提供每一种国际域方案域名服务的IP服务器清单。这样域名查询将被发给那些知道如何解析非拉丁字母域名的正确的名称服务器。例如非拉丁字母域名查询可以发给IDNS名称服务器11和/或CNNIC名称服务器12。

由于服务器11,12不互相排斥,相同的非拉丁字母域可能由不同的人注册,导致冲突。本方法通过允许用户选择国际域方案供应商来解决。

可以用服务器端域名查询采用名称解析器进行解析,也可以用客户端域名查询将采用Java应用程序125进行解析。除了服务器端解析更灵活性能最好以外,两种解析基本相同。例如,可以比较容易的在名称解析器145上更新名称服务器目录信息并且可以支持高级的高速缓存。对于客户端解析,Java应用程序125根据早先解析的IP地址取出URL内容。

内容取出之后,Java应用程序将内容进行筛选,当用户点击URL,如果URL内容包含国际域,URL替换为Java脚本编码向Java应用程序125转送要求解析国际域URL。Java应用程序125然后在浏览器110的另一个框中显示内容。对于服务器端解析,内容可以取出然后在网络服务器140将内容返回客户浏览器110之前进行筛选。这样本方法能从不同的国际域方案解析任何国际域名,只要名称服务器解析支持标准名称服务器解析,那就是说名称服务器的原理和设计应当遵循RFC1034和RFC1035。具体地,域名服务器查询和响应以符合RFC1034和RFC1035标准的一个标准化信息格式进行传送,以便相同的解析器可以独立于国际域方案用来查询每一名称服务器。

图2表示全部方法的流程图。第一步,用户使用非拉丁字母编辑器输入非拉丁字母URL。(如方框20所示)紧接着,URL的域部分被解析为一个IP地址。如方框21所示URL内容从IP地址中取出,内容被筛选,用Java脚本编码来替换包含国际域的URL。(如方框22所示)即使浏览器不支持非拉丁字母,内容也可以显示在用户的浏览器上。(如方框23所示)。

图3详细说明由用户启动的方框20表示的过程。在方框201中,从服务器140网页下载的非拉丁字母URL编辑器工具条显示在浏览器框上。用户可以用互联网书签或在浏览器Internet地址栏中直接输入URL方便地连接网页。现在的Internet Explorer浏览器支持放在浏览器左边或底部的自定义工具栏,它可以很容易地从链接工具条中调用。非拉丁字母编辑器不需要任何客户端安装或任何在用户计算机上的配置设置,可以扩展到对任何一种语言以及输入法的支持,这些都可以在服务器上进行更新,用户不需要考虑。用户计算机不要求安装任何语言字体,浏览器不要求支持非拉丁字母语言。每一个非拉丁字母字符用一个保存在网络服务器中的图形文件显示。采用语言编码,识别字符的统一字符编码表示,表示出的图形文件可以用统一字符编码命名,这样可以显示任何非拉丁字母网页。

在方框202中,用户选择语言和输入法。通过这样做,在网页中的Java脚本编码下载与所选输入法相应的词典以便能够映射用户键入的字符码。采用Java脚本因为中大多数普及的浏览器包括InternetExplorer和Netscape browser都支持Java脚本。在方框203中,运行Java脚本编码记录用户从键盘输入的信息,词典相应检查任何可能备选的字符。如果只有一个备选项,则确定字符码,否则显示选择清单,按照方框204所示由用户进行选择。通过从网络服务器取出图形文件来显示全部的字符。在方框205中,用户从选择清单显示的选项中选择图形字符,这样字符码也就确定了。在方框206中,Java脚本编码附加统一字符编码字符编码成为内部URL字符串,并在URL编辑器中显示成图形字符。这个过程当用户键入完整URL,并且在他完成键入URL希望浏览URL表示的网页而回车确认之前,重复进行。方框207说明了这个重复过程。尽管当前的语言和输入法仍然是缺席设置,但当用户在方框202中有所变化,就能换到另一个语言和输入法,这样输入由多个字符集构成的URL,在方框202中每个字符具有一个统一字符编码对应字符。当用户换到另一个语言和/或输入法,不同的词典可以自动地通过Java脚本编码下载。当方框20中的过程完成后,Java脚本编码将储存用户已经键入的统一字符编码字符串URL。

在方框21中,URL域部分被解析获得主机IP地址。这个过程在图4中更详细地说明。现在至少有两个国际域解析方案,一个是IDNS提供的,另一个是CNNIC提供的。由于非拉丁字母域名有巨大的商业价值,可以预料会出现更多国际域方案。因而最好域名可以对任何国际域方案进行正确地解析。提供国际域解决方案与现行标准域名服务器不矛盾,本方法可以适应需要,只要国际域名服务器可以接受相同的标准域名查询向客户返回查询的IP地址就可以。现在的IDNS和CNNIC解决方案就可以兼容。本方法需要对支持选择的国际域解决方案的恰当域名服务器进行查询或者简单地说,支持IDNS或者CNNIC提供的国际域解决方案的全部名称服务器都可以查询。

因为通常不可能判别一个域注册的是哪种国际域解决方案(域注册器),用户能够在非拉丁字母编辑器工具条中选择国际域名解决方案。也提供国际域解决方案的默认规则以便软件先查询一个域解决方案的名称服务器再查询另一个。实际上,设备可以同时对不同的国际域解决方案的名称服务器进行查询,以提高速度,然后返回默认规则的IP地址。如果一个域名在不同的域解决方案中发生注册冲突,而默认规则不是他所需要的,用户可以尝试另一个主机(IP地址)。在图4中,框图表明域名查询的过程是顺序进行的,当然也可以同时进行。

在方框211中,该进程检查域是否为标准URL字符,如果是,URL内容按照正常检索。如果域是国际域,本方法通过首先检索方框212所示的国际域解决方案的完整目录来解析域。(例如IDNS和CNNIC)。在方框213中,一个域解决方案被选择,支持该选择的域名解决方案的域名服务器被检索。一般这种服务器IP地址可以被手动地编译并配置。用于目录中的每个域名服务器(如方框214中所示),过程对其发送一个域名查询,如方框215所示。如果域名服务器返回一个IP地址,过程完成(如方框216中所示),尽管实际上,由于前述的域名解析冲突,不同的国际域解决方案可能返回多个IP地址。如果域名服务器返回错误信息,执行方框217再次对另一个目录中的名称服务器进行查询。方框218中,通过向支持该解决方案的名称服务器目录中的另一个名称服务器发送相同的域名,查询另一个域名解决方案,对过程进行重复。(实际上可以同时进行)。

域名解析过程可以在客户端或服务器端进行。客户端解决方案可以使用Java应用程序实现。服务器端解决方案则更灵活,性能更好。例如更容易在名称解析器145上更新名称服务器目录信息,支持高级高速缓存从而更快地进行域名映射。如果采用客户端解析,取出并筛选URL内容的过程如方框22中所示还可以在相同的Java应用程序中实现。如果改用服务器端名称解析器145,则可以选择由客户端或者服务器端取出和筛选。客户端取出和筛选可以减轻服务器的负担,但会造成客户端编码更复杂。服务器端筛选可以利用高速缓存,将URL内容在全部的国际域中一次进行解析。

在方框22中,URL内容根据IP地址取出,并将内容进行筛选,用Java脚本编码替换含国际域的URL,当用户点击确认时将解析国际域URL的要求发送给Java应用程序。如果原始的URL含国际域被点击确认,浏览器将采用默认域名查询,可能在标准名称服务器上出现查询失败。因此要对内容进行筛选来解决这个问题。即使在用IP地址替换域显示内容之前,全部的国际域都被解析,也不能确保任何情况下都能正常运行。在此情况下,当一个具有IP地址的网络服务器选择使用多个域时,URL的原域部分丢失将妨碍网络服务器对URL内容进行检索。本方法采用的解决方案是用调用Java脚本函数替换URL并传送原URL的参数。(如果已经完成解析,可以传送用于主机IP地址的附加参数)。当用户点击替换后的URL,Java脚本函数启动,取出内容,该功能与取出用户向非拉丁字母编辑器中键入的URL内容相同。取出并筛选的过程在图5中更详细地说明。

在方框221中,URL内容被取出。该过程使用解析出的主机IP地址与网络服务器连接,然后取出原URL内容。取出的内容在方框222中进行解析。在方框223中,提取每个URL的内容。在方框224中,检查URL,看是否含国际域名。如方框225中所示,如果有,则调用Java脚本函数进行替换。方框226说明重复提取URL内容的过程。更新后的内容被返回,过程完成。接下来,如方框23中所示,内容被返回写在浏览器框中。

本发明并不限于上述的实施例。例如,虽然实施例中采用统一字符编码字符码,Java脚本作为一个脚本语言并且Java作为程序设计语言,采用其它的合适的编码方案可以代替统一字符编码,还可以采用其它的脚本语言例如Perls脚本或者Vb脚本等其它字节码解释性程序设计语言。

例如,一个字符图形网络服务器可以含不同语言和符号编码的多个字符图形集,存放在不同的文件夹中,以一个命名标准将字符编码映射到URL名称。例如中文″六″字在GB2312中的编码为OxC1F9,其图形可以保存在网络服务器的gb文件夹中,因此URL为http://[graphicswebserverdomain]/gb2312/C1F9.gif。″六″字在统一字符编码3.0中的编码为0x516D,其图形可以保存在网络服务器的unicode3文件夹中,URL为http://[graphicswebserverdomain]/unicode3/516D.gif。每个字符所在文件夹和文件名的命名由Java脚本或Java编码参考字典的编排来确定。汉语拼音输入法词典用于GB2312编码可以通过输入″liu4″指向汉字″六″的图形,URL为http://[graphicswebserverdomain]/gb2312/C1F9.gif,另一个用于统一字符编码的汉语拼音输入法词典可以将同样输入的表示汉字″六″的″liu4″指向http://[graphicswebserverdomain]/unicode3/516D.gif。

实际使用中优选形式为全部的字符图形文件排列在统一字符编码中,全部的词典尽可能改成统一字符编码(因为统一字符编码含多种语言字符),从而使对不同的图形集和词典的维护实现最小化。

所述非拉丁字母URL包括有非拉丁字母域名和拉丁字母域名的URL或非拉丁字母路径部分。

参考文献

UTF-5,a transformation format of Unicode and ISO 10646

http://www. idns.org/technical/draft-jseng-utf5-00.txt

iDNS,an Experimental DNS System with Unicode Support

http ://www.idns.org/technical/iuc 14-paper.doc

P.V.Mockapetris,Domain names-implementation andspecification.,RFC1035,November 1987

 P.V.Mockapetris,Domain names Concepts and Facilities,RFC1034,November 1987

 Martin Duerst,Internationalization of Domain Names,IntemetDraft,July 1997,extended in 1998.

 The Unicode Standard,URL http://www.unicode.org

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号