首页> 中国专利> 超文本分析方法及其装置

超文本分析方法及其装置

摘要

本发明公开了一种超文本分析方法,取入对超文本(3)的各页面(2)的访问经历信息(4),把1页面或多页面设定为目的页,把取入的访问经历信息分割为表示一系列访问的多个对话(14)。对各对话,生成相应对话中包含的各页面的转移顺序的页列。对各对话,当相应对话访问了目的页时判定为成功,当未访问目的页时判定为失败。而且,对每页面计算对话数和成功率,把对话数和成功率作为参数,用曲线图表示各页面。

著录项

  • 公开/公告号CN1493994A

    专利类型发明专利

  • 公开/公告日2004-05-05

    原文格式PDF

  • 申请/专利权人 株式会社东芝;

    申请/专利号CN03158139.0

  • 发明设计人 加纳诚;

    申请日2003-09-12

  • 分类号G06F12/00;G06F3/00;G06F13/00;G06F17/30;

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人李德山

  • 地址 日本东京都

  • 入库时间 2023-12-17 15:13:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2010-09-22

    未缴年费专利权终止 IPC(主分类):G06F12/00 授权公告日:20060405 申请日:20030912

    专利权的终止

  • 2006-04-05

    授权

    授权

  • 2004-07-07

    实质审查的生效

    实质审查的生效

  • 2004-05-05

    公开

    公开

说明书

技术领域

本发明涉及构筑在网络服务器内的,用来分析使许多页面彼此链接的超文本(hypertext)的超文本分析方法和超文本分析装置。

背景技术

在连接于不特定数量的访问者都能访问的因特网上的Web服务器等网络服务器内,构筑有使多页面彼此链接的超文本。而且,使外部访问者能任意地浏览该超文本各页面的系统正在被实用化。

在这种超文本的各页面中,配置有访问该页面的访问者用来指定相关的下一页面的链接目标的多个图标(icon)或安克(anker)。而且,当该超文本是介绍企业情况的主页或网上销售等的主页时,怎样使访问该主页的访问者(顾客)能迅速将页面转移到记载有所需信息的各页面并进行显示就成了一个课题。

因此,分析访问者(顾客)实际上以怎样的步骤来访问构筑于网络服务器内部的超文本各页面是非常重要的。

以往,作为该超文本的分析方法,在特开2001-166981号公报中公开了“超文本分析装置和方法”。在该特开2001-166981号公报中公开的“超文本分析装置和方法”中,对构成超文本的任意各页面组,预先计算出从页面内容抽出的各种属性和页面之间转移频度的关联程度。提出了以下方案:即在想要提高页面之间转移频度时就显示改变哪个属性好。

另外,有关任意的页面组,预先计算从页面内容抽出的各种属性和页面之间访问类似度的相关程度。而且,提出了以下方案:即当想要提高页面之间访问类似度时就显示改变哪个属性好。须指出的是,页面之间访问类似度表示访问者访问双方页面的程度。

据此,超文本管理者就可以为了提高页面之间的转移频度或提高页面之间的访问类似度而变更页面内容。

但是,特开2001-166981号公报中公开的“超文本分析装置和方法”中,还存在着以下应该解决的问题。

在特开2001-166981号公报中,把用于提高页面和页面之间的转移频度、或访问类似度的方法作为问题。但没有表示在实际的超文本中提高哪些页面之间的转移频度或访问类似度比较好,没有表明其方针。

另外,在因特网上,在由企业管理经营的Web服务器的超文本中,把访问该主页的访问者(顾客)引导到商品购买、资料索取、查询等目的页上,以增加商业机会(business chance)为目的。但在特开2001-166981号公报中并没有表示以怎样的路线将访问者引导到目的页(目的页面)上,所以存在着不知道应提高哪些页面之间的转移频度、访问类似度才好这一问题。

发明内容

鉴于以上问题的存在,本发明的目的在于:提供为了能高效地把超文本的访问者引导到商品购买、资料索取、查询等目的页(页面)或目的分类上以增加商业机会,能支援页面之间的链接结构或页面内容改善的超文本分析方法和超文本分析装置。

为了实现所述目的,本发明第一方面的超文本分析方法,分析构筑在网络服务器内的、使多页面彼此链接的超文本,包括:取入对存储在网络服务器内的超文本各页面的访问经历信息的步骤;把从构成所述超文本的多页面中指定的1页面或多页面设定为目的页的步骤;把所述取入的访问经历信息分割为表示一系列访问的多个对话(session)的步骤;对所述分割的每一对话,生成相应对话中包含的各页面的转移顺序的页列,存储到存储器中的步骤;对所述各对话,当相应对话访问了目的页时判定为成功,当没有访问时判定为失败的步骤;对构成所述超文本的每一页面,计算访问了该页面的对话数和访问的对话数中成功的对话数的比例即成功率的步骤;把所述各页面的对话数和成功率作为分析结果来进行输出的步骤。

须指出的是,本发明的超文本分析方法的对话(session)表示对超文本的各页面的一个访问者的一系列访问。访问者由该访问者利用的计算机的IP(internet protocol)地址等识别。如果连续访问超文本的页面,则该连续的访问变为一个对话。如果一定时间以上未访问,则在那里对话结束。这样,从网络服务器取得的访问经历信息被分割为多个对话。

各对话当相应对话访问了目的页时判定为成功,当未访问时,判定为失败。而且,最终各页面的对话数、成功率作为分析结果而输出。

因此,能参照该分析结果,改善页面之间的链接结构和页面内容,使对话数少的页面的访问频度提高,使成功率低的页面的成功率提高。

在成功率低的页面中,例如访问者经常从该页面到外部时,考虑是访问者浏览前一访问页面,怀着的期待与该页面内容不一致,所以有必要重新估价页面内容或前一访问页面的说明文。

另外,  当从该页面向超文本内部的成功率低的页面的转移多时,有必要重新估价链接说明或重新估价页面内容,使向其他成功率高的页面的转移数增加。

在成功率高,但是访问频度低的页面中,为了使向该页面的访问增加,通过使向该页面的例如由图标表示的链接明显或从访问频度高的页面建立链接,进行改善,使访问者能访问。

即可以修正页面内容或链接结构,以便在对话(访问频度)、成功率都高的区域中描绘页面。

另外,本发明第二方面的超文本分析方法,分析构筑在网络服务器内的、使多页面彼此链接的超文本,包括:取入对存储在网络服务器内的超文本各页面的访问经历信息的步骤;把构成所述超文本的各页面分类为多个类别的步骤;把从所述多个类别中指定的一个或多个类别设定为目的类别的步骤;把所述取入的访问经历信息分割为表示一系列访问的多个对话(session)的步骤;对所述分割的每一对话,生成相应对话中包含的各页面所对应的类别的转移顺序的类别列,存储到存储器中的步骤;对所述各对话,当相应对话访问了目的类别时判定为成功,当没有访问时判定为失败的步骤;对构成所述超文本的各页面所对应的每一类别,计算访问了该类别的对话数和访问的对话数中成功的对话数的比例即成功率的步骤;把所述各类别的对话数和成功率作为分析结果来进行输出的步骤。

本发明第二方面的超文本分析方法对本发明第一方面的超文本分析方法附加了对超文本的页面进行分类的步骤,在以类别单位进行分析这一点上是不同的。

即当应该分析的超文本的页面数多时,为了进行页面单位的分析,需要大量的计算机资源和时间。因此,如果利用第二方面的超文本分析方法,把页面分类,能以类别单位进行分析,所以不需要大量的计算机资源和时间。

另外,超文本的管理者参照显示的分析结果来修正页面内容和链接结构时,用页面单位的分析结果来理解很多页面的关联是很繁杂的,但使用类别单位的分析结果就变得容易理解。

在以下公开的内容中将阐明本发明的附加目的和利益,或通过实施发明而得知本发明的附加目的和利益,可以通过下文中特别指出的手段和组合来实现和获得本发明的目的和利益。

添加的附图构成说明书的一部分,它公开了发明当前的优选实施例,与以上的概括公开和以下给出优选实施例的详细公开一起说明本发明的原理。

附图说明

下面简要说明附图。

图1是表示应用了本发明实施例1的超文本分析方法的超文本分析装置的概略结构的框图。

图2是表示实施例1的超文本分析装置动作的流程图。

图3是表示实施例1的超文本分析装置中使用的对话(session)的结构的图。

图4是表示实施例1的超文本分析装置的显示部中显示的分析结果的图。

图5是表示实施例1的超文本分析装置的显示部中显示的分析结果的图。

图6是表示应用了本发明实施例2的超文本分析方法的超文本分析装置的概略结构的框图。

图7是表示实施例2的超文本分析装置动作的流程图。

图8是表示实施例2的超文本分析装置中使用的分类结构的图。

图9是表示实施例2的超文本分析装置中使用的对话结构的图。

图10是表示实施例2的超文本分析装置的显示部中显示的分析结果的图。

图11是表示实施例2的超文本分析装置的显示部中显示的分析结果的图。

具体实施方式

下面,使用附图来说明本发明的各实施例

图1是表示应用了本发明实施例1的超文本分析方法的超文本分析装置的概略结构的框图。

在作为连接在未图示的因特网上的网络服务器的Web服务器1内,构筑有把多页面2彼此链接的超文本3。而且,任意的人能用连接在因特网上的自己的计算机,通过因特网访问Web服务器1内构筑的超文本3的各页面2。

而且,如果任意的人访问各页面2,则确定该页面的页面编号或该页面的URL(uniform resource location)、访问时刻、用于确定访问者的访问者计算机IP地址(address)按时间系列写入日志文件(log file)5中。即在日志文件5内存储对超文本3的各页面2的访问经历信息4。

在由连接在该Web服务器1上的计算机(computer)构成的超文本分析装置6内,设置有在应用程序(application program)内构成的输入部7、目的页设定部8、对话(session)生成部9、转移页列生成部10、判定部11、到达次数和成功率计算部12。在超文本分析装置6内配置有显示部13。

输入部7读出存储在Web服务器1的日志文件5内的访问经历信息4,向目的页设定部8和对话生成部9发送。

目的页设定部8把访问经历信息4中包含的即超文本3中的包含的多页面2中想让访问者访问的页面2设定为目的页,向判定部11发送。该目的页的指定由超文本分析装置6的操作者(管理者)的操作进行。

对话生成部9把输入的访问经历信息4按访问者分类,分割为表示各访问者的一系列访问页面的对话,把分割的各对话的页列向转移页列生成部10发送。须指出的是,如上所述,访问者由访问者利用的计算机的IP地址识别。

转移页列生成部10有关从对话生成部9输入的各对话,按转移顺序重新排列了页列后,向判定部11发送。图3表示编入了转移顺序页列的状态的各对话14。如图3所示,在各对话14中,连续访问的多页面2被编入转移顺序(访问顺序)中。

判定部11把从转移页列生成部10发送的各对话14的转移顺序页列和从目的页设定部8发送的目的页比对,调查各对话14内是否包含有目的页。判定部11把包含目的页的对话14判定为成功,把不包含有目的页的对话14判定为失败。而且,判定部11把各对话14的转移顺序页列和判定结果向到达次数和成功率计算部12发送。

到达次数和成功率计算部12有关超文本3的各页面2,计算通过了(被访问)该页面2的对话14的数量和其中判定为“成功”的对话14的数量。接着,计算表示访问的对话数中成功的对话数的比例。然后,把各页面2的对话数和成功率向显示部13发送。

须指出的是,在计算各页面2的成功率的过程中,能把判定为成功的对话14限定为只有访问目的页前的页列。

通过这样把判定为成功的对话14的页列限定为只有访问目的页前的页列,能排除通过目的页后,转移(访问)的页面2对成功率的影响,能提高成功率的精度。

显示部13如图4所示,横轴表示通过页面的对话数,纵轴在表示成功率的正交坐标上描绘各页面2(plot)。在该正交坐标上,把公开了各页面2的曲线图(graph)作为分析结果而显示。

超文本3的管理者参照显示部13中显示的分析结果的曲线图,能改善超文本3的页面之间的链接结构和页面内容。

下面,参照图2的流程图,说明这样构成的超文本分析装置6的具体处理步骤。

首先,由输入部7读出存储在Web服务器1中的访问经历信息4,向对话生成部9和目的页设定部8发送(步骤(step)S1)。在目的页设定部8中,把超文本3的各页面2中想让访问者访问的页面2设定为目的页,向判定部11发送(步骤S2)。

在对话生成输入部9中,输入的访问经历信息4被分割为表示一个访问者对各页面2的一系列访问的多个对话,把分割的各对话向转移页列生成部10发送(步骤S3)。

在转移页列生成部10中,从对话生成部9输入的各对话14重新排列为转移顺序的页列后,向判定部11发送(步骤S4)。在判定部11,把各对话14的转移顺序页列和目的页比对。而且,把包含目的页的对话14判定为成功,把不包含目的页的对话14判定为失败。把判定结果向到达次数和成功率计算部12发送(步骤S5)。

在到达次数和成功率计算部12中,对超文本3的各页面2,计算通过该页面2的对话14的数和成功率,向显示部13发送(步骤S6)。在显示部13中,横轴表示通过页面的对话数,纵轴表示在显示成功率的正交坐标轴上描绘了各页面2的分析结果的曲线图(步骤S7)。

下面,参照图4,说明使用这样构筑的实施例1的超文本分析装置6实际分析Web服务器1内构筑的超文本3时的分析结果。

该超文本分析装置6分析使用因特网实施各商品的网上销售的由彼此链接的多页面2构成的超文本3。因此,最终的访问者  (访问者=顾客)用于指示商品的买入的页面2变为目的页。

在图4的分析结果的曲线图中,圆表示页面2,圆旁边的数字表示决定页面2的页面编号。横轴是通过各页面2的对话14的数,纵轴是表示通过各页面2的对话14中通过目的页的成功对话14比例的成功率。

曲线图上的连接页面2彼此间的有向线15表示具有一定值以上的频度的页面之间转移(页面之间访问)。通过这样表示代表具有一定值以上的频度的页面之间转移的有向线15,参照该分析结果的超文本3的管理者看一眼各个页面2间的转移(页面之间访问)量的大小,就能理解。

入口表示访问者从外开始了对该超文本3的访问,出口表示访问者结束了对该超文本3的访问。因此,入口、出口的对话数表示最大值。

在该分析结果中,页面编号483的页面2是目的页。因此,通过该页面2的对话14一定变为成功,页面编号483的页面2的成功率为100%。

超文本3的管理者参照图4的分析结果,变更构成超文本3的各页面2的内容或链接结构。例如,虽然有时也从第51页面2转移到第483页面2,但是很多的对话14从第51页面2转移到第55页面2。此时,超文本3的管理者有必要变更链接构造,以便容易从第51页面2转移到第483页面2。

另外,当从第715页面2转移到出口的对话14多时,超文本3的管理者有必要变更页面内容,以便从第715页面2转移到第16页面2。

图5是超文本3的管理者变更第51页面2和第715页面2的内容,当Web服务器1工作了一定期间后,再度分析超文本3时的分析结果的曲线图。

根据该分析结果,能理解为由于从第51页面2到第55页面2的转移减少,到第483页面2的转移增加,第51页面2的成功率增加,另外,第483页面2(目的页)的对话数增加。

另外,通过改变第715页面2的内容,向出口的转移减少,回到第16页面2的转移增加。因此,第715页面2的成功率增加。

这样,超文本3的管理者参照对超文本3的图4所示的分析结果,考虑各页面2的对话数、成功率、主要转移目标页面,修正页面内容、链接结构。结果,能提高各页面2的访问频度和成功率,能大幅度增加商业机会。

图6是表示应用了本发明实施例2的超文本分析方法的超文本分析装置6a的概略结构的框图。对与图1所示实施例1的超文本分析装置6相同的部分采用了相同符号,省略了重复的部分的详细说明。

在图6中,Web服务器1的结构是与图1所示的Web服务器1同一结构。而且,在实施例2的由计算机构成的超文本分析装置6a内,设置有在应用程序内构成的输入部7、类别(category)设定部16、目的类别设定部8a、对话生成部9、转移类别列生成部10a、判定部11a、到达次数和成功率计算部12a。在超文本分析装置6a内配置有类别文件17和显示部13a。

在类别文件17内存储着把构成超文本3的各页面2分类为多个类别时的各类别。例如,当超文本3为用于网上销售的超文本时,作为各页面2的类别,存储有“商品的买入”、“商品信息”、“买入卡”、…等。

输入部7读出存储在Web服务器1的日志文件5中的访问经历信息4,向类别设定部16和对话生成部9发送。

类别设定部16用该超文本分析装置6的操作者(管理者)的操作指定判断通过输入部7输入的访问经历信息4中包含的即超文本3中包含的各页面2属于存储在类别文件17中的哪个类别,如图8所示,向转移类别列生成部10a发送对各页面2附加了对应的类别18的形式的页面和类别的对应表。类别设定部16把设定的各类别18向目的类别设定部8a发送。

目的类别设定部8a把输入的多个类别18中想让访问者访问的类别18设定为目的类别,向判定部11a发送。该目的类别的指定由超文本分析装置6的操作者(管理者)的操作进行。

对话生成部9把输入的访问经历信息4按访问者分类,分割为表示各访问者的一系列访问页面的对话,把分割的各对话的页列向转移类别列生成部10a发送。

转移类别列生成部10a发送有关从对话生成部9输入的各对话,按转移顺序重新排列了页列后,根据从类别设定部16输入的页面和类别的对应表,把页列变换为类别列,把各对话的类别列向判定部11发送。图9表示编入了转移顺序类别列的状态的对话14a。如图9所示,对话14a是把图3所示的对话14的各页面2置换为对应的类别18。

判定部11a把从转移类别列生成部10a发送的各对话14a的转移顺序类别列和从目的类别设定部8a发送的目的类别比对,调查各对话14a内是否包含有目的类别。而且,判定部11a把包含目的类别的对话14a判定为成功,把不包含目的类别的对话14a判定为失败。而且,判定部11a把各对话14a的转移顺序类别列和判定结果向到达次数和成功率计算部12a发送。

到达次数和成功率计算部12a有关各页面2所对应的各类别18,计算通过(访问了)该类别18的对话14a的数和其中判定为“成功”的对话14a的数。而且,到达次数和成功率计算部12a计算表示访问的对话数中成功的对话数的比例的成功率。而且,把各类别18的对话数和成功率向显示部13发送。

须指出的是,在计算各类别18的成功率的过程中,能将判定为成功的对话14a只限定为访问目的类别前的类别列。

显示部13a如图10所示,横轴表示通过类别的对话数,纵轴在表示成功率的正交坐标上描绘各类别18。在该正交坐标上,把描绘了各类别18的曲线图作为分析结果表示。

超文本3的管理者参照显示部13a上显示的分析结果的曲线图,能改善与超文本3的各类别18对应的各页面2间的链接结构和页面内容。

下面,参照图7的流程图,说明这样构成的超文本分析装置6a的具体处理步骤。

首先,通过输入部7读出存储在Web服务器1中的访问经历信息4,向对话生成部9和类别设定部16发送(步骤P1)。在类别设定部16在输入的各页面2上附加对应的类别18,向转移类别列生成部10a发送,并且把设定的各类别18向目的类别设定部8a发送(步骤P2)。

在目的类别设定部8a,把输入的各类别18中想让访问者访问的类别18设定为目的类别,向判定部11a发送(步骤P3)。

在对话生成部9中,把输入的访问经历信息4分割为表示一个访问者对各页面2的一系列访问的多个对话,把分割的各对话向转移类别列生成部10a发送(步骤P4)。

转移类别列生成部10a有关从对话生成部9输入的各对话,按转移顺序重新排列了页列后,以从类别设定部16输入的页面和类别对应表为基础,把页列变换为类别列,把该类别列作为图9所示的对话14a向判定部11a发送(步骤P5)。

在判定部11a中,把各对话14a的转移顺序类别列和目的类别比对,把包含目的类别的对话14a判定为成功,把不包含目的类别的对话14a判定为失败。把判定结果型到达次数和成功率计算部12a发送(步骤P6)。

在到达次数和成功率计算部12a中,对各类别18计算通过该类别18的对话14a的数和成功率,向显示部13a发送(步骤P7)。在显示部13a中,横轴表示通过类别18的对话数,纵轴表示在代表成功率的正交坐标上描绘了各类别18的分析结果的曲线图(步骤P8)。

下面,参照图10说明使用这样构成的实施例2的超文本分析装置6a实际分析Web服务器1内构筑的超文本3时的分析结果。

本例的超文本分析装置6a分析使用因特网实施各商品的网上销售的由彼此链接的多页面2构成的超文本3。因此,最终的访问者(访问者=顾客)用于指示商品的买入的页面2所对应的“商品的买入”的类别18变为目的类别。

该网上销售的超文本3的各页面2除了上述的“商品的买入”的类别18以外,还分类为“买入向导”、“商品信息”、“新产品”、“查询”、“民意测验”、“主页”、“服务”、“下载”、“通知”、“企业介绍”等的类别18。

在图10的分析结果的曲线图中,正方形表示类别18,正方形旁边的文字表示类别名。横轴表示通过各类别18的对话14a的数,纵轴表示通过各类别18的对话14a中通过目的类别的成功对话14a的比例构成的成功率。连接曲线图中的类别18彼此间的有向线15a表示具有一定值以上的频度的类别间转移(类别间访问)。

入口表示访问者从外开始了对该超文本3的访问,出口表示访问者结束了对该超文本3的访问。因此,入口、出口的对话数表示最大值。

在该分析结果中,商品买入的类别18是目的类别。因此,通过该类别18的对话14a一定变为成功,商品买入的类别18的成功率变为100%。

超文本3的管理者参照该图10的分析结果,变更构成超文本3的各页面2的内容和链接结构。例如,如果从“新产品”的类别18向“商品信息”的类别18转移,则向目的类别即“商品的买入”的类别18转移的概率提高,但是,如果从“新产品”的类别18向“下载”的类别18转移,则成功率下降。

因此,超文本3的管理者有必要变更链接构造,以便容易从“新产品”的类别18向“商品信息”的类别18转移。另外,从“主页”的类别18转移到“通知”的类别18,向出口转移的情形多,所以有必要变更“通知”的类别18的页面内容。

图11是超文本3的管理者变更与“新产品”的类别18对应的页面2的内容和与“通知”的类别18对应的页面2的内容,在Web服务器1工作了一定期间后,再度分析了超文本3时的分析结果的曲线图。

根据该分析结果,能理解为由于从“新产品”的类别18到“下载”的类别18的转移减少,向“商品信息”的类别18的转移增加,“新产品”的类别18的成功率增加,向“商品买入”的类别18的对话数增加。

另外,通过变更与“通知”的类别18对应的页面2的内容,向出口的转移减少,由于回到  “主页”的类别18的转移增加,“通知”的类别18的成功率增加。

这样,超文本3的管理者参照对超文本3的图10所示的分析结果,考虑各类别18的对话数、成功率、主要转移目标类别,修正构成各类别18的各页面2的页面内容、链接结构。结果,能提高各类别18的访问频度和成功率,另外,能提高目的类别的访问频度(对话数),能增加商业机会。

而且,在本实施例2的超文本分析装置6a中,把构成超文本3的很多页面2分类为多个类别18,利用对该多个类别18的访问经历来分析超文本3,如图10所示,用图形表示分析结果。

因此,对超文本3的管理者在参照显示的分析结果来修正页面内容和链接结构时,能用类别单位来把握分析结果,提高修正作业的效率。而且,因为能把页面2分类为类别18并以类别单位来进行分析,所以能大幅度地节约计算机资源和计算时间。

另外,本领域的技术人员很容易通过本发明而获得附加利益和对本发明进行修改。因此,本发明并不局限于以上所述的和公开的具体细节和代表实施例。凡是不脱离本发明精神的各种修改以及变形都应视为属于本发明的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号