首页> 中国专利> 一种基于浏览器插件的网页无障碍检测方法

一种基于浏览器插件的网页无障碍检测方法

摘要

一种基于浏览器插件的无障碍检测方法包括:首先,设置好总共需要检测的页面总数,服务端启动爬虫线程,构建浏览器插件爬虫任务;其次,浏览器插件建立与客户端之间的短期通信通道,从服务端请求一个待检测URL并在指定窗口中新增一个tab页面,在已设定的网页数量最大值范围内并发访问指定链接页面并获取源代码;然后,根据预先设置好的无障碍条目与规则集对获取到的网页源代码进行源码级的无障碍检测,得到检测结果。本发明可应用于对网站页面无障碍的自动化检测,能够有效地规避部分网页的反爬策略,实现一种跨局域网下的源码级别的无障碍检测,并通过并发控制提升检测效率,帮助开发者进行无障碍改造。

著录项

  • 公开/公告号CN115840708A

    专利类型发明专利

  • 公开/公告日2023-03-24

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202211642425.3

  • 发明设计人 卜佳俊;罗子怡;周晟;

    申请日2022-12-20

  • 分类号G06F11/36;G06F16/955;G06F16/958;G06F9/54;

  • 代理机构杭州天正专利事务所有限公司;

  • 代理人孙家丰

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 18:58:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-03-24

    公开

    发明专利申请公布

说明书

技术领域:

本发明属于信息无障碍领域,涉及一种基于浏览器插件的网页无障碍检测方法,特别运用于跨局域网场景下对网页进行源码级的无障碍检测。

背景技术:

随着互联网技术的飞速发展,当前网页种类繁多,信息存储方式电子化、信息传播方式网络化,信息获取方式技术化、信息表现方式多媒体化。而由于早期技术水平的限制,一部分网页在设计与开发时没能很好地考虑用户的使用体验,在用户需求与服务人群的全面性方面存在不足,对障碍人群的支持不够,残障人士等特殊群体在获取信息时面临技术革新带来的各种人为障碍。

同时,由于数字化的发展与障碍人群遭遇信息困境的进一步加深,障碍人群的需求与时代的发展逐渐展现出一些无法调和的矛盾:一部分是快速发展的互联网技术,一部分是互联网使用方式受限,操作不便的障碍人群。

近年来,国家陆续出台相关法规、政策积极推进网站无障碍服务能力建设。网站设计者也具有相关的无障碍设计标准可供遵循,但网站最后对于标准的符合程度仍然需要专业的网页无障碍评估来给出可靠的评价,以此更好地发现网站中存在的不足、帮助开发者进行无障碍改造。无障碍检测是无障碍建设的重要一环,有效的无障碍检测能够帮助开发者及时地找出设计中不利于用户获取信息的部分,及时督促网页开发者进行功能优化。目前,现有的无障碍检测流程中往往会出现一些由于待检测网站的相关设置导致系统无法高效正确地获取网页源代码的现象。

发明内容:

本发明要克服现有技术的上述缺点,提出一种基于浏览器插件的网页无障碍检测方法,实现一种跨局域网、并发式的网页无障碍检测方法。与服务端进行网页爬取,实现无障碍检测的方法相比,本发明方法可以有效地规避多样化的网页反爬验证手段,普适性更高。使用本发明的方法可以更高效地获取网页数据资源,并进一步检测网页是否符合无障碍设计标准,从而确定待检测网页的可用性以及对用户的友好程度。

一种基于浏览器插件的网页无障碍检测方法,其特征在于,包括以下步骤:

S1:服务端从用户输入中获取待检测网站的首页链接以及需要获取的网站总数totalCount,并将待检测网站的首页链接加入URL队列urlQueue,其中URL队列urlQueue定义为:urlQueue=[url

S2:服务端启动爬虫线程,构建浏览器插件爬虫任务,等待爬虫返回结果;

S211:服务端根据步骤S1中的URL队列urlQueue按列表顺序从队首分配一个URL以及一个唯一标识taskId包装为浏览器插件任务,其中任务T定义为:T={taskId,url},已访问链接数finishCount值加1;

S212:服务端将步骤S211中的任务T加入Task队列taskQueue,其中Task队列taskQueue定义为:taskQueue=[T

S213:服务端构建一个哈希表hashMap用于监听任务信息,其中哈希表hashMap定义为:hashMap=[(taskId

S3:浏览器插件创建爬虫环境并定义爬虫相关配置;

S31:浏览器插件在content scripts与浏览器扩展程序页面之间建立短期通道,用于监听网页状态,收发消息;

S32:浏览器插件设置跨域访问权限,支持访问已声明的任何域名下的网页;

S33:浏览器插件新建一个窗口W,其中窗口W的id值定义为winId,窗口W下tab页面数量定义为tabCount,同时设置页面并发爬取上限值为WINDOW_MAX_NUM;

S4:浏览器插件向服务端请求一个待检测任务T,获取待检测页面的网页源代码S;

S41:浏览器插件从服务端请求一个待检测任务T;

S42:服务端将步骤S41中的待分配任务T从步骤S212中定义的Task队列taskQueue中移动到步骤S213定义的监听表hashMap中并等待爬虫返回结果;

S43:浏览器插件获取步骤S41中任务T的URL后,打开浏览器标签并访问该URL,页面级别并发获取网页源代码S;

S431:浏览器插件获取当前客户端存放的cookie信息以及待检测URL。

S432:若tabCount≤WINDOW_MAX_NUM,浏览器插件根据步骤S33中的winId与步骤S43中的URL在窗口W下新增一个tab页面用于爬取当前待检测URL,当前tab数量tabCount加1;若tabCount>WINDOW_MAX_NUM,则等待当前已开启的tab页面爬取结束直至tabCount≤WINDOW_MAX_NUM;

S433:浏览器插件根据步骤S432中页面的tabId,通过content-scripts向待检测页面注入脚本,获取该页面文档元素对象(包括其后代)的序列化HTML片段outerHTML,即待检测源代码S;

S434:浏览器插件关闭当前已爬取的tab页面,当前tab数量tabCount减1;

S5:根据步骤S4中获取的源代码S进行源码级别的无障碍检测;

S51:从用户输入中获取待检测无障碍条目与规则集R=[r

S52:对步骤S4中获取的源代码S应用步骤S51中选取的规则集R进行无障碍检测,判断当前网页是否符合标准《GB/T 37668-2019信息技术互联网内容无障碍可访问性技术要求与测试方法》中对应条目r

S6:浏览器插件获取步骤S5中生成的检测结果集P,其中P=[N

S7:浏览器插件将步骤S4中获取的网页源代码S和步骤S6中获取的检测结果集P与当前任务唯一标识taskId上传至服务端;

S8:服务端根据步骤S7中得到的任务唯一标识taskId,在查找对应的等待结果T并将其返回给等待线程;

S9:服务端从网页源代码S中获取子链接集L,其中子链接集L定义为:L=[url

S10:服务端将步骤S7中得到的检测结果集P加入检测结果;

S11:如果Task队列taskQueue为空或已经获取了足够数量的链接数finishCount≥totalCount,流程结束,否则重复执行步骤S2。

综上,本发明创建了基于浏览器插件的无障碍检测方法,具有如下有益效果:

(1)具有普适性,利用浏览器插件通信机制,可以高效地规避网页中存在的反爬虫策略,为后续的无障碍检测提供数据信息。(2)具有高效性,通过结构设计,能够并发地检测大量待测网页,提升网站整体的无障碍检测效率。(3)实现跨文本档、多窗口、跨域消息传递,扩大了可用检测场景。

附图说明:

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的基于浏览器插件无障碍检测方法的总体流程图;

图2是本发明提供的基于浏览器插件无障碍检测方法的总体流程图中浏览器插件爬取待测网页源代码的流程图。

具体实施方法:

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本实例以检测某个网页为例,一种基于浏览器插件的网页无障碍检测方法,包括如下具体步骤:

S1:服务端从用户输入中获取待检测网站的首页链接以及需要获取的网站总数totalCount,并将待检测网站的首页链接加入URL队列urlQueue,其中URL队列urlQueue定义为:urlQueue=[url

S2:服务端启动爬虫线程,构建浏览器插件爬虫任务,等待爬虫返回结果;

S211:服务端根据步骤S1中的URL队列urlQueue按列表顺序从队首分配一个URL以及一个唯一标识taskId包装为浏览器插件任务,其中任务T定义为:T={taskId,url},已访问链接数finishCount值加1;

S212:服务端将步骤S211中的任务T加入Task队列taskQueue,其中Task队列taskQueue定义为:taskQueue=[T

S213:服务端构建一个哈希表hashMap用于监听任务信息,其中哈希表hashMap定义为:hashMap=[(taskId

S3:浏览器插件创建爬虫环境并定义爬虫相关配置;

S31:浏览器插件在content scripts与浏览器扩展程序页面之间建立短期通道,用于监听网页状态,收发消息;

S32:浏览器插件设置跨域访问权限,支持访问已声明的任何域名下的网页;

S33:浏览器插件新建一个窗口W,其中窗口W的id值定义为winId,窗口W下tab页面数量定义为tabCount,同时设置页面并发爬取上限值为WINDOW_MAX_NUM;

S4:浏览器插件向服务端请求一个待检测任务T,获取待检测页面的网页源代码S;

S41:浏览器插件从服务端请求一个待检测任务T;

S42:服务端将步骤S41中的待分配任务T从步骤S212中定义的Task队列taskQueue中移动到步骤S213定义的监听表hashMap中并等待爬虫返回结果;

S43:浏览器插件获取步骤S41中任务T的URL后,打开浏览器标签并访问该URL,页面级别并发获取网页源代码S;

S431:浏览器插件获取当前客户端存放的cookie信息以及待检测URL;

S432:若tabCount≤WINDOW_MAX_NUM,浏览器插件根据步骤S33中的winId与步骤S43中的URL在窗口W下新增一个tab页面用于爬取当前待检测URL,当前tab数量tabCount加1;若tabCount>WINDOW_MAX_NUM,则等待当前已开启的tab页面爬取结束直至tabCount≤WINDOW_MAX_NUM;

S433:浏览器插件根据步骤S432中页面的tabId,通过content-scripts向待检测页面注入脚本,获取该页面文档元素对象(包括其后代)的序列化HTML片段outerHTML,即待检测源代码S;

S434:浏览器插件关闭当前已爬取的tab页面,当前tab数量tabCount减1;

图1是本发明提供的基于浏览器插件无障碍检测方法的总体流程图。

图2是本发明提供的基于计算机视觉的网页端漂浮窗关闭检测算法的总体流程图中漂浮窗位置检测的流程图。

S5:根据步骤S4中获取的源代码S进行源码级别的无障碍检测;

S51:从用户输入中获取待检测无障碍条目与规则集R=[r

S52:对步骤S4中获取的源代码S应用步骤S51中选取的规则集R进行无障碍检测,判断当前网页是否符合标准《GB/T 37668-2019信息技术互联网内容无障碍可访问性技术要求与测试方法》中对应条目r

S6:浏览器插件获取步骤S5中生成的检测结果集P,其中P=[N

S7:浏览器插件将步骤S4中获取的网页源代码S和步骤S6中获取的检测结果集P与当前任务唯一标识taskId上传至服务端;

S8:服务端根据步骤S7中得到的任务唯一标识taskId,在查找对应的等待结果T并将其返回给等待线程;

S9:服务端从网页源代码S中获取子链接集L,其中子链接集L定义为:L=[url

S10:服务端将步骤S7中得到的检测结果集P加入检测结果;

S11:如果Task队列taskQueue为空或已经获取了足够数量的链接数dinishCount≥totalCount,流程结束,否则重复执行步骤S2。

本发明可应用于对网站页面无障碍的自动化检测,能够有效地规避部分网页的反爬策略,实现一种跨局域网下的源码级别的无障碍检测,并通过并发控制提升检测效率,帮助开发者进行无障碍改造。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号