首页> 中国专利> 信息摘录方法及基于云计算的摘录信息网络存储管理系统

信息摘录方法及基于云计算的摘录信息网络存储管理系统

摘要

本发明涉及一种信息摘录方法,其通过过滤复杂网页的源代码中出现的多媒体标签,对多媒体标签中的链接地址对应的第一多媒体内容进行提取,得到分离的第一文本内容与第一多媒体内容;本发明还涉及一种基于云计算的摘录信息网络存储管理系统,其通过对复杂网页的信息摘录、对线下媒体特征的网络对比、对摘录信息进行后台关联分类并创建相关分类数据库,实现了分类提取复杂网页上的信息,极大的提高了摘录效率,能够方便的摘录保存线下媒体信息,分类数据库的创建,极大的方便了用户对摘录信息的有效管理及利用。

著录项

  • 公开/公告号CN102624770A

    专利类型发明专利

  • 公开/公告日2012-08-01

    原文格式PDF

  • 申请/专利权人 匡晓明;

    申请/专利号CN201110173782.5

  • 发明设计人 匡晓明;

    申请日2011-06-24

  • 分类号H04L29/08(20060101);G06F17/30(20060101);

  • 代理机构广州市越秀区哲力专利商标事务所(普通合伙);

  • 代理人李悦

  • 地址 518026 广东省深圳市福田区梅华路梅林多丽工业区1栋1楼1109

  • 入库时间 2023-12-18 06:16:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-09

    专利权的转移 IPC(主分类):H04L29/08 登记生效日:20190619 变更前: 变更后: 申请日:20110624

    专利申请权、专利权的转移

  • 2016-03-16

    专利权的转移 IPC(主分类):H04L29/08 登记生效日:20160225 变更前: 变更后: 申请日:20110624

    专利申请权、专利权的转移

  • 2014-05-28

    授权

    授权

  • 2012-09-26

    实质审查的生效 IPC(主分类):H04L29/08 申请日:20110624

    实质审查的生效

  • 2012-08-01

    公开

    公开

说明书

 

技术领域

本发明涉及信息摘录、信息存储、信息管理技术,具体涉及一种信息摘录方法及基于云计算的摘录信息网络存储管理系统。

背景技术

当前信息摘取和录入的方式主要是保存整体网页或网址,或者通过粘贴复制的原始方式录入,或者根据网页内容手工打字输入,对多媒体(图片、音频、视频等)的提取和保存更是需要使用专门软件进行。用户不仅在保存时极度繁琐,而且很难准确选择想要保存的信息。对于纸质媒体等线下信息的摘取和录入更是没有合适的方法,只能通过手工剪切后粘贴成本,或者手工扫描,费时费力,还难以检索和保存。

当前信息存储管理的方式主要是本地存储管理和网络硬盘存储管理。采取本地信息存储管理方式时,信息保存在本地信息终端上,随着信息的不断增加,对信息终端的要求会越来越高,本地设备的硬件和软件条件以及用户本身的熟练程度也限制了对信息的分析和管理能力,同时还不能实现信息在不同的数字终端上的及时流转,而本地终端的物理损坏还很可能导致信息的丢失。网络硬盘存储管理方式解决了上述信息存储的一些弊端,但录入手段受局限,易用性差,只是对信息的简单堆砌,没有对信息进行有效的分类和关联,不能对文本和多媒体信息进行分析和提取,导致难以检索和查询。

云计算是近年来兴起的新理念,目标是将计算和存储简化为像公共的水和电一样易用的资源,用户只要连上网络即可方便地使用。其中狭义云计算指IT基础设施的交付和使用模式,通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算将数字终端实现功能时的大部分计算从终端转移到服务器端,从而弱化对数字终端的硬件要求,并进一步丰富终端的运用。

发明内容

为了克服现有技术的不足,本发明的目的之一,提出了一种信息摘录方法,实现了对复杂网页的信息分类保存,使用方便,省时省力。

为了达到目的之一,本发明所采用的技术方案如下:

一种信息摘录方法,其包括以下步骤:

A.用户选择网页中需要保存的信息的区域;

B.遍历用户选中区域的信息内容的源代码,过滤出源代码中出现的多媒体标签,对多媒体标签中的链接地址对应的第一多媒体内容进行提取,得到分离的第一文本内容与第一多媒体内容,并形成多媒体列表,所述多媒体列表包括第一文本内容清单、第一多媒体内容清单;

C.用户在多媒体列表中选择需要保存的清单信息,所述清单信息包括第一文本内容和/或第一多媒体内容;

D.将清单信息上传并存储至云端服务器。

为了方便纸质媒体等线下信息的摘取和录入,所述步骤A之前还有步骤A1:用户激活选择工具模块,所述选择工具模块包括网页信息区域选择模块、线下信息摘录模块;

若用户选择网页信息区域选择模块,则至步骤A;

若用户选择线下信息摘录模块,则至步骤A2,所述步骤A2包括:用户输入线下信息的特征码,云端服务器根据特征码从资料数据库(包括云端服务器数据库、线下媒体网络数据库等)中检索与特征码相应的完整内容信息,将完整内容信息存储至云端服务器;

所述特征码包括杂志的ISSN号、页码、位置,书籍的ISBN号、页码,物品的条码等;

所述完整内容信息包括第二文本内容和/或第二多媒体内容;所述清单信息、完整内容信息记为摘录信息。

为了方便云端服务器对摘录信息的分类管理,所述步骤C中,还包括:用户编辑多媒体列表中需要保存的清单信息,所述编辑包括分别对清单信息的第一文本内容和/或第一多媒体内容添加主观存储因素,所述主观存储因素包括保存原因、保存目的、备注、标签、关键字等。

本发明的目的之二,还提出了一种基于云计算的摘录信息网络存储管理系统,实现信息的摘取和录入后的存储、有效管理及合理利用。

为了达到目的之二,本发明所采用的技术方案如下:

一种基于云计算的摘录信息网络存储管理系统,包括用户端及云端服务器;所述用户端包括信息摘录上传装置及信息再现装置;所述用户端可为电子计算机、移动电话、PDA等数字终端。

所述信息摘录上传装置包括选择工具模块、分析模块、编辑模块、上传模块;

所述选择工具模块包括网页信息区域选择模块,所述网页信息区域选择模块:用于用户选择网页中需要保存的信息的区域;

所述分析模块:遍历用户选中区域的信息内容的源代码,过滤出源代码中出现的多媒体标签,对多媒体标签中的链接地址对应的第一多媒体内容进行提取,得到分离的第一文本内容与第一多媒体内容,并形成多媒体列表,所述多媒体列表包括第一文本内容清单、第一多媒体内容清单;

所述编辑模块:用于在多媒体列表中选择需要保存的清单信息,所述清单信息包括第一文本内容和/或第一多媒体内容;

所述上传模块:用于将清单信息上传并存储至云端服务器;

所述云端服务器包括存储模块、采集模块、整理模块;

所述存储模块:用于保存用户上传的摘录信息,所述摘录信息包括清单信息;

所述采集模块:用于获取清单信息的第一文本内容、第一多媒体内容对应的第一客观存储因素和/或主观存储因素,所述第一客观存储因素包括来源IP地址、上传设备、来源RSS地址、上传的地理位置、上传时间、数据格式的数据,所述主观存储因素包括保存原因、保存目的、备注、标签、关键字;

所述整理模块:根据清单信息的第一文本内容、第一多媒体内容对应的第一客观存储因素和/或主观存储因素,对清单信息进行分类并创建分类数据库,所述分类数据库中的每一条记录对应相应的清单信息及与该清单信息相应的第一客观存储因素和/或主观存储因素,所述分类数据库存储于存储模块;

所述信息再现装置包括显示模块、查询模块,

所述查询模块:根据分类数据库的第一客观存储因素和/或主观存储因素进行检索,并向显示模块输出检索结果;

所述显示模块:根据检索结果,选择存储模块中所需的清单信息,并展示相应的第一文本内容和/或第一多媒体内容。

为了方便云端服务器对摘录信息的分类管理,所述信息摘录上传装置的编辑模块还用于:编辑多媒体列表中需要保存的清单信息,所述编辑包括对清单信息的第一文本内容和/或第一多媒体内容添加主观存储因素。

为了方便纸质媒体等线下信息的摘取和录入,所述信息摘录上传装置的选择工具模块还包括线下信息摘录模块;

所述线下信息摘录模块:用于输入线下信息的特征码,所述特征码包括杂志的ISSN号、页码、位置,书籍的ISBN号、页码,物品的条码等;

所述云端服务器还包括比对模块,所述比对模块:用于根据特征码从资料数据库(包括云端服务器数据库、线下媒体网络数据库等)中检索与特征码相应的完整内容信息,将完整内容信息存储至云端服务器的存储模块,所述完整内容信息包括第二文本内容和/或第二多媒体内容;所述摘录信息还包括完整内容信息;

所述云端服务器的采集模块:还用于获取完整内容信息的第二文本内容和/或第二多媒体内容对应的第二客观存储因素和/或主观存储因素,所述第二客观存储因素包括上传设备、上传的地理位置、上传时间、数据格式、特征码等的数据; 

所述整理模块:还用于根据完整内容信息的第二文本内容和/或第二多媒体内容对应的主观存储因素和/或第二客观存储因素,对完整内容信息进行分类,并添加至分类数据库,所述分类数据库中的每一条记录还对应相应的完整内容信息及与该完整内容信息相应的主观存储因素和/或第二客观存储因素;

所述信息再现装置的查询模块:还用于根据分类数据库的第二客观存储因素和/或主观存储因素进行检索,并向显示模块输出检索结果;

所述信息再现装置的显示模块:还用于根据检索结果,读取存储模块中所需的完整内容信息,并展示相应的第二文本内容和/或第二多媒体内容。

为了云端服务器对摘录信息的分类管理,所述信息再现装置还包括修改模块,所述修改模块:用于对摘录信息进行再编辑,所述再编辑包括删除摘录信息,修改主观存储因素,添加主观存储因素等。

本发明的有益效果在于:用户可以使用本发明提供的信息摘录上传装置,自动提取复杂网页上的分类信息,区分文字、图片、音频、视频等多媒体文件并分类上传,极大的提高了摘录效率;用户可以使用本发明提供的信息再现装置,完美实现上传网页的整体重现;用户可以输入线下媒体的特征码,系统经数据库和网络对比后获取完整信息内容,并分类存储;用户可以利用本发明提供的自动分类整理功能,对相关联信息的推荐,更合理更有效的利用摘录信息。由于摘录信息保存在云端服务器内,信息得到了妥善的保存和管理。用户不仅不用随身携带信息,而且可以通过不同的信息终端利用相关信息。信息在云端服务器上的存储不仅有利于长期保存,而且有利于云端服务器对所有保存的信息进行分类、整理、关联,并创建相关分类数据库,这种分类数据库的创建,极大的方便了用户对摘录信息的有效管理及利用。

附图说明

图1为本发明实施例的信息摘录方法的流程图;

图2为本发明实施例的基于云计算的摘录信息网络存储管理系统的结构连接方框图。

具体实施方式

如图1所示,一种信息摘录方法,其包括以下步骤:

步骤101:感应模块感应用户的摘录动作,所述摘录动作可以是一特定的移动方向等,选择工具模块被用户激活,所述选择工具模块包括网页信息区域选择模块、线下信息摘录模块;

若用户选择网页信息区域选择模块,则至步骤101A;

若用户选择线下信息摘录模块,则至步骤102A。

步骤101A:用户选择网页中需要保存的信息的区域,转至步骤101B。

步骤101B:摘录信息上传装置的分析模块,分析用户拟保存信息内容,检索并识别关键代码,并按文本数据、图片数据、影像数据、音频数据等自动分类,其工作原理为,遍历用户选中区域的信息内容的源代码,过滤出源代码中出现的多媒体标签,对多媒体标签中的链接地址对应的第一多媒体内容进行提取,得到分离的第一文本内容与第一多媒体内容,并形成多媒体列表,所述多媒体列表包括第一文本内容清单、第一多媒体内容清单,转至步骤101C。

步骤101C:用户可在多媒体列表中,根据自己的需要,选择需要保存的清单信息,所述清单信息包括第一文本内容和/或第一多媒体内容;为了方便云端服务器对摘录信息的分类管理,用户还可以对多媒体列表中的清单信息进行编辑,所述编辑包括可对清单信息的第一文本内容和/或第一多媒体内容添加主观存储因素,所述主观存储因素可以是保存原因、保存目的、备注、标签、关键字等中的一项或多项组合,例如,用户可对第一多媒体内容中的某个音频数据添加保存原因或者保存原因和保存目的的标注,转至步骤101D。

步骤101D:用户确认后,将清单信息上传并存储至云端服务器。所述清单信息属于所需的摘录信息。

步骤102A:用户通过线下信息摘录模块输入线下信息的特征码后,转至步骤102B。

步骤102B:云端服务器的比对模块根据特征码从资料数据库(包括云端服务器数据库、线下媒体网络数据库等)中检索与特征码相应的完整内容信息,将完整内容信息存储至云端服务器;所述特征码可以是杂志的ISSN号、页码、位置,书籍的ISBN号、页码,物品的条码等;所述完整内容信息包括第二文本内容和/或第二多媒体内容;当然,所述完整内容信息也属于所需的摘录信息。

例如,用户输入杂志的ISSN号后,云端服务器的比对模块根据该ISSN号,在资料数据库内进行检索,得到与该ISSN号相对应的杂志内容(即完整内容信息),该杂志内容可能是文本数据格式,也可能是多媒体数据格式,也可能是文本数据格式与多媒体数据格式兼有。检索完成后,转至步骤102C。

步骤102C:比对模块自动地把完整内容信息存储至云端服务器的存储模块。

如图2所示,一种基于云计算的摘录信息网络存储管理系统,本系统采用了上述信息摘录方法。结构设置、结构连接关系、信息流过程如下:

本系统包括用户端及云端服务器3;

所述用户端包括信息摘录上传装置1及信息再现装置2;所述用户端可为电子计算机、移动电话、PDA等数字终端。

所述信息摘录上传装置1包括自动感应模块11、选择工具模块12、分析模块14、编辑模块15、上传模块16。

所述自动感应模块11:用于感应用户于网页上的摘录动作,并激活选择工具模块12。

所述选择工具模块12包括网页信息区域选择模块13及线下信息摘录模块17。

所述网页信息区域选择模块13:用于用户选择网页中需要保存的信息的区域。

所述分析模块14:遍历用户选中区域的信息内容的源代码,过滤出源代码中出现的多媒体标签,对多媒体标签中的链接地址对应的第一多媒体内容进行提取,得到分离的第一文本内容与第一多媒体内容,并形成多媒体列表,所述多媒体列表包括第一文本内容清单、第一多媒体内容清单。

所述编辑模块15:用于在多媒体列表中选择需要保存的清单信息,所述清单信息包括第一文本内容和/或第一多媒体内容;还用于用户编辑多媒体列表中需要保存的清单信息,所述编辑包括对清单信息的第一文本内容和/或第一多媒体内容添加主观存储因素,所述主观存储因素包括保存原因、保存目的、备注、标签、关键字等中的一项或多项组合;还用于过滤无效信息,把无效信息加入多媒体列表并进行标注,所述无效信息包括超小图片(如分辨率低于10*10像素的图片)、失效链接地址等,用户还可在多媒体列表中选择过滤掉的无效信息。

所述上传模块16:用于将清单信息上传并存储至云端服务器。

所述线下信息摘录模块17:用于输入线下信息的特征码,所述特征码包括杂志的ISSN号、页码、位置,书籍的ISBN号、页码,物品的条码等;

所述云端服务器3包括存储模块31、采集模块34、整理模块36、加工模块33、比对模块32、后台处理模块35。

所述存储模块31:用于保存用户上传的摘录信息,所述摘录信息包括清单信息及完整内容信息;还用于保存整理模块36创建的分类数据库。

所述采集模块34:用于获取清单信息的第一文本内容和/或第一多媒体内容对应的第一客观存储因素和/或主观存储因素;还用于获取完整内容信息的第二文本内容和/或第二多媒体内容对应的第二客观存储因素和/或主观存储因素;

所述第一客观存储因素包括来源IP地址、上传设备、来源RSS地址、上传的地理位置、上传时间、数据格式等的数据;所述第二客观存储因素包括上传设备、上传的地理位置、上传时间、数据格式、特征码等的数据;

所述比对模块32:用于根据用户输入的特征码从资料数据库(包括云端服务器数据库、线下媒体网络数据库等)中检索与特征码相应的完整内容信息,并将完整内容信息存储至云端服务器的存储模块,所述完整内容信息包括第二文本内容和/或第二多媒体内容。

所述整理模块36:根据清单信息的第一文本内容和/或第一多媒体内容对应的第一客观存储因素和/或主观存储因素,对清单信息进行分类并创建分类数据库,所述分类数据库中的每一条记录对应相应的清单信息及与该清单信息相应的第一客观存储因素和/或主观存储因素,所述分类数据库存储至存储模块;还用于根据完整内容信息的第二文本内容和/或第二多媒体内容对应的主观存储因素和/或第二客观存储因素,对完整内容信息进行分类,并添加至分类数据库,所述分类数据库中的每一条记录还对应相应的完整内容信息及与该完整内容信息相应的主观存储因素和/或第二客观存储因素;第一客观存储因素、主观存储因素、第二客观存储因素可统一为存储因素,分类数据库对具有相同的存储因素的摘录信息,进行关联并分类整理。

所述加工模块33:调用OCR技术,把存储模块中的第一多媒体内容、第二多媒体内容中的图片数据文本化,即图片数据转换为文本数据。

所述后台处理模块35:用于查找不同用户上传的相同摘录信息,并删减多余的摘录信息;用于根据摘录信息的存储因素,跟踪摘录信息的更新,并向用户推荐更新后的摘录信息;用于向用户推荐其他可能有用的相关信息。

所述信息再现装置2包括显示模块21、查询模块22、修改模块23、共享模块24。

所述查询模块22:根据分类数据库的存储因素进行检索,并向显示模块输出检索结果;

所述显示模块21:根据检索结果,读取存储模块中所需的摘录信息,并展示相应的清单信息或完整内容信息,摘录信息的排布方式与原始来源基本一致。

所述修改模块23:对摘录信息进行再编辑,所述再编辑包括删除存储模块中的摘录信息(分类数据库中相应的记录也被删除),修改分类数据库中的主观存储因素(与摘录信息相对应的主观存储因素也自动作出相应改变),添加分类数据库中的主观存储因素(与摘录信息相对应的主观存储因素也自动作出相应改变)等。

例如,用户通过修改模块23,修改分类数据库中某条记录的保存目的,与该保存目的相对应的摘录信息的原保存目的的内容也随之更改。

所述共享模块24:用于将摘录信息转发或共享至目标对象用户。

本系统的具体表现形式可以是计算机软件程序,现举例详细说明。

本系统所要摘录的信息来源,可以是网页或其他网络来源中的图片、动画、电影、音频、文本或其他形式的内容,也可以是报刊杂志中的文章、图片,也可以是书籍中的篇章段落,或其他形式的信息。

本系统的信息摘录上传装置的工作方式,可以表现为浏览器插件(也可以是计算机程序、网页界面、手机软件、其他数字终端应用程序等)。在网页上选择想摘录的内容后自动启动,可以智能分析提取不同类型的信息,并自动生成标签和关键字,该插件可以在任意复杂结构的网页中生效。为了能支持在复杂结构的网页之中进行摘录,本系统并没有采用传统的在单个页面嵌入前端 DHTML代码的做法,而是提升了代码的执行级别,分析复杂结构网页中多个文档之间的复杂包含与显示关系,并通过高层的跨文档的方法调用方式来完成摘录动作相关参数信息的传递,最终完成摘录界面的正确显示和保存动作。插件中包括以下模块:1)自动感应模块,感应用户想要摘录信息动作和区域,当用户用鼠标选中想要收藏的部分时(可以包括图片、文字、视频、音频等),插件被激活,在网页上浮动出现收藏选择工具条;2)分析模块,分析用户拟保存信息内容,提取关键字,识别并按文字数据、图片数据、影像数据、音频数据等自动分类。其工作原理是,遍历选中区域的内容,分别过滤出其间出现的媒体标签,提取媒体内容的链接地址,得到分离的文字与媒体内容,并形成媒体列表供用户勾选;3)过滤编辑模块,能自动过滤超小图片等无用信息,用户也可根据需要将过滤掉的信息重新恢复,用户选择或编辑拟保存信息,可选择信息收藏原因、目的等主观性因素,也可写备注及标注附加关键字;4)上传模块,会先将用户摘录的信息及其他相关要素保存到浏览器文档之外单独的存储空间,然后一次性上传并存储至云端服务器。有摘录线下信息需求时,可通过插件输入线下信息的特征码,云端服务器根据特征码从相关数据库(包括服务器数据库、线下媒体网络数据库、其他数据库)中检索相应的完整内容,并自动存储。用户还可对相关内容进行编辑和其他处理。

云端服务器的数据处理方式:每一条摘录信息在服务器端都对应一条收藏记录,以及多个转存的多媒体(图片、音频、视频等)。摘录记录的字段包括:上传发生的时间、位置、IP地址、上传设备,信息的内容、备注、重要性,摘录的原因、目的,原始信息页面的标题、关键词、RSS地址、标签,信息中所包含图片的OCR 信息。服务器按照客观性因素结合用户提供的主观性因素,对所有上传信息进行综合分类,并生成相关分类数据库。

信息再现装置也为浏览器插件,可于信息摘录上传装置整合在一起,也可以独立于信息摘录上传装置,通过信息在现装置,用户可方便的使用经过整理后的摘录信息,包括查询、编辑、转发、浏览、共享等。信息再现装置包括:1)显示模块,摘录信息将以一种与摘录原始来源基本一致的排布方式,在一个独立的、可缩放的窗口中呈现。2)查询模块,用户可以看到按照原因和目的简单分类的信息,也可以按照时间、位置、标签、关键字、表现形式、回访次数等要素进行检索。3)编辑模块,用户可以对摘录信息进行进一步编辑,删除,写批注,建立信息之间新的关联关系,更改信息的可见性。4)转发共享模块,用户可以方便的将摘录信息转发或共享至目标对象。

此外,本系统的线下信息摘录功能还可以独立出来,并不附加在信息摘录上传装置内。

本发明提出的分类数据库,其工作过程都与现有技术相同,本领域技术人员都知晓其工作原理,因此,本发明不再赘述数据库的工作过程。

上述实施例只是本发明较为优选的一种,本领域技术人员在本发明的保护范围内作出的简单变化或替换,均落在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号