首页> 中国专利> 文档处理装置、文件服务器管理辅助方法以及文件服务器管理辅助程序

文档处理装置、文件服务器管理辅助方法以及文件服务器管理辅助程序

摘要

本发明提供一种能够高效率地缩小在文件服务器中能够删除的文件,从而减轻用户的删除可否确认工作的负担的技术,进行文件服务器内的文件的容量分布、容量累计的显示、以及文件服务器内的文件中被认为慎重地进行了保存的文件以及被怀疑重复保存的文件、通过删除得到的容量削减效果高的文件的选择显示。

著录项

  • 公开/公告号CN103329110A

    专利类型发明专利

  • 公开/公告日2013-09-25

    原文格式PDF

  • 申请/专利权人 株式会社日立解决方案;

    申请/专利号CN201280005625.6

  • 发明设计人 松本俊子;

    申请日2012-01-24

  • 分类号G06F12/00;

  • 代理机构北京银龙知识产权代理有限公司;

  • 代理人许静

  • 地址 日本东京都

  • 入库时间 2024-02-19 21:10:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-02-17

    授权

    授权

  • 2013-10-30

    实质审查的生效 IPC(主分类):G06F12/00 申请日:20120124

    实质审查的生效

  • 2013-09-25

    公开

    公开

说明书

技术领域

本发明涉及文档处理装置、文件服务器管理辅助方法以及文件服务器管理 辅助程序,例如涉及可提示用于整理文件服务器中保存的多个文件的辅助信 息,辅助文件服务器的容量削减的技术。

背景技术

组织内的文件服务器对于电子数据的保存和共享的便利性高,普及广。但 是由于容量一味增大,对于用于辅助、促进删除不必要文件的技术的要求增高。 例如调查并报告了数字数据爆炸性增大(参照非专利文献1)、企业内RDB (Relational Database关系型数据库)所存储的结构数据不超过整体的2成, 大半是文档文件等非结构文档等(例如,参照非专利文献2)。另外,提出一 种辅助删除不必要文件的软件(例如,参照非专利文献3至5)。

这些技术中具有以下功能,利用存在最终更新日旧或最终访问日旧或内容 重复的文件或存在文件名类似的文件等的条件,对认为不需要的文件进行提 示。对于这些文件具有自动存档/删除的功能,或具有通过利用文件的用户的 确认或承认而进行存档/删除的功能。

现有技术文献

非专利文献

非专利文献1:J.F.Gantz,et al.The Diverse and Exploding Digital Universe, An IDC White Paper,

http://japan.emc.com/collateral/analyst-reports/diverse-explodig-digital-universe.pd  f

非专利文献2:S.Grimes,“Unstructured Data and the80Percent Rule”, Clarabridge Bridgepoints,

http://clarabridge.com/default.aspx?tabid=137&ModuleID=635&ArticleID=5 51

非专利文献3:NEC,文档、内容管理辅助系统,InfoFrame PROCENTER/C,

http://www.nec.co.jp/pfsoft/procenter/index.html

非专利文献4:just系统,GDMS,

http://just-enterprise.com/product/gdms/

非专利文献5:株式会社日立解决方案,MEANS文件服务器精简化解决 方案,http://hitachisoft.jp/products/means/slimserver/

发明内容

发明要解决的课题

但是,在现有技术中,如上所述着眼于是否“认为能够删除”,并非是遵 照在实际的文件服务器上文件如何生成、保存的倾向。即,对于处理文档的现 场来说,不仅限于因为是旧文件就可以直接删除的文件。因此,存在在能够达 成目标的削减量之前,用户需要确认是否删除庞大数量的文件的问题。另外, 由于该确认是否删除的劳力、工时是未知的,会产生不能进行工时预算而难以 管理的问题,以及由于考虑避免劳力产生用户难以着手进行确认是否删除的工 作的问题。

另外,由于不根据文件的内容而机械地判断是否认为不必要来进行提示, 所以会产生不限于能够删除提示的文件的问题。并且,这样还会产生使用户确 认是否删除的热情减退的问题。

另外,也考虑到当把内容重复的文件提示为认为可以删除的文件时,省略 确认自动删除的情况。但是,根据设定的文件夹名/文件名信息进行自动访问 文件的处理时,会产生不能访问必要的文件的情况,因此省略确认的自动删除 有限制。并且,比较文件的全文和全部比特来确认重复需要计算时间,另一方 面用散列值来确认重复是很少的,但会产生误判定的危险。

鉴于这种情况,本发明提供一种技术,能够高效率地缩减在文件服务器中 有可能删除的文件,从而减轻用户确认可否删除的工作的负担。

用于解决课题的手段

为了解决上述课题,本发明的文档处理装置具有存储设备,其存储包括在 文件服务器中存储的多个文件的文件名、文件夹名、文件大小以及更新日的信 息的文件信息和启示用户将文件慎重地进行了备份的慎重保存启示信息;处理 器,其根据文件信息生成整理多个文件的辅助信息,经由显示装置提示所述辅 助信息。并且,处理器通过对于多个文件分别将文件信息与慎重保存启示信息 进行核对,判定多个文件是否分别是被慎重地备份的慎重保存文件,将多个慎 重保存文件按照文件大小顺序进行排序,将该排序结果作为辅助信息进行提 示。

根据本说明书的记载和附图所示,本发明所涉及的更进一步的特征会变得 明确。另外,本发明的方式通过要素以及多种要素的组合以及以后的详细描述 和附加的权利要求范围来达成和实现。

需要理解的是,本说明书的描述不过是典型的例示,在任何意义上都不是 限定本发明的权利要求范围或者应用例子。

发明的效果

根据本发明,可以高效率地缩减在文件服务器中有可能删除的文件,从而 可以减轻用户确认可否删除的工作的负担。

附图说明

图1是表示本发明实施方式的业务文档处理装置的概略结构例的功能框 图。

图2是表示文件信息、频繁更新业务名、临时业务名、原始数据启示扩展 以及备份启示字符串的数据结构例的图。

图3是表示日期正规表现、备份启示扩展、邮件数据启示字符串、删除完 毕启示字符串、文件大小删除候补以及文件大小慎重保存删除候补的数据结构 例的图。

图4是用于说明业务文档处理装置中所执行的处理的整体概要的流程图。

图5是用于详细说明慎重保存文件选择处理(S402)的流程图。

图6是用于详细说明慎重备份文件选择处理(S503)的流程图。

图7是用于详细说明重复保存文件选择处理(S507)的流程图。

图8是用于详细说明删除候补选择处理(S403)的流程图。

图9是表示通过大小显示处理所显示的画面例(条形图显示)的图。

图10是表示通过大小显示处理显示的画面例(折线图显示)的图。

图11是表示通过大小显示处理所显示的画面例(饼图显示)的图。

图12是表示通过大小显示处理所显示的画面例(平面图显示)的图。

图13是表示通过大小显示处理所显示的画面例(基于表的显示)的图。

图14是表示通过大小显示处理所显示的画面例(基于条形图的累计显示) 的图。

图15是表示通过大小显示处理所显示的画面例(基于条形图的累计比较 显示)的图。

图16是表示通过大小显示处理所显示的画面例(基于折线图的累计显示) 的图。

图17是表示通过大小显示处理所显示的画面例(基于折线图的累计比较 显示)的图。

图18是表示通过大小显示处理所显示的画面例(基于平面图的累计显示) 的图。

图19是表示通过大小显示处理所显示的画面例(基于平面图的累计比较 显示)的图。

图20是表示通过大小显示处理所显示的画面例(基于表的累计显示)的 图。

图21是表示通过大小显示处理所显示的画面例(基于显示的累计比较显 示)的图。

图22是表示使用了每个部署所占用的容量比例的分布和文件大小的分布 的组合的画面例(条形图显示)的图。

图23是表示使用了每个用户所占用的容量比例的分布和文件大小的分布 的组合的画面例(条形图显示)的图。

图24是表示文件服务器的文件大小调查结果例的图。

具体实施方式

本发明解决了在删除文件服务器中不需要的文件时,在达成目标削减量之 前,用户必须确认庞大数量的文件可否删除的课题。并且,因此本发明进行文 件服务器内的文件的容量分布、容量累计的显示、以及文件服务器内的文件中 被认为慎重地进行了保存的文件以及被怀疑重复保存的文件、通过删除得到的 容量削减效果高的文件的选择显示。

下面,参照附图说明本发明的实施方式。附图中,以相同编号来显示功能 相同的要素。另外,附图表示遵照本发明的原理的具体实施方式和安装例,但 是这些是为了理解本发明,决不是为了限定地解释本发明,可以考虑各种变形 例。

本实施方式中,为了本领域技术人员实施本发明进行了十分详细的说明, 但是需要理解的是,其他的安装、方式也可以,可以在不脱离本发明的技术思 想的范围和精神内进行结构、构造的变更和多样要素的置换。因此,并非仅限 于后述的记载来解释。

并且,本发明的实施方式如后所述,可以通过在通用计算机上运行的软件 来进行安装,也可以用专用软件或者软件和硬件的组合来进行安装。

另外,以后的说明通过“表格”形式对本发明的各个信息进行说明,但是 这些信息可以不用表格的数据结构来表现,可以用列表、DB、队列等数据结 构和这以外的形式来表现。因此,为了表示不依赖于数据结构,将“表格”、 “列表”、“DB”、“队列”等简单地称为“信息”。

另外,在说明各个信息的内容时,可以使用“识别信息”、“标识符”、“名”、 “姓名”、“ID”等表现,这些可以互相置换。

下面将“程序”作为主语(动作主体)来说明本发明的实施方式的各个处 理,由于使用存储器以及通信端口(通信控制装置)来进行通过处理器执行程 序而决定的处理,因此可以将处理器作为主语进行说明。另外,以程序作为主 语而公开的处理可以是管理服务器等计算机、信息处理装置进行的处理。可以 由专用软件来实现程序的一部份或者全部,另外,也可以进行模块化。各种程 序可以通过程序分发服务器和存储介质而安装到各个计算机中。

<文件服务器中的保存文件的倾向>

下面,对于作为发明人调查企业内文件服务器的结果所发现的保存文件的 保存方式的倾向进行说明。作为该调查的结果,发明人找到了大致分为两种的 倾向。

(1)特征(倾向)1:文件服务器所保存的文件的大小不平均,少数的大 容量文件占有多数的容量比例。

文件服务器中保存的文件的大小是各种各样的。如果是只具有文本信息的 文件,小尺寸的不到1千字节。相反,如果是贴了很多图像的报告,近年来超 过1兆字节的也不稀奇。

另外,随着计算机处理能力的提高,用户能够快速生成、阅览的文件的最 大尺寸在逐渐增加。文件服务器中保存有从过去到现在的文件,所以可以容易 想象会存在许多小尺寸的文件。

但是,当实际收集文件后调查大小时,其分布的偏差远远超过预期。

图24表示收集文件按照大小顺序排序,在横轴设定文件大小的顺序,在 纵轴设定文件大小的值,对文件服务器中存在的各个文件进行绘制。从该图表 观察到存在比例非常少的非常巨大的文件,这之外的大多数文件的大小小得可 以相对忽视。

一般存在称为“二八定律”“80:20的法则”的经验之谈,如“销售额的 80%从20%的顾客得到”“销售额的80%从20%的商品品种得到”“整个社会 所得的80%由20%的高额所得者得到”“不良整体的80%来源于20%的原因”。

但是,也有关于文件服务器不均匀的程度过强,整体容量的90%被大小上 位1%的文件占有的情况。

由此可知如果为了防止文件服务器的使用容量增大而删除文件,如果不从 参照编号(虚线框)2400所表示的部分的文件确认可否删除,则效果不大(相 反,即使是以现有技术所着眼的“认为可以删除”的文件,如果是在参照编号 (虚线框)2401所表示的部分中存在的文件,无论如何删除,确认可否删除 的劳动、工时还是一味增大,文件服务器的容量确保迟迟没有进展。例如,在 所述的“整体容量的90%被大小上位1%的文件占有”的情况下,即使对99% 数量的文件投入确认可否删除的庞大的工时,即使假定所有都可删除,也只能 削减全体容量的10%。

(2)特征(倾向)2:在文件服务器所保存的大容量文件中,被认为对个 人以文件夹为单位进行的备份文件进行慎重、过剩地保存的文件占有一定比 例。

如特征1所述那样,即使是少数的大容量文件占有多数的容量比例的情况 下,如果这些是不能删除的文件,也不能删除容量。

但是,实际上收集文件调查大容量文件是什么样的文件时,找到了许多被 认为好像对个人以文件夹为单位进行的备份文件进行了慎重、过剩地保存的能 够删除的文件。另外,在通常的文件操作中,用户几乎没有在邮件发送时间以 外意识到文件大小的机会。因此,对于在文件服务器中什么样的文件占据容量 的认识大多与实际不同。文件生成者自身都感到震惊(没想到是这种文件占据 了这么多的容量)的文件并不少。

并且,作为关于所述特征2进行进一步调查的结果,发明人发现具有以下 的倾向。

特征2-1:即便文件名包含进步快的技术领域名称、稳定地进行的业务名 称等,可以推测为应该频繁进行更新的内容,但有时该文件的最终更新日旧。

特征2-2:即便文件名包含表示临时的内容的业务名称,可以推测长期保 存必要性低,但有时该文件的最终更新日旧。

特征2-3:虽然具有启示加工前的原始数据的扩展,并且在相同文件夹内 文件名相似且存在扩展不同的文件,可以推测存在加工后文件,但有时该文件 的最终更新日旧。

特征2-4:即便文件名包含启示备份的字符串,但有时该文件的更新日旧。

特征2-5:即便文件名包含日期字符串可以推测为备份,但有时该文件的 更新日旧。

特征2-6:即便具有启示备份的扩展,但有时该文件的更新日旧。

特征2-7:即便是表示邮件数据的文件夹名,但有时该文件夹包含的全部 文件的最终更新日旧。

特征2-8:即便文件名包含启示删除完毕数据的字符串,但有时该文件的 更新日旧。

特征2-9:即便文件名中包含启示删除完毕数据的字符串,但有时该文件 夹包含的全部文件的最终更新日旧。

特征2-10:在类似的名字的文件夹中有文件名、大小、更新日相同的文件, 有时怀疑重复。

特征2-11:具有尺寸大且大小相等的文件,有时怀疑内容重复。

特征2-12:在类似名字的文件夹中有大小、更新日相近文件名相同的文件, 有时可以推测为时代不同的备份文件。

特征2-13:存在与同一文件夹中存在的其他文件相比极其古老的更新日期 的文件,有时启示从其他地方复制旧的文件以备参考。

根据以上发现的倾向(特征),从业务文档处理装置(文档处理系统)的 结构开始按顺序详细说明本发明实施方式的提示可删除文件的处理。

<业务文档处理装置的结构>

图1是表示业务文档处理装置1的内部大概结构的功能框图。图1中,该 业务文档处理装置1被表示为单独的计算机,但是也可以构成为将各构成部远 距离地配置,分别经由网络进行连接的计算机系统。

文档处理装置1具有用于显示数据的显示装置100、文件信息DB101、用 于对显示的数据进行选择菜单等操作的键盘102、鼠标等定点设备103、频繁 更新业务名DB104、临时业务名DB105、原始数据启示扩展DB106、备份启 示字符串DB107、日期正规表现DB108、备份启示扩展DB109、邮件数据启 示字符串DB110、删除完毕启示字符串DB111、进行需要的运算处理和控制 处理等的中央处理装置(处理器)112、对中央处理装置112的处理中所需的 程序进行存储的程序存储器113、对中央处理装置112的处理所需的数据进行 存储的数据存储器114。

中央处理装置112具有慎重保存文件选择处理部115、删除候补选择处理 部118、大小显示处理部119、删除候补显示处理部120。慎重保存文件选择 处理部115具有慎重备份文件选择处理部116和重复保存文件选择处理部117。 另外,本实施方式中,各处理部115至120由计算机构成。因此,慎重保存文 件选择处理部115、删除候补选择处理部118、大小显示处理部119、删除候 补显示处理部120都是作为由计算机执行的程序功能的一部分而被实现。因 此,可以将各处理部代替读为处理程序。这些程序被存储在程序存储器113中。

数据存储器114具有文件信息121、频繁更新业务名122、临时业务名123、 原始数据启示扩展124、备份启示字符串125、日期正规表现126、备份启示 扩展127、邮件数据启示字符串128、删除完毕启示字符串129、文件大小删 除候补130、文件大小慎重保存重复怀疑删除候补131,将其作为存储的信息。

<管理信息的结构例>

图2以及图3是表示数据存储器114所包括的管理信息的结构例的图。

图2是表示文件信息121、频繁更新业务名122、临时业务名123、原始 数据启示扩展124以及备份启示字符串125的数据结构例的图。

文件信息121包括文件ID200、文件夹名201、文件名202、文件类别203、 大小204以及更新日205的信息,例如以排列的形式保存这些信息。文件ID200 是相对于文件的唯一分配的ID。文件夹名201是表示存储了该文件的文件夹 的绝对路径的信息。文件名202是表示该文件的名称等标识符的信息。文件类 别203在初始状态为空字符串,输入文件种类特定处理的结果。大小204是表 示对象文件容量的信息,以字节为单位进行保存。更新日205是最后进行对于 对象文件的写入处理的时间点的信息。

频繁更新业务名122具有作为结构信息的频繁更新业务名206。业务名206 是进步非常高速的技术名和定期被重复的管理业务名等、设想为要求频繁更新 文档的业务名称,以字符串的排列形式进行保存。

临时业务名123具有作为结构信息的表示一次业务的业务名207。业务名 207是临时的成果物等、设想为只是临时使用的文档的业务名称,以字符串的 排列形式进行保存。

原始数据启示扩展124具有作为结构信息的包括文件的扩展的扩展208。 扩展208是图像和声音的加工前的保存文件中使用的扩展名,以字符串的排列 形式进行保存。

备份启示字符串125具有作为结构信息的启示备份的启示字符串209。启 示字符串209是设想为用户为了预备而保存文件时所包括的名称,以字符串的 排列形式进行保存。

图3是表示日期正规表现126、备份启示扩展127、邮件数据启示字符串 128、删除完毕启示字符串129、文件大小删除候补130以及文件大小慎重保 存重复怀疑删除候补131的数据结构例的图。日期正规表现126具有作为结构 信息的有关日期的正规表现300。正规表现300是包括“年”“月”“日”等、 设想为记载了年月日的正规表现,以字符串的排列形式进行保存。

备份启示扩展127具有作为结构信息的有表示备份的可能性的扩展301。 扩展301是设想为用户为了预备而保存文件的扩展,以字符串的排列形式进行 保存。

邮件数据启示字符串128具有作为结构信息的被认为启示是邮件数据的 启示字符串302。启示字符串302是设想为保存了邮件数据的文件所包括的名 称,以字符串的排列形式进行保存。

删除完毕启示字符串129具有作为结构信息的启示是已经删除的文件的 启示字符串303。启示字符串303是设想为保存了具有删除完毕标志的数据的 文件所包括的名称,以字符串的排列形式进行保存。

文件大小删除候补130以排列的形式保存成为文件大小删除候补的文件 的文件ID304。文件ID304表示文件信息的文件ID200。

文件大小慎重保存重复怀疑删除候补131以排列的形式保存具有是慎重 保存或重复保存的文件的可能性的文件的文件ID305。文件ID305表示文件信 息的文件ID200。

<业务文档处理装置的处理的概要>

接着,说明上述那样构成的本实施方式的业务文档处理装置1所进行的处 理的概要。图4是用于说明在业务文档处理装置1进行的处理的概要的流程图。

图4中,首先中央处理装置(处理器)112从DB104至111进行各个DB 的登录信息的读入(步骤S400)。然后,中央处理装置112将频繁更新业务名 DB104的信息读入到频繁更新业务名122中进行保存,将临时业务名DB105 的信息读入到临时业务名123中进行保存,将原始数据启示扩展DB106的信 息读入到原始数据启示扩展124中进行保存,将备份启示字符串DB107的信 息读入到备份启示字符串125中进行保存,将日期正规表现DB108的信息读 入到日期正规表现126中进行保存,将备份启示扩展DB109的信息读入到备 份启示扩展127中进行保存,将邮件数据启示字符串DB110的信息读入到邮 件数据启示字符串128中进行保存,将删除完毕启示字符串DB111的信息读 入到删除完毕启示字符串129中进行保存。但是关于文件大小删除候补130 以及文件大小慎重保存重复怀疑删除候补131,由于没有读入对象的DB,因 此在初期阶段在此不保存任何信息。

接着,中央处理装置112从文件信息DB101进行文件信息的读入(步骤 S401)。将读入的结果保存在文件信息121中。在该阶段还没有分别调查文件 的类别,所以文件类别203为空栏。

之后,慎重保存文件选择处理程序115执行慎重保存文件的选择处理(步 骤S402)。参照图5来详细说明该处理。

然后,删除候补选择处理程序118执行删除候补选择处理(步骤S403)。 参照图8来详细说明该处理。

并且,大小显示处理程序119执行大小显示处理(步骤S404)。参照图9 至图21来说明作为该处理结果得到的画面显示例。

最后,删除处理候补显示处理程序120执行删除候补显示处理(步骤 S405)。该处理可以利用非专利文献5所记载的现有技术来执行。因此,省略 其详细的说明。

<慎重保存文件选择处理(S402)的详细>

图5是用于详细说明图4的步骤S402的慎重保存文件选择处理的流程图。

首先,慎重保存文件选择处理程序115对用于对成为处理对象的各个文件 反复进行处理的索引变量file_idx1进行初始化(步骤S500)。

接着,慎重保存文件选择处理程序115调查文件信息121中是否有 file_idx1以上的数据(步骤501)。当没有对象数据时(S501为否的情况),处 理结束。当在步骤S501有file_idx1以上的文件时(S501为是的情况),处理 转到步骤502。

在步骤502,慎重保存文件选择处理程序115调查第file_idx1的文件信息 要素中的文件类别203是否登录完毕(步骤502)。如果文件类别203登录完 毕(S502为是的情况),慎重保存文件选择处理程序115增加file_idx1(步骤 510),从步骤501重复处理。另一方面,如果文件类别203没有登录完毕(S502 为否的情况),处理转到步骤503,慎重保存文件选择处理程序115调查是否 被认为是慎重的备份(步骤503)。该处理是通过慎重保存文件选择处理程序 115调用的慎重备份文件选择处理程序116来执行,后面参照图6详细说明该 处理。

接着,慎重保存文件选择处理程序115确认作为通过步骤503的处理所得 到的结果的文件类别203的信息,调查是否判断为被认为慎重的备份(步骤 504)。如果判断认为是慎重的备份(S504为是的情况),慎重保存文件选择处 理程序115增加file_idx1(步骤510),从步骤501重复处理。如果在步骤504 判断不是被认为慎重的备份的文件(S504为否的情况),慎重保存文件选择处 理程序115以file_idx1+1将用于调查文件组的索引变量file_idx2(成为比较对 象的其他文件)进行初始化(步骤505)。

并且,慎重保存文件选择处理程序115调查文件信息121中是否有 file_idx2以上的数据(步骤506)。没有相应的数据时(S506为否的情况),慎 重保存文件选择处理程序115增加file_idx1(步骤510),从步骤501重复处理。 如果在步骤506判断有file_idx2以上的文件时(S506为是的情况),慎重保存 文件选择处理程序115调查第file_idx1和第file_idx2文件是否被怀疑重复(步 骤507)。该处理是通过慎重保存文件选择处理程序115调用的重复保存文件 选择处理程序117来执行,后面参照图7详细说明该处理。

接着,慎重保存文件选择处理程序115确认作为通过步骤507得到的结果 的文件类别203的信息,如果是被判断为怀疑重复的文件时(S508为是的情 况),慎重保存文件选择处理程序115增加file_idx1(步骤510),从步骤501 重复处理。如果是在步骤508中被判断为未怀疑重复的文件(S508为否的情 况),慎重保存文件选择处理程序115增加file_idx2(步骤509),从步骤506 重复处理。

根据以上所述,结束关于处理对象的文件的慎重保存文件的选择。

<慎重备份文件确认处理(S503)的详细>

图6是用于详细说明图5的步骤503的确认是否被认为慎重备份的处理的 流程图。

首先,慎重备份文件选择处理程序116调查文件信息121中包括的文件夹 名201或者文件名202是否包括频繁更新业务名122的业务名206中的任意一 个排列要素,并且更新日205是否比阈值旧(步骤600)。作为阈值,例如使 用当前日期时间的1年前的值和前年的开始日等。在步骤600满足双方的条件 时(S600为是的情况),慎重备份文件选择处理程序116按照特征2-1认为慎 重的备份,因此在文件类别203中登录“慎重保存”(步骤610),结束处理。 另一方面,在步骤600没有满足任何一个条件时(S600为否的情况),处理转 到步骤601。

在步骤601,慎重备份文件选择处理程序116调查文件夹名201或者文件 名202是否包括临时业务名123的业务名207的任意一个的排列要素,并且更 新日205是否比阈值更旧(步骤601)。当满足该双方的条件时(S601为是的 情况),根据特征2-2认为慎重的备份,因此慎重备份文件选择处理程序116 在文件类别203中登录“慎重保存”(步骤610),结束处理。另一方面,在步 骤601没有满足该条件的任何一方时(S601为否的情况),处理转到步骤602。

在步骤602,慎重备份文件选择处理程序116调查文件名202是否包括原 始数据启示扩展124的扩展208的任意一个的排列要素,并且是否具有文件夹 名201相同且文件名202类似的文件信息,并且更新日205是否比阈值更旧(步 骤602)。可以用动态编程等现有技术判断文件名的类似。当在步骤602满足 全部上述条件时(S602为是的情况),按照特征2-3认为是慎重的备份,因此 慎重备份文件选择处理程序116在文件类别203中登录“慎重保存”(步骤 610),结束处理。另一方面,在步骤60中没有满足所述条件的任何1个时(S602 为否的情况),处理转到步骤603。

在步骤603,慎重备份文件选择处理程序116调查文件夹名201或者文件 名202是否包括备份启示字符串125的启示字符串209的任意一个的排列要 素,并且更新日205是否比阈值更旧(步骤603)。当满足双方的条件时(S603 为是的情况),按照特征2-4认为是慎重的备份,因此慎重备份文件选择处理 程序116在文件类别203中登录“慎重保存”(步骤610),结束处理。在步骤 603没有满足所述条件的任何一方时(S603为否的情况),处理转到步骤604。

在步骤604,慎重备份文件选择处理程序116调查文件夹名201或者文件 名202是否与日期正规表现126的任意一个的排列要素的正规表现300匹配, 并且该日期值是否比阈值更旧(步骤604)。当满足双方的条件时(S604为是 的情况),按照特征2-5认为是慎重的备份,因此慎重备份文件选择处理程序 116在文件类别203中登录“慎重保存”(步骤610),结束处理。另一方面, 在步骤604没有满足所述条件的任何一方时(S604为否的情况),处理转到步 骤605。

在步骤605,慎重备份文件选择处理程序116调查文件名202是否包括备 份启示扩展127的扩展301的任意一个的排列要素,并且更新日205是否比阈 值更旧(步骤605)。当满足双方的条件时(S605为是的情况),按照特征2-6 认为是慎重的备份,因此慎重备份文件选择处理程序116在文件类别203登录 “慎重保存”(步骤610),结束处理。另一方面,在步骤605没有满足所述条 件的任何一方时(S605为否的情况),处理转到步骤606。

在步骤606,慎重备份文件选择处理程序116调查文件夹名201或者文件 名202是否包括邮件数据启示字符串128的启示字符串302的任意一个的排列 要素,并且更新日205是否比阈值更旧(步骤606)。当满足双方的条件时(S606 为是的情况),按照特征2-7认为是慎重的备份,因此慎重备份文件选择处理 程序116在文件类别203登录“慎重保存”(步骤610),结束处理。另一方面, 在步骤606没有满足所述条件的任何一方时(S606为否的情况),处理转到步 骤607。

在步骤607,慎重备份文件选择处理程序116调查文件名202是否包括删 除完毕启示字符串129的启示字符串303的任意一个的排列要素,并且更新日 205是否比阈值更旧(步骤607)。当满足双方的条件时(S607为是的情况), 按照特征2-8认为是慎重的备份,因此慎重备份文件选择处理程序116在文件 类别203登录“慎重保存”(步骤610),结束处理。另一方面,在步骤607没 有满足所述条件的任何一方时(S607为否的情况),处理转到步骤608。

在步骤608,慎重备份文件选择处理程序116调查文件夹名201是否包括 删除完毕启示字符串129的启示字符串303的任意一个的排列要素,并且在存 在于相同文件夹的所有文件中更新日205是否比阈值更旧(步骤608)。当满 足双方的条件时(S608为是的情况),按照特征2-9认为是慎重的备份,因此 慎重备份文件选择处理程序116在文件类别203登录“慎重保存”(步骤610), 结束处理。另一方面,在步骤608没有满足所述条件的任何一方时(S608为 否的情况),处理转到步骤609。

在步骤609,慎重备份文件选择处理程序116调查与存在于相同文件夹的 其他全部文件相比更新日205是否极其旧(步骤609)。可以使用通常的统计 解析方法来判断是否应该被视为“极其旧”。当满足该条件时(S609为是的情 况),按照特征2-13认为是慎重的备份,因此慎重备份文件选择处理程序116 在文件类别203登录“慎重保存”(步骤610),结束处理。另一方面,在步骤 609没有满足所述条件时(S609为否的情况),原样结束处理。

通过以上处理判断处理对象文件是否是慎重备份而残存的文件(慎重备份 文件),加工该文件分类到“慎重保存”中。

<重复文件确认处理(S508)的详细>

图7是用于详细说明图5的步骤508的确认对象文件是否被怀疑为重复文 件的处理的流程图。

首先,重复保存文件选择处理程序117调查图5的第file_idx1以及第 file_idx2的2个文件的文件名202、大小204以及更新日205是否相互相等, 且文件夹名201是否类似(步骤700)。利用比较字符串判断比较结果是否为 阈值以上的动态编程等的已知技术来判断文件夹名是否类似。当满足所述双方 的条件时(S700为是的情况),按照特征2-10怀疑是重复,因此重复保存文 件选择处理程序117在文件类别203登录“怀疑重复”(步骤703),结束处理。 另一方面,在步骤700没有满足所述条件的任何一方时(S700为否的情况), 处理转到步骤701。

在步骤701,重复保存文件选择处理程序117调查图5的第file_idx1以及 第file_idx2的2个文件的大小204是否都大,并且是否相等(步骤701)。例 如可以利用1GB以上等的阈值来判断大小是否大。当满足所述双方的条件时 (S701为是的情况),按照特征2-11怀疑是重复,因此重复保存文件选择处理 程序117在文件类别203登录“怀疑重复”(步骤703),结束处理。另一方面, 在步骤701没有满足所述条件的任何一方时(S701为否的情况),处理转到步 骤702。

在步骤702,重复保存文件选择处理程序117调查图5的第file_idx1以及 第file_idx2的2个文件的文件名202是否相等,并且大小204以及更新日205 是否是相近的值,并且文件夹名201是否类似(步骤702)。可以利用例如差 是否在最大值的10%以下等的计算和阈值来判断大小和更新日是否是相近。另 外,可以利用通常的校正技术来判断文件夹名是否类似。当满足所述所有的条 件时(S702为是的情况),按照特征2-12怀疑是重复,因此重复保存文件选 择处理程序117在文件类别203登录“怀疑重复”(步骤703),结束处理。另 一方面,在步骤702没有满足所述条件的任何一方时(S702为否的情况),原 样结束处理。

通过以上处理判断处理对象文件是否是怀疑重复保存的文件(重复疑义文 件),该文件被分类到“怀疑重复”。

<删除候补选择处理(S403)的详细>

图8是用于详细说明图4的步骤403的进行删除候补的选择的处理的流程 图。

首先,删除候补选择处理程序118将文件信息121中保存的所有排列要素 的文件ID200复制到文件大小删除候补130各个排列要素的文件ID304中(步 骤800)。

接着,删除候补选择处理程序118将文件大小删除候补130的排列要素按 照具有和文件ID304相同的文件ID200的文件信息121的排列要素的大小204 的降序进行排序(步骤801)。通过步骤800以及801的处理,所有的文件关 于文件大小而被排序,提取删除候补。

另外,关于在文件信息121中保存的排列要素中,在文件类别203中登录 了“慎重保存”或“怀疑重复”的文件,删除候补选择处理程序118将文件ID200 复制到文件大小慎重保存重复怀疑删除候补131的各个排列要素的文件ID305 中(步骤802)。

然后,删除候补选择处理程序118将文件大小慎重保存重复怀疑删除候补 131的排列要素按照具有和文件ID305相同的文件ID200的文件信息121的排 列要素的大小204的降序进行排序(步骤803)。通过步骤802以及803的处 理,所有的慎重保存文件以及重复保存疑义文件关于文件大小而被排序,提取 删除候补。

<大小显示处理(处理结果画面例)>

图9至图21是用于说明得到执行图4的步骤404的大小显示处理的结果 的显示画面例的图。

(i)条形图显示例

图9是对于图4的步骤404的大小显示处理表示条形图的画面例的图。

图9中,通过用户选择单选按钮900的“所有文件”时(指定要显示所有 的文件时),大小显示处理程序119在显示装置100的画面上显示文件大小删 除候补130的数据。图9表示选择了“所有文件”时的大小显示画面例。

另外,通过用户选择单选按钮900的“仅慎重/重复”时(指定只显示慎 重/重复时),大小显示处理程序119显示文件大小慎重保存重复怀疑删除候补 131的数据。

通过用户选择单选按钮900的“比较并显示”时(指定进行比较并显示时), 大小显示处理程序119显示文件大小删除候补130以及文件大小慎重保存重复 怀疑删除候补131双方的数据。

大小显示处理程序119在图形显示区域901,在横轴绘制文件大小删除候 补130的排列要素编号,在纵轴绘制具有和文件大小删除候补130的文件 ID304相同的文件ID200的文件信息121的排列要素的大小204的值。然后, 大小显示处理程序119根据轴比例尺指定902的纵轴以及横轴的比例尺指定, 以通常的比例尺或者对数比例尺来显示图形。并且,当用户将值输入到文本框 903以及904中的一个时,大小显示处理程序119自动再计算另一个的值,按 照文件大小删除候补130的排列要素顺序求出具有和文件ID304相同的文件 ID200的文件信息121的排列要素的大小204的累计和时,表示达到了文件信 息121的所有排列要素的大小204的合计的多少比例。例如,看了图9的图形 的用户在条形图大小显示处理程序119接受用户进行的删除候补显示按钮905 的按动后,通过按照文件大小删除候补130的排列要素顺序在文本框903中指 定的比例,对于具有和文件ID304相同的文件ID200的文件信息121的排列要 素,在图4的步骤405进行删除候补显示处理。然后,降序显示删除候补的文 件名,用户可以判断是否应该从显示的内容进行删除。

另外,图9选择“只有慎重/重复”时,显示慎重保存文件和重复疑义文 件的总和,但也可以显示任何一个。这种情况在使用了以下所说明的图10至 图23的显示方式时也一样。

(ii)折线图形显示例

图10表示关于图4的步骤404的大小显示处理,折线图形的画面例。除 了文件的分布是用折线表现以外,和图9相同。

(iii)饼图显示例

图11表示关于图4的步骤404的大小显示处理,饼图的画面例。除了文 件的分布是用饼图表现以外,和图9相同。

(iv)平面图显示例

图12表示关于图4的步骤404的大小显示处理,平面图的画面例。除了 文件的分布是用平面图表现以外,和图9相同。

(v)通过表进行的显示例

图13表示关于图4的步骤404的大小显示处理,表的画面例。除了文件 的分布是用表表现以外,和图9相同。

(vi)累计值图形显示例

图14表示关于图4的步骤404的大小显示处理,以条形图显示大小的累 计值的画面例。

在图形显示区域1400,大小显示处理程序119在横轴绘制对于文件大小 删除候补130的排列要素数的比例,按照文件大小删除候补130的排列要素顺 序在纵轴绘制具有和文件ID304相同的文件ID200的文件信息121的排列要素 的大小204的累计和。其他点和图9相同。

图15是表示图14中用户选择了“进行比较并显示”时的画面显示例的 图。即,图15表示关于图4的步骤404的大小显示处理,将文件大小删除候 补130的数据和文件大小慎重保存重复怀疑删除候补131的数据进行比较并显 示时的画面例。

在图15的图形显示区域1500中,大小显示处理程序119将利用文件大小 删除候补130的排列要素所求出的纵轴的值和利用文件大小慎重保存重复怀 疑删除候补131的排列要素所求出的纵轴的值同时显示在显示装置100的画面 上。

图16以及17表示与图14以及图15相同的画面例的折线图形的情况。另 外,图18以及19表示与图14以及图15相同的画面例的平面图形的情况。再 有,图20以及21表示用表显示和图14以及图15相同的画面例的情况。关于 图16至图21,除了显示方式以外,和图14以及15相同。

<变形例>

(i)关于图6(慎重备份文件确认处理)的步骤600至608中的更新日 205的确认,在文件夹名201或者文件名202与日期正规表现126的任意一个 排列要素的正规表现300匹配时,可以通过该日期值的确认处理进行替换。另 外,本说明书使用了更新日,但是也可以使用最终访问日或者生成日等。

在所述说明的图9至图21的大小显示处理中,表示在一定的范围内划分 文件数并进行显示的方式。关于这点,在一定的范围内进行划分时,能够不是 文件数的绝对值而通过比例进行显示的方式。另外,也可以是以个别的文件单 位进行显示的方式。另外,在本实施方式中,表示在大小显示处理部中将大小 作为纵轴的显示例,但是也可以将大小在横轴中划分值,进行直方图显示。

另外,在图9至图21所使用的条形图或饼图等显示方式可以根据用户的 指示进行变化。就是说,例如用条形图(图9)的方式进行了显示的画面可以 根据用户的指示变化为折线图显示(图10)、基于表的显示(图13)或累计显 示(图14)等。

并且,在所述图9至图21的大小显示处理中,表示在图形的纵轴显示容 量的具体值的方式,但也可以是使用对于整体容量的比例进行显示的方式。

另外,所述图14至图21的大小显示处理中,表示随着文件数量值的增加 容量值也增加的显示方式,但也可以是采用将文件数量值为0的容量值设为 100%,随着文件数量值的增加容量值减少的方式,表示“进行了删除时的残 余容量合计”的显示方式。

(ii)在本实施方式中,记述了通过对个别的文件进行容量分布以及容量 累计的显示来进行高效的容量削减的发明,不过可以通过显示用户指定的文件 夹下面存在的每个子文件夹的容量分布以及容量累计、每个组织的容量分布以 及容量累计、文件服务器等每个物理设备的容量分布以及容量累计、企业搜索 和归档系统等中的每个管理对象的容量分布以及容量累计等,来实现容量削减 的重点项目的管理。

(iii)在本实施方式中,作为被认为是慎重/过剩地保存了个人以文件夹 为单位进行的备份文件的例子,列举了特征2-1至特征2-13,不过也可以使用 其它特征。例如,有时在进行复制&和贴时,启示多次重复粘贴的操作的字符 串被包含在文件名中。另外,还存在例如虽然过去属于但现在已辞职或进行了 调动的工作人员的名字等被包含在文件夹名或文件名中或者作为文件系统的 所有者信息被保存,并且该文件的更新日旧的情况。另外,还存在例如启示安 装作业结束后不需要安装程序的种类的软件或打印机的安装程序的字符串被 包含在文件名或文件夹名中的情况。另外,还存在例如具有制造业以外的行业 的画面文件、广告/营业以外的行业的视频文件、指定了业务上可利用的软件 的环境中可执行的文件等没有被设想为业务上利用的扩展的情况。并且,还存 在例如启示可以容易地从公司外的网页和公司内的门户网站得到的字符串被 包含在文件名中的情况。另外,还存在启示了例如具有表示压缩文件的扩展的 文件、扩展以外的部分相同而大小比该压缩文件大的文件或者文件夹双方都存 在,保存了压缩文件和该原始文件双方的情况。

(iv)在本实施方式中,记述了少数的大容量文件占有了大量的容量比例 的情况,但该特征对于部门和用户个人等也相同。即,组织整体中少数的部门 占有大量的容量比例,部门的全部构成成员中少数用户占有大量的容量比例, 一个用户所生成的文件中少数的文件占有大量的容量比例。因此,可以不以文 件为单位而是以部门为单位或者以用户个人为单位进行大小显示处理部的显 示。

另外,将每个部门所占的容量比例的分布和文件大小的分布进行组合,进 行图22那样的显示,如参照编号2200所示,可以接受部门名称的指定,进行 向删除候补显示处理部的画面迁移。另外,也可以如参照编号(虚线框)2201 所示,接受通过定点设备进行的文件的指定,进行向删除候补显示处理部的画 面迁移。

并且,将每个用户所占的容量比例的分布和文件大小的分布进行组合,如 图23那样进行显示,如参照编号2300所示,可以接受用户名的指定,进行向 删除候补显示处理部的画面迁移。并且,也可以如参照编号(虚线框)2301 所示,接受定点设备进行的文件的指定,进行向删除候补显示处理部的画面迁 移。另外,可以将每个部门所占的容量比例的分布和每个用户所占的容量比例 的分布进行组合进行显示。另外,可以将每个部门所占的容量比例的分布和每 个用户所占的容量比例的分布以及文件大小的分布进行组合,三维地进行绘 制。另外,图23以及图24是用条形图进行显示的例子,但是也可以用折线图 形、饼图形、平面图形、其他图形、表形式来进行显示。

(v)在本实施方式中,在文件服务器内的文件中通过删除得到的容量削 减效果高的文件、被认为进行了慎重保存的文件以及被怀疑进行了重复保存的 文件中,对于通过删除得到的容量削减效果高的文件进行选择以及显示。但是, 能够不通过删除而是通过压缩和向档案存储的保存来解决容量的问题。因此, 对于在文件服务器内的文件中通过压缩得到的容量削减效果高的文件、被认为 慎重地进行了保存的文件以及被怀疑进行了重复保存的文件中,通过压缩得到 的容量削减效果高的文件、在文件服务器内的文件中通过存档得到的容量削减 效果高的文件/被认为慎重地进行了保存的文件以及被怀疑进行了重复保存的 文件中,通过存档得到的容量削减效果高的文件进行选择以及显示。

(vi)在本实施方式中,记述了通过实际删除、压缩、存档等解决容量的 问题的处理,但是也可以进行删除可否确认工时、压缩可否确认工时、存档可 否确认工时的估计。即,在文件服务器内的文件中通过删除得到的容量削减效 果高的文件、被认为慎重地进行了保存的文件以及被怀疑进行了重复保存的文 件中,调查通过删除得到的容量削减效果高的文件的数量,以此作为基础进行 确认工时的估计。另外,根据文件服务器的文件数量和容量总和,利用平均的 分布,在文件服务器内的文件中通过删除得到的容量削减效果高的文件、被认 为慎重地进行了保存的文件以及被怀疑进行了重复保存的文件中,对于通过删 除得到的容量削减效果高的文件的数量进行估计,以此作为基础进行确认工时 的估计。

<总结>

本实施方式的业务文档处理装置在DB和存储器中至少存储包含在文件 服务器中存储的多个文件的文件名、文件夹名、文件大小以及更新日的信息的 文件信息、和启示用户慎重地备份了文件的慎重保存启示信息。并且,利用这 些信息生成用于文件服务器容量管理的辅助信息,将其显示在显示画面上。生 成辅助信息时,对于多个文件分别通过将文件信息和慎重保存启示信息进行核 对来判定多个文件是否分别是被慎重地备份的慎重保存文件。并且,将多个慎 重保存文件按照文件大小顺序进行排序,将该排序结果作为辅助信息进行显 示。另外,关于多个文件,通过比较各个文件的文件信息来判定多个文件中是 否存在可能被重复保存的重复保存疑义文件。然后,当用于辅助信息生成的集 合中包括多个重复保存疑义文件时,将其和多个慎重保存文件组合后的文件按 照文件大小顺序进行排序,将该排序结果作为辅助信息进行显示。这样的话, 可以有效地将能够删除的文件信息向用户进行提示,用户可以以更少的删除可 能确认工时进行有效的容量删除。

更具体地说,根据发明人找到的特征2-1到2-13的条件来确定过去作为 备份慎重地长期放置,重要性变小的文件(慎重保存文件)。通过利用这样的 条件,可以特定是与用户所意识的不需要的文件完全不同的意外的文件(参照 特征1),非常消耗容量的文件。由于对用户来说是意外的,所以用通常的检 索的方法不能找出这样的文件,但是根据本发明可以容易地发现这样的文件。 另外,用户明白删除的文件数量和可削减容量之间的关系。因此,用户可以进 行基于工时估计的管理,并且可以促进用户的确认可否删除的热情。

另外,也可以将多个文件按照文件大小顺序进行排序,生成所有文件的排 序结果,根据用户的要求,将比较了所有文件的排序结果和重复保存疑义文件 以及慎重保存文件的排序结果后的信息作为辅助信息进行显示。这样,用户可 以知道能够删除的文件在服务器内的所有文件中所占的比例和通过将其删除 联系到什么程度的文件服务器容量削减。

另外,可以计算重复保存疑义文件以及慎重保存文件的文件容量累计,根 据该文件的容量累计显示重复保存疑义文件和慎重保存文件的排序结果(参照 图14至图21)。这样,用户可以直观地掌握删除到哪里的文件,联系到哪个 位的容量压缩。

另外,用户可以指定文件服务器中的文件大小上位的文件的比例(参照图 9的903)以及在文件服务器的整体容量中所占的比例(参照图9的904)中 的任何一方的比例。在用户进行指定后,对此进行应答,计算未被指定的另一 方的比例。然后,将指定的比例以及计算出的比例与辅助信息一起进行显示。 这样,用户可以有意图地决定进行到哪里的容量压缩。并且,此时当用户按下 删除候补显示(参照图9的905)后,对其进行应答,从文件的排序结果的上 位开始显示指定比例或计算比例的文件大小与上位的文件大小的比例相当的 文件的文件信息(文件名或文件夹名)。通过这样,可以从文件服务器中的文 件容量显示、容量累计显示的形式向文件服务器内的文件中的通过删除得到的 容量削减效果高的文件的显示进行画面迁移,可以高效地进行文件服务器的容 量管理。

本发明可以通过实现实施方式的功能的软件的程序代码来实现。这时,将 记录了程序代码的存储介质提供给系统或装置,该系统或装置的计算机(或者 CPU和MPU)读出在存储介质中存储的程序代码。这时,通过从存储介质读 出的程序代码自身实现上述的实施方式的功能,该程序代码自身以及存储该程 序代码的存储介质构成本发明。作为用于供给这种程序代码的存储介质,例如 使用软盘、CD-ROM、DVD-ROM、硬盘、光盘、光磁盘、CD-R、磁带、非 易失性的存储卡、ROM等。

另外,根据程序代码的指示,在计算机上运行的OS(应用系统)等进行 实际处理的一部分或全部,可以通过该处理来实现上述的实施方式的功能。并 且,从存储介质读出的程序代码被写入到计算机上的存储器后,根据该程序代 码的指示,计算机的CPU等进行实际的处理的一部分或全部,通过该处理实 现所述实施方式的功能。

并且,通过将实现实施方式的功能的软件程序代码经由网络进行传送,将 其存储在系统或者装置的硬盘或存储器等存储单元或CD-RW、CD-R等存储 介质中,在使用时该系统或装置的计算机(或者CPU和MPU)可以读出并执 行该存储单元和该存储介质所存储的程序代码。

最后,需要理解的是这里所述的程序以及技术本质上与任何的特定装置没 有关联,可以通过组件的任意相应的组合进行安装。并且,通用目的多种类型 的设备可以根据这里所述的示教进行使用。可知为了执行这里所述的方法的步 骤,构筑专用的装置有益的。另外,通过适当组合实施方式中公开的多个结构 要素可以形成各种发明。例如,可以从实施方式所表示的所有结构要素中删除 几个结构要素。还有可以适当组合不同实施方式的结构要素。本发明关于具体 例进行了记述,但这些在所有的观点中是用于说明的而不是用于限定。本领域 的技术人员明白存在实施本发明的相应的硬件、软件以及固件的多个组合。例 如,所述软件可以用汇编程序、C/C++、perl、Shell、PHP、Java(登录商标) 等广范的程序或者脚本语言进行安装。

并且,在上述实施方式中,控制线和信息线表示是考虑到说明上的需要而 采用的,产品上并不限于表示所有的控制线和信息线。所有的结构可以相互连 接。

并且,本技术领域的具有常识的技术人员通过这里所公开的本发明的说明 书以及实施方式的考察,可以明确本发明的其他实际安装。所述的实施方式的 多种方式以及/或者组件可以由单独或者任意的组合来使用。说明书和具体例 不过是典型的情况,本发明的范围和主旨由后续的权利要求来表示。

符号的说明

100显示装置;101文件信息DB;102键盘;103定点设备;104至111 各种数据库;112中央处理器;113程序存储器;114数据存储器

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号