首页> 中国专利> 一种分散文档管理的方法

一种分散文档管理的方法

摘要

本发明公开一种分散文档管理的方法,包括以下步骤:收集分散文档,添加搜索信息;分散文档存储于云端服务器内;使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征;根据语义特征进行分散文档的分类;对分散文档进行重复检测并删除重复文档;对分散文档进行数据的安全加密管理;根据所述搜索信息向存储文档的云端服务器发送安全加密管理信息;文档进行重新编辑以生成新版本的文档,新版本的文档提供给请求用户。有益效果:使得分散文档能够被有序的管理,能够便于用户搜索使用;有效降低云端服务器内存储文档的重复率,有效提高存储文档被检索使用时的效率;有效提高存储文档的安全性;使得分散文档能够被使用者高效管理。

著录项

  • 公开/公告号CN114896618A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 威海职业学院(威海市技术学院);

    申请/专利号CN202210649073.8

  • 发明设计人 王晓华;

    申请日2022-06-09

  • 分类号G06F21/60(2013.01);G06F16/33(2019.01);G06F40/216(2020.01);G06F40/30(2020.01);

  • 代理机构深圳国联专利代理事务所(特殊普通合伙) 44465;

  • 代理人杜晓莹

  • 地址 264200 山东省威海市初村镇

  • 入库时间 2023-06-19 16:22:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-06-23

    发明专利申请公布后的撤回 IPC(主分类):G06F21/60 专利申请号:2022106490738 申请公布日:20220812

    发明专利申请公布后的撤回

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06F21/60 专利申请号:2022106490738 申请日:20220609

    实质审查的生效

说明书

技术领域

本发明涉及文档分布式管理技术领域,具体涉及一种分散文档管理的方法。

背景技术

文档是软件开发使用和维护中的必备资料。软件文档或者源代码文档是指与软件系统及其软件工程过程有关联的文本实体。文档的类型包括软件需求文档,设计文档,测试文档,用户手册等。其中的需求文档,设计文档和测试文档一般是在软件开发过程中由开发者写就的,而用户手册等非过程类文档是由专门的非技术类写作人员写就的。文档能提高软件开发的效率,保证软件的质量,而且在软件的使用过程中有指导、帮助、解惑的作用,尤其在维护工作中,文档是不可或缺的资料。在当今的电子化时代,个人、团体及企业都需要使用可靠而有效的电子文档储存、共享以及管理系统。电子文档存储和管理方案主要体现于个人本地存储,共享网络硬盘,个人或企业团体云盘存储,以及使用基于内网和外网专业文档管理系统几个方面。这些分散文档在实际使用中,重复率较高,使用效率低,同时,难以搜索,安全性不高,难以高效管理。

发明内容

为全面解决上述问题,尤其是针对现有技术所存在的不足,本发明提供了一种分散文档管理的方法能够全面解决上述问题。

为实现上述目的,本发明采用以下技术手段:

一种分散文档管理的方法,包括以下步骤:

第一步、收集分散文档,并在分散文档中添加搜索信息;

第二步、把添加搜索信息的分散文档存储于云端服务器内;

第三步、识别所述搜索信息的文本内容,使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征;

第四步、根据语义特征进行分散文档的分类;

第五步、对分类好的分散文档进行重复检测并删除重复文档;

第六步、对检测完成的分散文档进行数据的安全加密管理;

第七步、用户通过云端服务器查询所述分散文档的搜索信息,根据所述搜索信息向存储文档的云端服务器发送安全加密管理信息;

第八步、存储文档的云端服务器接收到所述全加密管理信息之后对所述文档进行重新编辑以生成新版本的文档,所述新版本的文档提供给请求用户。

本发明进一步的优选方案:所述第一步中搜索信息包括类别、关键字信息、名称、编号和编码。

本发明进一步的优选方案:所述第四步的具体步骤如下:

通过从第二步中存储的数据采样多个文档,抽取该多个文档作为分类对象;

从存储部抽取第三步的语义特征;

基于语义特征与分类对象内的类别信息出现的频率的相似性,对分类对象进行聚类,由此,按照每个语义特征生成所述类目。

本发明进一步的优选方案:所述第五步中的具体步骤如下:

获取全部已入库文档和待检测文档;

从存储部抽取分词处理全部已入库文档和所述待检测文档;

根据预设领域相关停用词集,过滤分词后的已入库文档和待检测文档;

训练预处理后的已入库文档,生成句向量模型;

根据所述句向量模型,生成过滤分词后的已入库文档的文档向量和待检测文档的文档向量;

计算已入库文档的文档向量和待检测文档的文档向量的余弦值;

根据所述余弦值,判断待检测文档与已入库文档是否相似;

相似删除,不相似把待检测文档存储于入库文档。

本发明进一步的优选方案:所述第六步中,第六步的安全管理为向第五步中数据的文档进行加密;具体步骤如下:

为第五步中数据的文档建立唯一标识,并将文档的唯一标识设置在所述文档中;

将文档的唯一标识上传至云端服务器,云端服务器以文档的唯一标识为索引存储每个文档对应的加密信息。

本发明进一步的优选方案:所述加密信息包括:文档是否加密以及用哪种系统加密。

本发明的有益效果:

本发明为一种分散文档管理的方法,通过在分散文档中添加搜索信息,文本内容通过搜索信息使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征,分散文档通过语义特征进行分类,使得分散文档能够被有序的管理,能够便于用户搜索使用。

本发明为一种分散文档管理的方法,通过对分类后的文档进行重复检测并删除重复文档,有效降低云端服务器内存储文档的重复率,有效提高存储文档被检索使用时的效率。

本发明为一种分散文档管理的方法,通过对分散文档进行数据的安全加密管理,有效提高存储文档的安全性;用户通过云端服务器查询分散文档的搜索信息,根据搜索信息向存储文档的云端服务器发送安全加密管理信息,存储文档的云端服务器接收到全加密管理信息之后对文档进行重新编辑以生成新版本的文档,新版本的文档提供给请求用户,这种操作使得分散文档能够被使用者高效管理。

具体实施方式

下面将对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

一种分散文档管理的方法,包括以下步骤:

第一步、收集分散文档,并在分散文档中添加搜索信息;

第二步、把添加搜索信息的分散文档存储于云端服务器内;

第三步、识别所述搜索信息的文本内容,使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征;

第四步、根据语义特征进行分散文档的分类;

第五步、对分类好的分散文档进行重复检测并删除重复文档;

第六步、对检测完成的分散文档进行数据的安全加密管理;

第七步、用户通过云端服务器查询所述分散文档的搜索信息,根据所述搜索信息向存储文档的云端服务器发送安全加密管理信息;

第八步、存储文档的云端服务器接收到所述全加密管理信息之后对所述文档进行重新编辑以生成新版本的文档,所述新版本的文档提供给请求用户。

工作原理

通过在分散文档中添加搜索信息,文本内容通过搜索信息使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征,分散文档通过语义特征进行分类,使得分散文档能够被有序的管理,能够便于用户搜索使用;通过对分类后的文档进行重复检测并删除重复文档,有效降低云端服务器内存储文档的重复率,有效提高存储文档被检索使用时的效率;通过对分散文档进行数据的安全加密管理,有效提高存储文档的安全性;用户通过云端服务器查询分散文档的搜索信息,根据搜索信息向存储文档的云端服务器发送安全加密管理信息,存储文档的云端服务器接收到全加密管理信息之后对文档进行重新编辑以生成新版本的文档,新版本的文档提供给请求用户,这种操作使得分散文档能够被使用者高效管理。

实施例2

一种分散文档管理的方法,包括以下步骤:

第一步、收集分散文档,并在分散文档中添加搜索信息,搜索信息包括类别、关键字信息、名称、编号和编码;

第二步、把添加搜索信息的分散文档存储于云端服务器内;

第三步、识别所述搜索信息的文本内容,使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征;

第四步、根据语义特征进行分散文档的分类,具体步骤如下:

通过从第二步中存储的数据采样多个文档,抽取该多个文档作为分类对象;

从存储部抽取第三步的语义特征;

基于语义特征与分类对象内的类别信息出现的频率的相似性,对分类对象进行聚类,由此,按照每个语义特征生成所述类目;

第五步、对分类好的分散文档进行重复检测并删除重复文档;

第六步、对检测完成的分散文档进行数据的安全加密管理;

第七步、用户通过云端服务器查询所述分散文档的搜索信息,根据所述搜索信息向存储文档的云端服务器发送安全加密管理信息;

第八步、存储文档的云端服务器接收到所述全加密管理信息之后对所述文档进行重新编辑以生成新版本的文档,所述新版本的文档提供给请求用户。

实施例3

一种分散文档管理的方法,包括以下步骤:

第一步、收集分散文档,并在分散文档中添加搜索信息,搜索信息包括类别、关键字信息、名称、编号和编码;

第二步、把添加搜索信息的分散文档存储于云端服务器内;

第三步、识别所述搜索信息的文本内容,使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征;

第四步、根据语义特征进行分散文档的分类,具体步骤如下:

通过从第二步中存储的数据采样多个文档,抽取该多个文档作为分类对象;

从存储部抽取第三步的语义特征;

基于语义特征与分类对象内的类别信息出现的频率的相似性,对分类对象进行聚类,由此,按照每个语义特征生成所述类目;

第五步、对分类好的分散文档进行重复检测并删除重复文档,具体步骤如下:

获取全部已入库文档和待检测文档;

从存储部抽取分词处理全部已入库文档和所述待检测文档;

根据预设领域相关停用词集,过滤分词后的已入库文档和待检测文档;

训练预处理后的已入库文档,生成句向量模型;

根据所述句向量模型,生成过滤分词后的已入库文档的文档向量和待检测文档的文档向量;

计算已入库文档的文档向量和待检测文档的文档向量的余弦值;

根据所述余弦值,判断待检测文档与已入库文档是否相似;

相似删除,不相似把待检测文档存储于入库文档;

第六步、对检测完成的分散文档进行数据的安全加密管理;

第七步、用户通过云端服务器查询所述分散文档的搜索信息,根据所述搜索信息向存储文档的云端服务器发送安全加密管理信息;

第八步、存储文档的云端服务器接收到所述全加密管理信息之后对所述文档进行重新编辑以生成新版本的文档,所述新版本的文档提供给请求用户。

实施例4

一种分散文档管理的方法,包括以下步骤:

第一步、收集分散文档,并在分散文档中添加搜索信息,搜索信息包括类别、关键字信息、名称、编号和编码;

第二步、把添加搜索信息的分散文档存储于云端服务器内;

第三步、识别所述搜索信息的文本内容,使用倒排索引方法进行词频统计,得到各个词语的词频统计值,获得语义特征;

第四步、根据语义特征进行分散文档的分类,具体步骤如下:

通过从第二步中存储的数据采样多个文档,抽取该多个文档作为分类对象;

从存储部抽取第三步的语义特征;

基于语义特征与分类对象内的类别信息出现的频率的相似性,对分类对象进行聚类,由此,按照每个语义特征生成所述类目;

第五步、对分类好的分散文档进行重复检测并删除重复文档,具体步骤如下:

获取全部已入库文档和待检测文档;

从存储部抽取分词处理全部已入库文档和所述待检测文档;

根据预设领域相关停用词集,过滤分词后的已入库文档和待检测文档;

训练预处理后的已入库文档,生成句向量模型;

根据所述句向量模型,生成过滤分词后的已入库文档的文档向量和待检测文档的文档向量;

计算已入库文档的文档向量和待检测文档的文档向量的余弦值;

根据所述余弦值,判断待检测文档与已入库文档是否相似;

相似删除,不相似把待检测文档存储于入库文档;

第六步、对检测完成的分散文档进行数据的安全加密管理,具体步骤如下:

为第五步中数据的文档建立唯一标识,并将文档的唯一标识设置在所述文档中;

将文档的唯一标识上传至云端服务器,云端服务器以文档的唯一标识为索引存储每个文档对应的加密信息;

所述加密信息包括:文档是否加密以及用哪种系统加密;

第七步、用户通过云端服务器查询所述分散文档的搜索信息,根据所述搜索信息向存储文档的云端服务器发送安全加密管理信息;

第八步、存储文档的云端服务器接收到所述全加密管理信息之后对所述文档进行重新编辑以生成新版本的文档,所述新版本的文档提供给请求用户。

本发明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无需也无法对所有的实施方式予以穷举,而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号