首页> 中国专利> 一种从文档集中快速提取有用数据的方法

一种从文档集中快速提取有用数据的方法

摘要

本发明提供一种从文档集中快速提取有用数据的方法,包括以下步骤:1:进行分词处理,得到每个文档中的潜在检索词和该文档中的每个段落中的潜在检索词;2:进行词频统计,得到每个段落中每个潜在检索词的词频统计结果,和文档整体的潜在检索词的词频统计结果;3:采用非结构化数据库技术进行存储,使所述文档集中所有文档转化为非结构化数据库中的一个有序集合;4:输入检索词,在具有有序集合的非结构化数据库中实施检索;5:输出检索结果。有益效果:检索简单、使用方便。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-24

    授权

    授权

  • 2018-04-24

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20171020

    实质审查的生效

  • 2018-03-30

    公开

    公开

说明书

技术领域

本发明涉及信息检索技术领域,尤其涉及一种从文档集中快速提取有用数据的方法。

背景技术

非结构化数据库:一般来说,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便采用类似关系型数据库以二维表来表达的数据。如Word、PDF等文档类数据,图片类数据,图像、音频、视频类数据等。非结构化数据在所有数据中占有很大的比重。采用关系型数据库等传统结构化数据库对非结构数据进行管理,很难方便地挖掘蕴含在非结构化数据中的有价值信息。

中文分词技术:中文分词是指将文本中连续的字序列按照一定的规范切分成一个个单独的词,并重新组合成词序列的过程。

词频统计技术:某个词在某个文件中出现的次数称为该词在该文件中的词频。目前词频统计一般采用TF-IDF(term frequency–inverse document frequency)方法。这是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

文档检索是指在输入检索词的情况下,在文档数据库中查找具有所述检索词的最优文档的过程。随着社会生活、工作的节奏的不断加快和文档数量、词语数量的不断增加,在海量数据中只进行文档查找,即使查找到了相关文档,还需要花费大量时间在这些相关文档中人工查找相关数据,效率极低且相当困难。例如:地质灾害工作积累了大量的文档资料,这些文档资料一般都是以整篇文档为单位进行整体存储,要从一个或多个文档中提取某个具体数据或信息,或要确定某个具体数据或信息在某个或某几个文档的哪个具体段落中,并把这些信息快速提取出来,到目前为止都是很困难的。

发明内容

有鉴于此,本发明的实施例提供了一种检索简单、使用方便的从文档集中快速提取有用数据的方法。

本发明的实施例提供一种从文档集中快速提取有用数据的方法,包括以下步骤:

步骤1:使用中文分词工具,对文档集中的每个文档进行包括分词、词性标注及分词筛选在内的预处理,得到每个文档中的潜在检索词和该文档中的每个段落中的潜在检索词;

步骤2:对所述文档集中的每个文档中的每个段落中的潜在检索词进行词频统计,得到每个段落中每个潜在检索词的词频统计结果,基于段落的词频统计结果得到相应的文档整体的潜在检索词的词频统计结果;

步骤3:采用非结构化数据库技术存储经步骤1和步骤2处理后的文档集,对所述文档集中的每个文档建立一个存储集,每个存储集的存储内容包括:{文档的名称、文档的内容、文档中每个段落的潜在检索词及每个所述潜在检索词的词频统计结果、文档的潜在检索词及每个所述潜在检索词的词频统计结果、存储时间},使所述文档集中所有文档转化为非结构化数据库中的一个有序集合;

步骤4:输入检索词,在具有有序集合的非结构化数据库中实施检索;

步骤5:根据检索词与潜在检索词的匹配,以及潜在检索词的词频统计结果,输出检索结果。

进一步地,所述潜在检索词包括名词、动词和数量词。

进一步地,步骤1中所述的分词筛选为剔除经分词和词性标注后的词中的非潜在检索词,所述非潜在检索词包括连词、副词和语气词。

进一步地,步骤5中,检索结果的输出内容包括至少一个结果集,每一所述结果集的内容包括:{文档的名称、存储时间、文档中具有检索词的每个段落的内容}。

进一步地,根据文档的潜在检索词的词频统计结果降序排列所述结果集。

进一步地,每一所述结果集中,根据文档中的每个段落的段落顺序排列具有检索词的段落。

进一步地,所述结果集的内容还包括:{存储位置、具有检索词的每个段落的检索词的数量}。

进一步地,所述文档集为地质灾害大文档集。

进一步地,所述中文分词工具为分词词典,步骤1中分词时采用的分词算法为结巴分词、Word分词或盘古分词算法。

进一步地,步骤2中进行词频统计的方法为TF-IDF方法,所述非结构化数据库为MongoDB、HBase或Redis数据库。

本发明的实施例提供的技术方案带来的有益效果是:本发明的从文档集中快速提取有用数据的方法,克服了包含在大量文档中有用数据或信息难以确定是否存在、在哪里和怎样快速提取出来的困难,使用户可以快速从大量地质灾害文档中提取出需要的有用数据或信息,为地质灾害数据管理、数据分析、数据挖掘、数据融合、大数据处理等提供有力的支持与服务。

附图说明

图1是本发明从文档集中快速提取有用数据的方法的一步骤图;

图2是结果集的示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。

请参考图1,本发明的实施例提供了一种从文档集中快速提取有用数据的方法,包括以下步骤:

步骤1:使用中文分词工具,对文档集中的每个文档进行包括分词、词性标注及分词筛选在内的预处理,得到每个文档中的潜在检索词和该文档中的每个段落中的潜在检索词。

所述中文分词工具为分词词典,如人民日报统计的带词性标注的中文词典等。步骤1中分词时采用的分词算法为结巴分词、Word分词或盘古分词算法。根据需要,选择合适的分词算法。

所述潜在检索词包括名词、动词和数量词,甚至包括形容词等用户可能用于检索的词。步骤1中所述的分词筛选为剔除经分词和词性标注后的词中的非潜在检索词,所述非潜在检索词包括连词、副词和语气词等用户不可能用于检索或者用户用于检索概率较低的词。本实施例中,所述文档集为地质灾害大文档集,但是不以此为限。

步骤2:对所述文档集中的每个文档中的每个段落中的潜在检索词进行词频统计,得到每个段落中每个潜在检索词的词频统计结果,基于段落的词频统计结果得到相应的文档整体的潜在检索词的词频统计结果。

优选步骤2中进行词频统计的方法为TF-IDF方法,所述非结构化数据库为MongoDB、HBase或Redis数据库。

例如文档1的潜在潜在检索词为:计算机、数据和键盘,文档1中第N段的潜在检索词为:计算机和数据。经过步骤2的词频统计后,文档1中第N段中的潜在检索词计算机和数据出现的次数分别为5次和9次,文档1中的潜在潜在检索词计算机、数据和键盘出现的次数分别为15次、31次和92次。故文档1中第N段的词频统计结果为:[文档1第N段,计算机,5];[文档1第N段,数据,9]。文档1的词频统计结果为:[文档1,计算机,15];[文档1,数据,31];[文档1,键盘,92]。

步骤3:采用非结构化数据库技术存储经步骤1和步骤2处理后的文档集,对所述文档集中的每个文档建立一个存储集,每个存储集的存储内容包括:{文档的名称、文档的内容、文档中每个段落的潜在检索词及每个所述潜在检索词的词频统计结果、文档的潜在检索词及每个所述潜在检索词的词频统计结果、存储时间},使所述文档集中所有文档转化为非结构化数据库中的一个有序集合。

步骤4:输入检索词,在具有有序集合的非结构化数据库中实施检索。

步骤5:根据检索词与潜在检索词的匹配,以及潜在检索词的词频统计结果,输出检索结果。

请参考图2,步骤5中,检索结果的输出内容包括至少一个结果集,每一所述结果集的内容包括:{文档的名称、存储时间、文档中具有检索词的每个段落的内容}。根据文档的潜在检索词的词频统计结果降序排列所述结果集。每一所述结果集中,根据文档中的每个段落的段落顺序排列具有检索词的段落。所述结果集的内容还可以包括:{存储位置、具有检索词的每个段落的检索词的数量}。

本发明的实施例提供的技术方案带来的有益效果是:本发明的从文档集中快速提取有用数据的方法,克服了包含在大量文档中有用数据或信息难以确定是否存在、在哪里和怎样快速提取出来的困难,使用户可以快速从大量地质灾害文档中提取出需要的有用数据或信息,为地质灾害数据管理、数据分析、数据挖掘、数据融合、大数据处理等提供有力的支持与服务。

在本文中,所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的,只是为了表达技术方案的清楚及方便。应当理解,所述方位词的使用不应限制本申请请求保护的范围。

在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号