技术领域
本发明涉及信息技术领域,具体为一种企业级全量数据智能搜索实现方法及系统。
背景技术
云计算、大数据、物联网、移动应用等信息技术快速发展,公司开展了大量研究和应用,为企业生产方式及管理模式变革带来新的契机。“十三五”期间,公司的业务将从偏重支撑业务操作升级为全面辅助分析决策,需要加强对跨业务领域数据的综合分析挖掘,加强对半结构化、非结构化数据的分析,构建更多规律型、自主学习型的数据分析,需要信息系统提供对海量、多种形式数据的存储、快速计算、深度分析挖掘的能力,以及丰富的信息可视化展现能力,最大限度地减少决策过程中的不确定性、随意性和主观性,增强决策的理性、科学性及快速反应程度,提高决策的效益和效率,从而引领智慧企业发展方向,向更集中、更智能、更互动的方向迈进。因此加快数据流动,提高数据利用效率成为面向应用、提供面向数据快速、精准检索、高效管理及有效利用的新挑战。
搜索引擎的不同时期的研究重点和服务性能,可以将搜索引擎分为两代:
第一代搜索引擎出现于1994年,以Yahoo,InfoSeek,AltaVista等为代表的第一代搜索引擎采用人工或半人工索引方法和基于关键词的元搜索技术,其目标是发现尽量多的网页。这类搜索引擎一般都索引少于100万个网页,极少重新搜集网页并去刷新索引,而且检索速度非常慢,一般都要等待10S甚至更长的时间,在实现技术上也基本沿用较为成熟的IR(Information Retrieval),网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。
大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模,响应速度和用户数量,它们一般都保持一个大约5,000万网页的索引数据库,每天能够响应1,000万次用户检索请求,它的发展方向是:索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。
1)现存不足与缺陷
现有的搜索引擎目前还存在着或多或少的缺陷,主要表现在以下几个方面:
2)逻辑运算符
现有的搜索引擎提供的提问函数是相当有限的,大多数的搜索引擎只提供关键词间最基本的布尔连接。例如Yahoo只提供AND和OR运算,并且一旦选用了一个逻辑运算符,它必须应用于所有的关键词。Open Text Index允许用户用不同的布尔运算符,但仅允许4个运算符且必须按出现次序运算,像SQL语言那样复杂的查询语言在现有的搜索引擎中还不能应用。
3)仅使用关键词提问
现有的搜索引擎仅允许用一组关键词及逻辑运算符组成提问,但关键词检索不能完全满足用户的要求,而且它是一种盲目的匹配,而自然语言理解又是非常困难的任务,现在仍在研究之中。
4)不能用检索历史信息
用户的每次检索都是从头开始的检索,不能从原有的查询结果中作进一步的提炼。
5)简单的结果表示方法
大多数的搜索引擎都只返回一张长长的检索结果表,一般有好几页。该表中可能包含成千上万个指向Web站点的连接指针,用户可能只选择一小部分,而放弃其余部分,因为用户不可能有这么好的耐心,结果是他们可能丢失了很多有用的信息。
6)单个引擎的限制
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,索引机器人的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息,现在已出现了一些解决方法,如元搜索引擎和分布式搜索引擎。另外,据报道,主要的商业性的搜索引擎每分钟要收到1.5~2万个提问,这对索引服务器也是一种很大的压力。
7)难以为用户提供有效的个性化服务
由于不同用户的兴趣爱好各不相同,所以所需的检索结果也应该具有一定的针对性,但现有的搜索引擎无法为单个用户提供有效的个性化服务,大大增加了用户查询有用信息的时间。。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种企业级全量数据智能搜索实现方法及系统。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种企业级全量数据智能搜索系统,包括:
接入层:实现非结构化、企业门户、知识管理权限的非结构化数据源采集;
模型层:建立权限模型、业务模型、兴趣域模型、相似度模型,为数据分析提供建模依据;
算法层:利用数据挖掘与分析算法,建立特征值建模、数据分析与检索、模型评估与高维可视化算法分析流程;
组件层:开发公共组建以支撑上层服务调用,基于带权限的数据检索组件、实体命名识别组件、自动标签组件等实现数据关系分析与关联,为数据综合利用提供基础组件;
服务层:将模型层的模型和算法层的算法应用于数据,并将各个组件按照需求进行封装形成支撑业务的公共服务;
展示层:对检索结果进行展示,包括企业门户系统、知识管理系统及三集五大业务系统。
本发明改进有,所述服务层包括包括跨业务检索服务、文档关联检索服务、相关推荐服务和自动推送服务。
本发明改进有,所述接入层内设置有语料库,所述语料库根据业务领域需求及数据情况,综合应用人工、程序自动化的方法进行语料库加工和构建,在人工方面,根据业务场景需求,梳理涉及到的业务数据,并进行相应的分门别类处理,在自动化构建方面,主要利用分词技术、机器学习的特征建模及模式分析技术,对给定领域的语料库进行特征化处理,建立不同类型的语料库。
本发明改进有,所述算数层内算法包括:关联规则和序列模式算法、分类和预测模式算法、聚类分析模式算法及异类分析模式算法。
本发明进一步提供了一种企业级全量数据智能搜索实现方法,包括以下步骤:
接入:实现非结构化、企业门户、知识管理权限的非结构化数据源采集;
模型:建立权限模型、业务模型、兴趣域模型、相似度模型,为数据分析提供建模依据;
算法:利用数据挖掘与分析算法,建立特征值建模、数据分析与检索、模型评估与高维可视化算法分析流程;
组件:开发公共组建以支撑上层服务调用,基于带权限的数据检索组件、实体命名识别组件、自动标签组件等实现数据关系分析与关联,为数据综合利用提供基础组件;
服务:将模型层的模型和算法层的算法应用于数据,并将各个组件按照需求进行封装形成支撑业务的公共服务;
展示:对检索结果进行展示。
本发明改进有,所述接入包括语料库的构件,具体包括两个步骤构建:
步骤1、非结构化、企业门户、知识管理权限的非结构化数据源采集,对采集后的非结构化数据进行解析人工分出类别,并存入语料库;
步骤2、将电力词典通过人工、程序自动化的方法进行语料库加工和构建,在人工方面,根据业务场景需求,梳理涉及到的业务数据,并进行相应的分门别类处理,在自动化构建方面,主要利用分词技术、机器学习的特征建模及模式分析技术,对给定领域的语料库进行特征化处理;
将外部词典并通过人工梳理并进行分类存入语料库。
本发明改进有,还包括对语料库进行数据预处理步骤,通过分词组件、过滤组件及用户行文组件进行过滤。
本发明改进有,所述算法步骤包括词相似度算法、文档相似度算法、用户相似度算法、用户行为分析、项目特征分析。
本发明改进有,所述模型步骤包括模糊检索、兴趣域及业务关系图谱。
(三)有益效果
与现有技术相比,本发明提供了一种企业级全量数据智能搜索系统,具备以下有益效果:系统设计遵循四统一原则,即统一领导、统一规划、统一标准、统一建设的原则。示范应用建设应充分考虑系统的安全防护、容错能力和抗干扰能力,保证系统长期稳定、安全、可靠、高效地运行,具备良好的兼容和扩展性。遵循以客户为中心的设计理念,提供一致性、人性化用户体验,最大限度地满足业务实际需要,操作便捷,功能完善,界面友好;应用设计采用国际先进的技术路线。充分利旧和异构兼容技术,保护国网公司以往IT投资。符合国际及国家通用标准,支持多种硬件平台,具备良好的开放性和可移植性。采用标准开放平台接口,支持与其它系统的数据交换和共享,便于维护、扩展和互联。
附图说明
图1为本发明的系统示意图;
图2为本发明的流程图;
图3为办发明的案例流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1到图3,一种企业级全量数据智能搜索系统,包括:
接入层:实现非结构化、企业门户、知识管理权限的非结构化数据源采集;
模型层:建立权限模型、业务模型、兴趣域模型、相似度模型,为数据分析提供建模依据;
算法层:利用数据挖掘与分析算法,建立特征值建模、数据分析与检索、模型评估与高维可视化算法分析流程;
组件层:开发公共组建以支撑上层服务调用,基于带权限的数据检索组件、实体命名识别组件、自动标签组件等实现数据关系分析与关联,为数据综合利用提供基础组件;
服务层:将模型层的模型和算法层的算法应用于数据,并将各个组件按照需求进行封装形成支撑业务的公共服务;
展示层:对检索结果进行展示,包括企业门户系统、知识管理系统及三集五大业务系统。
本发明改进有,所述服务层包括包括跨业务检索服务、文档关联检索服务、相关推荐服务和自动推送服务。
技术路线选型在国网的整体架构下进行,并依据国产化及减少重复建设为原则,选用自主+成熟开源软件方式实现系统的快速搭建,且保证架构的先进性和稳定性。
经调研业界开源成熟的全文检索产品,发现ElasticSearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎,设计用于分布式计算,能够达到实时、稳定、可靠、快速的搜索。
本发明改进有,所述接入层内设置有语料库,所述语料库根据业务领域需求及数据情况,综合应用人工、程序自动化的方法进行语料库加工和构建,在人工方面,根据业务场景需求,梳理涉及到的业务数据,并进行相应的分门别类处理,在自动化构建方面,主要利用分词技术、机器学习的特征建模及模式分析技术,对给定领域的语料库进行特征化处理,建立不同类型的语料库。
本发明改进有,所述算数层内算法包括:关联规则和序列模式算法、分类和预测模式算法、聚类分析模式算法及异类分析模式算法。
本发明进一步提供了一种企业级全量数据智能搜索实现方法,包括以下步骤:
接入:实现非结构化、企业门户、知识管理权限的非结构化数据源采集;
模型:建立权限模型、业务模型、兴趣域模型、相似度模型,为数据分析提供建模依据;
算法:利用数据挖掘与分析算法,建立特征值建模、数据分析与检索、模型评估与高维可视化算法分析流程;
组件:开发公共组建以支撑上层服务调用,基于带权限的数据检索组件、实体命名识别组件、自动标签组件等实现数据关系分析与关联,为数据综合利用提供基础组件;
服务:将模型层的模型和算法层的算法应用于数据,并将各个组件按照需求进行封装形成支撑业务的公共服务;
展示:对检索结果进行展示。
本发明改进有,所述接入包括语料库的构件,具体包括两个步骤构建:
步骤1、非结构化、企业门户、知识管理权限的非结构化数据源采集,对采集后的非结构化数据进行解析人工分出类别,并存入语料库;
步骤2、将电力词典通过人工、程序自动化的方法进行语料库加工和构建,在人工方面,根据业务场景需求,梳理涉及到的业务数据,并进行相应的分门别类处理,在自动化构建方面,主要利用分词技术、机器学习的特征建模及模式分析技术,对给定领域的语料库进行特征化处理;
将外部词典并通过人工梳理并进行分类存入语料库。
本发明改进有,还包括对语料库进行数据预处理步骤,通过分词组件、过滤组件及用户行文组件进行过滤。
本发明改进有,所述算法步骤包括词相似度算法、文档相似度算法、用户相似度算法、用户行为分析、项目特征分析。
本发明改进有,所述模型步骤包括模糊检索、兴趣域及业务关系图谱。
构建一站式检索服务,提供数据分类和推送功能。研发非结构化平台批量传输接口,实现对非结构化数据的自动抽取、分类、聚类。结合企业级知识管理实现非结构化数据自动归集到知识,并在知识管理“问答贴吧”、知识建设模块、新知识推荐模块中,实现非结构化数据到知识管理的分类、聚类、知识推送,提升知识的质量,支撑经验向知识的转变,为数据跨业务关联使用奠定基础。
新型的系统和方法提供了不同的检索方式,具体包括:
(1)综合检索
构建公司全量数据一站式搜索服务,实现对不同业务数据的集中检索,解决跨系统、跨业务的多源信息分散搜索问题,综合检索仅实现在检索广度及深度上的拓展,实现一对一的精确检索。
用户可以在搜索框及其它相应可视化搜索界面内实现基于单个词、短语的精确检索、模糊检索及一定逻辑关系上的组合检索,检索深度可以由用户自由选择,可以实现包括对标题、正文、附件及其它关键属性的特定范围检索。例如,用户键入检索词“三集五大”,系统将返回标题、正文、附件或其它关键属性含有“三集五大”四个字的结果列表。
(2)关联性检索
如果说综合检索是在海量信息内检索到用户需要的零散信息点,以知识点的形式返回结果给用户,那么关联性检索就是将零散的信息点通过一定的关联关系进行多角度的串联,以关系网的形式返回结果给用户。在每次检索时,用户不但可以能得到综合检索的结果,同时可能会了解到某些新的事实或新的联系,促使其进行一系列的全新搜索查询,让检索更有深度和广度。关联性检索是模糊及拓展性搜索,实现一对多的相对意义检索。
在综合检索的基础之上,构建信息点的关系图谱,构建一个与搜索源及结果相关的完整的知识网。并根据信息的关系程度,形成关系度排序,按照内外维度以图形可视化方式一层一层展现。例如,用户键入检索词“三集五大”,系统将返回标题、正文、附件或其它关键属性含有“三集五大”四个字的结果列表。同时,返回和“三集五大”有关系的人力资源、财务、物资集约化管理、大规划、大建设、大生产、大检修、大营销体系等相关结果,也有可能返回十二五及四化等相关的信息。
在综合检索的基础之上,构建信息点的脉络图谱,构建一个与搜索源及结果相关的完整的信息脉络演进关系。并根据信息的关系程度或时间等关键属性形成排序,按照远近维度以图形可视化方式一条一条展现。例如,用户键入检索词“大检修体系”,系统将返回标题、正文、附件或其它关键属性含有“大检修体系”五个字的结果列表。同时,返回和“大检修体系”有关系的关系图谱。另外,系统将以大事记的方式按时间轴返回大检修体系建设的关键历程信息。信息脉络图谱仅针对部分事件类的检索源提够此种检索方式。
同时还具备了自动推送功能,检索可以分为主动检索及被动检索,综合检索及关联性检索是由用户发起的主动性检索,而自动推送则是由系统向用户发起的被动检索。用户在不需要进行任何检索操作的同时,系统即会完成公司热点信息、重要信息的实时主动推送。同时,系统也可以为用户提供预选关注焦点,系统自动完成用户预选范围内的信息自动推送。
通过项目建设,构建基于非结构化数据管理平台的一站式智能搜索,为公司各级用户提供业务化、融合化、智能化、主动化、个性化的非结构化数据信息资源入口,探索基于信息检索层面的非结构化大数据价值挖掘技术方法,降低其他业务系统建设成本,提升非结构化数据管理平台的建设收益。具体包括以下三个业务目标:
1、构建公司全量数据综合搜索服务,实现对不同业务数据的集中检索,解决跨系统、跨业务的多源信息分散搜索问题,综合检索仅实现在检索广度及深度上的拓展,实现一对一的精确检索。
2、在综合检索结果基础上,以知识点的形式返回结果给用户,那么关联性检索就是将零散的信息点通过一定的关联关系进行多角度的串联,以关系网的形式返回结果给用户,使搜索更具深度和广度。
3、改变目前被动检索现状,实现“人找数据”向“数据找人”的转变,综合检索及关联性检索是由用户发起的主动性检索,而自动推送则是由系统向用户发起的被动检索。
下面采用简单的例子展现整个例子,具体参照附图3.:
1、数据采集:企业搜索采集的数据除了网页外,还有各类数据库(结构化、半结构化、非结构化)、电子文件、文本、多媒体等等,通过对异构数据进行抽取、整合,完成数据的清理。
2、数据建模:对采集的数据进行预处理(分词、去停用词、过滤虚词等)、特征表示、特征选择、特征权重计算,并采用文本挖掘分析算法建立知识图谱及用户兴趣模型、相似度模型,为数据检索与展现提供模型支撑。
3、用户请求:对用户输入的关键词或短句进行分词、语义理解,将识别的分词连同用户权限信息带入搜索引擎进行查询。
4、搜索引擎处理:检索请求首先经过权限过滤,将符合权限的索引结果取出,默认按照相关度由高到低进行排序。
5、结果展现:基于数据模型,将检索结果以业务关联图谱形式、兴趣域图谱等形式进行可视化展示。
为实现企业信息跨业务、强关联及智能化的一站式搜索最终目标,系统将按照分重点、分阶段的原则进行研发。本期项目工作目标重点是实现一站式搜索引擎的系统框架搭建,完成系统跨业务、强关联、自动推送等重点功能的研发。并在信息化建设领域梳理典型场景并试点验证应用效果。
新增功能:完成综合检索(包含跨业务系统检索、精确检索、模糊检索等5个二级模块)、关联性检索(包含构建信息点的关系图谱、构建信息点的脉络图谱等2个二级模块)、自动推送(包含实时信息推送、用户兴趣模型、推荐算法等5个二级模块)、知识归集及一站式检索服务试点(包含知识归集、门户一站式检索服务等2个二级模块)等4个新增功能模块的开发工作。
1)完成在公司总部试点部署实施工作。
2)完成协同办公、IRS、知识管理和门户的4个系统的数据集成,实现信息化建设过程的相关材料集中检索,提升员工工作效率。
3)完成与门户单点登录的集成,方便用户检索使用。
4)完成与非结构化平台和统一权限的集成。
系统功能主要分为以下5块:
系统及数据集成:本期要集成业务系统进行业务模型和权限模型的梳理,提供统一搜索接口,实现对业务系统的集成及改造。
综合检索:构建公司全量数据一站式搜索服务,实现对不同业务数据的集中检索,解决跨系统、跨业务的多源信息分散搜索问题,综合检索仅实现在检索广度及深度上的拓展,实现一对一的精确检索。
关联性检索:如果说综合检索是在海量信息内检索到用户需要的零散信息点,以知识点的形式返回结果给用户,那么关联性检索就是将零散的信息点通过一定的关联关系进行多角度的串联,以关系网的形式返回结果给用户。在每次检索时,用户不但可以能得到综合检索的结果,同时可能会了解到某些新的事实或新的联系,促使其进行一系列的全新搜索查询,让检索更有深度和广度。关联性检索是模糊及拓展性搜索,实现一对多的相对意义检索。
自动推送:检索可以分为主动检索及被动检索,综合检索及关联性检索是由用户发起的主动性检索,而自动推送则是由系统向用户发起的被动检索。
检索应用:依据用户身份信息等兴趣域模型进行分析,将推荐结果通过知识管理进行展现。用户登录门户系统后,可以在门户系统的搜索界面中,通过输入一个或多个关键字,发起检索。通过加解密算法,确保用户信息在传输过程中不被窃取和篡改,实现在门户登录后,二次登录全文检索时无需重新输入用户名和密码即可访问。
系统管理:实现对用户、日志记任务的管理。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
机译: 基于资源描述框架三元数据的RDF智能搜索系统及使用该方法的智能搜索方法
机译: 连续的全扫描数据存储表和分布式数据存储,具有可预测的应答时间,可实现不可预测的工作量
机译: 将数据记录在记录介质上的方法,再现记录在具有驱动数据输入区域,数据区域的记录介质上的数据的方法以及从行中排开的数据驱动区域,用于再现和 /或相对于记录介质写入数据。用于记录和/或再现记录在记录介质中的数据的设备,其中驱动数据的输入区域,数据区域和驱动数据的驱动区域按顺序排列用于记录设备和/或复制的一行光学记录介质。该记录介质可以通过计算机进行读取,并由处理指令编码,以实现通过以下方式在记录介质上记录数据的方法:记录介质可以为我获取它,然后由处理指令编码的计算机读取该记录介质,以实现一种再现记录在具有保险的记录介质中的数据的方法以及驱动