首页> 中国专利> 船舶装备交互式电子技术手册全文检索装置及方法

船舶装备交互式电子技术手册全文检索装置及方法

摘要

本发明所设计的一种船舶装备交互式电子技术手册全文检索装置,它包括公共源数据库、专业词汇提取模块、缩略语提取模块、第一分词模块、技术信息术语数据库、装备部件名称数据库、缩略语数据库、通用词汇数据库、检索记录数据库、用户检索命令通信模块、检索模块、第二分词模块、索引数据库和索引模块。本发明综合数据模块文档中元素标签特点和文档内容,利用专业词汇进行查询并加大专业词汇在文档及检索关键词中的权重,使得系统能够在一定语义层次进行查询,返回的检索结果更加贴近用户的检索意图,从而保证了该检索系统的高召回率和准确率。

著录项

  • 公开/公告号CN105528411A

    专利类型发明专利

  • 公开/公告日2016-04-27

    原文格式PDF

  • 申请/专利权人 中国人民解放军海军工程大学;

    申请/专利号CN201510884252.X

  • 发明设计人 马良荔;覃基伟;苏凯;许国鹏;

    申请日2015-12-03

  • 分类号G06F17/30;G06F17/27;

  • 代理机构武汉开元知识产权代理有限公司;

  • 代理人黄行军

  • 地址 430033 湖北省武汉市解放大道717号

  • 入库时间 2023-12-18 15:50:38

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-20

    授权

    授权

  • 2016-05-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151203

    实质审查的生效

  • 2016-04-27

    公开

    公开

说明书

技术领域

本发明涉及信息检索技术领域,具体地指一种船舶装备交互式电子技术手册全文检索装置及方法。

技术背景

目前船舶装备的技术资料大部分以纸质形式存在,导致技术资料的管理任务日益繁重,资料重复率和冗余度增大,且难以更新,数据互操作性、传递实时性和共享难度大。为了解决上述难题,通常编制交互式电子技术手册(IETM,InteractiveElectronicTechnicalManual)对技术资料进行管理,即按照标准的数字格式标准编制,采用文字、图形、表格、音频和视频等形式,通过人机交互方式提供该装备的基本原理、操作使用和维修保障等内容的技术出版物。由于IETM系统涉及的信息繁多,用户通常需使用信息检索功能实现对所需内容的快速查找,其中全文检索是最常用的方法之一。过去IETM的全文检索方法中,多数采用通用领域的检索方案,没有充分考虑专业领域技术资料的特点,导致检索结果不理想。

全文检索是指将文档的所有文本与检索关键词进行匹配的检索方法。由于在中文语境下,词语间没有空格作为分隔符,词语之间没有明显的区分标记,需要按照一定规范将中文字符串切分为一个个单独的词,才能达到计算机自动识别语句含义的效果,以完成文档中文本与检索关键词的匹配工作,因此,中文分词技术也成为了中文全文检索的核心技术。在目前常用的分词方法中,基于字符串的分词方法是应用最广泛的方法,该方法是将需要分词的字符串与一个词库按照一定的策略进行匹配得到分词结果的方法,而在专业领域中,如果词库中缺少专业词汇,基于字符串的分词方法无法取得理想的分词效果,词库中专业词汇的多少直接影响了分词的准确率。

在船舶装备IETM领域中,主要存在两类专业词汇,一类是船舶装备部件名称,如“SMR-7200船用雷达”、“05106电流型螺旋桨风速仪”等。另一类是技术信息术语,如“战术技术指标”、“比幅测向原理”、“维修包络图”等。因此,这两类专业词汇的获取是IETM全文检索首先需解决的问题,只有同时利用专业词汇和通用词汇对数据模块(DM,DataModel)文档进行分词匹配,才能使得用户快速查找到所需的装备技术信息。

船舶装备名称全称构造复杂,名称中往往包含数字、符号、字母等多种字符类型,用户通常会使用缩略语来替代全称,如装备名称“H1604A‘伊尔科斯尊严’号散货轮”,用户通常使用“H1604A散货轮”或者“伊尔科斯尊严”来代替,因此,词库中仅仅包含装备名称的全称还不够,缩略语的处理也是船舶装备IETM领域分词匹配无法避开的问题。对于装备名称,从原语到缩略语形式主要为缩合和截略两种,缩合是指将原语切分为若干部分,选取各部分中最能代表原义的字或词组合成为缩略语,如举例中的“H1604A散货轮”;截略是指获取原语中一段连续的子字符串作为缩略语,如上例中的“伊尔科斯尊严”。

在解决专业词汇获取问题后,现有的分词方法没有针对专业词汇的特点进行匹配,分词效果存在一定的问题,因此,需要结合提取词汇的特点设计适用于该领域的特定分词方法,以便取得最佳的匹配效果。

在检索到所需的信息后,如何对多种检索结果进行排序也是全文检索装置与方法需要解决的核心问题之一,由于数据模块文档的元素种类众多,重要度不一,不同文档的重要度也存在差异,不同的查询关键词的重要度也不相同,因此,需要综合考虑以上三方面的因素,设计合理的检索结果排序方法,得到令用户满意的检索结果。

由以上内容可以看出,专业词汇获取、缩略语获取、分词问题和检索结果排序是目前船舶装备IETM全文检索装置与方法需解决的四大问题。

发明内容

本发明的目的就是要提供一种船舶装备交互式电子技术手册全文检索装置及方法,该装置和方法能方便用户快速准确地查找到所需的船舶装备技术信息。

为实现此目的,本发明所设计了船舶装备交互式电子技术手册全文检索装置,它包括数据库和功能模块,其中,所述数据库包括公共源数据库、技术信息术语数据库、装备部件名称数据库、缩略语数据库、通用词汇数据库、检索记录数据库和索引数据库,所述功能模块包括专业词汇提取模块、缩略语提取模块、第一分词模块、用户检索命令通信模块、检索模块、第二分词模块和索引模块,其中公共源数据库为专业词汇提取模块和缩略语提取模块提供词汇提取源并为第一分词模块提供分词处理的内容,专业词汇提取模块用于提取词汇并存入技术信息术语数据库和装备部件名称数据库,缩略语提取模块用于提取词汇存入缩略语数据库,第一分词模块用于将处理后的分词内容导入索引模块处理;

索引模块用于建立索引并存入索引数据库,检索数据库用于接收第二分词模块分词处理的检索内容进行匹配查找,并将匹配得到的结果集返回至检索模块进行排序,检索模块用于将用户的检索内容发送至第二分词模块进行分词处理,检索模块还用于接收用户检索命令通信模块的检索命令和返回排序后的结果集发送至用户检索命令通信模块,用户检索命令通信模块用于将用户的检索命令发送至检索记录数据库,检索记录数据库用于为缩略语提取模块提供词汇提取源;

所述技术信息术语数据库、装备部件名称数据库、缩略语数据库和通用词汇数据库分别为第一分词模块和第二分词模块提供分词时的匹配词集。

一种利用上述船舶装备交互式电子技术手册全文检索装置进行检索的方法,它包括如下步骤:

步骤1:在公共源数据库中导入根据选定的交互式电子技术手册文档编写标准(即S1000D标准)编辑的数据模块文档,专业词汇提取模块根据所述选定的交互式电子技术手册文档编写标准的要求提取公共源数据库内数据模块文档中的技术信息术语和装备部件名称两类专业词汇,并建立与相应数据模块文档中数据模块编码信息间的映射关系,并将上述两类专业词汇和映射关系存入对应的技术信息术语数据库和装备部件名称数据库中;

步骤2:缩略语提取模块从公共源数据库的装备部件名称中提取对应缩略语的特征量,该特征量为装备部件名称中的数字编号或者俗称部分;

步骤3:缩略语提取模块将上述特征量与公共源数据库内数据模块文档和检索记录数据库内的用户检索记录进行匹配查找,确定特征量中的各个元素在数据模块文档和用户检索记录中的具体位置;

步骤4:缩略语提取模块确定特征量所在缩略语的首尾字符串,并识别特征量对应缩略语的边界片段,使得识别的缩略语为完整缩略语,将该完整缩略语定为候选缩略语;

步骤5:缩略语提取模块通过以下公式1计算上述候选缩略语的权值:

>Wa=nmicnall*lgDallDmic---(1)>

式中nmic为候选缩略语在特定内容中出现的次数,所述特定内容包括与装备部件名称的装备类型标识码相同的数据模块文档内容及该数据模块文档内容检索记录中的检索关键词;nall为候选缩略语在所有数据模块文档中出现的次数与检索记录数据库中所有检索记录中出现次数的总和;Dall为所有数据模块文档总数和所有检索记录总数之和;Dmic为包含候选缩略语的数据模块文档总数和包含候选缩略语的检索记录总数之和;Wa为候选缩略语的权值,用于衡量候选缩略语衡量主题的能力,Wa的阈值为给定值,当候选缩略语的权值大于等于Wa的阈值时,候选缩略语可视为正式缩略语,将候选缩略语存入缩略语数据库,候选缩略语的权值小于Wa的阈值时,对候选缩略语不进行处理;

步骤6:在第一分词模块和第二分词模块分别对数据模块文档和检索模块提供的用户检索关键词进行分词处理;分词处理的具体过程为:

设待切分的字符串为S1=w1w2w3…wi…wn,其中,待切分的字符串S1为用户检索关键词的字符串或数据模块文档中的每一句内容,wi为S1中的单个字符,n为该字符串的长度,n≥1,i为1到n之间的字符编号;

使用缩略语数据库对待切分的字符串S1进行扫描,当缩略语命中时,将待切分的字符串S1中命中的字符子串还原为对应的原语,直到待切分的字符串S1扫描完毕为止,此时形成字符串S2=u1u2…ui…um,其中ui为S2中的单个字符,m为该字符串的长度;

在第一分词模块和第二分词模块内用字符串S2建立一个节点数为m+1的有向无环图G,有向无环图G节点的编号依次为v0、v1、v2…vm,m为该字符串的长度,在相邻两个顶点vk,vk+1间建立有向边<vk,vk+1>,该有向边<vk,vk+1>对应的词汇为uk+1,(k=0,1,2...m-1,m为该字符串的长度),若任意两个有向无环图G节点间存在直接相连的有向边,则认为这两个节点间的距离为1,若字符串S2的字符子串h1=upup+1…uq,(1≤p<q)为在缩略语还原后的原语,则以节点vp-1,vq为起始节点和终结节点建立有向边<vp-1,vq>,该有向边边<vp-1,vq>对应的词汇为字符串S2的字符子串h1

分别使用技术信息术语数据库和装备部件名称数据库对字符串S2进行匹配,若存在匹配的最大字长字符子串h2=uaua+1…ub,(1≤a<b),且最大字长字符子串h2的节点va-1和节点vb间不存在有向边<va-1,vb>,并有a≥p+1或者b≤q-1成立,则以节点va-1为起始节点,以节点vb为终结节点建立有向边<va-1,vb>,该边对应词汇为最大字长字符子串h2

使用通用词汇数据库对字符串S2进行匹配,若存在匹配的字符串h3=ucuc+1…ud,(1≤c<d),且字符串h3的节点vc-1和vd间不存在有向边<vc-1,vd>,则以字符串h3的节点vc-1为起始节点,以字符串h3的节点vd为终结节点建立有向边<vc-1,vd>,该有向边<vc-1,vd>对应词汇为字符串h3;若字符串h3的节点vc-1和节点vd间存在有向边<vc-1,vd>,且有向边<vc-1,vd>的字符串类型为最大字长字符子串h2,则说明最大字长字符子串h2在通用词汇数据库中存在,因此将其类型最大字长字符子串h2改为字符子串h4

统计有向边生成完毕后有向无环图G中从节点v0到达vm路径长度由短至长的前N条路径,N选为3,其中最短的一条路径考虑所有有向边类型,第二短的路径和第三短的路径均忽略字符串类型为h1和h2的有向边,只对对应词汇字符串为h3和h4的有向边进行考虑,即在非最优路径中只考虑通用词库的匹配结果,剔除上述三条路径中存在的重复有向边,分别输出各条路径中剩余有向边对应的词汇,构成的结果集既为最终的分词结果;

步骤7:在第一分词模块将上述得到的最终的分词结果分别存入索引数据库内索引文档的各域中,并设置各域的权重值,索引文档各域包括标题域、路径域、链接文本域、子标题域和正文域;

步骤8:设置索引数据库内索引文档的权重,并将多个索引文档构成段并最终形成索引文件;索引文档权重设置分为标准编码系统编码权重设置和信息码权重设置,根据数据模块文档编码特点,对不同标准编码系统编码和信息码的权重进行设置,标准编码系统编码权重设置依据标准编码系统编码装备层次级别越低,对应的权重因子设置越高的规则,信息码权重设置依据子类别信息码设置比主类别更高的权重的规则,然后将标准编码系统编码权重和信息码权重相乘得到索引文档的权重;

步骤9:利用检索模块向用户提供全文检索服务,检索模块接收用户的检索请求并调用查询方式进行检索,该查询方式具体为:将用户检索的关键词调用步骤6进行分词处理后,与步骤7形成的索引库中文档各域的分词内容进行匹配,查找所有匹配的文档作为结果集。

本发明针对现有的全文检索装置与方法在船舶装备交互式电子技术手册专业领域使用时存在的缺少专业词汇及其缩略语、缺少适配的分词算法和检索结果排序没有优化的问题,通过分析选定的交互式电子技术手册文档编写标准(即S1000D标准)数据模块文档结构及特定元素标签特点,结合船舶装备技术资料出现的专业词汇类型与特点,完成专业词汇及其缩略语的提取,并根据多类词汇特点,针对性地设计分词算法,将数据模块文档内容分词后存入索引便于快速定位信息,并设置各类因素权重值用于解决检索结果排序问题,完成交互式电子技术手册全文检索装置与方法的构建。该全文检索装置与方法综合数据模块文档中元素标签特点和文档内容,利用专业词汇进行查询并加大专业词汇在文档及检索关键词中的权重,使得系统能够在一定语义层次进行查询,返回的检索结果更加贴近用户的检索意图,从而保证了该检索装置的高召回率和准确率。

附图说明

图1为本发明中船舶装备交互式电子技术手册全文检索装置的结构示意图。

其中,1—公共源数据库、2—专业词汇提取模块、3—缩略语提取模块、4—第一分词模块、5—技术信息术语数据库、6—装备部件名称数据库、7—缩略语数据库、8—通用词汇数据库、9—检索记录数据库、10—用户检索命令通信模块、11—检索模块、12—第二分词模块、13—索引数据库、14—索引模块。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明:

如图1所示的船舶装备交互式电子技术手册全文检索装置,它包括数据库和功能模块,其中,所述数据库包括公共源数据库1、技术信息术语数据库5、装备部件名称数据库6、缩略语数据库7、通用词汇数据库8、检索记录数据库9和索引数据库13,所述功能模块包括专业词汇提取模块2、缩略语提取模块3、第一分词模块4、用户检索命令通信模块10、检索模块11、第二分词模块12和索引模块14,其中公共源数据库1为专业词汇提取模块2和缩略语提取模块3提供词汇提取源并为第一分词模块4提供分词处理的内容,专业词汇提取模块2用于提取词汇并存入技术信息术语数据库5和装备部件名称数据库6,缩略语提取模块3用于提取词汇存入缩略语数据库7,第一分词模块4用于将处理后的分词内容导入索引模块14处理;

索引模块14用于建立索引并存入索引数据库13,检索数据库13用于接收第二分词模块12分词处理的检索内容进行匹配查找,并将匹配得到的结果集返回至检索模块11进行排序,检索模块11用于将用户的检索内容发送至第二分词模块12进行分词处理,检索模块11还用于接收用户检索命令通信模块10的检索命令和返回排序后的结果集发送至用户检索命令通信模块10以便查看,用户检索命令通信模块10用于将用户的检索命令发送至检索记录数据库9,检索记录数据库9用于为缩略语提取模块3提供词汇提取源;

所述技术信息术语数据库5、装备部件名称数据库6、缩略语数据库7和通用词汇数据库8分别为第一分词模块4和第二分词模块12提供分词时的匹配词集。

一种利用上述船舶装备交互式电子技术手册全文检索装置进行检索的方法,它包括如下步骤:

步骤1:在公共源数据库1中导入根据选定的交互式电子技术手册文档(本实施例选择为S1000D的交互式电子技术手册文档)编写标准编辑的数据模块文档,专业词汇提取模块2根据所述选定的交互式电子技术手册文档编写标准的要求提取公共源数据库1内数据模块文档(DM,DataModel)中的技术信息术语和装备部件名称两类专业词汇,并建立与相应数据模块文档中数据模块编码信息间的映射关系,并将上述两类专业词汇和映射关系存入对应的技术信息术语数据库5和装备部件名称数据库6中;

步骤2:缩略语提取模块3从公共源数据库1的装备部件名称(全称)中提取对应缩略语的特征量,该特征量为装备部件名称中的数字编号或者俗称部分(例如装备名称原语“H1604A‘伊尔科斯尊严’号散货轮”,其缩略语必然包括数字编号“1604”和俗称“伊尔科斯尊严”或二者之一,因此,可利用此类特征量定位缩略语可能存在的位置,再利用装备名称的原语的其他字符串与特征量前后的字符串匹配,识别缩略语的边界片段,使得识别的缩略语包含最长词,计算该缩略语权值并判定阈值,建装备名称原语与缩略语间的映射关系并存入缩略语词典,完成缩略语提取);

上述缩略语提取模块3从公共源数据库1的装备部件名称(全称)中提取对应缩略语特征量的具体方法,包括如下步骤:提取船舶装备名称原语中的缩略语的特征量;由于每类船舶装备都有固定的命名规则,因此可利用该命名规则判定装备名称类型并根据规则对装备名称的组成成分进行切分,完成特征量的提取,设船舶装备名称原语为W0=w1w2…wn,wi为名称原语的第i个字符,首先使用JAPE(aJavaAnnotationPatternsEngine)等语法工具制定各类装备命名规则的正则表达式,使用这些正则表达式判定步骤1形成的装备部件名称词库中的每个W0所属的名称类型,并按照命中的规则对W0进行切分,得到缩略语特征量W1=wp…wq,1≤p<q≤n;

步骤3:缩略语提取模块3将上述特征量与公共源数据库1内数据模块文档和检索记录数据库9内的用户检索记录进行匹配查找,确定特征量中的各个元素在数据模块文档和用户检索记录中的具体位置,步骤3的具体方法为设命中字符串为W2,则满足W2=W1,为防止不相关IETM系统的字符串成为缩略语候选,W2所处的数据模块文档DM或检索记录对应访问链接的装备类型标识码MIC须满足与W1对应的原语W0所映射装备类型标识码MIC相同;

步骤4:缩略语提取模块3确定特征量所在缩略语的首尾字符串,并识别特征量对应缩略语的边界片段,使得识别的缩略语为完整缩略语,将该完整缩略语定为候选缩略语(比如,“HMZ-360雷达识别目标”,这句话,“360”是特征量,“HMZ-360雷达”是缩略语的最长词,如果只识别到“HMZ-360”或者“360雷达”都是识别不完全);

步骤5:缩略语提取模块3通过以下公式1计算上述候选缩略语的权值:

>Wa=nmicnall*lgDallDmic---(1)>

式中nmic为候选缩略语在特定内容中出现的次数,所述特定内容包括与装备部件名称的装备类型标识码(MIC,Modelidentificationcode)相同的数据模块文档内容及该数据模块文档内容检索记录中的检索关键词;nall为候选缩略语在所有数据模块文档中出现的次数与检索记录数据库9中所有检索记录中出现次数的总和(二者之商衡量候选缩略语词频,该值越高,说明候选缩略语在特定IETM系统中出现次数越多,);Dall为所有数据模块文档总数和所有检索记录总数之和;Dmic为包含候选缩略语的数据模块文档总数和包含候选缩略语的检索记录总数之和(该对数值用于衡量候选缩略语的普遍性,该值越高,说明候选缩略语集中在少数数据模块文档出现);Wa为候选缩略语的权值,用于衡量候选缩略语衡量主题的能力,Wa的阈值为给定值,该阈值设定为2,当候选缩略语的权值大于等于Wa的阈值时(说明它在与特定的装备的IETM系统主题关联度较高),候选缩略语可视为正式缩略语,将候选缩略语存入缩略语数据库7,候选缩略语的权值小于Wa的阈值时,对候选缩略语不进行处理;

步骤6:在第一分词模块4和第二分词模块12分别对数据模块文档和检索模块11提供的用户检索关键词进行分词处理,在专业词汇提取模块2和缩略语提取模块3提取形成的多类词汇中,存在着由多个简单词汇组合而成的复合词汇,这些词汇通过词库切分后存在多条正确路径,如装备名称“雷达测试装置”可继续切分为“雷达/测试/装置”,对于这类复合词汇如果只采用单一的切分结果,将造成大量正确的匹配方式被舍弃,得到得分词结果无法满足用户检索的需求,本发明采用在原有N-最短路径分词方法的基础上,结合生成的多类专业词汇词库和已有的通用词汇词库中词汇特点,在进行分词时,共进行3次词库匹配过程,首先利用步骤2得到的缩略语词库进行匹配,扫描技术信息中存在的缩略语,并将其还原为对应的装备部件名称原语;其次通过步骤1得到的技术信息术语词库和装备部件名称词库匹配未命中的文本内容;然后通过通用词库对还原原语后的所有文本内容进行匹配;当匹配完毕后,输出符合要求的N条路径,多条路径构成的结果集为最终分词结果,分词处理的具体过程为:

设待切分的字符串为S1=w1w2w3…wi…wn,其中,待切分的字符串S1为用户检索关键词的字符串或数据模块文档中的每一句内容,wi为S1中的单个字符,n为该字符串的长度,n≥1,i为1到n之间的字符编号;

使用缩略语数据库7对待切分的字符串S1进行扫描,当缩略语命中时,将待切分的字符串S1中命中的字符子串还原为对应的原语,直到待切分的字符串S1扫描完毕为止,此时形成字符串S2=u1u2…ui…um,其中ui为S2中的单个字符,m为该字符串的长度;

在第一分词模块4和第二分词模块12内用字符串S2建立一个节点数为m+1的有向无环图G,有向无环图G节点的编号依次为v0、v1、v2…vm,m为该字符串的长度,在相邻两个顶点vk,vk+1间建立有向边<vk,vk+1>,该有向边<vk,vk+1>对应的词汇为uk+1,(k=0,1,2...m-1,m为该字符串的长度),若任意两个有向无环图G节点间存在直接相连的有向边,则认为这两个节点间的距离为1,若字符串S2的字符子串h1=upup+1…uq,(1≤p<q)为在缩略语还原后的原语,则以节点vp-1,vq为起始节点和终结节点建立有向边<vp-1,vq>,该有向边边<vp-1,vq>对应的词汇为字符串S2的字符子串h1

分别使用技术信息术语数据库5和装备部件名称数据库6对字符串S2进行匹配,若存在匹配的最大字长字符子串h2=uaua+1…ub,(1≤a<b),且最大字长字符子串h2的节点va-1和节点vb间不存在有向边<va-1,vb>,并有a≥p+1或者b≤q-1成立,则以节点va-1为起始节点,以节点vb为终结节点建立有向边<va-1,vb>,该边对应词汇为最大字长字符子串h2

使用通用词汇数据库8对字符串S2进行匹配,若存在匹配的字符串h3=ucuc+1…ud,(1≤c<d),且字符串h3的节点vc-1和vd间不存在有向边<vc-1,vd>,则以字符串h3的节点vc-1为起始节点,以字符串h3的节点vd为终结节点建立有向边<vc-1,vd>,该有向边<vc-1,vd>对应词汇为字符串h3;若字符串h3的节点vc-1和节点vd间存在有向边<vc-1,vd>,且有向边<vc-1,vd>的字符串类型为最大字长字符子串h2,则说明最大字长字符子串h2在通用词汇数据库8中存在,因此将其类型最大字长字符子串h2改为字符子串h4,便于后续的输出处理;

统计有向边生成完毕后有向无环图G中从节点v0到达vm路径长度由短至长的前N条路径,N选为3,其中最短的一条路径考虑所有有向边类型,第二短的路径和第三短的路径均忽略字符串类型为h1和h2的有向边,只对对应词汇字符串为h3和h4的有向边进行考虑,即在非最优路径中只考虑通用词库的匹配结果(防止以上的N-最短路径分词方法3次切分还无法满足检索需求,避免N值过大才能达到较好的切分粒度的情况),剔除上述三条路径中存在的重复有向边,分别输出各条路径中剩余有向边对应的词汇,构成的结果集既为最终的分词结果;

步骤7:在第一分词模块4将上述得到的最终的分词结果分别存入索引数据库13内索引文档的各域中,并设置各域的权重值,为最终检索结果的排序提供参数,多个文档构成段并最终形成索引文件,存入磁盘或内存中,索引文档各域包括标题域、路径域、链接文本域、子标题域和正文域;

步骤8:设置索引数据库13内索引文档的权重,并将多个索引文档构成段并最终形成索引文件,并存入磁盘或内存中;索引文档权重设置分为标准编码系统(StandardNumberingSystems,SNS)编码权重设置和信息码权重设置,根据数据模块文档编码特点,对不同标准编码系统编码和信息码的权重进行设置,标准编码系统编码权重设置依据标准编码系统编码装备层次级别越低,对应的权重因子设置越高的规则,信息码权重设置依据子类别信息码设置比主类别更高的权重的规则,然后将标准编码系统编码权重和信息码权重相乘得到索引文档的权重;

步骤9:利用检索模块11向用户提供全文检索服务,检索模块11接收用户的检索请求并调用查询方式进行检索,该查询方式具体为:将用户检索的关键词调用步骤6进行分词处理后,与步骤7形成的索引库中文档各域的分词内容进行匹配,查找所有匹配的文档作为结果集。

上述技术方案的步骤7中,索引文档各域和对应的权重值设置依据如下:

标题域存放数据模块名称<dmtitle>的分词结果,出现在标题域的词条反映整篇数据模块文档的主题,标题域的权重设置为10;

路径域用于标识文档访问路径,并存放数据模块编码信息来实现标识路径功能,路径域不参与分词和检索过程,路径域无需设置权重;

链接文本域用于存放数据模块编码链接还原文本内容的分词结果(和网页里面一样,数据模块内容中存在链接,链接以数据模块编码的形式出现,用户可点击链接访问其它数据模块,在步骤1里将数据模块编码与词汇之间形成映射,此处为利用这种映射关系将编码还原为词汇内容然后分词的结果),还用于实现对链接锚文本的检索,当检索关键词在链接文本域命中时,链接指向的数据模块文档模块可能为用户所查找的内容,链接文本域的权重设置为3;

子标题域用于存放反映局部主题信息<title>(局部主题的标签,里面存放局部主题内容)的分词结果,子标题域的权重设置为5;

正文域用于存放数据模块文档中其它技术信息分词(其它技术信息为除开子标题和链接信息的正文内容)结果,正文域的权重设置为1。

上述技术方案的步骤1,具体包括如下步骤:

步骤101:选取特定文本内容提取装备部件名称和技术信息术语两类专业词汇,其中特定元素包括技术名称<techname>和信息名称<infoname>,在数据模块名称中,技术名称<techname>用于描述装备部件名称,信息名称<infoname>用于描述技术信息术语,因此提取这两类元素的文本信息完成专业词汇的提取;

步骤102:建立专业词汇与相应数据模块编码(DataModelCode,DMC)信息间的映射关系,其中的映射关系是指标准编码系统(StandardNumberingSystems,SNS)与装备部件名称间、信息码<incode>与技术信息术语间的映射关系,链接访问信息是检索过程中一部分重要的资源,但是由于数据模块文档的链接引用不给出锚文本信息,而是通过引用数据模块编码来实现,因此需要将数据模块编码信息还原为文本才能进入检索范围,数据模块编码的子元素准编码系统SNS用于描述当前数据模块文档描述的组件在整个装备中的层级位置,因此可与技术名称<techname>描述的装备部件名称形成映射关系,从而利用装备部件名称完成对编码系统SNS的检索,建立数据模块编码DMC的子元素信息码<incode>与信息名称<infoname>之间的映射关系,利用技术信息术语完成对信息码的检索由于在不同的船舶装备交互式电子技术手册IETM系统中,相同的技术信息或者装备部件名称对应的编码可能不同,为了防止这种映射不一致的情况,在相应的信息码和编码系统SNS码添加相应装备类型标识码(Modelidentificationcode,MIC),MIC码起到定义装备名称和型号的作用,是权威机构制定的唯一确定装备的编码;

步骤103:将提取的词汇与对应编码信息分别存入装备部件名称词库和技术信息术语词库,其中装备部件名称词库用于存放装备名称或零部件名称及对应的编码系统SNS编码信息,技术信息术语词库用于存放技术信息术语及对应的信息码编码信息。

上述技术方案的步骤4中,由于船舶装备缩略语以缩合和截略两种形式出现,因此缩略语中出现的字符串必为原语(即为“缩略语”对应的全称)中字符,且满足缩略语中字符的排列顺序相对原语不变;读入W2左侧或者右侧的一位字符,设该候选字符为wc,判定wc在W0中是否存在且满足与W2的排列顺序在W0中不发生变化,如果满足条件,则判定wc为候选缩略语的边界字符,令W2等于wcW2或W2wc,若不满足条件,则wc不为缩略语中字符,当前方向字符判定终止,边界确定,重复以上过程,直到两个方向的字符边界判断全部终止,此时的W2为最终候选缩略语。

上述技术方案的步骤7中,索引用于快速定位所需的文本信息,从而避免检索过程中大量的读写操作,索引使用特定的数据结构完成对词条的快速定位,本发明在通用的全文检索工具包Lucene的基础上,设计适用于IETM全文检索装置与方法的索引结构,Lucene中的索引结构从高到低共分为索引、段、文档、域和词条共五级层次,其中词条为索引的基本单位,存放每一个经过分词处理后的字符串;域用于包含单篇文档中分开索引的不同信息,如标题、正文、链接,域为用户可自行设计的结构,以便实现对不同类型文档的检索;文档为建立索引的基本单位,在本发明中,一个索引文档存放一个数据模块文档处理后的信息;段由多个文档组成,可视为一个小型索引,多个段最终构成索引。

上述技术方案的步骤8中,标准编码系统(StandardNumberingSystems,SNS)编码权重根据标准编码系统代表的装备部件层级确定,SNS码的数字描述了当前数据模块中装备部件所处的装备层级,SNS码00-00-00、0a-00-00、0a-b0-00、0a-bd-00及0a-bd-fg,(a≠0,b≠0,d≠0,f≠0∪g≠0)分别描述了装备层次结构中处于装备级、系统级、子系统级、子子系统级和更底层装备划分级的装备部件,当检索关键词命中文档时,SNS码层次较高的数据模块文档可能只有局部内容与用户所需信息挂钩,反而SNS码层次较低的数据模块文档反映用户所需信息占文档内容的比例更高,因此,SNS码装备层次级别越低,相应的文档的权重因子设置越高,装备级、系统级、子系统级、子子系统级和更底层装备划分级的SNS码权重分别设置为1、2、3、4和5;

信息码权重根据该信息码所描述的信息类别大小确定,信息码a00和abc,(b≠0,c≠0)分别描述了技术信息的大类别和子类别,当检索关键词命中文档时,粒度更小的信息码级别与用户所需的内容关联的可能性更高,因此,子类别信息码设置比大类别更高的权重,本发明设置大类别权重值为1,子类别权重值为2。

上述技术方案的步骤9中,结果集的排序依据向量空间模型(VSM,VectorSpaceModel)计算得到,具体公式如下:

>coord(q,d)=Numdt/NumqtSqd=coord(q,d)*querytnorm(q)*SdtSdt=Σi=1n(tf(ti,d)*idf(ti)2*Boostti*norm(ti,d))norm(t,d)=Boostd*ΠBoostf/Numterm---(2)>

设索引中文档为d,用户的检索关键词为q,q经过分词切分后结果为t1/t2/…/tn(Sdt是i从1到n的结果,里面包括tn),其中n为切分后的词条总数,ti为单个关键词词条,n≥1,i为1到n之间的字符编号,Sqd表示在索引文档d中匹配检索关键词q的得分,为结果排序因素,其值越高,在结果集中文档排序越靠前,coord(q,d)用于衡量索引文档d中不重复词条的数目,通过计算索引文档d中存在不重复词条数目Numdt与检索关键词q中不重复词条数目Numqt的商得到,querytnorm(q)为调节因子,对打分排序结果不影响,可设定该值用于整体调节得分的大小,Sdt表示在索引文档d中命中所有单个关键词词条ti的得分和,tf(ti,d)表示单个关键词词条ti在索引文档d出现的词频得分,idf(ti)表示单个关键词词条ti在多少文档出现过,该值越高,说明ti出现的文档越少,单个关键词词条ti与特定主题相关性越大,Boostti为单个关键词词条ti的权重,根据分词时单个关键词词条ti所匹配词库确定,norm(t,d)为索引文档d的权重及长度因素汇总值,其中Boostd为索引文档d权重,该值大小根据步骤7所述索引模块的索引文档各域权重设置来决定,Boostf为索引文档d中命中单个关键词词条ti的域的权重,该值大小根据步骤7所述索引模块的索引文档各域权重设置决定,Numterm是索引文档d中的切分词条总数,该值越大,norm(t,d)得分越低;

所述的检索关键词条的权重依据分词时匹配词库类型来决定,设置依据如下:

(1)从缩略语词库、技术信息术语词库和装备部件名称词库中命中的词条反映用户检索意图较大,权重值设置为5。

(2)通用词库中匹配的词库反映用户检索意图较为片面,权重值设置为2。

(3)分词过程中出现的单字划分粒度过细,检索时造成的噪声数据过多,权重值设置为1。

当排序完毕后,检索模块以一定形式输出结果集的排序结果,返回的结果页面每页十个检索结果,每个结果输出命中词条所在的信息片段并加红高亮命中的词条,并给出命中文档的标题和数据模块编码(DataModelCode,DMC)信息,用户可通过点击标题的超链接访问原数据模块文档。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号