首页> 中国专利> 一种应用于搜索中的中文词汇纠错方法及其装置

一种应用于搜索中的中文词汇纠错方法及其装置

摘要

本发明公开了一种应用于搜索中的中文词汇纠错方法及其装置,其中,该中文词汇纠错方法包括步骤预先建立标准词库,所述标准词库包括多个标准词汇,以及所述标准词汇中每个字符的位置信息和拼音信息;自动获取用户输入的待判定字符串,得到该待判定字符串中各个字符的位置信息和拼音信息,根据所述标准词汇和该待判定字符串中每个字符的位置信息和拼音信息,将所述待判定字符串与所述标准词汇进行比较,并根据比较结果从所述标准词库中选择正确的词汇。本发明的中文词汇纠错方法及其装置能够在等同硬件条件的情况下,更加准确,更加低成本的解决用户输入的纠错工作,从而给用户快速和智能的网络服务体验。

著录项

  • 公开/公告号CN104750672A

    专利类型发明专利

  • 公开/公告日2015-07-01

    原文格式PDF

  • 申请/专利权人 重庆新媒农信科技有限公司;

    申请/专利号CN201310737321.5

  • 发明设计人 王忻;

    申请日2013-12-27

  • 分类号G06F17/27(20060101);G06F17/30(20060101);

  • 代理机构11308 北京元本知识产权代理事务所;

  • 代理人秦力军

  • 地址 401121 重庆市北部新区高新园黄山大道5号水星科技大厦南翼写字楼1楼3号

  • 入库时间 2023-12-18 09:33:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-14

    专利权的转移 IPC(主分类):G06F17/27 登记生效日:20180725 变更前: 变更后: 申请日:20131227

    专利申请权、专利权的转移

  • 2017-11-21

    授权

    授权

  • 2015-07-29

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20131227

    实质审查的生效

  • 2015-07-01

    公开

    公开

说明书

技术领域

本发明涉及网络技术领域,尤其涉及一种应用于搜索中的中文词汇纠错方 法及其装置。

背景技术

在使用搜索引擎进行搜索的过程中,用户所输入的词语等字符串,有可能含 有错别字等错误内容。据统计,有10%~15%的用户输入的原始查询是含有错误 的,那么对这种错误的原始输入的纠正是保证信息服务质量的一个重要环节。

传统的错词纠正,是基于一个错词库,将用户经常犯错误的词收入库中, 当用户搜索得到的搜索结果过少时,启用纠错流程,使用正确的词进行查询, 同时提示用户是不是搜索的是这个词。一方面,这种错词库需要由相应的专业 人员来进行维护,使得成本增加,另一方面,这种手动配置错误词库的方式, 在面对海量搜索,用户输入的错词多变且不可预估的情况下,并不能够满足要 求,从而不能给用户提供一个良好的网络服务体验,进而严重影响网络服务质 量,并将导致网络用户的流失。

因此,如何在等同硬件条件的情况下,更加准确,低成本的解决用户输入 的纠错工作,从而给用户快速和智能的网络服务体验成为目前急需解决的一个 问题。

发明内容

本发明的实施例所要解决的技术问题在于提供一种应用于搜索中的中文词 汇纠错方法及其装置,能够在等同硬件条件的情况下,更加准确,更加低成本 的解决用户输入的纠错工作,从而给用户快速和智能的网络服务体验。

为解决上述技术问题,本发明采用的技术方案如下:

本发明提供了一种应用于搜索中的中文词汇纠错方法,其包括步骤:

预先建立标准词库,所述标准词库包括多个标准词汇,以及所述标准词汇 中每个字符的位置信息和拼音信息;

自动获取用户输入的待判定字符串,得到所述待判定字符串中各个字符的 位置信息和拼音信息;

根据所述标准词汇和所述待判定字符串中每个字符的位置信息和拼音信 息,将所述待判定字符串和所述标准词汇中每个字符的位置信息和拼音信息进 行比较,并根据比较结果从所述标准词库中选择正确的词汇。

进一步地,所述根据所述标准词汇和所述待判定字符串中每个字符的位置 信息和拼音信息,将所述待判定字符串和所述标准词汇中每个字符的位置信息 和拼音信息进行比较,并根据比较结果从所述标准词库中选择正确的词汇的步 骤,具体包括步骤:

根据所述待判定字符串和所述标准词汇中每个字符的位置信息,将所述待 判定字符串与所述标准词汇进行字形比较,根据比较结果从所述标准词库中选 择出对比词汇组;

根据所述待判定字符串和所述对比词汇组中标准词汇的每个字符的拼音信 息,将所述待判定字符串与所述对比词汇组中每个标准词汇进行拼音比较,并 根据字形比较结果和拼音比较结果从所述对比词汇组中选择出正确的词汇。

进一步地,所述根据所述待判定字符串和所述标准词汇中每个字符的位置, 将所述待判定字符串与所述标准词汇进行字形比较,根据比较结果从所述标准 词库中选择出对比词汇组的步骤具体为:

根据所述待判定字符串的字符总数,在所述标准词库中选择出字符总数相 同的待选定标准词汇组;

将所述待判定字符串与所述待选定标准词汇组中的每个标准词汇进行字形 对比较,并根据比较结果从所述待选定标准词汇组中选择出对比词汇组。

更进一步地,所述将所述待判定字符串与所述待选定标准词汇组中的每个 标准词汇进行字形对比较,并根据比较结果从所述待选定标准词汇组中选择出 对比词汇组的步骤,具体包括步骤:

根据所述待判定字符串中每个字符的位置,将所述待判定字符串与所述待 选定标准词汇组中每个标准词汇进行字形比较,并计算得到每个标准词汇与所 述待判定字符串之间的字形相似度;

比较计算得到的各个标准词汇与所述待判定字符串的字形相似度,选择字 形相似度最高的标准词汇作为对比词汇组;

其中,所述字形相似度的计算方式为:字形相似度=相同位置相同的字符数 /标准词汇的总字符数。

更进一步地,所述根据所述待判定字符串和所述对比词汇组中标准词汇的 每个字符的拼音信息,将所述待判定字符串与所述对比词汇组中各个标准词汇 进行拼音比较,并根据字形比较结果和拼音比较结果从所述对比词汇组中选择 出正确的词汇的步骤,具体包括步骤:

按照单字拼音比较方式,将所述待判定字符串与所述对比词汇组中标准词 汇进行拼音比较,并计算得到所述对比词汇组中每个标准词汇与所述待判定字 符串的拼音相似度;

计算并比较所述对比词汇组中每个标准词汇与所述待判定字符串之间的字 形相似度与拼音相似度之和,并根据比较结果选择字形相似度与拼音相似度之 和最高的标准词汇为正确的词汇;

其中,拼音相似度的计算方式为:拼音相似度=相同位置的相同拼音字母数 /标准词汇中各个字符的拼音字母总数。

更进一步地,所述标准词库具体包括位置信息数据库和拼音信息数据库, 所述位置信息数据库采用单字拆分方式存储的标准词汇,及该标准词汇中各个 字符对应的位置;所述拼音信息数据库存储有对应于所述位置信息数据库中的 标准词汇中每个字符的拼音,且每个字符的拼音与其位置一一对应。

相应地,本发明还提供了一种应用于搜索中的中文词汇纠错装置,其包括:

标准词库创建模块,用于预先创建标准词库,该标准词库包括多个标准词 汇,以及各个标准词汇中每个字符的位置信息和拼音信息;

获取模块,用于获取用户输入的待判定字符串,得到所述待判定字符串中 各个字符的位置信息和拼音信息;

纠错模块,用于根据所述标准词汇和所述待判定字符串中每个字符的位置 信息和拼音信息,将所述待判定字符串和所述标准词汇中每个字符的位置信息 和拼音信息进行比较,并根据比较结果从所述标准词库中选择正确的词汇。

进一步地,所述纠错模块具体包括:

字形比较子模块,用于根据所述待判定字符串和所述标准词汇的每个字符 的位置信息,将所述获取模块所获取的待判定字符串与所述标准词库中的标准 词汇进行字形比较,根据比较结果从所述标准词库中选择出对比词汇组;

拼音比较子模块,用于根据所述对比词汇组中各个标准词汇的每个字符的 拼音信息,将所述待判定字符串与所述对比词汇组中的标准词汇进行拼音比较, 并根据字形比较结果和拼音比较结果从所述对比词汇组中选择出正确的词汇。

更进一步地,所述字形比较子模块包括:

字符比较单元,用于根据所述待判定字符串的字符总数,在所述标准词库 中选择出字符总数相同的待选定标准词汇组;

对比词汇选定单元,用于将所述待判定字符串与所述待选定标准词汇组中 的每个标准词汇进行字形对比较,并根据比较结果从所述待选定标准词汇组中 选择出对比词汇组。

更进一步地,所述对比词汇选定单元具体包括:

字形比较子单元,用于根据所述待判定字符串中每个字符的位置,将所述 待判定字符串与所述标准词库中每个词汇进行字形比较;

字形相似度计算子单元,用于根据所述字形比较单元的比较结果,计算得 到所述标准词库中每个标准词汇与所述待判定字符串的字形相似度,具体的计 算方式为:所述字形相似度的计算方式为:字形相似度=相同位置相同的字符数 /标准词汇总字符数;

相似度比较子单元,用于比较所述相似度计算单元计算得到的各个标准词 汇与所述待判定字符串的字形相似度,并将比较得到字形相似度最高的标准词 汇作为对比词汇组;和/或,

所述拼音比较子模块具体包括:

拼音比较单元,用于按照单字拼音比较方式,将所述待判定字符串与所述 对比词汇组中标准词汇进行拼音比较;拼音相似度计算单元,用于根据所述拼 音比较单元的比较结果,计算所述对比词汇组中每个标准词汇与所述待判定字 符串的拼音相似度,其中,该拼音相似度计算方式为:拼音相似度=相同位置的 相同拼音字母数/标准词汇中各个字符的拼音字母总数;

判定单元,用于分别计算所述对比词汇组中每个标准词汇与待判定字符串 之间的字形相似度与拼音相似度之和,并比较各个标准词汇与所述待判定字符 串的字形相似度和拼音相似度之和,并选择字形相似度和拼音相似度之和最高 的标准词汇为正确的词汇。

更进一步地,所述标准词库创建模块具体包括:

位置信息数据库创建子模块,用于采用单字拆分方式存储多个标准词汇, 以及该标准词汇中每个字符对应的位置,得到位置信息数据库;

拼音信息数据库创建子模块,用于存储所述位置信息数据库所存储的标准 词汇中每个字符的拼音,且每个字符的拼音与其位置一一对应,得到拼音信息 数据库。

实施本发明的有益效果:

实施本发明的应用于搜索中的中文词汇纠错方法及其装置,通过预先建立 标准词库,而非采用错词库的方式,从而不需要专业人员来进行人工维护,降 低了成本,同时,本发明通过自动获取待判定字符串,并将其与标准词库中的 标准词汇进行比较,再根据比较结果选择正确的词汇来进行搜索,从而能够保 证在等同硬件条件的情况下,更加快速、准确地解决用户输入的错词,进而给 用户快速和智能的网络服务体验。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提 下,还可以根据这些附图获得其他的附图。

图1为本发明的一种应用于搜索中的中文词汇纠错方法的一实施例的流程 示意图;

图2为本发明的一种应用于搜索中的中文词汇纠错方法中将待判定字符串 与标准词汇进行比较,从而选择正确词汇的步骤一实施例的流程示意图;

图3为本发明的一种应用于搜索中的中文词汇纠错装置的功能模块示意 图;

图4为本发明的一种应用于搜索中的中文词汇纠错装置中纠错子模块的字 形比较子模块的一实施例的功能模块示意图;

图5为本发明的一种应用于搜索中的中文词汇纠错装置中纠错子模块的拼 音比较子模块的一实施例的功能模块示意图。

具体实施方式

以下将结合附图对本发明进行详细说明。

参见图1,为本发明的一种应用于搜索中的中文词汇纠错方法的一实施例 的流程示意图,具体实施时,本实施例的该中文词汇纠错方法具体包括步骤:

S11,预先建立标准词库。本实施例中该标准词库包括多个标准词汇,以及 各个标准词汇中每个字符的位置信息和拼音信息。本实施例中该标准词汇是指 符合语法的、正确的词语。

在一具体实施例中,该标准词库具体可分为:位置信息数据库和拼音信息 数据库。其中,该位置信息数据库包括了单字拆分存储的多个标准词汇,及该 标准词汇中各个字符的位置。本实施例中该位置信息具体是指该标准词汇在数 据库中所处的位置,以及该标准词汇中各个字符在该标准词汇中所处的位置, 如下表一位置信息数据库中所示,标准词汇“练习簿”处于数据库中第二个词 汇,且字符“练”为该标准词汇的第一个字符,“习”为该标准词汇的第二个字 符,“簿”为该标准词汇的第二个字符:

表一位置信息数据库

其中,该拼音信息数据库存储了标准词汇中各个字符的拼音(即拼音音节), 即构成该拼音的各个拼音字母(即音位),以及每个拼音字母在该拼音中所处的 位置。本实施例中各个字符的拼音(即拼音音节)与其位置相一一对应,即每 个字符的拼音与其在位置数据库中的位置也相对应,如表二拼音信息数据库所 示,标准词汇“练习簿”各个字符的拼音分别为“lian”、“xi”、“bu”,且拼音“lian” 对应于第一个字符“练”,“xi”对应于第二个字符“习”,“bu”对应于第三个 字符“簿”:

表二拼音信息数据库

ID 名称 第1个字 第2个字 第3个字 第4个字 第5个字 第6个字 1 沙家浜 sha jia Bang       2 练习簿 Lian xi Bu       3 不刊之论 bu kan Zhi Lun     4 哈密瓜 ha mi Gua       5 珠穆朗玛峰 zhu mu Lang ma feng  

S13,自动获取用户输入的待判定字符串,得到该待判定字符串中各个字符 的位置信息和拼音信息。具体实施时,可从搜索引擎日志中获取用户输入的待 判定字符串,也可直接从输入设备中获取该待判定字符串,从而得到该待判定 字符串中每个字符的位置信息和拼音信息,本实施例中该待判定字符串中每个 字符的位置信息是指该字符在用户输入的词汇中所处的位置及其字形,例如用 户输入的待判定字符串为“练习薄”,则“薄”的位置信息是指“薄”字本身的 字形,以及其在“练习薄”这一词汇中处于第三个位置;本实施例中该待判定 字符串中每个字符的拼音信息是指每个字符的拼音。本实施例中每个字符对应 一个位置信息,且唯一对应一个拼音,即每个字符的拼音与位置信息也一一对 应。

由于当用户输入的待判定字符串中存在错词,直接根据该待判定字符串进 行第一次搜索得到的搜索结果可能达不到预设的阈值,即达不到用户需要,因 此,可通过判断第一次搜索结果来判断待判定字符串是否出现错词,进而进行 纠错,即在另一具体实施例中,执行该步骤S13之前,还包括步骤:判断根据 用户输入的待判定字符串第一次搜索得到的搜索结果是否小于预设阈值,得到 判断结果;当该判断结果为搜索结果小于预设阈值,则执行该步骤S13;否则, 即当该判断结果为搜索结果大于或者大于预设阈值,则无操作或者直接显示第 一次搜索得到的搜索结果。

本实施例中,该待判定字符串通常是指单个词汇或者由多个词汇组成的语 句或者多个词汇并列的词汇组等。

S15,根据用户输入的待判定字符串和步骤S11建立的标准词库中标准词汇 中每个字符的位置信息和拼音信息,将该待判定字符串与该标准词汇进行比较, 并根据比较结果从标准词库中选择正确的词汇。在一具体实施例中,该步骤S15 具体包括步骤:

S151,根据上述标准词库中每个标准词汇每个字符的位置信息,将该待判 定字符串与该标准词库中每个标准词汇进行字形比较,根据比较结果从该标准 词库中选取出对比词汇组。具体实施时,该步骤S151具体包括步骤:

首先,根据待判定字符串的字符总数,在标准词库中选择出字符总数相同 的待选定标准词汇组。由于标准词库中包含的多个标准词汇,且每个标准词汇 的字符总数各不相同,因此,为了加快速度,本实施例中首先从标准词库中选 择出字符数相同的标准词汇作为待选定标准词汇组。

然后,将所述待判定字符串与所述待选定标准词汇组中的每个标准词汇进 行字形对比较,并根据比较结果从所述待选定标准词汇组中选择出对比词汇组。 在一具体实施例中,该字形标比较的步骤具体为:

a,根据该待判定字符串中各个字符的位置,将该待判定字符串与待选定标 准词汇组中每个标准词汇进行字形比较,并计算得到每个标准词汇与该待判定 字符串之间的字形相似度。由于待选定标准词汇组中的标准词汇可能具有多个, 因此,需要将待判定字符串与待选定标准词汇组中的标准词汇一一进行字形比 较,从而找到与待判定字符串具有一个或者两个字形相似,甚至多个字形相似 的多个标准词汇。

b,比较计算得到的各个标准词汇与待判定字符串的字形相似度,选择字形 相似度最高的标准词汇作为对比词汇组。具体实施时,由于有些标准词汇可能 与该待判定字符串只有一个字或者两字或者多个字相同,因此,为了进一步缩 小查找范围,本实施例中,选择字形相似度最高的标准词汇,作为对比词汇组 来进行下一步对比,从而进一步保证词汇纠错的准确性。

本实施例中,该字形相似度最高的标准词汇是指该标准词汇的字符总数与 待判定字符串中词汇的字符总数相同,且位置相同和字形相同的字符数量最多 的标准词汇。例如根据字符的位置,将待判定字符串“练习薄”在标准词库中 与各个标准词汇进行字形比较,首先找到总字符数量相同的多个标准词汇组成 待判定标准词汇组,再从中找到相同位置上字形相同最多的多个标准词汇从而 组成字形相似度最高的对比词汇组为:“练习本”,“练习场”,“练习簿”,且该 对比词汇组中各个标准词汇与待判定字符串的字形相似度similar_position分别 为:

“练习本”的字形相似度similar_position=2/3=0.66666,即练习/练习本;

“练习场”的字形相似度similar_position=2/3=0.66666,即练习/练习场;

“练习簿”的字形相似度similar_position=2/3=0.66666,即练习/练习簿。

本实施例中,该字形相似度的计算方式为:字形相似度=相同位置相同的字 符数/标准词汇的总字符数。

S153,根据步骤S151中得到的对比词汇组中各个标准词汇和待判定字符 串的每个字符的拼音信息,将上述待判定字符串与上述对比词汇组中各个标准 词汇进行拼音比较,根据字形比较结果和拼音比较结果从该对比词汇组中选择 出正确的词汇。在一具体实施例中,该步骤S153具体为:

A,按照单字拼音比较方式,将上述待判定字符串与对比词汇组中各个标 准词汇进行拼音比较,并分别计算该对比词汇组中各个标准词汇与待判定字符 串的拼音相似度;其中,拼音相似度的计算方式为:拼音相似度=相同位置的相 同拼音字母数/标准词汇的拼音字母总数。例如待判定字符串“练习薄”的拼音 为“lian xi bo”,则上述对比词汇组中各个标准词汇与该待判定字符串的前两个 字符的字形相同,且拼音也完全相同,都是“lian”和“xi”,但第三个字符的 字形不同,且拼音也不同。

具体地,本实施例中,该单字拼音比较规则,是指将每个字符的拼音的每 个拼音字母按照从左到右位置进行比较,直至不同,那么相同的部分即为匹配。 由于每个字符的位置和拼音一一对应,因此将标准词汇与待判定字符串进行拼 音比较时,是将相同位置的两个字符的拼音按照该单字拼音比较规则进行比较。 例如待判定字符串为“练习薄”,其拼音为“lian xi bo”;对比词汇组中标准词 汇为“练习本”、“练习场”和“练习簿”的拼音分别为“lian xi ben”、“lian xi chang” 和“lian xi bu”,将该待判定字符串“练习薄”与这三个标准词汇按照单字拼音 比较规则进行拼音比较,则得到这三个标准词汇与待判定字符串具有相同的拼 音:lian xi b,则得到这三个标准词汇与待判定字符串的拼音相似度分别为:

“练习本”与“练习薄”的拼音相似度为:

similar_pinyin=7/9=0.77777,即lian xi b/lian xi ben;

“练习场”与“练习薄”的拼音相似为:

similar_pinyin=6/11=0.54545,即lian xi/lian xi chang;

“练习簿”与“练习薄”的拼音相似度为:

similar_pinyin=7/8=0.875,即lian xi b/lian xi bu。

在另一具体实施例中,由于首先进行字形比较,得到字形相似度最高的对 比词汇组,即对比词汇组中每个标准词汇已经有部分或者全部字符与待判定字 符串中字符的字形相同,因此,在进行拼音比较时,也可只比较字形不同的字 符即可,例如标准词汇“练习本”、“练习场”、“练习簿”的第一、二个字符“练” 和“习”均与待判定字符串“练习薄”的第一、二个字符字形相同,则拼音比 较时,只需要比较字形不同的第三个字符的拼音即可,即只需要分别比较“本”、 “场”、“簿”这三个字符与“薄”的拼音,则相应地,拼音相似度则变为: similar_pinyin(本)=1/3=0.33333=b/ben;similar_pinyin(场)=0/3=0=空/chang; similar_pinyin(簿)=1/2=0.5=b/bu。

B,计算并比较上述对比词汇组中每个标准词汇与该待判定字符串的字形 相似度和拼音相似度之和,并根据比较结果选择字形相似度和拼音相似度之和 最高的标准词汇为正确的词汇。在一具体实施例中,将对比词汇组中各标准词 汇与待判定字符串之间的字形相似度和拼音相似度之和统称为相似度,则各标 准词汇与待判定字符串之间的相似度分别为:

待判定字符串“练习薄”与标准词汇“练习簿”之间的相似度:similar_练 习簿=字形相似度+拼音相似度=0.66666+0.875=1.54166;

待判定字符串“练习薄”与标准词汇“练习场”之间的相似度:similar_练 习场=字形相似度+拼音相似度=0.66666+0.54545=1.21211;

待判定字符串“练习薄”与标准词汇“练习本”之间的相似度:similar_练 习本=字形相似度+拼音相似度=0.66666+0.77777=1.44443。

比较各标准词汇与待判定字符串之间的相似度之和可得: 1.21211<1.44443<1.54166,即similar_练习场<similar_练习本<similar_练习簿, 从而得到标准词汇“练习簿”与待判定字符串“练习薄”的相似度最高,则选 择该标准词汇“练习簿”为正确的词汇。

本实施例中是以单个词汇作为待判定字符串进行举例说明的,而当该待判 定字符串为多个词汇组成的短句或者词汇组时,可首先采用分词技术将其拆分 为多个词汇,然后将拆分得到的多个词汇分别与标准词库中的标准词汇进行比 较,从而选择出正确的词汇,再根据正确的词汇进行搜索。

本实施例中,当将获取得到的待判定字符串与创建的标准词库中的标准词 汇进行比较,并选择出正确的词汇后,直接根据所选择的正确的词汇进行第二 次搜索,并显示搜索结果。

本实施例的应用于搜索中的中文词汇纠错方法,通过预先建立包含标准词 汇的标准词库,并将自动获取的待判定字符串与该标准词库中的标准词汇进行 对比,并选择正确的词汇,从而根据正确词汇来进行搜索,不需要用户通过手 动匹配正确词汇,同时使得在同等硬件条件下,能够更加准确、快速地对用户 输入的错词进行纠错,进而给用户快速和智能的网络服务体验。

相应地,本发明还提供了一种应用于搜索中的中文词汇纠错装置,下面将 结合附图和具体实施例进行详细说明。

参见图2,为本发明的一种应用于搜索中的中文词汇纠错装置的一具体实 施例的功能模块示意图,具体实施时,本发明的该中文词汇纠错装置1,具体 包括:

标准词库创建模块11,用于预先创建标准词库,该标准词库包括多个标准 词汇,以及标准词汇中每个字符的位置信息和拼音信息;在一具体实施例中, 该标准词库创建模块11又可具体包括位置信息数据库创建子模块和拼音信息 数据库创建子模块,其中,该位置信息数据库创建子模块用于采用单字拆分存 储多个标准词汇,以及该标准词汇中各个字符的位置,得到位置信息数据库, 而该拼音信息数据库创建子模块用于存储该位置信息数据库所存储的标准词汇 中每个字符的拼音,且每个字符的拼音与其位置一一对应,得到拼音信息数据 库;

获取模块12,用于自动获取用户输入的待判定字符串,得到该待判定字符 串中每个字符的位置信息和拼音信息;具体实施时,该获取模块12可从搜索引 擎日志中获取用户输入的待判定字符串,也可直接从输入设备中获取该待判定 字符串,从而得到该待判定字符串中每个字符的位置信息和拼音信息,本实施 例中该待判定字符串中每个字符的位置信息是指该字符在用户输入的词汇中所 处的位置及其字形,例如用户输入的待判定字符串为“练习薄”,则“薄”的位 置信息是指“薄”字本身的字形,以及其在“练习薄”这一词汇中处于第三个 位置;本实施例中该待判定字符串中每个字符的拼音信息是指每个字符的拼音。 本实施例中每个字符对应一个位置信息,且唯一对应一个拼音,即每个字符的 拼音与位置信息也一一对应;由于当用户输入的待判定字符串中存在错词,直 接根据该待判定字符串进行第一次搜索得到的搜索结果可能达不到预设的阈 值,即达不到用户需要,因此,可通过判断第一搜索结果来判断待判定字符串 是否需要出现错词,进而进行纠错,即在另一具体实施例中,该获取模块12 具体包括:相连的控制子模块和对象获取子模块,其中,控制子模块,用于判 断搜索引擎根据用户输入的待判定字符串第一次搜索得到的搜索结果是否小于 预设阈值,且当判断结果为搜索结果小于预设阈值时,则控制该对象获取子模 块获取用户输入的待判定字符串,并控制纠错模块13对该待判定字符串进行纠 错,得到正确的词汇,以及控制显示根据纠错后的词汇搜索得到的搜索结果;

纠错模块13,分别与上述的标准词库创建模块11和获取模块12相连,用 于根据上述标准词汇和获取的待判定字符串中每个字符的位置信息和拼音信 息,将该待判定字符串与上述标准词汇进行比较,并根据比较结果从上述标准 词库中选择正确的词汇;具体实施时,该纠错模块13具体包括:

字形比较子模块131,分别与上述的标准词库创建模块11和获取模块12 相连,用于根据上述标准词库中标准词汇的每个字符的位置信息,将获取模块 12所获取的待判定字符串与标准词库中的标准词汇进行字形比较,并根据比较 结果从标准词库中选择出对比词汇组;在一具体实施例中该字形比较子模块 131具体包括:字符比较单元,分别与标准词库创建模块11和获取模块12相连, 用于根据待判定字符串的字符总数,在标准词库中选择出字符总数相同的待选 定标准词汇组;对比词汇选定单元,与该字符比较单元和获取模块12相连相连, 用于将该待判定字符串与待选定标准词汇组中的每个标准词汇进行字形对比 较,并根据比较结果从该待选定标准词汇组中选择出对比词汇组,具体实施时, 该对比词汇选定单元具体包括:字形比较子单元1311,分别与该字符比较单元 和获取模块12相连,用于根据待选定标准词汇组中标准词汇的各个字符的位 置,将待判定字符串与上述待选定标准词汇组中每个标准词汇进行字形比较; 字形相似度计算子单元1312,与字形比较子单元1311相连,用于根据字形比 较子单元1311的比较结果,计算得到每个标准词汇与该待判定字符串的字形相 似度,其中,具体的计算方式为:字形相似度=相同位置相同的字符数/该标准 词汇总字符数;相似度比较子单元1313,与上述字形相似度计算子单元1312 相连,用于比较字形相似度计算子单元1312计算得到的各个标准词汇与上述待 判定字符串的字形相似度,并将比较得到字形相似度最高的标准词汇作为对比 词汇组;本实施例中,该字形相似度最高的标准词汇是指该标准词汇的字符总 数与待判定字符串中词汇的字符总数相同,且位置相同和字形相同的字符数量 最多的标准词汇;

拼音比较子模块132,分别与上述字形比较子模块131、标准词库创建模块 11和获取模块12相连,用于根据上述字形比较子模块131得到的对比词汇组 中各个标准词汇的拼音信息,将获取模块12所获取的待判定字符串与该对比词 汇组中的标准词汇进行拼音比较,并根据拼音比较结果和字形比较子模块131 的字形比较结果从上述对比词汇组中选择正确的词汇;在一具体实施例中,该 拼音比较子字模块132具体包括:拼音比较单元1321,分别与上述的标准词库 创建模块11和字形比较子模块131相连,用于按照单字拼音比较方式,将待判 定字符串与上述对比词汇组中各个标准词汇分别进行拼音比较,具体地,本实 施例中该单字拼音比较规则为将每个字符对应拼音中的每个拼音字母从左到右 位置进行比较;拼音相似度计算单元1322,与该拼音比较单元1321相连,用 于根据所述拼音比较单元1321的比较结果,计算该对比词汇组中每个标准词汇 与该待判定字符串的拼音相似度,其中,该拼音相似度计算方式为:拼音相似 度=相同位置的相同拼音字母数/标准词汇中各个字符的拼音字母总数;判定单 元1323,与该拼音相似度计算单元1322和上述字形比较子模块131的字形相 似度计算单元相连,用于分别计算上述对比词汇组中每个标准词汇的字形相似 度与拼音相似度之和,并比较该对比词汇中每个标准词汇与待判定字符串的字 形相似度和拼音相似度之和,选择字形相似度和拼音相似度之和最高的标准词 汇为正确的词汇。

本实施例中,当该纠错模块13确定正确的词汇后,搜索引擎可直接根据该 正确的词汇进行搜索,无需用户手动匹配正确词汇,从而在同等硬件条件下, 能够更加准确、快速地对用户输入的错词进行纠错,进而给用户快速和智能的 网络服务体验。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管 参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解, 可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的 宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号