首页> 中国专利> 一种针对于关键词进行标注的输入方法及系统

一种针对于关键词进行标注的输入方法及系统

摘要

本发明提供一种针对于关键词进行标注的输入方法及系统,属于计算机、软件技术领域。该方法包括:步骤1,采集用户在输入交互界面中输入字符信息;步骤2,判断用户输入信息所对应的字是否可构成关键词;步骤3,对关键词加入关键词标注;步骤4,采集用户输入关键词标注,从输入交互界面的候选词列表中调出关键词。本发明通过对用户输入的字符信息进行关键词提取、标注,和在关键词词库中进行单独匹配搜索,能够快速找到,用户需要的最终词语结果,克服了现有输入法的首选词命中率并不高,从而导致用户的输入速度减慢,输入效率降低,用户体验差的缺点。

著录项

  • 公开/公告号CN102567365A

    专利类型发明专利

  • 公开/公告日2012-07-11

    原文格式PDF

  • 申请/专利权人 上海量明科技发展有限公司;

    申请/专利号CN201010605285.3

  • 发明设计人 马宇尘;

    申请日2010-12-26

  • 分类号G06F17/30;G06F3/023;G06F3/048;

  • 代理机构

  • 代理人

  • 地址 201203 上海市浦东新区张江高科技园区春晓路470号203-32信箱

  • 入库时间 2023-12-18 05:55:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-07-06

    授权

    授权

  • 2013-06-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20101226

    实质审查的生效

  • 2012-07-11

    公开

    公开

说明书

技术领域

本发明属于计算机、软件技术领域。

背景技术

当前的输入法系统都不可避免地存在相同编码对应多个候选词 的问题,以拼音输入法为例,如:拼音加加输入法、紫光华宇拼音输 入法等,这种现有的输入法都是基于其词库以及词库中的词频(字词 的使用频度)来为用户在信息输入过程中提供候选词的排序,优先显 示词频最高的常用字词,即首选词。候选词的排序是用户在信息输入 过程中首选词命中率高低的一个重要指标。所述首选词命中率是指, 当用户输入一定的键盘信息后,排序在前的字、词或句是用户最需要 的。例如,输入拼音“guan xi tui li”(关系推理),所述现有的 输入法会根据拼音“guan xi”获取词库中所有的候选词,如“关系”、 “盥洗”和“关西”等,然后优先显示词频最高的常用词“关系”为 首选词,同时,根据“tui li”获取词库中词频最高的词“推理”为 首选词,组成“关系推理”提供给用户输入。在此例中,首选词的命 中率是100%,即完全符合用户的需要。

当然,从技术上讲,输入法系统本身是无法知悉哪个字词是用户 最需要的,但是在浩如烟海的中文字词中,各个字词的使用和出现频 率是不同的,将出现频率较高的字词排序在前就可以大大提高输入法 系统的首选词命中率,即可以从概率上提高排序在前的字词满足用户 需要的可能性。

然而,如果用户所需要的字词并不对应于词频最高的字词,例如, 用户输入“zi zhu xue xiao”(资助学校),而输入法对应地获取到 词频最高的词为“自主学校”,在这种情况下,就需要用户在所有候 选词中选择“资助”,以获得所需要的结果。在实际中,用户采用现 有的输入法通过选择候选词获得需要的结果的几率,比直接获取到有 效首选词的几率高得多,这就表明,现有输入法的首选词命中率并不 高,从而导致用户的输入速度减慢,输入效率降低,用户体验差,尤 其是当用户一次性输入很多拼音时,用户需要选择的候选词次数会更 多,过程更加繁琐。

本发明为了解决上述问题,提供一种对用户输入的字符信息进行 关键词提取、标注以及单独匹配搜索的输入方法,及其配套的系统。

发明内容

本发明的目的是克服目前输入法及其系统的缺陷,提供一种对用 户输入的字符信息进行关键词提取、标注以及单独匹配搜索的输入方 法,及其配套的系统。

一种针对于关键词进行标注的输入方法,该方法包括如下步骤:

步骤1,采集用户在输入交互界面中输入字符信息;

步骤2,判断用户输入信息所对应的字是否可构成关键词;

步骤3,对关键词加入关键词标注;

步骤4,采集用户输入关键词标注,从输入交互界面的候选词列 表中调出关键词。

进一步,所述的一种针对于关键词进行标注的输入方法,还具有 如下技术特征:

所述的步骤1还包括如下步骤:

a采集用户通过输入交互界面单元进行字符信息的输入信息,客 户端对用户所输入的字符串编码信息进行分析,在词库中调取对应的 字词信息;

b依据用户的使用频率情况,对所调出的字词信息进行排序;

c将排序后的字词信息组成候选词序列输出给用户。

在所述的步骤2中,通过关键词判定单元对关键词进行判定,该 步骤还包括如下子步骤:

a通过关键词特征值阈值模块,设定关键词的特征值阈值大小标 准;

b通过词语特征值模块计算词语的特征值大小;

c通过关键词阈值比较模块,将上述词语的特征值大小与关键词 的特征值阈值大小标准进行比较,从而得出该词语是否为关键词。

在所述的步骤3中,是通过关键词标注单元,根据步骤2中关键 词的判断结果,来对关键词进行标注的。

所述的步骤4还包括有如下步骤:

a通过关键词调取单元,在关键词词库中对标注出的关键词进行 匹配提取;

b依据用户的使用频率情况,对所提取的关键词信息进行排序;

c将排序后的关键词信息进行输出;

d用户在输出的候选词列表中选择目标关键词。

在所述的步骤3中,若关键词词库中不包含有该关键词,则从普 通词库中专门对该关键词进行更进一步的搜索和组合,随后将该关键 词通过关键词添加模块添加到关键词词库中,通过自动更新模块对关 键词词库进行自动更新。

一种针对于关键词进行标注的输入系统,它包括有普通词库,该 系统包括如下组成部分:

输入交互界面单元,它是用户进行字符输入操作中进行操作的界 面结构;

关键词判定单元,根据输入交互界面单元所获得的用户输入信 息,来判定能够组成多字词的功能结构,或者判定是否属于含义关键 词的功能结构;

关键词标注单元,它是根据关键词判定单元所获得的判断结果, 针对于关键词进行标注的功能结构;

关键词调取单元,它是根据用户所输入的关键词标注,来从候选 词列表中调出对应关键词的功能结构。

进一步,所述的一种针对于关键词进行标注的输入系统,还具有 如下技术特征:

所述的一种针对于关键词进行标注的输入系统,还包括有用于存 储关键词信息的关键词词库。

所述的关键词判定单元,还包括有用于对词语的特征值进行判定 的词语特征值模块。

所述的关键词判定单元,还包括有用于设定区分词语是否为关键 词的特征值阈值的词语特征值阈值模块。

所述的关键词判定单元,还包括有用于将词语的特征值与所设定 的阈值进行比较,从而判定出是否为关键词的关键词阈值比较模块。

所述的一种针对于关键词进行标注的输入系统,还设置有用于将 关键词库中没有存储的关键词进行添加的关键词添加模块。

所述的一种针对于关键词进行标注的输入系统,还包括有用于对 关键词库进行更新的自动更新模块。

实施本发明,具有如下有益效果:本发明所述的这种输入法通过 对用户输入的字符信息进行关键词提取,标注,和在关键词词库中进 行单独匹配搜索,能够快速找到,用户需要的最终词语结果,克服了 现有输入法的首选词命中率并不高,从而导致用户的输入速度减慢, 输入效率降低,用户体验差的缺点。尤其是当用户一次性输入很多拼 音时,用户只需要将所输入的词语信息,进行关键词提取并标注,然 后在关键词词库对标注的关键词进行单独快速的匹配搜索,将搜索出 的关键词候选词中词频最高的作为首选词进行显示给用户,用户选择 正确的关键词,以及正确的其它非关键词完成一次输入,不再需要用 户倒回来重新选择正确的字词,避免了输入的繁琐。

附图说明

图1为本发明所述的一种针对于关键词进行标注的输入系统的 原理框图。

图2为本发明所述的一种针对于关键词进行标注的输入方法的 流程图。

图3为本发明中对关键词进行标注的一种实施例示意图。

图4为本发明中对关键词的候选词列表进行关键词选择的实施 例示意图,为其中一种实施例。

图5为本发明中对关键词的候选词列表进行关键词选择的实施 例示意图,为另一种实施例。

具体实施方式

下面结合着附图,对本发明所述的一种针对于关键词进行标注的 输入方法及系统,做更详细的介绍。

参图1、2所示,分别展示了本发明所述的这种针对于关键词进 行标注的输入系统的主要原理结构,以及对应的方法流程。

从图1可以看出针对于关键词进行标注的输入系统100包括有: 关键词词库110、输入交互界面单元120、关键词判定单元130、关 键词标注单元140、关键词调取单元150、关键词添加模块160、自 动更新模块170等结构。

其中的关键词判定单元130,还包括有词语特征值模块131、关 键词特征值阈值模块132以及关键词阈值比较模块133。

下面结合着具体的方法,对本发明所述的这种针对于关键词进行 标注的输入方法及系统,进行详细的介绍。

本发明所描述的针对于关键词进行标注的输入方法,包括如下步 骤:

步骤1,采集用户在输入交互界面中输入字符信息。

a用户通过输入交互界面单元120进行字符信息的输入,客户端 对用户所输入的字符串编码信息进行分析,在普通词库中调取对应的 字词信息。

b依据用户的使用频率情况,对所调出的字词信息进行排序。

c将排序后的字词信息组成候选词序列输出给用户。

作为举例而非限定,本发明适用于用户一次输入比较多的字符信 息的情况。

步骤2,判断用户输入信息所对应的字是否可构成关键词。

在所述的步骤2中,通过关键词判定单元130对关键词进行判定, 该步骤还包括如下子步骤:

a通过关键词判定单元130中的关键词特征值阈值模块132,设 定关键词的特征值阈值大小标准;

b通过关键词判定单元130中的词语特征值模块131,计算词语 的特征值大小;

c通过关键词判定单元130中的关键词阈值比较模块133,将上 述词语的特征值大小与关键词的特征值阈值大小标准进行比较,

若词语的特征值小于关键词特征值阈值,则该词语判定为不是关 键词;若词语的特征值大于等于关键词特征值阈值,则该词语判定为 是关键词。

其中词语特征值模块131在对词语进行特征值计算时,对词语特 征有影响的一个因素是词语被普通大众用户使用的频率,例如,当用 户所输入的词语为很大众化的普通词语,是大家经常使用的,像拼音 为“fang xiang”的词语有“方向”、“芳香”、“方想”等对应词语, 虽然对应的词语比较多,但是我们不难发现词语之间的意思相差很 远,这种情况下,拼音为“fang xiang”的词语对应的特征值就会小 一些。

另一个影响因素为使用该终端的用户的词语使用频率,当一个词 语,并不是很大众化的词语,用户第一次输入时,该词语对应的特征 值就会比较高,从而被判定为关键词,用户输入该关键词的同时,将 该词语加入用户对应客户端的关键词词库110内,下次用户使用时该 词语对应的特征值就会比较低,尤其对应多次使用的关键词词语也可 以直接判定为非关键词。

还有一个影响因素,就是词语的多音字和多音词情况,例如,拼 音为“gong shi”的词语就对应有“公式”、“共识”、“攻势”、“公示” “共事”、“公事”等等,像这种多音词比较多的,其对应的特征值也 会比较高,从而更有可能被判定为关键词。

作为举例而非限定,所述的词语的特征值是可以变化的,即便是 同一个词语根据用户的使用情况也会发生变化,只有这样才能保证用 户输入的准确率和输入的速度。

步骤3,对关键词加入关键词标注。

在该步骤中,是通过关键词标注单元140,根据步骤2中关键词 的判断结果,来对关键词进行标注的。如图3所示具体标注的方式, 是通过下划线来标注的,还可以通过其它方式,例如,通过改变词语 亮度、括号、方框、等形式进行标注,同时在被标注的关键词下面或 者旁边设置快捷选择键,通过该按键对关键词进行选择操作,在图中 是利用快捷键“F1、F2”来对候选词列表中的关键词进行选择操作的。

步骤4,采集用户输入关键词标注,从输入交互界面的候选词列 表中调出关键词。

a通过关键词调取单元150,在关键词词库110中对标注出的关 键词进行匹配提取。

在该步骤中,若关键词词库110中不包含有该关键词,则从普通 词库中专门对该关键词进行更进一步的搜索和组合,随后将该关键词 通过关键词添加模块160添加到关键词词库中,通过自动更新模块 170对关键词词库进行自动更新,以保证用户一直都在使用最新的关 键词词库。

b依据用户的使用频率情况,对所提取的关键词信息进行排序。

c将排序后的关键词信息进行输出,如图4、5所示,为其中关 键词信息其中两种输出方式,快捷键“F2”所操作对应的关键词为 “chao xian”,从用户所输入的信息意思上可以看出,用户需要选择 的词语为“超弦”,所以通过快捷键“F2”以及关键词对应的数字就 可以对关键词进行选择操作了。

d用户在输出的候选词列表中选择目标关键词。

为了便于理解,我们提供了一种对关键词进行标注的方式,如图 3所示。

图4和图5分别为两种关键词信息的显示方式,在图4中,候选 关键词列表显示在对应的快捷键“F2”的下面,利用快捷键“F2”和 对应的数字按键进行目标关键词的选择。在图5中,候选关键词列表 显示在对应的快捷键“F2”的右侧,也是利用快捷键“F2”和对应的 数字按键进行目标关键词的选择。

当然,本发明对关键词的具体显示和选择的方式并不做限定。

以上是对本发明的描述而非限定,基于本发明思想的其它实施方 式,均在本发明的保护范围之中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号