首页> 中国专利> 汉语词组库的建立及更新方法

汉语词组库的建立及更新方法

摘要

本发明提供了一种汉语词组库的建立及更新方法,从EPG的相关信息中提取常用词组,从而建立常用词组库;按照设定对常用词组库进行更新,以使常用词组库中的汉语词组与当前EPG信息相匹配。本发明的有益效果是:通过从EPG相关信息中获取常用词组并建立常用词组库,且按照设定对所述常用词组库进行更新,使得常用词组库中的汉语词组一直保持与当前EPG信息相匹配,从而使用户可以非常方便快捷的寻找到电视节目,并且使常用词组库的大小更合理更有效。

著录项

  • 公开/公告号CN101916268A

    专利类型发明专利

  • 公开/公告日2010-12-15

    原文格式PDF

  • 申请/专利权人 哈尔滨工业大学深圳研究生院;

    申请/专利号CN201010244321.8

  • 发明设计人 樊滨温;

    申请日2010-08-04

  • 分类号

  • 代理机构深圳市科吉华烽知识产权事务所;

  • 代理人胡吉科

  • 地址 518055 广东省深圳市南山区西丽深圳大学城哈工大校区

  • 入库时间 2023-12-18 01:26:38

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-09-28

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20120725 终止日期:20150804 申请日:20100804

    专利权的终止

  • 2012-07-25

    授权

    授权

  • 2011-02-02

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20100804

    实质审查的生效

  • 2010-12-15

    公开

    公开

说明书

【技术领域】

本发明涉及汉语词组库的建立及更新方法,尤其涉及在机顶盒中建立汉语词组库及更新方法。

【背景技术】

在机顶盒中,若想从EPG信息中搜索感兴趣的节目,例如想在EPG信息中搜索哪个电视台正在播放电视剧“亮剑”,必须有汉字输入法的支持,汉字输入法中必须有汉字库,而高级的汉字输入法一般不光支持全拼输入还支持头拼音字母组合的输入。例如输入词组“亮剑”时,只需输入每个汉字的头字母组合“LJ”,而不必输入全拼“liangjian”,这就提高了效率,但是要完成这种功能,系统必须有常用词组库。一方面,常用词组库的词条数要适当,太小,不能囊括常用的词语,太大又占存储空间太多,另一方面,词条应该能更新,电视节目中经常会出现一些新的词汇,例如电影名字和电视剧的名字等等,这些新的词组应该不断地加进词库中,而对机顶盒这种电子产品,卖出去就很难再收回来更新词库。

【发明内容】

本发明要解决的技术问题是,提供一种在机顶盒中能够建立并能更新的汉语词组库方法。

本发明提供了一种汉语词组库的建立及更新方法,从EPG相关信息中提取常用词组,从而建立常用词组库;按照设定对常用词组库进行更新,以使常用词组库中的汉语词组与当前EPG信息相匹配。

作为本发明的进一步改进,所述EPG相关信息为从每个电视台的每一档节目中提取出节目名称、演员姓名、导演姓名、主持人姓名、节目详细信息中的关键词。

作为本发明的进一步改进,常用词组库的建立方法为:步骤一:从EPG信息中提取相关信息;步骤二:提取出的信息中如果有非汉字的部分,将其去除并分解成一个或几个标准的汉语词组;步骤三:将标准的汉语词组存入常用词组库,相同的词组不必存入。

作为本发明的进一步改进,所述常用词组库更新方式为:首先将所述常用词组库删除,再从当前EPG中获取相关信息,提取汉语词组,建立新的常用词组库。

作为本发明的进一步改进,所述常用词组库更新方式为:首先将所述常用词组库中的所有汉语词组清空,再从当前EPG中获取相关信息,提取全部汉语词组并计算全部汉语词组所占用的空间;判断全部汉语词组所占用的空间是否大于所述常用词组库空间,如果大于所述常用词组库空间,那么将所述常用词组库删除,并建立新的常用词组库,然后将所述全部汉语词组存入所述新的常用词组库中,或者增加所述常用词组库空间,然后将所述全部汉语词组存入增加空间后的常用词组库中;如果全部汉语词组所占用的空间不大于所述常用词组库空间,那么将所述全部汉语词组存入所述常用词组库中。

作为本发明的进一步改进,所述常用词组库更新方式为:步骤一:从当前EPG信息中获取相关信息,提取全部汉语词组,并建立汉语词组列表;步骤二:将所述常用词组库中的每个汉语词组分别与所述汉语词组列表中的汉语词组进行逐个比较;步骤三:判断常用词组库中的汉语词组是否与汉语词组列表中的汉语词组相同;如果常用词组库中的某个汉语词组与汉语词组列表中的相应汉语词组相同,那么执行步骤四,将汉语词组列表中的相应汉语词组进行标识;如果常用词组库中的某个汉语词组与汉语词组列表中的每个汉语词组均不相同,那么执行步骤五,将常用词组库中的该汉语词组删除;最后执行步骤六:将汉语词组列表中未进行标识的汉语词组存入常用词组库中。

作为本发明的进一步改进,所述常用词组库更新时机为用户设定或系统设定或机顶盒开机初始化时,所述常用词组库进行更新。

作为本发明的进一步改进,根据EPG信息的不同,建立多个常用词组库,每个常用词组库均与不同的EPG信息相对应。

作为本发明的进一步改进,在常用词组库建立完毕之后,根据用户输入的查找信息提取常用词组库中的常用词组,再根据该常用词组,快速搜索到电视节目。

本发明的有益效果是:通过从EPG相关信息中获取常用词组并建立常用词组库,且按照设定对所述常用词组库进行更新,使得常用词组库中的汉语词组一直保持与当前EPG信息相匹配,从而使用户可以非常方便快捷的寻找到电视节目,并且使常用词组库的大小更合理更有效。

【附图说明】

图1是本发明汉语词组库的建立及更新方法的框图;

图2是本发明汉语词组库更新方法的第一种实施方式流程图;

图3是本发明汉语词组库更新方法的第二种实施方式流程图;

图4是本发明汉语词组库更新方法的第三种实施方式流程图;

图5是本发明汉语词组库更新方法的第四种实施方式流程图;

图6是本发明汉语词组库更新方法的第四种实施方式演示图;

图7是本发明建立汉语词组库的实施方式流程图。

【具体实施方式】

如图1所示,本发明公开了一种汉语词组库的建立及更新方法,在步骤A1中,从EPG相关信息中提取常用词组,从而建立常用词组库;在步骤A2中,按照设定对所述常用词组库进行更新,以使常用词组库中的汉语词组与所述EPG信息相匹配。所述EPG相关信息为从每个电视台的每一档节目中提取出节目名称、演员姓名、导演姓名、主持人姓名、节目详细信息中的关键词。当然所述EPG相关信息也可以为将从每个电视台的每一档节目中提取出节目名称、演员姓名、导演姓名、主持人姓名、节目详细信息中的关键词组合在一起的信息。

如图2所示是本发明汉语词组库更新方法的第一种实施方式,在步骤B1中,将所述常用词组库删除;在步骤B2中,从当前EPG中获取相关信息,提取汉语词组,建立新的常用词组库。

如图3所示是本发明汉语词组库更新方法的第二种实施方式,在步骤C1中,将所述常用词组库中的所有汉语词组清空;在步骤C2中,从当前EPG中获取相关信息,提取全部汉语词组并计算全部汉语词组所占用的空间;在步骤C3中,判断全部汉语词组所占用的空间是否大于所述常用词组库空间;如果大于所述常用词组库空间,那么便执行步骤C4,将所述常用词组库删除,再执行步骤C5,将建立新的常用词组库,然后将所述全部汉语词组存入所述新的常用词组库中;如果全部汉语词组所占用的空间不大于所述常用词组库空间,那么执行步骤C6,将所述全部汉语词组存入所述常用词组库中。

如图4所示是本发明汉语词组库更新方法的第三种实施方式,在步骤D1中,将所述常用词组库中的所有汉语词组清空;在步骤D2中,从当前EPG中获取相关信息,提取全部汉语词组并计算全部汉语词组所占用的空间;在步骤D3中,判断全部汉语词组所占用的空间是否大于所述常用词组库空间;如果大于所述常用词组库空间,那么便执行步骤D4,增加所述常用词组库空间,再执行步骤D5,将所述全部汉语词组存入增加空间后的常用词组库中;如果全部汉语词组所占用的空间不大于所述常用词组库空间,那么执行步骤D6,将所述全部汉语词组存入所述常用词组库中。汉语词组库的第二种和第三种更新方法不是采用将常用词组库删除,然后再重新建立方法,而是采用先将所述常用词组库中的所有汉语词组清空,再将重新获得的汉语词组存入常用词组库中的方法,这种方法无需删除常用词组库,从而使得常用词组库的更新速度加快。

如图5所示是本发明汉语词组库更新方法的第四种实施方式,在步骤E1中,从当前EPG信息中获取相关信息,提取全部汉语词组,并建立汉语词组列表;在步骤E2中,将所述常用词组库中的每个汉语词组分别与所述汉语词组列表中的汉语词组进行逐个比较;在步骤E3中,在步骤E2进行比较的同时,判断常用词组库中的汉语词组是否与汉语词组列表中的汉语词组相同;如果常用词组库中的某个汉语词组与汉语词组列表中的相应汉语词组相同,那么执行步骤E4,将汉语词组列表中的相应汉语词组进行标识;如果常用词组库中的某个汉语词组与汉语词组列表中的每个汉语词组均不相同,那么执行步骤E5,将常用词组库中的该汉语词组删除;最后执行步骤E6:将汉语词组列表中未进行标识的汉语词组存入常用词组库中。第四种实施方式只需将部分汉语词组从常用词组库中删除或向常用词组库中增加部分常用词组便可完成对常用词组库的更新,进一步加快了更新速度。

如图6所示是本发明汉语词组库更新方法的第四种实施方式的演示过程,在汉语词组列表H1中有汉语词组水浒传、三国演义、西游记、红楼梦;在常用词组库H2中存有汉语词组西游记、亮剑、大染坊、水浒传、第一现场;首先将常用词组库H2中西游记与汉语词组列表H1的水浒传进行比较,接下来H2中的西游记与H1中的三国演义进行比较,接下来H2中西游记与H1中的西游记进行比较,判断出H2中西游记与H1中的西游记相同,那么对H1中的西游记进行标识;接下来H2中的亮剑与H1中的各汉语词组进行比较,判断出H2中的亮剑与H1中的各汉语词组均不相同,那么将H2中的亮剑删除;以此类推,最后将H2中的亮剑和大染坊和第一现场删除,将H1中的三国演义和红楼梦存入H2中。

如图7所示是本发明建立汉语词组库的实施方式,在步骤F1中,从EPG信息中提取相关信息;在步骤F2中,提取出的信息中如果有非汉字的部分,将其去除并分解成一个或几个标准的汉语词组;在步骤F3中,将标准的汉语词组存入常用词组库,相同的词组不必存入。例如EPG信息为“亮剑(12)”,那么便将“(12)”去除,然后将“亮剑”存入常用词组库中。例如EPG信息为“中超比赛武汉VS深圳”那么便将“VS”去除,然后将“中超比赛”和“武汉”和“深圳”三个标准汉语词组存入常用词组库中。

常用词组库更新时机为用户设定或系统设定或机顶盒开机初始化时,所述常用词组库进行更新。所述用户设定是指用户根据自己的需要,在机顶盒系统上设置更新时机,例如用户可设定每过5个小时,常用词组库进行更新,或者每周一,常用词组库进行更新。系统设定是指机顶盒的内部系统设定了常用词组库更新时机。根据EPG信息的不同,可以建立多个常用词组库,每个常用词组库均与不同的EPG信息相对应,例如可以同时建立节目名称常用词组库和演员姓名常用词组库,通过多个常用词组库的配合,使得搜索节目更加快速和准确。该汉语词组库的建立和更新方法无论是有线数字电视、地面数字电视还是卫星数字电视的标清或高清机顶盒都适用。所述EPG为电子节目指南。

在常用词组库建立完毕之后,根据用户输入的查找信息提取常用词组库中的常用词组,再根据该常用词组,快速搜索到电视节目。该查找信息可以是每个汉字的头字母组合,例如需要搜索电视剧《亮剑》时,只需在机顶盒的搜索框中输入“LJ”就会将常用词组库的“亮剑”提取出来,而不必输入全拼“liangjian”。同理该查找信息也可以是每个汉字的第一笔画组合,例如需要搜索电视剧《亮剑》时,只需输入一点和一撇的组合。同理该查找信息也可以是每个汉字的前两笔画的组合,即采用五笔字型输入法,还以电视剧《亮剑》为例,只需输入“ypwg”便可将常用词组库的“亮剑”提取出来。可以使用摇控器上的按键输入查找信息。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号