首页> 中国专利> 一种汉语普通话语义数据编码方法及系统

一种汉语普通话语义数据编码方法及系统

摘要

本发明公开了一种汉语普通话语义数据编码方法及系统,所述方法包括:构建与汉语普通话信息相关联的ASCII码数据,对构建模块构建的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元,分别对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,汉语普通话信息数据元素分类编码单元与机器人系统的控制计算机相连,通过ASCII码数据来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作,本发明以ASCII码数据表示汉语语义信息,一码一义不重码,增强了机器人理解汉语普通话信息的处理性能,所以这项技术有比较好的发展前景。

著录项

  • 公开/公告号CN112232029A

    专利类型发明专利

  • 公开/公告日2021-01-15

    原文格式PDF

  • 申请/专利权人 王欣;

    申请/专利号CN202011315802.3

  • 发明设计人 王欣;

    申请日2020-11-22

  • 分类号G06F40/126(20200101);G06F40/289(20200101);G06F40/30(20200101);

  • 代理机构

  • 代理人

  • 地址 101125 北京市通州区龙旺庄社区25号楼1单位501室

  • 入库时间 2023-06-19 09:35:27

说明书

技术领域

本发明属于汉语自然语言处理技术领域,更具体的说是涉及一种汉语普通话语义数据编码方法及系统。

背景技术

国家基础GB2312-1980《信息交换用汉字编码字符集·基本集》是计算机系统内部处理和存储汉字时使用的代码,在GB2312中规定,编码采用双七位编码方式(即两个字节表示一个汉字),为了与英文字母相区别,汉字机内代码中两个字节的最高位规定为“1”,英文字母的机内代码是7位的ASCII码,这种编码在使用范围上有一些限制,例如:在一些大中型计算机系统以及在网络通信环境中,要用字节的最高位作奇偶校验的情况下,就不能用这种汉字内部码标识方法,所以必须考虑设计其他的汉语普通话信息编码方法 。

ASCII标准码使用指定的7位二进制数组合来表示26个拉丁字母、10个阿拉伯数字等人类社会最常用的128个字符,数据是计算机可以操作的对象,是能够被计算机识别和处理的符号集合,组成数据的有一定意义的基本单位即为数据元素,性质相同的数据元素的集合为数据对象,数据对象是数据的子集,在计算机中不同数据元素之间不是独立的、杂乱无序的关系,而是存在着一种或多种相互关联的关系,这些关系其实就是数据的组织形式,相互之间存在一种或多种特定关系的数据元素的集合即为数据结构,国际标准化组织(ISO)规定ASCII码是不同计算机在相互通信时共同遵守的拉丁字符编码标准,故以ASCII码对汉语普通话信息进行编码获取的ASCII码数据在计算机通信过程中能够有很好的兼容性。

自然语言处理(NLP)是使计算机和机器人学会“理解”和“运用”人类的自然语言,实现人机之间的自然语言通信来代替人的部分脑力劳动的技术, 按照GB/T12643-2013《机器人与机器人装备词汇》国家标准的定义,机器人是具有两个或两个以上可编程的轴,以及一定程度的自主能力,可在其环境内运动以执行预期的任务的执行机构,机器人的控制系统主要就是机器人控制系统中的计算机,是机器人的大脑,人机对话时必须通过适当的机器人语言和自然语言处理程序来“描述”、“理解”和“执行”任务,并将这些程序存入到机器人系统的控制计算机中去,机器人大脑才能产生控制信号去驱动机器人去完成各类工作,机器人语言是使用数据来描述机器人作业的方法,任务级编程语言是比较高级的机器人语言,这类语言允许机器人管理员对工作任务所要求达到的目标直接下命令,机器人可自动进行推理、计算,自动生成动作,完成作业。

汉语普通话信息都有数量不等的释义,这些汉语普通话信息的释义对于计算机和机器人“理解”和“执行”任务起着不可或缺的重要作用,例如:“根据比赛资料,分析黑马并押注”这个任务,对“黑马”进行“解释”并发布任务,计算机和机器人才能够正确地“理解”和“执行”任务,这是因为“黑马”有:① 黑色的马 ② 比赛中出人意料获胜的马,2个释义。

综上所述,如何提供一种汉语普通话数据编码方法及系统来增强计算机和机器人理解汉语普通话信息的处理性能是本领域技术人员亟需解决的问题。

发明内容

有鉴于此,本发明提供了一种汉语普通话数据信息编码方法及系统,以ASCII码数据来表示汉语普通话语义信息,对汉语普通话语素信息、汉语普通话短语信息的释义等汉语普通话语义信息进行编码,做到一码一义不重码,增强了计算机和机器人理解汉语普通话信息的处理性能。

为了实现上述目的,本发明采用如下技术方案:

一种汉语普通话语义数据信息编码方法,包括如下步骤:

通过机器人内部的汉语普通话信息获取单元构建与汉语普通话信息相关联的ASCII码数据;

通过机器人内部的汉语普通话信息数据对象分类单元对构建模块构建的与汉语普通话信息相关联的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;

通过机器人内部的汉语普通话信息数据元素分类编码单元对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码;

汉语普通话信息数据元素分类编码单元与机器人系统的控制计算机相连,通过ASCII码数据来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作。

优选的,还包括:编码处理模块,控制模块和驱动模块;

所述汉语普通话信息数据元素分类编码单元将编码信息输送至所述编码处理模块,所述编码处理模块将处理后的数据输送至所述控制模块,所述控制模块发送指令至所述驱动模块,所述驱动模块驱动所述机器人完成各类工作。

优选的,所述分别对汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码,具体包括:

对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码;

对汉语普通话短语数据对象分类单元中的数据元素分别进行汉语普通话常用短语的编码、汉语普通话常用短语义的编码、汉语普通话常用短语义集合的编码、汉语普通话非常用短语的编码、汉语普通话非常用短语义的编码、汉语普通话非常用短语义集合的编码。

优选的,所述对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义中的集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码,具体包括:

汉语普通话常用语素的编码:汉语普通话常用语素汉语拼音全拼编码和对应的汉语普通话常用语素标识编码,构成汉语普通话常用语素编码,所述汉语普通话常用语素标识编码基于汉语普通话常用语素的同音语素的统计数据,用5个声码编码字符c、s、w、x、z与5个调码编码字符ā、ē、ī、ō、ū来设计;

汉语普通话常用语素义的编码:汉语普通话常用语素编码和对应的汉语普通话语义标识编码,构成汉语普通话常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;

汉语普通话常用语素义集合的编码:基于集合理论,汉语普通话常用语素的全部语素义为其各个语素义组成的一个集合,汉语普通话常用语素编码和对应的汉语普通话语义集合标识编码构成汉语普通话常用语素义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计;

汉语普通话非常用语素的编码:汉语普通话非常用语素汉语拼音全拼编码和对应的汉语普通话非常用语素标识编码构成汉语普通话非常用语素编码,所述汉语普通话非常用语素标识编码基于汉语普通话非常用语素的同音语素的统计数据,用10个声码编码字符b、d、f、g、h、j、k、l、p、q与5个调码编码字符ā、ē、ī、ō、ū来设计;

汉语普通话非常用语素义的编码:汉语普通话非常用语素编码和对应的汉语普通话语义标识编码构成汉语普通话非常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;

汉语普通话非常用语素义集合的编码:基于集合理论,汉语普通话非常用语素的全部语素义为其各个语素义组成的一个集合,汉语普通话非常用语素编码和对应的汉语普通话语义集合标识编码构成汉语普通话非常用语素义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计。

优选的,所述对汉语普通话短语数据对象分类单元中数据元素分别进行汉语普通话常用短语的编码、汉语普通话常用短语义的编码、汉语普通话常用短语义集合的编码、汉语普通话非常用短语的编码、汉语普通话非常用短语义的编码、汉语普通话非常用短语义集合的编码,具体包括:

汉语普通话常用短语的编码:汉语普通话常用短语的汉语拼音全拼编码和对应的汉语普通话常用短语标识编码构成汉语普通话常用短语编码,所述汉语普通话常用短语标识编码基于汉语普通话常用短语的同音短语的统计数据,用1个声码编码字符t和5个调码编码字符ā、ē、ī、ō、ū来设计;

汉语普通话常用短语义的编码:汉语普通话常用短语编码和对应的汉语普通话语义标识编码构成汉语普通话常用短语义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;

汉语普通话常用短语义集合的编码:基于集合理论,汉语普通话常用短语的全部短语义为其各个短语义组成的一个集合,汉语普通话常用短语编码和对应的汉语普通话语义集合标识编码构成汉语普通话常用短语义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计;

汉语普通话非常用短语的编码:汉语普通话非常用短语的数量是无法穷尽的,为了计算机和机器人更好地进行汉语自然语言处理,则必须对汉语普通话非常用短语进行构成分析,将其分拆为若干个汉语普通话常用短语、汉语普通话常用语素和汉语普通话非常用语素等汉语普通话信息编码单位,构成汉语普通话非常用短语的汉语普通话常用短语、汉语普通话常用语素和汉语普通话非常用语素和对应的汉语普通话非常用短语标识编码构成汉语普通话非常用短语编码,所述汉语普通话非常用短语标识编码用1个拉丁编码字符

汉语普通话非常用短语义的编码:汉语普通话非常用短语编码和对应的汉语普通话语义标识编码构成汉语普通话非常用短语义编码,所述汉语普通话语义标识编码基于汉语普通话语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;

汉语普通话非常用短语义集合的编码:基于集合理论,汉语普通话非常用短语的全部短语义为其各个短语义组成的一个集合,汉语普通话非常用短语编码和对应的汉语普通话语义集合标识编码构成汉语普通话非常用短语义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计。

本发明还提供了一种汉语普通话语义数据信息编码系统应用于上述一种汉语普通话语义数据信息编码方法,包括:

汉语普通话信息数据获取单元:用于构建与汉语普通话信息相关联的ASCII码数据;

汉语普通话信息数据对象分类单元:对构建模块构建的与汉语普通话信息相关联的ASCII码数据对象进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;

汉语普通话信息数据元素分类编码单元:用于分别对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码;

优选的,所述汉语普通话信息数据对象分类单元包括:汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;

优选的,所述汉语普通话语素数据对象分类单元包括:汉语普通话常用语素编码模块、汉语普通话常用语素义编码模块、汉语普通话常用语素义集合编码模块、汉语普通话非常用语素编码模块、汉语普通话非常用语素义编码模块、汉语普通话非常用语素义集合编码模块;

所述汉语普通话短语数据对象分类编码单元包括:汉语普通话常用短语编码模块、汉语普通话常用短语义编码模块、汉语普通话常用短语义集合编码模块、汉语普通话非常用短语编码模块、汉语普通话非常用短语义编码模块、汉语普通话非常用短语义集合编码模块。

本发明的有益效果在于:

本发明提供了一种汉语普通话语义数据信息编码方法及系统,用26个拉丁字母、6个特殊编码字符ā、ē、ī、ō、ū 、

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明一种汉语普通话语义数据信息编码方法及系统的流程图。

具体实施方式:

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的为提供一种汉语普通话语义数据信息编码方法及系统,以ASCII码数据表示汉语普通话语义信息,对汉语普通话语素和短语的释义等汉语普通话语义信息进行编码,做到一码一义不重码,增强了计算机和机器人理解汉语普通话信息的处理性能。

请参阅附图1,本发明提供了一种汉语普通话语义数据信息编码方法,包括以下步骤:

S1,通过机器人内部的汉语普通话信息数据获取单元构建与汉语普通话信息相关联的ASCII码数据;

S2,通过机器人内部的汉语普通话信息数据对象分类单元对构建模块构建的与汉语普通话信息相关联的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;

S3,通过机器人内部的汉语普通话信息数据元素分类编码单元对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码;

S4,汉语普通话信息数据元素分类编码单元与机器人系统的控制计算机相连,通过ASCII码数据来描述任务,实现机器人汉语普通话人机对话,驱动机器人完成各类工作。

其中,步骤S3中,所述分别对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码,具体包括:

对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码;

对汉语普通话短语数据对象分类单元中的数据元素分别进行汉语普通话常用短语的编码、汉语普通话常用短语义的编码、汉语普通话常用短语义集合的编码、汉语普通话非常用短语的编码、汉语普通话非常用短语义的编码、汉语普通话非常用短语义集合的编码;

其中,对汉语普通话语素数据对象分类单元中的数据元素分别进行汉语普通话常用语素的编码、汉语普通话常用语素义的编码、汉语普通话常用语素义集合的编码、汉语普通话非常用语素的编码、汉语普通话非常用语素义的编码、汉语普通话非常用语素义集合的编码,具体包括:

汉语普通话常用语素的编码:汉语普通话常用语素汉语拼音全拼编码和对应的汉语普通话常用语素标识编码构成汉语普通话常用语素编码,所述汉语普通话常用语素标识编码基于汉语普通话常用语素的同音语素的统计数据,用5个声码编码字符c、s、w、x、z与5个调码编码字符ā、ē、ī、ō、ū来设计,这种编码方法的原理是以声码编码字符和调码编码字符构造出一种类似音节却无法拼读的字符编码作为汉语普通话语素标识编码来区别同音的汉语普通话语素,从而达到不重码的设计目的;

汉语普通话常用语素义的编码:汉语普通话常用语素编码和对应的汉语普通话语义标识编码构成汉语普通话常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;

汉语普通话常用语素义的编码:汉语普通话常用语素编码和对应的汉语普通话语义标识编码构成汉语普通话常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;

汉语普通话常用语素义集合的编码:基于集合理论,汉语普通话常用语素的全部语素义为其各个语素义组成的一个集合,汉语普通话常用语素编码和对应的汉语普通话语义集合标识编码构成汉语普通话常用语素义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计;

汉语普通话非常用语素的编码:汉语普通话非常用语素汉语拼音全拼编码和对应的汉语普通话非常用语素标识编码构成汉语普通话非常用语素编码,所述汉语普通话非常用语素标识编码基于汉语普通话非常用语素的同音语素的统计数据,用10个声码编码字符b、d、f、g、h、j、k、l、p、q与5个调码编码字符ā、ē、ī、ō、ū来设计;

汉语普通话非常用语素义的编码:汉语普通话非常用语素编码和对应的汉语普通话语义标识编码构成汉语普通话非常用语素义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;

汉语普通话非常用语素义集合的编码:基于集合理论,汉语普通话非常用语素的全部语素义为其各个语素义组成的一个集合,汉语普通话非常用语素编码和对应的汉语普通话语义集合标识编码构成汉语普通话非常用语素义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计;

其中,对汉语普通话短语数据对象分类单元中的数据元素分别进行汉语普通话常用短语的编码、汉语普通话常用短语义的编码、汉语普通话常用短语义集合的编码、汉语普通话非常用短语的编码、汉语普通话非常用短语义的编码、汉语普通话非常用短语义集合的编码,具体包括:

汉语普通话常用短语的编码:汉语普通话常用短语的汉语拼音全拼编码和对应的汉语普通话常用短语标识编码构成汉语普通话常用短语编码,所述汉语普通话常用短语标识编码基于汉语普通话常用短语的同音短语的统计数据,用1个拉丁字符t和5个调码编码字符ā、ē、ī、ō、ū来设计;

汉语普通话常用短语义的编码:汉语普通话常用短语编码和对应的汉语普通话语义标识编码构成汉语普通话常用短语义编码,所述汉语普通话语义标识编码基于汉语普通话信息语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;

汉语普通话常用短语义集合的编码:基于集合理论,汉语普通话常用短语的全部短语义为其各个短语义组成的一个集合,汉语普通话常用短语编码和对应的汉语普通话语义集合标识编码构成汉语普通话常用短语义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计;

汉语普通话非常用短语的编码:汉语普通话非常用短语的数量是无法穷尽的,为了计算机更好地进行汉语自然语言处理,则必须对汉语普通话非常用短语进行构成分析,将其分拆为若干个汉语普通话常用短语、汉语普通话常用语素和汉语普通话非常用语素等汉语普通话信息编码单位,构成汉语普通话非常用短语的汉语普通话常用短语、汉语普通话常用语素和汉语普通话非常用语素编码和对应的汉语普通话非常用短语标识编码构成汉语普通话非常用短语编码,所述汉语普通话非常用短语标识编码用1个拉丁编码字符

汉语普通话非常用短语义的编码:汉语普通话非常用短语编码和对应的汉语普通话语义标识编码构成汉语普通话非常用短语义编码,所述汉语普通话语义标识编码基于汉语普通话语义的统计数据,用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y来设计;

汉语普通话非常用短语义集合的编码:基于集合理论,汉语普通话非常用短语的全部短语义为其各个短语义组成的一个集合,汉语普通话非常用短语编码和对应的汉语普通话语义集合标识编码构成汉语普通话非常用短语义集合编码,所述汉语普通话语义集合标识编码用1个拉丁编码字符y来设计。

请参阅附图1,本发明还提供了一种汉语普通话语义数据信息系统应用于上述一种汉语普通话语义数据信息编码方法,包括:

汉语普通话信息数据获取单元:用于构建构建与汉语普通话信息相关联的ASCII码数据;

汉语普通话信息数据对象分类单元:对构建模块构建的与汉语普通话信息相关联的ASCII码数据进行分类,包括汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;

汉语普通话信息数据元素分类编码单元:用于分别对每类汉语普通话信息数据对象分类单元中的数据元素进行分类编码,使每个汉语普通话语素和短语信息都对应一个不同的ASCII码数据,做到一码一义不重码;

其中,汉语普通话信息数据对象分类单元包括:汉语普通话语素数据对象分类单元、汉语普通话短语数据对象分类单元;

汉语普通话语素数据对象分类单元包括:汉语普通话常用语素编码模块、汉语普通话常用语素义编码模块、汉语普通话常用语素义集合编码模块、汉语普通话非常用语素编码模块、汉语普通话非常用语素义编码模块、汉语普通话非常用语素义集合编码模块;

汉语普通话短语数据对象分类单元包括:汉语普通话常用短语编码模块、汉语普通话常用短语义编码模块、汉语普通话常用短语义集合编码模块、汉语普通话非常用短语编码模块、汉语普通话非常用短语义编码模块、汉语普通话非常用短语义集合编码模块。

汉语普通话常用语素的编码:汉语普通话语素是由1个或1个以上汉语普通话音节构成的,符合汉语普通话语法规则的,有语义的,大于音节小于短语的汉语普通话信息单位,短语是由语素所构成的,所以对汉语普通话信息进行编码首先要解决汉语普通话语素的编码问题。

1994年清华大学计算机系利用计算机建立了一个大规模的汉语语素数据库,这个数据库中共有语素项17470个,语素10442个,在10442个语素中常用语素3918个,非常用语素6524个,用编码标识汉语普通话常用语素和非常用语素,可以使计算机和机器人优先处理汉语普通话常用信息,从而达到提高其汉语普通话信息处理性能的目的。

汉语普通话常用语素有比较严重的同音现象,例如:汉语普通话常用语素 “义”的常用同音语素有24个(不包括繁体和异体语素,例:兿、異),所以只对汉语普通话常用语素的汉语拼音进行编码是不够的,还需设计不同的汉语普通话常用语素标识编码来为这些有同音语素的汉语普通话语素进行编码,汉语普通话常用语素编码可以按照以下方法编码:汉语普通话常用语素编码=汉语普通话常用语素汉语拼音全拼编码+对应的汉语普通话常用语素标识编码。

《汉语拼音方案》规定:汉语拼音的声母为“b”、“p”、“m”、“f”、“zh”、“ch”、“sh”等21个声母,本发明以《汉语拼音方案》的声母作为声码,《汉语拼音方案》规定:汉语拼音的韵母为“a”、、“e”、“i”、“o”、“u”等35个韵母,本发明以《汉语拼音方案》的韵母作为韵码,因标准ASCII字符集中无ü这个字母的编码,本发明的解决办法是按照“ü”= v的编码方法进行转换编码,所以《汉语拼音方案》的4个韵母“ü”、“üe”、“üan”、“ün”分别以“ü”=v、“üe”=ve、“üan”=van、“ün”= vn的编码方法进行转换编码,其余韵母不作变更,作为韵码。

《汉语拼音方案》规定:声调符号为:阴平(ˉ)阳平(ˊ)上声(ˇ)去声(ˋ),声调符号标在音节的主要母音上,轻声不标,这种标调方法需要首先确定哪个字母为音节的主要母音,比较复杂,本发明的解决办法是用5个拉丁编码字符ā、ē、ī、ō、ū 分别表示阴平、阳平、上声、去声、轻声这5个声调,声调标在韵母之后,因为标准ASCII字符集中没有这5个字符,本发明的解决办法是用ā=a_、ē=e_、ī=i_、ō=o_、ū=u_的编码方法进行转换编码。

《汉语拼音方案》中规定:“韵母ei单用时写成ê。在给汉字注音的时候,为了拼式简短,ng可以省作ŋ。”,因为标准ASCII字符集中没有“ê”、“ŋ”这2个不常用字符,而且这2个字符不能用类似ā=a_、ē=e_、ī=i_、ō=o_、ū=u_编码方法进行转换编码,所以本发明的编码规则中韵母ei单用时还是写成ei,编码时ng不可以省作ŋ。

《现代汉语词典》(第5版)音节表中共有轻声音节40个,在《现代汉语词典》中是用标点符号“·”来表示轻声(例如:·ba音节),这种标调方法打乱了汉语拼音声、韵、调的既定排序,将声调符号放在声母之前,相当于增加了一条特殊的标调规则,不能用一种声调编码方法来贯彻始终,所以本发明不采用这种声调编码方法,使用“ū(ū可以用ū=u_ 的编码方法进行转换编码)”对轻声音节进行编码,例如:“在《现代汉语词典》中· ba音节可标注为baū(ū=u_ ),这样baū (ū=ū=u_)音节声、韵、调很容易辨识而且顺序不乱。

为了标识各个同音的汉语普通话常用语素,本发明选择5个声码编码字符c、s、w、x、z与5个调码编码字符ā、ē、ī、ō、ū 的组合cā、cē、cī、cō、cū、 sā、sē、sī、sō、sū等25个字符组合编码作为汉语普通话常用语素标识编码来区别同音的汉语普通话常用语素,没有同音语素超过24个的汉语普通话常用语素,所以也就没有必要再设计其他的汉语普通话常用语素标识编码,这种编码方法的原理是以声码和调码编码字符构造出一种类视音节却无法拼读的字符编码作为汉语普通话常用语素标识编码来区别同音的汉语普通话常用语素,从而达到不重码的设计目的。

不选择a、e、i、o、u、v(代替ü)这6个韵码编码字符,是因为这6个韵码编码字符与调码字符会构组拼音编码易致计算机识记错误(例如:á、ó),不选择m、n这2个声码字符,是因为是因为这2个编码字符可构组特殊拼音易致计算机识记错误(例如:、ń),不选择r这个编码字符,是因为这个编码字符被用于非音节语素“儿”的编码,不选择b、d、f、g、h、j、k、l、p、q这10个编码字符是因为这些编码字符被用于汉语普通话非常用语素的编码,不选择t这个编码字符,是因为这个编码字符被用于汉语普通话非常用短语的编码,不选择y这个编码字符,是因为这个编码字符被用于汉语普通话语义信息的编码。

例如:汉语普通话常用语素“义”有24个常用同音语素,按照其笔画数和相同笔画数第一笔横竖撇点折以此类推的顺序排序,分别是“亿”、“艺”、“忆”、“艾”、“议”、 “屹”、“亦”、“异”、“抑”、“邑”、“役”“译”、“易”、“绎”、“奕”、“疫”、“益”、“谊”、“逸”“肄”“意”、“溢”、“毅”、 “翼” ,按照上述方法编码可以分别得到以下编码: “义”的编码是yiōcā,“亿”的编码是yiōcē,“艺”的编码是yiōcī,“忆”的编码是yiōcō,“艾”的编码是yiōcū,“议”的编码是yiōsā,“屹”的编码是yiōsē,“亦”的编码是yiōsī,“异”的编码是yiōsō,“抑”的编码是yiōsū,“邑”的编码是yiōwā,“役”的编码是yiōwē,“译”的编码是yiōwī,“易”的编码是yiōwō,“绎”的编码是yiōwū,“奕”的编码是yiōxā,“疫”的编码是yiōxē,“益”的编码是yiōxī,“谊”的编码是yiōxō,“逸”的编码是yiōxū,“肄”的编码是yiōzā,“意”的编码是yiōzē,“溢”的编码是yiōzī,“毅”的编码是yiōzō,“翼”的编码是yiōzū。

汉语普通话常用语素义集合的编码:汉语普通话常用语素都有数量不等的语素义,基于集合理论,汉语普通话常用语素的全部语素义是其各个语素义组成的一个集合,例如:“百”这个语素在《现代汉语词典》(第5版)中共有2个语素义:①十个十②表示很多,汉语普通话常用语素“百”的这2个语素义即为汉语普通话常用语素“百”的语素义集合中的2个元素。

汉语普通话常用语素义集合可以按照以下方法编码:汉语普通话常用语素义集合编码=汉语普通话常用语素编码+汉语普通话语义集合标识编码,本发明用1个拉丁编码字符y来设计汉语普通话语义集合标识编码,字母y为语义数据的汉语拼音缩写,例如:baiīcāy表示“百”这个汉语普通话语素的全部义项。

汉语普通话常用语素义的编码:汉语普通话常用语素义的编码可以按照以下方法编码:汉语普通话常用语素义编码=汉语普通话常用语素编码+汉语普通话语义标识编码。

《现代汉语词典》(第5版)收录汉语普通话语素、词和词组约65645条,义项超过13条的词汇仅有6条,基于汉语普通话语义信息的统计数据,本发明用用13个编码字符a、ā、e、ē、i、ī、m、n、o、ō、u、ū、v(代替ü)与1个拉丁编码字符y的字符组合编码 ay、āy、ey、ēy、iy、īy、my、ny、oy、ōy、uy、ūy、vy作为汉语普通话语义标识编码进行编码,对于义项超过13个的词汇(例如:《现代汉语词典·第5版》中“打

例如:“打

汉语普通话非常用语素的编码: 汉语普通话非常用语素也有比较严重的同音现象,例如:根据《现代汉语词典·第5版》分析,汉语普通话非常用语素“兮”有41个汉语普通话非常用同音语素,不包括繁体和异体语素,例:犧、犠),根据《在线汉语字典》分析,汉语普通话非常用语素“乂”有109个汉语普通话非常用同音语素,不包括繁体和异体语素,例:萟、兿),所以只对汉语普通话非常用语素的汉语拼音进行编码是不够的,还需设计不同的汉语普通话非常用语素标识来为这些有同音语素的汉语普通话语素进行编码,汉语普通话非常用语素的编码可以按照以下方法编码:汉语普通话非常用语素编码=汉语普通话非常用语素汉语拼音汉语拼音全拼编码+汉语普通话非常用语素标识编码。

为了标识各个不同的汉语普通话非常用语素,本发明选择10个声码编码字符b、d、f、g、h、j、k、l、p、q与5个调码编码字符ā、ē、ī、ō、ū 的组合bā、dā、fā、gā、hā、jā、kā、lā、pā、qā、bbā、ddā、ffā、ggā、hhā、jjā、kkā、llā、ppā、qqā 、bāā、dāā、fāā、gāā、hāā、jāā、kāā、lāā、pāā、qāā 等150个字符组合编码作为汉语普通话非常用语素标识编码进行编码,种编码方法的原理是以声码和调码编码字符构造出一种类视音节却无法拼读的字符编码作为汉语普通话非常用语素标识编码放在汉语普通话非常用语素拼音编码的后面来标识各个汉语普通话非常用同音语素,从而达到不重码的设计目的。

不选择a、e、i、o、u、v(代替ü)这6个韵码编码字符,是因为这6个韵码编码字符与调码字符会构组拼音编码易致计算机识记错误(例如:á、ó),不选择m、n这2个声码字符,是因为是因为这2个编码字符可构组特殊拼音易致计算机识记错误(例如:、ń),不选择c、s、w、x、z这5个编码字符是因为这些编码字符被用于汉语普通话常用语素的编码,不选择r这个编码字符,是因为这个编码字符被用于非音节语素“儿”的编码,不选择t这个编码字符,是因为这个编码字符被用于汉语普通话非常用短语的编码,不选择y这个编码字符,是因为这个编码字符被用于汉语普通话语义信息的编码。

例如:根据《现代汉语词典》(第5版)分析,汉语普通话非常用语素“仕”有14个同音汉语普通话非常用语素,按照其在词典中的排序,分别是 “贳” “昰” “莳”“栻”“轼”“铈”“舐”“弑”“谥” “筮” “奭”“噬”“澨”“螫”,按照上述编码方法可以得到以下编码: “仕”编码是shiōbā,“贳”的编码是shiōdā, “昰”的编码是shiōfā, “莳”的编码是shiōgā,“栻”的编码是shiōhā,“轼”的编码是shiōjā,“铈”的编码是shiōkā,“舐”的编码是shiōlā,“弑”的编码是shiōpā, “谥”的编码是shiōqā, “筮”的编码是shiōbbā, “奭”的编码是shiōddā,“噬”的编码是shiōffā“澨”的编码是shiōggā,“螫”的编码是shiōhhā。

汉语普通话非常用语素义集合的编码:汉语普通话常用语素都有数量不等的语素义,基于集合理论,汉语普通话非常用语素的全部语素义是其各个语素义组成的一个集合,汉语普通话非常用语素的语素义集合可以按照以下方法编码:汉语普通话非常用语素的语素义集合编码=汉语普通话非常用语素编码+汉语普通话语义集合标识编码,本发明用1个拉丁编码字符y来设计汉语普通话语义集合标识编码,字母y为语义注释信息集合的汉语拼音缩写,例如:shiōbāy表示“仕”这个汉语普通话非常用语素的全部义项。

汉语普通话非常用语素义的编码:汉语普通话非常用语素义的编码可以按照以下方法编码:汉语普通话非常用语素义编码=汉语普通话非常用语素编码+汉语普通话语义标识编码。

例如:“仕”这个汉语普通话非常语素在根据《现代汉语词典》(第5版),有2个语素义,比照《现代汉语词典》(第5版)中此语素各义项的排序,按照上述编码方法进行编码,可以得到以下编码:“①旧指做官:出~”这个语素义的编码是shiōbāay,“②姓”这个语素义的编码是shiōbāāy。

无同音语素的汉语普通话常用语素和汉语普通话非常用语素的编码:无同音语素的汉语普通话常用语素和汉语普通话非常用语素,其汉语普通话常用语素标识编码和汉语普通话非常用语素标识编码可省略,例如:汉语普通话常语素“能”没有同音语素,其汉语普通话常用语素标识编码cā可省略,所以其编码是nengē。

汉语普通话儿化语素的编码:“儿化”是汉语的特殊音变现象之一,指特殊的非音节语素“儿”对它的前面的音节施加影响,从而使它前面的音节的韵母发生音质的变化,带上一种卷舌的音色。语言学家赵元任先生说:“卷舌韵尾‘儿’,或确却地说从‘里’‘日’‘儿’派生出来的同音后缀,是官话中仅有的非音节语素”,《汉语拼音方案》规定:“韵母儿写成er,用作韵尾时写成r”,所以为了编码符合语言学原理和《汉语拼音方案》,本发明中特殊语素“儿”仅用一个编码字符“r”进行编码。

汉语普通话常用短语的编码:汉语普通话短语是由2个或2个以上汉语普通话语素构成的,符合汉语普通话语法规则的,有语义的,大于语素小于句子的汉语普通话信息单位,汉语普通话信息编码体系有①语素、词、词组 和句子(4级汉语普通话信息编码体系)②语素、短语 和句子(3级汉语普通话信息编码体系)2类,计算机甄别汉语普通话语素、词和词组是个非常难处理的技术难题,使用3级汉语普通话信息编码体系编码减少了一个编码层级,计算机和机器人只需要进行语素、短语和句子汉语普通话信息编码识别就可以了,汉语普通话信息数据库因而可以简化,汉语普通话信息处理效率和性能也因而可以改进。

计算机甄别普通话语素、词和词组汉语是个非常难处理的技术难题,本发明采用以下编码规则来降低这个技术问题的难度,汉语普通话单音节词是由一个汉语普通话语素(单音节儿化词算2个语素,其中r单独算一个特殊语素)构成的汉语普通话信息,因而适用汉语普通语素编码规则,由一个汉语普通话多音节语素构成的汉语普通话多音节词信息,适用汉语普通语素编码规则,由二个或二个以上汉语普通话语素构成的汉语普通话多音节词信息,适用汉语普通话短语编码规则,汉语普通话词组信息适用汉语普通话短语编码规则。

1986年北京航空航天大学等单位利用计算机进行大规模的汉语词频统计,选取母体3亿汉字,从中抽样2千余万汉字,研制了 《信息处理用现代汉语常用词词表》 ,这个词表中有一级常用词(多音节词)7055条,二级常用词(多音节词)29355条,单音节词2606条(按汉语普通话语素编码规则编码),由一个汉语普通话多音节语素构成的汉语普通话多音节词(例如:咖啡、慷慨)约413条(按汉语普通话语素编码规则编码),由此可知汉语普通话常用短语约有35997条,用字符编码标识汉语普通话常用短语和非常用短语,可以使计算机和机器人优先处理汉语普通话常用信息,从而达到提高其汉语普通话信息处理性能的目的。

汉语普通话短语的同音现象与汉语普通话语素的同音现象相比要轻微的多,例如:《现代汉语词典·第5版》 双音节词43171条,同音率18.33%,汉语普通话短语“意义”的同音词最多,仅有7个同音短语,分别是仡仡、异议、奕奕、意译、熠熠、翼翼、鶂鶂 ,所以汉语普通话常用短语的编码与汉语普通话语素的编码相比要简单地多,汉语普通话常用短语的编码可以按照以下方法编码:汉语普通话常用短语的编码=汉语普通话常用短语汉语拼音汉语拼音全拼编码+汉语普通话常用短语标识编码。

为了标识各个不同的汉语普通话常用短语,本发明选择1个声码编码字符t(t为同音的汉语普通话常用短语的汉语拼音缩写)与5个调码编码字符ā、ē、ī、ō、ū 的字符组合tā、tē、tī、tō、tū、 ttā、ttē、ttī、ttō、ttū作为汉语普通话常用短语标识编码,没有同音短语超过10个的汉语普通话常用短语,所以也就没有必要再设计其他汉语普通话常用短语标识编码,这种编码方法的原理是以声码和调码编码字符构造出一种类视音节却无法拼读的字符编码作为汉语普通话常用短语标识编码放在汉语普通话常用短语拼音编码的后面来标识各个汉语普通话常用同音短语,从而达到不重码的设计目的。

不选择a、e、i、o、u、v(代替ü)这6个韵码编码字符,是因为这6个韵码编码字符与调码字符会构组拼音编码易致计算机识记错误(例如:á、ó),不选择m、n这2个声码字符,是因为是因为这2个编码字符可构组特殊拼音易致计算机识记错误(例如:、ń),不选择r这个编码字符,是因为这个编码字符被用于非音节语素“儿”的编码,不选择b、d、f、g、h、j、k、l、p、q这10个编码字符是因为这些编码字符被用于汉语普通话非常用语素的编码,不选择c、s、w、x、z这5个编码字符是因为这些编码字符被用于汉语普通话常用语素的编码,不选择y这个编码字符,是因为这个编码字符被用于汉语普通话语义信息的编码。

例如:汉语普通话常用短语“公正”有1个常用同音语素,按照其笔画数和相同笔画数第一笔横竖撇点折以此类推的顺序排序,分别是公正、公证,按照上述方法编码可以分别得到以下编码: “公正”的编码是gongāzhengōtā,“公证”的编码是gongāzhengōtē。

汉语普通话常用短语义集合的编码:汉语普通话常用短语都有数量不等的短语义,基于集合理论,汉语普通话常用短语的全部短语义是其各个短语义组成的一个集合,汉语普通话常用短语的短语义集合可以按照以下方法编码:汉语普通话常用短语的短语义集合编码=汉语普通话常用短语编码+汉语普通话语义集合标识编码,本发明用1个拉丁编码字符y来设计汉语普通话语义集合标识编码,字母y为语义信息的汉语拼音缩写,例如:gongāzhengōtāy表示“公正”这个汉语普通话语素的全部义项,gongāzhengōtēy表示“公正”这个汉语普通话语素的全部义项。

汉语普通话常用短语义的编码:汉语普通话常用短语义的编码可以按照以下方法编码:汉语普通话常用短语义编码=汉语普通话常用短语编码+汉语普通话语义标识编码,例如:“公安”这个汉语普通话常用短语在根据《现代汉语词典》(第5版),有2个短语义,比照《现代汉语词典》(第5版)中此短语各义项的排序,按照上述编码方法进行编码,可以得到以下编码:“①社会整体(包括社会秩序、公共财产、公民权利等)的治安:~局 ~人员”这个短语义的编码是gongāanāay,“②指公安人员:一位老~”这个短语义的编码是gongāanāāy。

汉语普通话非常用短语的编码:《信息处理用现代汉语常用词词表》中未收录的汉语普通话短语即为汉语普通话非常用短语,汉语普通话非常用短语的数量是无法穷尽的,为了计算机更好地进行汉语自然语言处理,则必须对汉语普通话非常用短语进行构成分析,将其分拆为若干个汉语普通话常用短语、汉语普通话常用语素和汉语普通话非常用语素等汉语普通话信息编码单元,构成汉语普通话非常用短语的汉语普通话常用短语、汉语普通话常用语素和汉语普通话非常用语素编码和对应的汉语普通话短语标识编码构成汉语普通话非常用短语编码,所述汉语普通话非常用短语标识编码用1个拉丁编码字符

汉语普通话非常用短语义集合的编码:汉语普通话非常用短语都有数量不等的语素义,基于集合理论,汉语普通话非常用短语的全部短语义是其各个短语义组成的一个集合, 汉语普通话非常用短语的语素义集合可以按照以下方法编码:汉语普通话非常用短语的短语义集合编码=汉语普通话非常用短语编码+汉语普通话语义集合标识编码,本发明用1个拉丁编码字符y来设计汉语普通话语义集合标识编码,字母y为语义信息的汉语拼音缩写,例如:

汉语普通话非常用短语义的编码:汉语普通话非常用短语义的编码可以按照以下方法编码:汉语普通话非常用短语义编码=汉语普通话非常用短语编码+汉语普通话语义标识编码,例如:“摆摊子”这个汉语普通话非常用短语,在《现代汉语词典》(第5版)中的3个短语义,按照上述编码方法进行编码,可以得到以下编码:“①在路旁或市场中陈列货物出售。”的编码是

汉语普通话儿化短语的编码:带有儿化语素的汉语普通话短语即为汉语普通话儿化短语,《汉语拼音方案》规定:“韵母儿写成er,用作韵尾时写成r”,所以本发明选择用编码字符“r”作为汉语普通话儿化短语标识编码,放在放在发生音变的音节的调码之后来标识儿化短语,其他编码与普通汉语普通话常用短语和非常用短语编码相同,例如:《现代汉语词典》(第5版)中儿化短语“①今儿”的编码是jinārtā,儿化词“②筋儿”的编码是

汉语普通话离合短语的编码:汉语中有一类特殊的短语,这类短语由固定搭配的语素构成,这些有固定搭配的构成语素可以聚合成短语,也可以彼此分离,其间可插入其他语言成分组合成符合语法规则的短语(例如:化妆、化装),这类特殊的词就是汉语离合短语简称离合短语,《现代汉语词典》第5版收录离合短语约4647条,计算机自动分词、统计、识别、翻译等方面,离合短语问题都是一个难题,本发明采用以下编码规则来降低这个技术问题的难度,本发明规定离合短语的构成语素聚合成汉语普通话常用短语时按照汉语普通话常用短语的编码规则编码,离合短语的构成语素无论离合,组合成汉语普通话非常用短语时按照汉语普通话非常用短语的编码规则编码。

例如:“化妆”这个离合短语的构成语素“化

汉语普通话轻声短语的编码:“轻声”也是汉语的特殊音变现象之一,指人在说话时,处于语流中的某个语音会丢失原有的声调,被读得又短又轻,带有轻声音节的短语即为轻声短语。

轻声短语主要分为三类,第一类为必读轻声短语,此类轻声词只有1种读音,《现代汉语词典》必读轻声短语的标注方法是:其轻读音节前加圆点,例如:摆摊子(注音为bǎitān·zi),第二类轻声词为两读轻声短语,此类轻声词有2种读音,其轻读音节在一般轻读,间或重读,《现代汉语词典》两读轻声短语的标注方法是:轻读音节上标调号,并前加圆点,例如:“中堂(注音为zhōng·táng)”表示此词的tang音节一般轻读,有时也可读阳平,第三类轻声词为离合轻声短语,也就是其拼读音节有轻读和重读变化的离合短语,《现代汉语词典》中离合轻声短语的标注方法是:轻读音节上标调号和圆点,并加斜短横,例如:“起来”(注音为qǐ∥·lái和∥qǐ∥·lái)表示①此词的语素聚合成汉语普通话常用短语的情况下有qi音节和lai音节都轻读、qi音节和lai音节都重读、qi音节重读,lai音节轻读3种读音,②其构成语素彼此分离,其间插入其他语言信息构成汉语普通话非常用短语(例如:起得来)的情况下有qi音节和lai音节都重读1种读音。

必读轻声短语的编码:必读轻声词按前述普通汉语普通话常用短语和非常用短语的编码方法编码即可,例如:《现代汉语词典》(第5版)中收录的汉语普通话非常用短语“摆摊子”(注音为bǎitān·zi)的编码为

两读轻声短语的编码:将这类轻声短语分解成2个短语,按前述汉语普通话常用短语和非常用短语的编码方法编码即可,例如:《现代汉语词典》(第5版)中收录的两读轻声短语“中堂(注音:zhōng·táng)”的tang音节一般轻读,有时也可读阳平,将其分解为“中堂(注音:zhōng·tang)”和“中堂(注音:zhōngtáng)” 2个汉语普通话常用短语,然后按照前述汉语普通话常用短语的编码方法进行编码,从而得到以下编码:“中堂(注音:zhōng·tang)”的编码为zhongātangū,“中堂(注音:zhōngtáng)”的编码为zhongātangē。

离合轻声短语的编码:将这类轻声短语按其读音分解成数个短语,按前述汉语普通话离合短语的编码规则编码即可,例如:《现代汉语词典》(第5版)收录的离合轻声短语“起来”①“起”语素和“来”语素聚合成汉语言普通话常用短语时有3个读音,按其读音将其分解为“起来(注音:·qi·lai)”、“起来(注音:qǐlái)”和“起来(注音:qǐ·lai)”3个汉语普通话常用短语,然后按照前述汉语普通话常用短语的编码规则进行编码,从而得到以下编码:“起来(注音:·qi·lai)的编码为qiūlaiū,“起来(注音:qǐ·lai)”的编码为qiīlaiū,“起来(注音:qǐlái)”的编码为qiīlaiē,②“起”语素和“来”语素彼此分离,其构成语素之间插入其他语言成分组成汉语普通话非常用短语(例如:起得来)时有1个读音,按照前述汉语普通话非常用短语的编码方法编码即可,例如:“起得来(qi音节和lai音节都重读)”的编码为

汉语普通话特殊信息的编码:汉语普通话句子中有一类包含拉丁字母、阿拉伯数字、特定符号的特殊信息,例如:CT、HSK、C

在具体实施中,以要求机器人①分析“黑天鹅飞来又飞走了,昨天A股市场这只股票多头战败空头,换手率超过25%,郝头儿得到了消息,终于可以松一口气了。”这个汉语句子,②解答“郝头儿是否做多头这个问题”,③回答“郝头儿是否做多头这个问题”,“是”机械手按绿灯,“不是”机械手按红灯,“不知道”机械手按黄灯为例,如何使计算机理解这个句子,并可以进行有效的人机对话,可以采取以下步骤:

第1步:首先对这个汉语句子进行分析,找出为什么这个汉语句子对于计算机和机器人来说很难理解,主要原因是“黑天鹅”和“空头”等汉语普通话信息是比较难理解,这些汉语普通话信息需要注释其信息,将这些难理解的汉语普通话信息解释清楚了,计算机和机器人借助相关的自然语言处理程序就可以比较容易地理解此句的句义,这些短语的注释信息如下:

1、“黑天鹅”:①鸭科天鹅属的一种大型游禽②指非常难以预测的、极其罕见的、有重大负面影响的危机和事件。

2、“A股”:指人民币普通股票,由我国境内(不含台港澳)的公司发行,供境内投资者以人民币认购和交易。

3、“多头”:①从事商品、有价证券交易的人,预料货价将涨而买进现货或期货,伺机卖出,这种做法叫多头(因为买进的货等待卖出,所以叫多头,跟空头相对)②作多头的人③不止一个方面的:~领导

4、“战败”:“①打败仗,在战争中失败②战胜(敌人);打败(敌人)”

5、“空头”:①从事商品、有价证券交易的人,预料货价将下跌,于是卖出期货,希望跌价后再买回或补进,获取差额利益,用这种方式操作的人在卖出后至未买回或补进前,手中并无实物,故称空头 ②作空头的人

6、“换手率”:也称周转率,指在一定时间内市场中股票转手买卖的频率,是反映股票流通性强弱的指标之一。

7、“头儿”:①物体的顶端或末梢:山~②事情的起点或终点:话~③物品的残余部分:布~④头目: 他是这一帮人的~方面⑤心挂两~

8、郝:姓

第2步:按照前述的编码方法分别对这个句子的需要解释的汉语普通话语素和汉语普通话短语的释义进行编码,然后再将编码中出现的7个特殊编码字符ü、ā、ē、ī、ō、ū、

①.

②. x_ hei a_c a_ tian a_e e_ x_a_y fei a_c a_ lai e_c a_ you o_c a_ feia_c a_ zou i_ le u_, zuo e_tian a_ x_ A gu i_c i_x_ay shi o_chang i_ zhe o_ca_ zhi a_c i_ gu i_piao o_ x_duo a_c a_ tou e_c a_ x_ a_y x_ zhan o_cī bai o_c a_ x_a_y kong a_tou e_a_y , x_ huan o_cī shou i_c a_ lv o_ci_by x_ay chaoa_guo o_ 25% ,hao i_c e_ x_tou e_r x_ e_y de e_dao o_ leū xiao a_xiū , zhonga_yu e_ ke i_yi i_ song a_ yi i_c a_ kou i_c a_ qi o_rc a_ le u_.

第3步:将得到的编码根据ASCII码编码规则转换为二进制码,并将转换后的二进制码发送给机器人,机器人借助相关的自然语言处理程序即可理解此句的句义。

第4步:向机器人提出任务,要求机器人①分析“黑天鹅飞来又飞走了,昨天A股市场这只股票多头战败空头,换手率超过25%,郝头儿得到了消息,终于可以松一口气了。”这个汉语句子,②解答“郝头儿是否做多头这个问题”,③回答“郝头儿是否做多头这个问题”,“是”机械手按绿灯,“不是”机械手按红灯,“不知道”机械手按黄灯为例,当机器人收到任务后,借助相关的自然语言处理程序可以比较容易地理解任务要求和解答问题,并给予一个反馈和回答,根据机器人的反馈和回答(绿灯亮/红灯亮/黄灯亮)机器人管理员就可以验证设计的一种汉语普通话语义数据编码方法及系统是否能够有效和正确地进行人机对话。

从上面的编码演示过程中,可以清楚地发现用汉字和汉字组合表达的信息,存在多音多义问题,不便于人机对话,使用本发明可以做到一码一义,而且离合短语、轻声短语和儿化短语都有独特的编码标识,降低了计算机和机器人理解汉语普通话信息的难度,从而使汉语普通话人机对话更易实现。

本发明提供的一种汉语普通话语义数据编码方法及系统,用26个拉丁字母、6个特殊编码字符ā、ē、ī、ō、ū、

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参阅即可,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明,对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现,因此本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号