首页> 中国专利> 一种基于语料库的近义词辨析方法

一种基于语料库的近义词辨析方法

摘要

本发明公开一种基于语料库的近义词辨析方法,所述辨析方法包括以下步骤:确定语料研究领域、类型及规模,采集整理相关词语并建立语料库,对建立语料库进行实时更新,对建立语料数据库进行数据处理,对数据处理后的词语进行识别分析,对识别过后的词语进行近义词辨析,对辨析结果进行统计。该基于语料库的近义词辨析方法依靠互联网为数据来源并且依靠计算机辅助工具为使用方式,可以对近义词同时进行定性和定量辨析,从而能够使得近义词辨析精度提高,便于研究员和学者对近义词辨析进行深度研究和学习。

著录项

  • 公开/公告号CN112329455A

    专利类型发明专利

  • 公开/公告日2021-02-05

    原文格式PDF

  • 申请/专利权人 渤海大学;

    申请/专利号CN202011235719.5

  • 发明设计人 王大鹏;

    申请日2020-11-06

  • 分类号G06F40/284(20200101);G06F40/253(20200101);G06F40/30(20200101);G06F40/247(20200101);

  • 代理机构31355 上海思牛达专利代理事务所(特殊普通合伙);

  • 代理人雍常明

  • 地址 121013 辽宁省锦州市高新区科技路19号

  • 入库时间 2023-06-19 09:49:27

说明书

技术领域

本发明涉及词义信息处理技术领域,具体为一种基于语料库的近义词辨析方法。

背景技术

语料库,是指经过科学取样和加工的大规模电子文本库,其特点包括三个:一是语料库中存放的是在实际使用中真实出现过的语言材料,二是语料库是承载语言知识的基础资源,但不等于语言知识,三是真实语料需要经过加工,其作用是通过借助计算机分析工具,让研究者可以开展相关的语言理论及应用研究,而在现有语料研究当中,尤其对近义词的辨析研究颇多,而且近义词的应用在实际生活中也经常见到,例如公务员和事业单位考试就经常考察到近义词词义辨析的题目,这是因为对近义词进行深度剖析有利于我们对于语境和文章的深入解析,有利于提升我们的思想造诣,专利号为CN110377904A公开了一种基于语料库的近义词辨析方法,其基于语料库的近义词辨析方法较差,且辨析精度不高,容易影响研究人员正常工作进程,因此发明出一种基于语料库的近义词辨析方法变得尤为重要;

现有的基于语料库的近义词辨析方法,不可以对近义词同时进行定性和定量辨析,从而不能够使得近义词辨析精度提高,不便于研究员和学者对近义词辨析进行深度研究和学习,为此,我们提出一种基于语料库的近义词辨析方法。

发明内容

本发明的目的在于提供一种基于语料库的近义词辨析方法,以解决上述背景技术中提出的现有的基于语料库的近义词辨析方法,不可以对近义词同时进行定性和定量辨析,从而不能够使得近义词辨析精度提高,不便于研究员和学者对近义词辨析进行深度研究和学习的问题。

为实现上述目的,本发明提供如下技术方案:一种基于语料库的近义词辨析方法,所述辨析方法包括以下步骤:

(1)确定语料研究领域、类型及规模;

(2)采集整理相关词语并建立语料库;

(3)对建立语料库进行实时更新;

(4)对建立语料数据库进行数据处理;

(5)对数据处理后的词语进行识别分析;

(6)对识别过后的词语进行近义词辨析;

(7)对辨析结果进行统计。

优选的,步骤(1)中所述语料研究领域是指根据语料研究目的、研究方向和研究用途来确定所收集到语料范围,所述语料研究类型是指根据用户需求以及研究范围来确定所研究的语料类型,所述语料研究规模是指根据实际操作能力和应用水平来确定语料的收集数量,其中,语料类型包括单语语料类型、双语语料类型或多语语料类型中的一种或多种。

优选的,步骤(2)中所述语料库与互联网通信连接,所述语料库依托计算机辅助工具进行语料检索和信息处理,所述信息处理是指计算机辅助工具利用互联网来对所收集到的词语进行释义解析和数据筛选,其中,计算机辅助工具为Antconc。

优选的,步骤(3)中所述实时更新包括及时对新词进行添加以及对旧词新意进行及时补充。

优选的,步骤(4)中所述识别分析是指对关键字信息和语义信息进行分析,所述关键字信息由近义词中共同出现的的字来确定,所述语义信息由词语内容来确定。

优选的,步骤(5)中所述数据处理是通过分类标准对词语进行分类,所述分类标准是依据关键字信息和语义信息。

优选的,步骤(6)中所述近义词辨析是指对根据分类过后的近义词进行定量辨析和定性辨析。

优选的,所述定量辨析是指根据关键字信息和语义信息利用计算机辅助工具对相关近义词语料进行汇总查看;

所述定性辨析是指利用计算机辅助工具将关键词一致的词语筛选出来,所述定性辨析包括词义轻重、涵盖范围、适用对象、语体色彩、感情色彩、搭配关系、语法功能、词义侧重点、主动和被动及整体概念与个体概念。

优选的,所述词义轻重是指某些近义词表示的事物在内容及概念上一致,但近义词在表达的过程中其语义轻重程度具有区别,所述涵盖范围是指某些近义词表示的词义相近,但其覆盖的范围大小有所不同,所述适用对象是指某些近义词表示的概念相同,但适用对象不同,具有上下及内外区别,所述语体色彩是指某些近义词意义相同或相近,但使用场合不同,所述感情色彩是指某些近义词词义附带表现为感情上的某种倾向,其所表达情调不同,所述搭配关系是指某些近义词各方面基本相同,但搭配有别,所述语法功能是指某些近义词的差别表现在于句法功能上的不同,所述词义侧重点是指某些近义词的词义方向不同,所述主动和被动是指某些近义词所表示动作的施事者与受事者不同,所述整体概念与个体概念是指某些近义词适用于整体,则有些适用于个体。

本发明的上述技术方案具有如下有益的技术效果:通过采集整理相关词语并建立语料库有利于对后续近义词进行定量及定型辨析提供信息依据,通过对语料库进行实时更新有利于保证所收集的数据在随时间变化的同时都能具有一定的时效性,进而以确保后续近义词辨析的辨析准确度以及提高辨析精度,通过对于语料库进行识别分析有利于确定分类标准和分类依据,便于后续对语料库进行数据处理,通过对语料库进行数据处理有利于对近义词进行同质化分类,便于减少后续辨析工作量,通过采用定量辨析有利于掌握近义词的使用频率和出现场景,便于研究员和学者对近义词进行宏观认识,通过采用定性辨析有利于对近义词进行深度区别和理解,便于研究员和学者对近义词在微观上的把控,从而有利于进一步提高近义词辨析精度。

附图说明

图1为本发明提出的一种基于语料库的近义词辨析方法的结构示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。

如图1所示,一种基于语料库的近义词辨析方法,辨析方法包括以下步骤:

(1)确定语料研究领域、类型及规模;

(2)采集整理相关词语并建立语料库;

(3)对建立语料库进行实时更新;

(4)对建立语料数据库进行数据处理;

(5)对数据处理后的词语进行识别分析;

(6)对识别过后的词语进行近义词辨析;

(7)对辨析结果进行统计。

步骤(1)中语料研究领域是指根据语料研究目的、研究方向和研究用途来确定所收集到语料范围,语料研究类型是指根据用户需求以及研究范围来确定所研究的语料类型,语料研究规模是指根据实际操作能力和应用水平来确定语料的收集数量,其中,语料类型包括单语语料类型、双语语料类型或多语语料类型中的一种或多种。

步骤(2)中语料库与互联网通信连接,语料库依托计算机辅助工具进行语料检索和信息处理,信息处理是指计算机辅助工具利用互联网来对所收集到的词语进行释义解析和数据筛选,其中,计算机辅助工具为Antconc,有利于缩小词语分类范围,从而减少研究者员和学者的词语筛选工作量。

步骤(3)中实时更新包括及时对新词进行添加以及对旧词新意进行及时补充,有利于保证所收集的数据在随时间变化的同时都能具有一定的时效性。

步骤(4)中识别分析是指对关键字信息和语义信息进行分析,关键字信息由近义词中共同出现的的字来确定,语义信息由词语内容来确定,有利于确定分类标准和分类依据,便于后续对语料库进行数据处理。

步骤(5)中数据处理是通过分类标准对词语进行分类,分类标准是依据关键字信息和语义信息,有利于对近义词进行同质化分类,便于减少后续辨析工作量。

步骤(6)中近义词辨析是指对根据分类过后的近义词进行定量辨析和定性辨析

定量辨析是指根据关键字信息和语义信息利用计算机辅助工具对相关近义词语料进行汇总查看,有利于掌握近义词的使用频率和出现场景,便于研究员和学者对近义词进行宏观认识;

定性辨析是指利用计算机辅助工具将关键词一致的词语筛选出来,定性辨析包括词义轻重、涵盖范围、适用对象、语体色彩、感情色彩、搭配关系、语法功能、词义侧重点、主动和被动及整体概念与个体概念,有利于对近义词进行深度区别和理解,便于研究员和学者对近义词在微观上的把控,从而有利于进一步提高近义词辨析精度。

词义轻重是指某些近义词表示的事物在内容及概念上一致,但近义词在表达的过程中其语义轻重程度具有区别,涵盖范围是指某些近义词表示的词义相近,但其覆盖的范围大小有所不同,适用对象是指某些近义词表示的概念相同,但适用对象不同,具有上下及内外区别,语体色彩是指某些近义词意义相同或相近,但使用场合不同,感情色彩是指某些近义词词义附带表现为感情上的某种倾向,其所表达情调不同,搭配关系是指某些近义词各方面基本相同,但搭配有别,语法功能是指某些近义词的差别表现在于句法功能上的不同,词义侧重点是指某些近义词的词义方向不同,主动和被动是指某些近义词所表示动作的施事者与受事者不同,整体概念与个体概念是指某些近义词适用于整体,则有些适用于个体。

需要说明的是,本发明为一种基于语料库的近义词辨析方法,通过明确语料收集领域、类型及规模来确定语料库收集的范围大小、语料库收集的类型以及语料库的收集数量,并通过与互联网通信连接来建立语料库,有利于为后续近义词辨析工作提供数据支持和信息服务,并利用互联网强大数据处理分析能力为依托,并结合计算机辅助工具来为语料库进行实时更新,有利于确保后续辨析工作的准确性,然后通过对关键字和语义信息进行解析来确定词语分类标准,并基础结合计算机辅助工具来为词语进行分类管理,有利于缩小词语分类范围,从而减少研究者员和学者的词语筛选工作量,然后对分类过后的词语进行定量分析,有利于研究员和学者掌握近义词的使用频率和出现场景,并结合文章和断句等案例,便于研究员和学者对近义词进行宏观认识,由于不同近义词都存在有它的固有特点,然后通过采用定性辨析有利于对近义词进行深度区别和理解,便于研究员和学者对近义词在微观上的把控,从而有利于进一步提高近义词的辨析精度。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号