首页> 中国专利> 社群特有表现检测装置及方法

社群特有表现检测装置及方法

摘要

在涉及社群固有表现的收集的现有技术中,有关于专业领域中的名词·复合名词组成的专业术语的收集的技术,但是在名词以外的新表现中应用困难。另外,即使在未知词汇·新词的收集的领域中,对象也大体限于名词,未提出有规则地收集新表现的方法。从规定的社群中使用的文本集合中,通过(a)抽出社群中固有的n元语法搭配的单元、(b)选择有可能成为固有表现的核的词干的单元、(c)将所述选择的词干在其前后扩展的单元、(d)根据语法选择所述已扩展的词干的单元,来解决上述问题。

著录项

  • 公开/公告号CN101223521A

    专利类型发明专利

  • 公开/公告日2008-07-16

    原文格式PDF

  • 申请/专利权人 惠普开发有限公司;

    申请/专利号CN200680025802.1

  • 发明设计人 小田弘美;

    申请日2006-07-13

  • 分类号G06F17/21;G06F17/28;G06F17/30;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人张雪梅

  • 地址 美国德克萨斯州

  • 入库时间 2023-12-17 20:28:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-09-04

    未缴年费专利权终止 IPC(主分类):G06F17/21 授权公告日:20100616 终止日期:20120713 申请日:20060713

    专利权的终止

  • 2010-06-16

    授权

    授权

  • 2008-09-10

    实质审查的生效

    实质审查的生效

  • 2008-07-16

    公开

    公开

说明书

技术领域

本发明涉及根据语言形成理论,从社群中使用的表现中检测该社群特有表现的检测装置及方法。

背景技术

在围绕特定的兴趣或者题目进行活跃讨论的人们的社群中,往往发生该社群独自的表现。例如,在讨论日本酒的社群中,使用“老ね(ヒネ)、ヒキのぁる、キレる、...”这样的表现。在喜好葡萄酒的人们之间可以看到“黑体(fullbody)、中度干(medium dry)、桶香(cask flavor)、后味(aftertaste)、...”这样的表现。这些并不是具有专业知识的人们使用的难以理解的专业术语,而是只要是喜好葡萄酒或者日本酒的人,作为表达其味道的表现,能自然理解其意思的一种词汇。另外,作为高中生·大学生等的“年青人语语言”而被收集的表现也可以认为是社群固有的表现。最近,在聚集于因特网的公告板等上的人们形成的社群中可见到许多新的表现。

专利文献1:特开2002-297589“未知语汇收集方法”;

专利文献2:特开平5-113997“词典数据收集装置”;

专利文献3:特开2004-265440“未知词汇登记装置和方法以及存储介质”;

专利文献4:特开2005-309853“专业的记述和非专业的记述之间的词汇变换方法·程序·系统”;

非专利文献1:中川祐志、汤本紘彰&辰則(2003),根据出现频率和连接频率的专业术语的抽出,自然语言处理,10(1),27-45;

非专利文献2:辻慶太,&芳鐘冬樹(2004),针对专业领域中成为重要的新词的确定的基础研究,语言处理学会第10届年会发表论文集(pp.189-191);

非专利文献3:藤井敦、伊藤克亘、秋葉友良(2003),IPA未开发软件创造事业“CYCLONE:最强事典网站的构筑”,www.ipa.go.jp/about/news/event/pdf/29A7_fujii.pdf;

非专利文献4:米川明彦(1998)“年青人语言的科学化”东京:明治书院。

发明内容

在涉及社群固有表现的收集的现有技术中,主要有关于专业术语的收集和未知词汇的收集的技术。关于专业术语的收集有以非专利文献1、非专利文献2开始的研究,但是大体上是关于专业领域中的由名词、复合名词组成的专业术语的收集。通过这样的限定,能使用根据着眼于单名词的重叠或者连接关系等的得分的算法,但是难于应用到名词以外的表现。

另外,关于未知词汇·新词的收集,在词典的编纂中也是重要的题目,特开2002-297589“未知词汇收集方法”(专利文献1)、特开2004 265440“未知词汇登记装置和方法以及存储介质”(专利文献3)等已有专利中存在处理该题目的技术。

但是,像在专利文献3等的报告中那样,也有检测日本语中的未知词汇困难的问题,特开2002-297589“未知词汇收集方法”(专利文献1)的方法也是那样,不过基本上多通过手工或者推断方式收集词典中未登记的词汇。另外,在这些未知词汇的检测中也大体限于名词,真正聚焦在新表现的收集上的很少。

另外,在社会语言学中,存在进行高中生·大学生使用的“年青人语言”的收集和分析的领域(非专利文献4)。作为社群固有的表现的现有研究,认为接近于本发明,但是在社会语言学领域中,未提出有规则地收集年青人语言或者流行语的方法。

通过公开以下的装置来解决所述课题。

(1)

一种装置,其特征在于,

从规定的社群中使用的文本集合,检索所述规定的社群中的特有表现,具有以下从(a)到(d)的单元,

(a)抽出所述规定的社群中特有使用的n元语法搭配的单元,

(b)选择有可能成为所述特有表现的核的第一词干的单元,

(c)根据使用所述第一词干的显著性以及取入了所述第一词干的前或后的要素的第二词干的显著性计算出来的值,选择扩展词干的单元,

(d)从所述扩展词干中,根据该语言的语言形成规则,选择所述规定的社群中特有表现的单元。

(2)

再有,根据(1)中所述的装置,其特征在于,包含:通过把规定的术语列表中包含的术语作为关键词进行数据检索,将所述文本集合进行收集的单元。

(3)

再有,根据(1)或(2)中所述的装置,其特征在于,抽出所述n元语法搭配的单元包含:利用多个社群中使用的文本,并根据所述规定的社群中使用的n元语法搭配的显著性与其他社群中使用的n元语法搭配的显著性的比较,抽出所述n元语法搭配的单元。

再有,通过公开以下的方法来解决所述课题。

(4)

一种方法,其特征在于,

从规定的社群中使用的文本集合,检索所述规定的社群中的特有表现,具有以下从(a)到(d)的步骤,

(a)抽出所述规定的社群中特有使用的n元语法搭配的步骤,

(b)选择有可能成为所述特有表现的核的第一词干的步骤,

(c)根据使用所述第一词干的显著性以及取入了所述第一词干的前或后的要素的第二词干的显著性计算出来的值,选择扩展词干的步骤,

(d)从所述扩展词干中,根据该语言的语言形成规则,选择所述规定的社群中特有表现的步骤。

(5)

再有,根据(4)中所述的方法,其特征在于,包含:通过把规定的术语列表中包含的术语作为关键词进行数据检索,将所述文本集合进行收集的步骤。

再有,通过公开以下的程序来解决所述课题。

(6)

一种程序,其特征在于,

从规定的社群中使用的文本集合,检索所述社群中的特有表现,并控制计算机使以下从(a)到(d)的单元进行工作,

(a)抽出所述社群中特有使用的n元语法搭配的单元,

(b)选择有可能成为所述特有表现的核的第一词干的单元,

(c)根据使用所述第一词干的显著性以及取入了所述第一词干的前或后的要素的第二词干的显著性计算出来的值,选择扩展词干的单元,

(d)从所述扩展词干中,根据该语言的语言形成规则,选择所述规定的社群中特有表现的单元。

(7)

再有,根据(6)中所述的程序,其特征在于,包含:通过把规定的术语列表中包含的术语作为关键词进行数据检索,将所述文本集合进行收集的步骤。

根据本发明,收集在希望的社群中使用的表现并理解其含义,对于社群的成员来说交流变得容易,进而能在其身份确认中起作用。另外,也能以用于分析该社群的特征或者性格的为目的。

再有,在商品开发等中,认为分析用户在社群中讨论的内容是有用的,在该情况下收集该社群固有的表现并理解其含义,认为会有大的贡献。

另外,本发明是主要词类间的语法的扩展,也可以应用于其他语言。举英语的例子,“He 747’ed to Chicago.”这样的表现是可能的。这是把飞机的型号动词化。另外,也使用“The web-logging is becoming a social phenomenon.”这样的表现,而这是“Web-log(写入环球网)”这样的动词被名词化了的例子。

附图说明

图1是表示实施本发明的系统例的图。

图2是实施本发明的一部分的PC的框图。

图3是根据本发明的社群固有表现检测装置的框图。

图4是本发明的流程图。

图5是本发明的文本收集的流程图。

图6是判断扩展的词干的适合与否的流程图。

图7是判定扩展的词干是否与语言形成规则一致的流程图。

符号说明

110:用户PC

120:站点服务器(1)

130:站点服务器(2)

140:网络

200:框架

210:存储装置

220:主存储器

230:输出装置

240:中央控制装置(CPU)

250:操作装置

260:网络I/O

具体实施方式

以下说明最佳形态。

第一实施例

图1表示实施本发明的场合的系统例。在网络140上连接用户PC110、站点服务器(1)120、站点服务器(2)130等。通过使用者操作用户PC110,访问在网络140上连接的站点服务器(1)120、站点服务器(2)130等,使用检索工具等取得必要的信息。本发明以在因特网上的检索作为实施例,但是不限于此,只要是能检索信息的系统,也可以在其他方法中应用。使用用户PC上的计算机程序处理取得的信息,能得到希望的结果。

图2表示实施本发明一部分的用户PC。在框架200中,包含存储装置210、主存储器220、输出装置230、中央控制装置(CPU)240、操作装置250、网络I/O260。使用者操作操作装置250,通过网络I/O,从因特网的各站点获得必要的信息。中央控制装置240把在存储装置210中存储的文本处理程序下载到存储器中,使用从因特网检索到的信息进行规定的数据处理,在输出装置230上显示结果。

图3表示根据本发明的社群固有表现检测装置的框图。310表示社群文本检索部,314表示网站,316表示术语列表存储部,320表示文本处理部,330表示n元语法搭配抽出部,335表示显著性判定部,340表示词干选择部,350表示词干的左右扩展部,354表示左侧扩展规则存储部,356表示右侧扩展规则存储部,360表示新表现的选择部,365表示语言规则存储部,370表示输出部。

以下说明它们的细节。

[基本算法]

根据图4表示的流程图,说明本发明的基本算法。

步骤410:社群中使用的文本的收集

步骤420:n元语法搭配的抽出

步骤430:成为新表现的核的要素(词干)的选择

步骤440:扩展词干的选择

步骤450:新表现的选择

[算法的细节]

以下说明算法的细节

(1)规定的社群中使用的文本的收集(图4步骤410)

首先,使用下面的步骤收集在规定的社群中使用的文本集合。参照图5表示的算法。

步骤510:基于术语的指定取得候补文本

步骤520:候补文本的预处理

步骤530:除去无用文本

步骤540:是否检索其他的社群文本

以下说明各步骤的细节。

(1-1)步骤510:候补文本的取得

为实施本发明,使用包含规定的术语的术语列表,收集规定的社群的关系者使用的文本。这里,术语列表在术语列表存储部(图3:316)中存储。

这里所谓的术语列表,是成为一个社群中的关键词的术语的集合。例如,当作为一个社群选择“葡萄酒爱好者”时,术语列表的构成要素是“葡萄酒的品牌”。根据在葡萄酒的术语列表中记载的品牌,使用因特网的检索工具,收集关于葡萄酒的信息(图3:314)。这里,作为品牌,可以指定“Auslese”、“ChateauCure-Bon”、“Chateau Margaux”、“Vin San Toscano”等品牌。把该术语作为关键词,从数据库中检索候补文本。作为数据库只要是存储有这样的信息的数据库均可,而在本实施例中说明使用因特网的检索引擎检索候补文本的方法。

(1-2)步骤520:候补文本的预处理

在预处理中,首先从网页的信息中取出与文本相当的内容进行文本解析。接着,抽出留空格写入的内容词、助词、助动词等,求出表示这些文本的特征的特征值。使用这些特征值,如下除去无用文本。另外,事前选定认为是要收集的文本的典型那样的少量的模式文本。

(1-3)步骤530:除去无用文本

在从因特网的网页自动地收集了这些信息的文本中包含各种信息,大多不能原样不变地利用。在本实施例中,从这些文本中把相当于垃圾文本、列表文本、以及日记型文本的文本作为无用文本除去。

以下说明垃圾文本、列表文本、以及日记型文本。

(a)垃圾文本

垃圾文本是指满足内容词数少的文本或者固有名词比率低的文本等条件的全部的文本。所谓内容词数是在一个网页中记载的文本中包含的内容词的数量。所谓内容词是除助词·助动词外的、相当于名词、动词、形容词、副词的单词。另外,这里所述的所谓固有名词,指社会上一般认识为固有名词的名词。所谓固有名词比率是指在一个网页上出现的固有名词的数量和内容词数的比率。

(b)列表文本

把满足固有名词比率高的文本、内容词和助词·助动词的相关系数低的文本等条件的全部的文本定义为列表信息文本。这是在因特网的网站中把关于某领域中的对象物的信息仅作为列表存储的文本。

(c)日记型文本

把满足某社群的固有名词比率低的文本、和根据内容词n元语法的模式文本的相关度低的文本、以及根据助词·助动词n元语法的模式文本的相关度高的文本等条件的全部的文本定义为日记型文本。这些可以是作为写入个人日记的网站利用的文本、以及关于商场的卖场的网站等需要主要记载其他的信息的文本。根据以上的定义,把垃圾文本、列表文本、以及日记型文本作为无用文本除去。

(1-4)步骤540:是否检索其他的社群文本

通过步骤510到步骤530,收集在规定的社群中使用的文本集合。在步骤540,同样收集在其他社群中使用的文本集合。

接着使用这些收集到的在多个社群中使用的文本集合,选择在这些社群中固有使用的新的表现。

通过以上的步骤,制作在多个社群中使用的文本集合(图3:320)。

(2)n元语法搭配的抽出(图4步骤420)

(2-1)社群固有的搭配抽出

通过统计方法抽出在特定的社群中使用单词级的n-gram collocations(n元语法搭配)的场合显著出现的n元语法搭配。将它们称为社群固有的搭配。说明它们的细节。

所谓n元语法搭配,是指连续一个以上的词,在一个词的场合称为一元语法(Uni-gram),在两个词的场合称为二元语法(Bi-gram),在三个词的场合称为三元语法(Tri-gram)。在本实施例中,使用二元语法、三元语法(图3:330)。

(2-2)通过显著性的判定

通过简单地求n元语法搭配能得到数目很多的n元语法搭配,但是不一定全部n元语法搭配都有效。因此,比较在两个社群中使用的文本集合,选择在一方社群中使用的n元语法搭配有显著地偏于一方出现的n元语法搭配(Z检验)。在本申请的说明书中,比较在两个文本集合中各自的n元语法搭配出现的比率,使用检验其比率差的方法(图3:330)。这里,考虑某n元语法搭配W在两个文本集合d1、d2中共同表现,设其频率是w1、w2。把在文本集合d1中表现的术语的总数设为n1,把在文本d2中的设为n2。于是,W在各个文本集合中表现的比例如下:

(式1)p1=w1/n1,

(式2)p2=w2/n2

这里,当把标本比率作为从实际的数据得到的比率时,p1以及p2是标本比率。

这里,在p1>p2的场合,检验这是否显著,即意味着检验n元语法搭配W是否显著地偏于d1的文本的一方而出现(单侧检验)。

这里,虚无假说(null hypothesis)和对立假说(alternative hypothesis)如下。

H0:pi1=pi2虚无假说

H1:pi1>pi2单侧检验中的对立假说

为进行检验,首先从标本比率推定实际不知道的母比率pihat(式3)。

(式3)pihat=(n1*p1+n2*p2)/(n1+n2)

由此用(式4)计算z,

(式4)z=(p1-p2)/√(pihat*(1-pihat)*(1/n1+1/n2))

在放弃虚无假说而采用对立假说中,在5%的危险率中,必须z>1.65。

这样,对于全部搭配进行检验,能分别选择作为在文本集合中出现的n元语法搭配的、在一方社群中使用的文本中显著地出现的n元语法搭配、以及在另一方社群中使用的文本中显著地出现的n元语法搭配。因此,不会选择在双方社群中共同使用的n元语法搭配。

在本申请实施例中,取出在葡萄酒爱好者使用的文本集合和日本酒爱好者使用的文本集合作为特征表现的二元语法、三元语法的列表,进行Z检验。这里,Z检验的结果,从葡萄酒爱好者使用的文本集合中选择Z值在1.65以上的n元语法。

(3)成为新表现的核的要素(词干)的选择(图4步骤430)

这里,关于通过上述方法抽出的n元语法,从其中取出成为新的表现的核的要素(图3:340)。为此,暂且切断n元语法连锁,制作在那里产生的全部的要素(词素)的列表。从那里除去不可能成为核的要素。这里,作为不成为核的可能性的要素,有助词、助动词、连接词、活用词尾等功能词、“、”、“。”、“?”等区分要素。另外,也除去“平假名-文字”、“片假名-文字”的要素。由此,制作具有成为新表现的核的可能性的要素的列表(核列表)。

(4)扩展词干的选择(图4步骤440)

(4-1)词干的扩展

对于各个词干候补,根据搭配模式的分布,判断是否需要取入前后的要素进行扩展(图3:350)。

这里如式(5)定义Zratio

(式5)Zratio=Z[X]/AvgZ([X][X+1])

这里,所谓Z[X]是现在着眼的n元语法词干的Z值。把核要素作为X,把其上扩展一个词的要素作为[X+1],把扩展两个词的要素作为[X+2]。所谓AvgZ([X][X+1])是从n元语法词干向“右”扩展一个词时的、相当于[X][X+1]的全部(n+1)元语法的词干的Z值的平均值(0<Zratio)。

正确地说,也考虑从n元语法词干向“左”扩展一个词时的AvgZ([X-1[X]])。因此,以下在本申请的说明书中,在说Zratio时,只要不特别说明,包含从n元语法词干向“左”或“右”扩展一个词时的两方。进而,为数据处理方便,取Zratio的对数,来定义(式6)。

(式6)LZ=10*log(Zratio)

(4-2)右侧扩展规则

如图6的算法所示,在从n元语法词干向右扩展一个词时,适用以下的规则(图3:356)。但是[X+1]、以及[x+2]的最后的词是区分要素的场合除外。

在满足第一条件

(i)Z([X],[X+1])>AvgZ([X],[X+1],[X+2]),而且

(ii)LZ>第一阈值

的场合,作为向[X+1]的扩展的候补被选择(610,620,650)。这里,第一阈值在本实施例中取5.0,Z([X],[X+1])是用([X],[X+1])表现的(n+1)元语法词干的Z值,AvgZ([X],[X+1],[X+2])是与[X]、[X+1]、[X+2]相当的全部(n+2)元语法的Z值的平均值。此外,对于在第一条件中使用的LZ的第一阈值设定的高。在该值高的场合,因为即使仅通过Z的值的判定也能充分地判断能作为新表现被认定,所以与Jratio(后述)的值无关,作为有新表现的可能性进行选择。

在满足第一条件即(i)以及(ii)的双方的条件的场合,作为扩展的词干的候补被选择(650)。在不满足(i)的条件的场合不作为扩展的候补被选择(660)。在满足(i)的条件而不满足(ii)的条件的场合,用如下表示的第二条件判别(630,640)。

在满足第二条件

(iii)LZ>第二阈值,而且

(iv)Jratio=Njun/Nall>第三阈值

的场合,作为向[X+1]的扩展的候补被选择(630,640,650)。

对于在第二条件中使用的LZ的第二阈值,在实施例中设定为3.0,仅在LZ比该值大而且Jratio取0.1以上的值时,才判定有新表现的可能性。

这里,所谓Jratio是[X+2]要素是作为区分要素的比例(0=<Jratio=<1)。另外,第三阈值在本实施例中取0.1,Njun是认定为区分要素的先端要素[X+2]的数,Nall是相当于成为对象的[X+2]的(n+2)元语法的数。

在满足第二条件即(iii)以及(iv)的双方的条件的场合,作为扩展的词干的候补被选择(650)。在不满足(iii)以及(iv)的任何一个条件的场合,不选择扩展的词干(660)。

(4-3)左侧扩展规则

基本上与右侧扩展规则相同(图3:354)。上述的(i)、(ii)、(iii)的条件全部相同。但是在(iv)中,区分要素的计数方法不同。在右侧扩展规则中,像在[老][ねる]的例子中表现的[ねる]那样,着眼的动词的活用词尾不被视为区分要素。但是在左侧扩展规则中,在着眼的词干的左侧存在的动词的活用词尾,很难认为可以作为着眼的词干的新的表现的接头词。因此,在该场合作为区分要素被计数。即,在左侧作为区分要素,追加被计数的要素。

(4-4)右侧扩展规则适用例

使用实例说明右侧扩展规则。说明把作为词干选择的フル一テイ一(Z值为147.14)向右侧扩展。

词干              扩展         Z值

[X]               [X+1][X+2]

[フル一テイ一]    [さ]         5.66

[フル一ティ一]    [さ][が]     2.00

[フル一ティ一]    [さ][は]     2.00

这里,着眼的词干是[フル一テイ一]。首先,向右延伸一个进行研究。[フル一ティ一]、[さ]与上述的[X][X+1]对应。

此时的Z值如下,

Z([X][X+1])=Z([フル一ティ一][さ])=5.66

再向右延伸一个研究([X][X+1][X+2])。这里看到两个搭配。即[フル一テイ一][さ][が],以及[フル一ティ一][さ][は]。

[フル一テイ一][さ][が]的Z值=Z([フル一ティ一][さ][が])=2.00

[フル一テイ一][さ][は]的Z 值=Z([フル一ティ一][さ][は])=2.00

这里,把[X+2]的要素,即[が][は],称为kOne要素。如该例那样,在有多个kOne要素的场合,求它们的Z值的平均值。在该场合,因为每一个都是2.00,所以平均值为2.00。

即,AvgZ([X][X+1][X+2])=2.00。

Zratio=Z([X][X+1])/AvgZ([X][X+1][X+2])=5.66/2.00=2.83

LZ=10*log(Zratio)=4.52。

接着,关于该kOne要素,调查是否为表示区分的“区分要素”。即,在“フル一テイ一さ”这样的新的表现的候补后面,检查是否有表示语法上的区分的要素。如果有,则启示该候补(“フル一テイ一さ”)在语法上作为一体的要素处理,成为新表现的候补。这里,[が][は]都是格助词。是表示语法区分的要素。即很难认为与要素(“フル一テイ一さ”)联系形成更大的一体的表现或词。把kOne要素中作为区分要素的比例称为Jratio。这里,因为两个都是区分要素,所以Jratio=2/2=1。

在进行了这些准备的基础上,检测有作为新表现的可能性的对象。首先,检查第一条件。

第一条件

(i)Z([X],[X+1])>AvgZ([X],[X+1],[X+2]),而且

(ii)LZ>第一阈值

(i)的条件,因为Z([フル一ティ一さ][さ])=5.66、以及AvgZ([X][X+1][X+2])=2.00,所以满足(i)的条件。

(ii)的条件,LZ=10*log(Zratio)=4.52,第一阈值=5.0,不满足该条件。因此因为第一条件不满足,所以接着研究第二条件。

第二条件

(iii)LZ>第二阈值,而且

(iv)Jratio=Njun/Nall>第三阈值

(iii)的条件,因为LZ=4.52、第二阈值是3.00所以满足。(iv)的条件,因为Jratio=2/2=1、第三阈值是0.1所以满足。

通过上述,因为满足第二条件,所以从[フル一ティ一]向[フル一テイ一さ]扩展。同时,[フル一テイ一さ]的Z值=Z([フル一テイ一][さ])=5.66。

(4-5)左侧扩展规则适用例

使用实例说明左侧扩展规则。说明把作为词干选择的[受け](Z值为73.01)向左侧扩展。

          词干     扩展      Z值

[X-2]     [X-1]    [X]

          [も]     [受け]    6.83

[に]      [も]     [受け]    2.83

          [女性]   [受け]    6.83

[、]      [女性]   [受け]    2.00

[ぁまり]  [女性]   [受け]    2.00

因为和右侧扩展规则的例同样,所以也向左侧扩展。

首先,检查第一条件。

(i)Z([X-1],[X])>AvgZ([X],[X+1],[X+2]),而且

(ii)LZ>第一阈值

因为Z([X-1][X])=6.83以及AvgZ([X][X-1][X-2])=2.00,所以满足(i)的条件。由于LZ=5.33,第一阈值为5.00,所以(ii)的条件也满足。

通过上述,从[受け]向[女性受け]扩展。同时,[女性受け]的Z值=Z([女性受け])=5.33。

(5)新表现的选择(图4步骤450)

从符合扩展的条件的对象中,把符合词形成规则的对象作为新表现选出(图3:360)。产生新的表现的可能性高的词必须遵从日本语形成规则,该形成规则受限制(图3:365)。为了作为新的表现来选择,需要确认语法扩展发生的部分是否遵守形成名词、动词、形容词、形容动词等的规则。根据图7表示的流程图进行说明。

710:名词化规则

720:动词化规则

730:形容词化规则

740:形容动词化规则

750:在全部条件都不满足的场合,不作为候补进行选择

760:在满足任何一个条件的场合,作为候补进行选择

以下详细说明。

(5-1)名词化规则(步骤710)

符合名词化形成规则的对象,作为词干的扩展的候补被选择。作为名词化,可以举出“词干+后缀词”、“动词连用形名词化”、“复合名词”等。对于每一种,需要确认是否满足作为日本语的规则。

(a)词干+后缀词

在将名词以外的形容词等进行名词化的场合,有在它们的词尾上追加“さ”、“み”等的场合。例如可以举出以下的情形。

“さ”(薄さ、悲しさ、ほめられたさ)

“け”(寒け、ねむけ、吐きけ、かざりけ)

“み”(强み、いやみ)

(b)动词连用形名词化

通过在词干的右侧附加格助词·名词,也能发生把动词连用形作为名词用法的场合。例如,可以举出以下的例子。

从“走る”产生“走り”、“步き”

从“遊ぶ”产生“遊び”

(c)复合名词

被认为是复合名词的对象,作为词干的扩展的候补被选择。例如可以举出以下的例子。

在词尾上附加“米”的场合[掛け][米]、[麴][米]、[纯][米]、[赤][米]

在词尾上附加“香”的场合[バナナ][香]、[吟醸][香]、[熟成][香]

(d)英语的名词化

本发明不仅能应用于日本语,也能应用于外国语。以英语为例说明。在英语中,有时把原来作为名词以外的词而使用的词,作为名词使用。例如,通过附加以下的后缀词被名词化。

“ness”:pleasantness,ugliness

“ing”:gathering

“ful”:earful

“dom”:femidom

“hood”:brotherhood,womanhood

(5-2)动词化规则(步骤720)

与动词化形成规则一致的对象,作为词干的扩展的候补被选择。作为动词化的例子,可以考虑“名词+する”、“动词的一般活用形”等。作为扩展的候补被选择的对象,需要确认是否满足作为日本语的规则。

(a)是否为“名词+动词化后缀词”的形态

在名词上结合“する”、“ぶる”的动词化后缀词、或其活用形的场合,作为词干的动词化扩展的候补被选择。例如,在“お茶”上附加“する”而成为“お茶する”的场合,可以举出在“美人”上附“ぶる”就成为“美人ぶる”。

(b)动词的一般活用形

扩展了的词干,在除去了“名词+动词化后缀词”的形态的、为动词的一般活用形的场合,也作为词干的扩展的候补被选择。例如,作为在名词上附加动词的活用词尾进行动词化的生产的例子,可以举出以下的例子。“デモる、デモらない、デモれば”。同样,可以用该方法制作“ゲバる、ハモる、ツモる、ダ-ゲる”这样的新的动词。

(c)英语的动词化

本发明不仅能应用于日本语,也能应用于外国语。以英语为例说明。在英语中有时把原来作为名词使用的词,作为动词来使用。

Are you gooling?

是把原来为名词的“google”作为“使用google进行检索”这样的动词来使用的例子。

I 747’ed to Chicago.

是把原来为飞机型号的“747”作为“乘747飞机”这样的动词来使用的例子。

此外,通过以下这样的后缀词来动词化。

“ify”:Frenchify

“en”:enliven,soften

“ize”:pluralize

(5-3)形容词化规则(步骤730)

符合形容词化形成规则的对象作为词干的扩展的候补被选择。作为扩展的候补被选择的对象,需要确认是否满足作为日本语的规则。

“い”(しんどい、四角い)

“こい”(ネチつこい)

“ぱい”(おんなつぱい、それつぱい)

(5-4)形容动词化规则(步骤740)

符合形容动词化形成规则的对象作为词干的扩展的候补被选择。作为扩展的候补被选择的对象、需要确认是否满足作为日本语的规则。

“風”(王朝風、レゲ-風)

“な”(マツクな[人])

“げ”(うれしげ、よさげ、なにげ)

在满足以上的步骤710到步骤740的任何一个条件的场合,作为词干的扩展的候补被选择(760)。在哪一个条件都不满足的场合,不作为词干的扩展的候补被选择(750)。

[实验结果]

根据以上的算法,表示使用实际数据的实验结果。此外,在本实验中,作为对象的社群,选取了“讨论日本酒的味觉的社群”和“讨论葡萄酒的味觉的社群”的例子。把日本酒以及葡萄酒的品牌名作为“关键词”,使用因特网的检索工具收集了各自的文本集合。

(1)名词化

(1-1)词干+后缀词

对形容词名词化的例子进行说明。这里,对将形容词“フル一ティ一”名词化作为“フル一ティ一さ”的例子进行说明。

词干          扩展         Z值

[X]             [X+1][X+2]

[フル一ティ一]  [さ]       5.66

[フル一ティ一]  [さ] [が]  2.00

[フル一ティ一]  [さ] [は]  2.00

从[フル一ティ一]到[フル一ティ一さ]的扩展如上所述。

接着,研究被扩展了的词干是否满足名词化形成规则(词干+后缀词)。在把名词以外的形容词等名词化的场合,在这些词上追加“さ”、“み”等。在该实施例中满足该条件。

通过上述,作为新的词干选择“フル一ティ一”的名词即“フル一ティ一さ”。同时,用于“フル一ティ一”+“さ”的判定的LZ值是4.52。

(1-2)动词连用形名词化

说明把关于作为词干选择的[受け](Z值为73.01)向左侧扩展。

扩展              词干      Z值

[X-2]    [X-1]    [X]

         [も]     [受け]    6.83

[に]     [も]     [受け]    2.83

         [女性]   [受け]    6.83

[、]     [女性]   [受け]    2.00

[めまり] [女性]   [受け]    2.00

从[受け]向[女性受け]的扩展如上述。因此,研究被扩展的词干是否满足规则(动词连用形名词化)。[女性]是名词这点是明确的。另外,从[受け]在后面被看作连接格助词的搭配,并认为在进行通过动词连用形的名词化,由于可以认为[女性][受け]是通过动词连用形的名词化,所以也满足该条件。

通过上述,作为新的词干,选择[女性][受け]。同时,用于[女性][受け]的判定的LZ值是5.33。

(1-3)复合名词

对作为词干选择的[雪](Z值是66.96)向左侧扩展进行说明。

词干  扩展         Z值

[X]   [X+1][X+2]

[雪]  [の]         4.00

[雪]  [の][中]     2.00

[雪]  [温]         4.00

[雪]  [温][で]     2.00

[雪]  [室]         4.00

当应用上述条件研究时,可知从[雪]向[雪温]扩展。这里省略详细的说明。接着研究扩展后的词干是否满足名词化形成规则(复合名词)。由于[雪]以及[温]为名词是明确的,所以也满足该条件。

通过上述,作为新的词干,[雪温]被选择。同时,用于[雪温]的判定的LZ值是3.01。

作为其他的复合名词扩展的例子,有以下的例子。

把[米]作为词干,[掛け][米]、[麴][米]、[纯][米]、[赤][米]

把[香]作为词干,[バナナ][香]、[吟醸][香]、[熟成][香]

把[様]作为词干,[マスカツト][様]、[リンゴ][様]、[果実][様]

把[度]作为词干,[マミノ酸][度]、[ァルコ一ル][度]、[日本酒][度]

(2)动词化

(2-1)“名词+动词化后缀词”

说明“名词+する”这样的动词化模式的检测。这里作为词干选择“悪醉い”(Z值是24.01)并向右侧扩展。

左侧扩展        词干     Z值

[X-2] [X-1]     [X]

      [悪醉い]  [する]   4.00

[から][悪醉い]  [する]   2.00

      [使用]    [する]   2.00

当应用上述的条件研究时,能把“悪醉い”向“悪醉いする”扩展作为新的词干。这里省略详细说明。

接着研究被扩展的词干是否满足动词化规则(“名词+する”)。在该例中,因为在名词上结合“する”或者“する”的活用形,所以满足该条件。

通过上述,作为新的词干,选择“悪醉いする”。同时,用于[雪温]的判定的LZ值是3.01。

这里可以认为“悪醉いする”是普通使用的词。和“讨论葡萄酒的味觉的社群”比较,可知在“讨论日本酒的味觉的社君群”中带有显著的差异而出现。

作为其他的动词化扩展的例子,有以下的例子。

把[醸造]作为词干的[醸造][する],把[调和]作为词干的[调和][する],把[登埸]作为词干的[登埸][する],把[倍增]作为词干的[倍增][する]

(2-2)动词的一般活用形

说明在动词根据语法而活用的场合,“词干+扩展部”形成一个新的动词的例子。

例如,从日本酒社群中使用的模式,可以得到[老][ね](读作:ひね)、[老][ねた](读作:ひねた)、[老][ね][が、を(格助词)](读作:ひねが、ひねを)等的数据。

词干   右侧扩展              Z值

[老]   [ねる](读作:ひねる)  2.05

[老]   [ねた](读作:ひねた)  2.05

根据上述算法,老ねる(读作:ひねる)(动词一段活用形)作为候补被选择。这里,[老](读作:おぃ)作为一般名词录入在词典中,作为动词,[老いる](读作:おいる)这样的上一段动词被录入。从数据和动词活用规则,判断发生作为[老ねる](读作:ひねる)这样的下一段动词的扩展。另外,从[老][ね]+[格助词]等的数据,可知发生了动词连用形[老ね](读作:ひね)被作为名词使用的名词化。从这里,可以推测老ねる(读作:ひねる)在该社群中作为新的表现作为共同的语言被使用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号