首页> 中国专利> 基于语义构词约束的汉语二字词抽取方法

基于语义构词约束的汉语二字词抽取方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于语义构词约束的汉语二字词抽取方法属于自然语言处理技术领域，其特征在于，它是通过衡量字之间的语义约束强度来判断候选字符串能否成词的方法，即它以表示汉语词汇语义的隐马尔可夫模型(HMM)为基础，用Baum－Welch算法来更新HMM中的语义状态转移概率矩阵和状态转移处的输出字符概率矩阵，然后根据表示状态转移次数和转移处产生字符次数的概率矩阵来求出表征语义约束关系的字符对应语义的概率和语义序列的联合紧密程度，最后根据这两个参数便可算出成词的判决值。它与传统的互信息法比较，在召回率相同下，准确率更高些。

著录项

公开/公告号CN1447264A

专利类型发明专利
公开/公告日2003-10-08

原文格式PDF
申请/专利权人清华大学;
展开▼

申请/专利号CN03121940.3
发明设计人罗盛芬;孙茂松;
展开▼

申请日2003-04-18
分类号G06F17/16;
代理机构
代理人
地址 100084 北京市北京100084-82信箱
入库时间 2023-12-17 14:57:04

法律信息

法律状态公告日

法律状态信息

法律状态
2010-08-04

未缴年费专利权终止 IPC(主分类):G06F17/16 授权公告日:20060607 申请日:20030418

专利权的终止
2006-06-07

授权

授权
2003-12-17

实质审查的生效

实质审查的生效
2003-10-08

公开

公开

说明书

技术领域

基于语义构词约束的汉语二字词抽取方法属于自然语言处理技术领域

背景技术

语言是随着时间流逝而发展的，互联网强大的交流能力使得人们的词汇量增长变化更为迅速，单纯地使用通用词典或是专业词典都不能够容纳所有的信息。而在汉语中，词语之间没有显式的分隔符号，如何自动识别词语成为一项重要的研究课题。汉语自动抽词方法以计算机为处理工具，通过机器自动学习，使得计算机能自动判断一个候选字串是否成词。

汉语中，词是由字组成的。这和英语中短语的情况类似：短语由若干个词构成，短语之间亦无显式分隔符号。因此汉语的自动抽词与英语的短语自动抽取工作是相似的。目前关于词或短语抽取的研究，国内外学者都做了不少工作，方法大致可分为两类：基于统计和基于规则。

基于规则的方法则需要一些事先掌握知识的指导，从而建立相应规则来判断是否成词或短语。例如：将语料进行词性标注后使用语法或语义规则来识别；建立停用词表，将所有含有停用词或功能词的串识别为非词。但从语言学中归纳出相应规则相当困难，且规则的通用程度差，故此类方法效果均不甚佳。基于统计的方法是当前研究的主流。主要从两个角度考察一个符号串成词或短语的可能性。一是衡量该符号串内部结合紧密度，认为结合紧密度高的串成词可能性大。常用的衡量方法包括频度(Frequency)、互信息(Mutual Information)以及其它一些统计量。另一角度则考察该串对上下文环境的依赖度，认为候选串过分依赖于其上下文环境时，其成词可能性小。

目前的统计方法中，那些基于内部结合紧密度的抽词方法，主要以字为单位进行处理，往往忽略了汉语的重要特性：对大部分的词(复合词)而言，其组成成分(字或词)之间存在一定的语义构词约束关系。可以认为这些语义约束关系反映了汉语中的一些构词法，即存在强约束力的两个语义能够搭配成词的可能性大。这意味着，可以利用语义约束关系来帮助识别词语。

基于语义约束的自动抽词思想很直接：不是从组成的字来判断是否成词，而是从其对应语义来判断是否能成词。例如：词典中已经收录了“美军”，“日军”和“苏军”三个词，它们都遵从“国家+军队”的语义搭配模式。因此，通过对词典的学习，我们可以发现“国家+军队”这个语义搭配存在较强的约束关系。于是对于具有同样语义搭配模式的候选串“俄军”，就可正确地推断出它也是一个词。

发明内容

本发明的目的在于提供一种基于语义构词约束的汉语二字词抽取方法。

本发明的特征在于：它是通过衡量字之间的语义约束强度来判断候选字符串能否成词的一种方法，即它以表示汉语词汇语义的隐马尔可夫模型(HMM)为基础，用Baum-Welch算法来不断地更新HMM中的语义状态转移概率矩阵和状态转移处的输出字符概率矩阵，直到收敛为止，然后再确定重新估算的上述HMM参数，根据这些表示状态转移的次数和转移处产生字符次数的概率矩阵便可得出表征语义约束关系的字符对应语义的概率和语义序列的联合紧密程度，最后便可由此计算出表征成词可能性的参数；该方法是在计算机上依次按下列步骤实现的，具体而言，可分为两个阶段。学习阶段：

(1)训练词典中的词条全部输入计算机，构成训练词典W：

W＝{(w_i，freq_i)|i＝1，…，l}

其中，w_i、freq_i分别为第i个词及其频度；

(2)用隐马尔可夫模型HMM表示汉语词汇的语义集合：

HMM＝(S，C，P_S，P_C，II)

其中，S＝{s₀，s₁，s₂，…，s_n}，s_i表示词w的任意一个语义，s₀为初始状态，S为语义的状态集合；

C＝{c₁，c₂，…，c_m}，c_t为状态转移处输出的任意一个汉字，C为输出字符集合；

P_S＝[p_ij]为状态转移概率矩阵，其中p_ij＝p(s_j|s_i)，表示从状态si转移到状态s_j的概率，i＝0，…，n，j＝1，…，n。

P_C＝[a_it]为一个n×m的输出矩阵，其中a_it＝p(c_t|s_i)，表示状态s_i产生输出字符c_t的概率。

II＝(π₀，…，π_n)为初始向量，其中π_i为状态s_i作为初始状态的概率。

(3)按平均的策略初始化P_S、P_C：

对P_S有：p_ij＝1/n，其中i＝0，…，n，j＝1，…，n，即从语义状态s_i到状态集S中任伺一个语义状态s_j的转移概率都相等。

对P_C有：a_it＝1/m，其中i＝1，…，n，t＝1，…，m，即语义状态s_i产生字符集中任意字符c_t的概率相等。

(4)初始化当前参数P_S、P_C下HMM的可信度Q_W＝0。

(5)结合Baum-Welch算法和当前参数P_S、P_C，重新估计HMM的参数P_S′、P_C′：

(5.1)设：w是由c₁和c₂组成的二字词，即w＝c₁c₂，从《汉字义类信息库》中统计出词w所有可能的语义状态、语义序列、及状态转移路径：

c₁具有n₁个语义：s₁₁，s₁₂，…，

c₂具有n₂个语义：s₂₁，s₂₂，…，

由于全部语义序列都从初始状态s₀出发，

则：词w有n₁×n₂个可能的语义序列：s₀s₁₁s₂₁，s₀s₁₁s₂₂，……，，可能的状态转移路径为s₀→s_1i、s_1i→s_2j(其中i＝1，...，n₁，j＝1，...，n₂)；

(5.2)用Baum-Welch算法和当前参数P_S、P_C求出：发生状态转移s₀→s_1i的概率p(s₀→s_1i)： $>>p>>(>>s>0>>→>>s>>1>i>>>)>>=>p>>(>>s>>1>i>>>|>>s>0>>)>>p>>(>>c>1>>|>>s>>1>i>>>)>over>>Σ>>j>=>1>>>n>2>>>[>p>>(>>s>>2>j>>>|>>s>>1>i>>>)>>p>>(>>c>2>>|>>s>>2>j>>>)>>]>,>>>$

p(s_1i|s₀)：从状态s₀转移状态s_1i的概率，

p(c₁|s_1i)：在状态s_1i处产生输出字符c₁的概率，

p(s_2j|s_1i)：从状态s_1i转移状态s_2j的概率，

p(c₂|s_2j)：在状态s_2j处产生输出字符c₂的概率，

p(s₀→s_1i)表示：在满足从状态s₀转移状态s_1i并产生输出字符c₁，再从状态s_1i转移到s_2j并产生输出字符c₂这一概率条件下，从状态s₀转移状态s_1i的概率；

p(s_1i→s_2j)＝p(s_1i|s₀)p(c₁|s_1i)p(s_2j|s_1i)p(c₂|s_2j)，表示在从状态s₀转移状态s_1i并产生输出字符c₁，再从状态s_1i转移到s_2j并产生输出字符c₂这一概率条件下，从状态s_1i转移状态s_2j的概率；

(5.3)根据下式求出，词w从状态s_i转移到状态s_j，且在状态s_j处产生输出字符集中任一字符c_t∈C的次数：

这表示，词w从状态s₀转移状态s_1i，且在状态s_1i处产生输出字符c₁的次数为p(s₀→s_1i)×freq；词w从状态s_1i转移状态s_2j且在状态s_2j处产生输出字符c₂的次数为p(s_1i→s_2j)×freq；其他情况发生的次数为零。

(5.4)累计训练词典中所有词w各自的Countw(c_t；s_i→s_j)，得到整部训练词典中从状态s_i转移到状态s_j，且在状态s_j处产生输出字符c_t的总次数C(c_t；s_i→s_j)： $>>C>>(>>c>t>>;>>s>i>>→>>s>j>>)>>=>>Σ>>∀>w>>>>Count>w>>>(>>c>1>>;>>s>i>>→>>s>j>>)>>>>$

(5.5)计算其他辅助矩阵，以便重新估计HMM参数P_S′、P_C′： $>>>C>1>>>(>>s>i>>,>>s>j>>)>>=>>Σ>>∀>>c>t>>∈>C>>>C>>(>>c>t>>;>>s>i>>→>>s>j>>)>>>>，表示整部训练词典中从状态s$ _i转移到状态s_j处产生输出字符集C中任意一个字符c_t∈C的次数，它也是从状态s_i转移到状态s_j的次数； $>>>C>2>>>(>>s>i>>)>>=over>>Σ>>j>=>1>>n>>>C>1>>>(>>s>i>>,>>s>j>>)>>>>，表示整部训练词典中由状态s$ _i转移到状态集S中任意一个语义状态s_j的次数之和，即由状态s_i发生转移的次数； $>>>C>3>>>(>>c>t>>;>>s>j>>)>>=>>Σ>>∀>>s>i>>∈>S>>>C>>(>>c>t>>;>>s>i>>→>>s>j>>)>>>>，表示从状态集S中任意一个语义状态s$ _i转移到s_j，且在s_j输出字符c_t的次数之和，即表示整部词典中任一语义状态s_j输出字符c_t的次数； $>>>C>4>>>(>>s>j>>)>>=>>Σ>>∀>>c>t>>∈>C>>>>C>3>>>(>>c>t>>;>>s>j>>)>>>>，表示整部词典中状态s$ _j出现的次数，即等于状态s_j产生输出字符集C中任意字符c_t∈C的次数之和。

(5.6)根据以上的辅助矩阵即次数矩阵，重新估计HMM参数P_S′、P_C′：状态转移矩阵P_S′＝[p_ij′]：p_ij′为状态s_i到状态s_j的转移概率，可用从s_i转移到s_j的次数C₁(s_i，s_j)与由s_i发生转移次数C₂(s_i)的比值来估计，即p_ij′＝C₁(s_i，s_j)/C₂(s_i)。输出矩阵P_C′＝[a_it′]：a_it′为状态s_i产生字符c_t的概率，可用s_i产生c_t的次数C₃(c_t；s_i)与整部词典中s_i出现次数C₄(s_i)的比值来估计，即a_it′＝C₃(c_t；s_i)/C₄(s_i)；

(6)评估在新参数P_S′、P_C′下HMM的可信度Q_W′： $>sup>>Q>W>′sup>>=>>Σ>>>c>1>>>c>2>>∈>W>>>>Σ>>>s>1>>>s>2>>∈>>c>1>>>c>2>>> {>p>′>>>(>>s>1>>>s>2>>)>}^{{>p>′>>>(>>s>1>>|>>c>1>>)>}^{>p>′>>>(>>s>2>>|>>c>2>>)>>>>其中，c}}$ ₁c₂表示训练词典W中的任意一个词条。s₁表示字c₁可对应的任意一个语义，s₂表示c₂可对应的任一语义，s₁、s₂∈S。p′(s₁|c₁)表示新参数P_S′、P_C′下，汉字c₁对应语义s₁的概率，可用步骤(5)的辅助矩阵计算： $> >p>′>>>(>>s>1>>|>>c>1>>)>>=>>C>3>>>(>>c>1>>;>>s>1>>)>>/>>Σ>>∀>>s>k>>∈>S>>>>C>3>>>(>>c>1>>;>>s>k>>)>>>>，s$ _k是属于S的任意语义。

p′(s₂|c₂)表示新参数P_S′、P_C′下，汉字c₂对应语义s₂的概率，计算方法与p(s₁|c₁)相同，即 $> >p>′>>>(>>s>2>>|>>c>2>>)>>=>>C>3>>>(>>c>2>>;>>s>2>>)>>/>>Σ>>∀>>s>k>>∈>S>>>>C>3>>>(>>c>2>>;>>s>k>>)>>.>>>$

p′(s₁，s₂)表示新参数P_S′、P_C′下语义序列s₁s₂的同现概率，其计算方式为 $> >P>′>>>(>>s>1>>,>>s>2>>)>>=>>C>1>>>(>>s>1>>,>>s>2>>)>>/>>Σ>>∀>>s>k>>∈>S>>>>Σ>>∀>>s>t>>∈>S>>>>C>1>>>(>>s>k>>,>>s>t>>)>>>>，s$ _k，s_t是属于状态集S的任意语义。

(7)计算：δ_Q＝Q_W′-Q_W

设定：δ₀为是否收敛的阈值。

若δ_Q≤δ₀则HMM参数估计过程收敛，执行下一步骤(8)；否则便用P_S′、P_C′、Q_W′分别代替P_S、P_C、Q_W，返回步骤(4)，重新估计HMM参数P_S′、P_C′。

(8)根据步骤(5)所得的辅助矩阵，来计算语义约束关系p(s_j|c_t)、MI(s_i，s_j)。设s_k，s_t是属于状态集S的任意语义，则有： $>>p>>(>>s>j>>|>>c>t>>)>>=>>C>3>>>(>>c>t>>;>>s>j>>)>>/>>Σ>>∀>>s>k>>∈>S>>>>C>3>>>(>>c>t>>;>>s>k>>)>>>>，表示汉字c$ _t对应语义s_j的概率。 $>>MI>>(>>s>i>>,>>s>j>>)>>=>>>l>og>>2> >>p>>(>>s>i>>,>>s>j>>)>>>>p>>(>>s>i>>)>>p>>(>>s>j>>)>>>>>>，表示语义序列s$ _is_j的联合紧密程度和构词的可能性。其中p(s_i)为语义s_i出现概率， $>>p>>(>>s>i>>)>>=>>C>4>>>(>>s>i>>)>>/>>Σ>>∀>>s>k>>∈>S>>>>C>4>>>(>>s>k>>)>>>>；p(s$ _is_j)为语义序列s_is_j的同现概率， $>>p>>(>>s>i>>,>>s>j>>)>>=>>C>1>>>(>>s>i>>,>>s>j>>)>>/>>Σ>>∀>>s>k>>∈>S>>>>Σ>>∀>>s>t>>∈>S>>>>C>1>>>(>>s>k>>,>>s>t>>)>>;>>>$

(9)保存所需的p(s_j|c_t)和MI(s_i，s_j)矩阵，学习阶段结束抽词决策阶段：

(1)输入要候选二字串c₁c₂。

(2)从《汉字义类信息库》中查询到：

汉字c₁具有n₁个语义，分别是s₁₁，s₁₂，…，

汉字c₂具有n₂个语义，分别是s₂₁，s₂₂，…，

(3)计算成词可能性LW_MI(c₁c₂)。 $>>>LW>MI>>>(>>c>1>>>c>2>>)>>=over>>Σ>>i>=>1>>>n>1>>over>>Σ>>j>=>1>>>n>2>>>MI>>(>>s>>1>i>>>,>>s>>2>j>>>)>>p>>(>>s>>1>i>>>|>>c>1>>)>>p>>(>>s>>2>j>>>|>>c>2>>)>>.>>>$

此式的物理意义为，对c₁c₂的每个语义序列s_1i，s_2j查询其构词的可能性MI(s_1i，s_2j)，并将所有可能语义序列的构词可能性加权组合起来，作为c₁c₂这个汉字串的成词可能性。

(4)若LW(c₁c₂)≥t₀则判断c₁c₂为词。其中，t₀为给定的阈值，通过大量实验结果，我们认为较合适的选择为t₀＝0。

实验证明：语义约束法的准确率在相同的召回率下要高于传统的互信息方法。

附图说明

图1.学习阶段程序流程框图

图2.抽词决策阶段程序流程框图

图3.语义约束法和互信息法的抽此行能比较图

具体实施方式

见图1～2。以“俄军”二字作为候选串，步骤如下：

(1)入“俄军”

(2)查《汉字义类信息库》：

“俄”字有Di02(俄国)、Eb25(时间很短)两个意思；

“军”字有Di09(军队的编制单位)、Di11(军队)两个意思；

(3)从训练数据查得

p₁₁＝p(Di02|俄)＝0.99686 p₁₂＝p(Eb25|俄)＝0.00314

p₂₁＝p(Di09|军)＝0.00485 p₂₁＝p(Di11|军)＝0.99515

MI₁₁＝MI(Di02，Di09)＝-0.15850

MI₁₂＝MI(Di02，Di11)＝4.31200

MI₂₁＝MI(Eb25，Di09)＝3.76725

MI₂₂＝MI(Eb25，Di11)＝-10.74512

(4)计算成词可能性 $>>=>>MI>11>>×>>p>11>>×>>p>21>>+>>MI>12>>×>>p>11>>×>>p>22>>+>>MI>21>>×>>p>12>>×>>p>21>>+>>MI>22>>×>>p>12>>×>>p>22>>>> >>=>4.243>>>$

(5)LW(俄军)＞t₀，于是判断“俄军”是一个词。

为了评测我们发明的基于语义约束汉语自动抽词方法，我们设计了如下的实验：

实验条件：PII650MHZ的PC，256M内存，Visual C++语言实现程序

实验数据：从1998年人民日报的标注语料中生成一个标准答案表，该表中共有238，946个二字串，其中23，725个是词。应用《汉字义类信息库》(由清华大学人工智能技术与系统国家重点实验室自然语言处理组提供)来为每个汉字寻找所有对应的语义。

实验结果：抽词的性能用两个性能指标来衡量：召回率和准确率。

为了观察基于语义约束的方法的效果，我们将它与传统最通用的基于字的互信息方法进行比较。互信息方法为，对每个候选串计算 $>>MI>>(>>c>1>>>c>2>>)>>=>>log>2> >>p>>(>>c>1>>>c>2>>)>>>>p>>(>>c>1>>)>>p>>(>>c>2>>)>>>>>>，若MI(c$ ₁c₂)，大于给定阈值，则判断候选串为词。上式中p(c₁)和p(c₁c₂)分别表示c₁和c₁c₂在实际语料中出现的概率。本实验中，这些概率信息从102MB大小的人民日报语料库中统计而得。表1.两种抽词方法在不同召回率时相应的F-Measure性能

召回率(％)10 20 30 40 50 60 70 80 90 100平均Sem 18.0 32.0 43.0 52.5 60.0 65.0 68.0 68.5 54.0 18.1 47.9MI 17.5 30.5 39.8 45.3 47.5 46.7 43.0 36.2 26.6 18.1 35.1

在表1中，Sem表示基于语义约束的方法，MI表示传统的互信息方法。观察图、表可发现，基于语义约束的抽词方法比传统基于字的抽词方法在性能上有了相当显著的提高。Sem的最大F-Measure比MI高21个百分点，而平均F-Measure指标也提高了12.8％。

本项技术可用于各种自然语言处理中，包括未登录词识别、词典自动生成、基于n-gram的信息检索特征选取、自动建立文档索引等应用。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于语义构词约束的汉语二字词抽取方法 [P] . 中国专利： CN1258725C . 2006.06.07
2. 基于语义构词约束的汉语二字词抽取方法 [P] . 中国专利： CN1447264A . 2003-10-08
3. DEEP LEARNING BASED METHOD AND DEVICE FOR CHINESE SEMANTICS ANALYSIS [P] . 世界知识产权组织专利： WO2018028077A1 . 2018-02-15

机译：基于深度学习的汉语语义分析方法与装置
4. METHOD FOR FORMING LISTENING-BASED CHINESE PHONETIC TRANSCRIPTION USING HANGEUL, METHOD FOR DISPLAYING LISTENING-BASED CHINESE PHONETIC TRANSCRIPTION USING HANGEUL, AND METHOD FOR LEARNING FOREIGN LANGUAGE USING SAME [P] . 韩国专利： KR102112059B1 . 2020-05-19

机译：运用语言形成基于听力的汉语语音翻译的方法，利用语言展现基于听力的汉语语音翻译的方法以及使用相同语言学习外国语言的方法
5. SEMANTIC EXTRACTOR AND SEMANTIC EXTRACTION PROGRAM [P] . 日本专利： JP2014016686A . 2014-01-30

机译：语义抽取程序和语义抽取程序