首页> 中文学位 >依存语言模型在信息检索中的应用研究
【6h】

依存语言模型在信息检索中的应用研究

代理获取

目录

文摘

英文文摘

独创性声明和学位论文版权使用授权书

第一章引言

1.1概述

1.2统计学理论

1.2.1基本概念

1.2.2最大似然估计

1.2.3贝叶斯概率模型

1.2.4随机过程与马尔可夫过程

1.3信息论基础

1.3.1信息熵

1.3.2噪声-信道模型

1.3.3互信息

1.3.4平均互信息

1.4统计机器学习

1.4.1概述

1.4.2 Bootstrapping算法

1.4.3 EM算法

第二章统计语言模型

2.1概述

2.2主要技术及应用

2.2.1 n-gram模型

2.2.2决策树模型

2.2.3指数模型

2.3统计平滑

2.3.1平滑算法分类

2.3.2 Additive平滑算法

2.3.3 Good-Turing平滑算法

2.3.4 Jelinek-Mercer平滑算法

2.3.5 Absolute Discounting平滑算法

2.3.6 Katz平滑算法

2.4参数估计

2.5模型裁减

2.6模型评价

2.7依存语言模型发展及应用

第三章信息检索模型

3.1概述

3.2传统的信息检索模型

3.2.1布尔检索模型

3.2.2模糊集模型

3.2.3双泊松模型

3.2.4向量空间模型

3.2.5概率统计模型

3.3统计语言模型在信息检索中的应用

3.4模型评价

3.4.1精度与召回率

3.4.2统计意义的评价

第四章依存语言模型在信息检索中的应用

4.1依存语言模型

4.1.1依存语法与链语法

4.1.2依存关系的定义

4.1.3依存关系的抽取

4.2模型训练及建立

4.2.1 Unigram模型

4.2.2 Bi-gram模型

4.2.3 Bi-terms模型

4.2.4依存语言模型

4.3参数估计

4.3.1P(L|MD)的计算

4.3.2 P(w|MD)的计算

4.3.3 MI(wi,wj|L,MD)的计算

第五章实验结果及评价

5.1实验设置

5.2实验流程

5.3实验结果及分析

5.3.1 BM vs.依存语言模型

5.3.2 Unigram模型vs.依存语言模型

5.3.3 Bi-gram模型vs.依存语言模型

5.3.4 Bi-gram模型vs.Bi-terms模型

5.3.5结论及分析

5.3.6参数取值范围的分析

第六章总结与展望

参考文献

致谢

论文发表及科研经历

展开▼

摘要

统计语言模型是上世纪80年代兴起的语言建模方法.经过20多年的发展,它已经渗透到了计算语言学的各个层面,并且在以下各个领域都取得了极大的成功,如语音识别、手写识别、机器翻译、信息检索、中文自动分词、亚洲语言输入等.然而传统意义上的统计语言模型,也即n-gram模型,仅仅考虑了先后相邻的n个词之间的关系,即依据前面已经出现的词来预测下一个要出现的词,这样,在构建模型时便丢失了许多有用的信息,如词法关系、词之间的组合、共现信息及其邻接关系信息等,导致模型性能下降.该文提出了一种新颖的通过依存语言模型进行信息检索的方法,该方法在Unigram模型的基础上,引进词汇之间的链接关系作为其依存信息,并用于语言模型构建过程中.我们认为,句子里词与词之间的所有链接关系形成了无向、无环的平面图,基于此,文档生成查询的过程可分为两个步骤:首先是生成词与词之间的链接关系,其次,根据链接关系产生具体的词.同时,该文还解决了传统依存模型中存在的依存关系表征及其规范化的问题.在语言模型训练过程中,将无监督性的依存关系抽取过程与不同的语言模型统计平滑技术相结合,使得依存语言模型在信息检索领域获得成功的应用.通过在TREC文档集上进行实验,结果表明:依存语言模型较Unigram语言模型和经典的概率统计模型,在检索结果上有了统计意义上的显著提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号