文摘
英文文摘
上海交通大学学位论文原创性声明及版权使用授权书
1 概述
1.1语料库加工
1.1.1语料库以及语料库语言学
1.1.2语料库的加工标准
1.2汉语的词语切分
1.2.1自动分词的目标
1.2.2自动分词的研究现状和存在问题
1.2.3自动分词的常用方法
1.2.4切分歧义
1.3词性标注
1.3.1词性标注研究现状
1.3.2衡量标注性能的方法
1.4专名识别的研究
2语料库切分标注系统-SegPos设计
2.1研究目标
2.1.1课题背景
2.1.2预期目标
2.2系统设计中的关键问题
2.2.1汉语中同切分标注相关的几个理论问题
2.2.2切分标注规范
2.3系统的模块框架设计
2.3.1 SegPos系统的加工模型
2.3.2系统设计简介
3 SegPos中采用的技术和算法
3.1预处理技术
3.2切分算法
3.2.1前缀码分词方法
3.2.2改进的前缀码分词方法
3.2.3切分消岐
3.3词表查找算法
3.3.1二级索引查找
3.3.2首字hash查找算法
3.3.3带前缀的二字hash算法
3.4标注算法
3.4.1隐马尔可夫模型(HMM)
3.4.2 n元语法模型
3.4.3系统标注部分设计
3.5结果规范化
3.5.1规范定义
3.5.2规范的内容和处理
4.专名识别方法与实现
4.1专名识别的方法
4.2专名识别的流程
4.3 SegPos中的专名识别
4.3.1人名识别
4.3.2地名识别
5系统测试与展望
5.1系统测试结果
5.2进一步的改进方案
5.2.1新词新语的识别和词性标注
5.2.2利用部分句法分析方法排岐
5.3结语
参考文献
附录
致谢
攻读硕士学位期间发表的论文