首页> 中文学位 >汉语语料库的切分标注处理和专名识别
【6h】

汉语语料库的切分标注处理和专名识别

代理获取

目录

文摘

英文文摘

上海交通大学学位论文原创性声明及版权使用授权书

1 概述

1.1语料库加工

1.1.1语料库以及语料库语言学

1.1.2语料库的加工标准

1.2汉语的词语切分

1.2.1自动分词的目标

1.2.2自动分词的研究现状和存在问题

1.2.3自动分词的常用方法

1.2.4切分歧义

1.3词性标注

1.3.1词性标注研究现状

1.3.2衡量标注性能的方法

1.4专名识别的研究

2语料库切分标注系统-SegPos设计

2.1研究目标

2.1.1课题背景

2.1.2预期目标

2.2系统设计中的关键问题

2.2.1汉语中同切分标注相关的几个理论问题

2.2.2切分标注规范

2.3系统的模块框架设计

2.3.1 SegPos系统的加工模型

2.3.2系统设计简介

3 SegPos中采用的技术和算法

3.1预处理技术

3.2切分算法

3.2.1前缀码分词方法

3.2.2改进的前缀码分词方法

3.2.3切分消岐

3.3词表查找算法

3.3.1二级索引查找

3.3.2首字hash查找算法

3.3.3带前缀的二字hash算法

3.4标注算法

3.4.1隐马尔可夫模型(HMM)

3.4.2 n元语法模型

3.4.3系统标注部分设计

3.5结果规范化

3.5.1规范定义

3.5.2规范的内容和处理

4.专名识别方法与实现

4.1专名识别的方法

4.2专名识别的流程

4.3 SegPos中的专名识别

4.3.1人名识别

4.3.2地名识别

5系统测试与展望

5.1系统测试结果

5.2进一步的改进方案

5.2.1新词新语的识别和词性标注

5.2.2利用部分句法分析方法排岐

5.3结语

参考文献

附录

致谢

攻读硕士学位期间发表的论文

展开▼

摘要

当今信息处理中占绝大比例的是语言文字的处理,与传统的理性主义方式相辅的是经验主义方法,其中大规模真实文本语料库加工因具有实用性强、见效快的特点,普遍受人欢迎。 语料库语言学是80年代才崭露头角的一门计算语言学的新的分支学科,它的应用领域极广,包括文本分类、检索、自动摘要、信息获取、简单的机器翻译和基于实例的对话系统。语料库语言学研究的基础是机器可读的大容量语料库,由于原始的未经加工处理的文本(生语料)很少直接起作用,需要先对其进行分析处理才能运用于实践。 汉语不同于印欧语种,缺乏天然的分割信息,要进行汉语的计算机处理,必须首先将汉语的词与词分开,即分词(也称切分),切分是中文语料处理的第一步;为词语标上其所属的词类就是词性标注,是语料进一步加工的必须过程。由于多年来汉语语料切分标准缺乏一个全国统一的详尽的加工标准,各家研究机构由于研究目的等不同,加工的语料不能兼容,造成了资源的重复建设和浪费;同时,切分中的排岐和未登录词特别是专有名词的识别一直困扰着切分标注,成为语料加工的瓶颈,甚至可以说也成为整个中文信息处理平台的瓶颈。本文主要着重解决这两个问题。 本文设计并基本实现了一个具有专名识别功能的多输出的汉语切分标注系统,同时考虑了系统的效率和可扩充性等实用方面的问题。 为了能使加工的语料既符合国家制定的加工规范,又能适应不同应用的实际需求,本文提出了一个规范独立的加工模型。在基本的分词和标注模块之后,有一个单独的规范规则处理模块,系统的分词和标注模块可同切分标注的相关规范无关,一旦规范修改,只需替换切分标注规范规则文件即可。同时,本系统在加工中对每个词都加上了信息,个性化输出模块可以根据这些信息按需输出不同颗粒度大小的加工结果。 在切分和标注模块,系统改进了前缀码分词算法,采用了结合前缀词表的首尾二字哈希查找算法来提高效率,同时,针对单独使用规则或概率方法消歧的不足,将两种方法有机的结合起来进行歧义消减。 在专名识别方面,在参考国内各家方法的基础上,系统设计了自己的人名识别和地名识别的统计模型,提出了一套结合上下文信息,综合运用统计、规则、资源库的识别方法。方法提出了专名识别缓冲区的概念,更加注重局部范围内专有名词的出现频率。在实现系统中获得显著效果 在本文的最后,在对测试数据分析的基础上,针对系统的不足,提出了系统进行进一步改进的侧重点和方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号