汉语语料库的切分标注处理和专名识别

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

当今信息处理中占绝大比例的是语言文字的处理，与传统的理性主义方式相辅的是经验主义方法，其中大规模真实文本语料库加工因具有实用性强、见效快的特点，普遍受人欢迎。语料库语言学是80年代才崭露头角的一门计算语言学的新的分支学科，它的应用领域极广，包括文本分类、检索、自动摘要、信息获取、简单的机器翻译和基于实例的对话系统。语料库语言学研究的基础是机器可读的大容量语料库，由于原始的未经加工处理的文本(生语料)很少直接起作用，需要先对其进行分析处理才能运用于实践。汉语不同于印欧语种，缺乏天然的分割信息，要进行汉语的计算机处理，必须首先将汉语的词与词分开，即分词(也称切分)，切分是中文语料处理的第一步；为词语标上其所属的词类就是词性标注，是语料进一步加工的必须过程。由于多年来汉语语料切分标准缺乏一个全国统一的详尽的加工标准，各家研究机构由于研究目的等不同，加工的语料不能兼容，造成了资源的重复建设和浪费；同时，切分中的排岐和未登录词特别是专有名词的识别一直困扰着切分标注，成为语料加工的瓶颈，甚至可以说也成为整个中文信息处理平台的瓶颈。本文主要着重解决这两个问题。本文设计并基本实现了一个具有专名识别功能的多输出的汉语切分标注系统，同时考虑了系统的效率和可扩充性等实用方面的问题。为了能使加工的语料既符合国家制定的加工规范，又能适应不同应用的实际需求，本文提出了一个规范独立的加工模型。在基本的分词和标注模块之后，有一个单独的规范规则处理模块，系统的分词和标注模块可同切分标注的相关规范无关，一旦规范修改，只需替换切分标注规范规则文件即可。同时，本系统在加工中对每个词都加上了信息，个性化输出模块可以根据这些信息按需输出不同颗粒度大小的加工结果。在切分和标注模块，系统改进了前缀码分词算法，采用了结合前缀词表的首尾二字哈希查找算法来提高效率，同时，针对单独使用规则或概率方法消歧的不足，将两种方法有机的结合起来进行歧义消减。在专名识别方面，在参考国内各家方法的基础上，系统设计了自己的人名识别和地名识别的统计模型，提出了一套结合上下文信息，综合运用统计、规则、资源库的识别方法。方法提出了专名识别缓冲区的概念，更加注重局部范围内专有名词的出现频率。在实现系统中获得显著效果在本文的最后，在对测试数据分析的基础上，针对系统的不足，提出了系统进行进一步改进的侧重点和方法。

著录项

作者
徐菁;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机软件与理论
授予学位硕士
导师姓名陆汝占;
年度 2003
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
汉语语料库; 切分标注处理; 词性标注; 哈希表; 专名识别;

相似文献

中文文献
外文文献
专利

1. 多语料库中汉语四字格的切分和识别研究 [J] . 徐润华 ,曲维光 ,陈小荷 . 中文信息学报 . 2013,第005期
2. 面向智能信息处理的语料库标注质量影响因子——从《汉语人名拉丁转写方案》的设计谈起 [J] . 通拉嘎 . 图书馆学刊 . 2015,第001期
3. 《汉语大字典》专名号标注识误 [J] . 杨涛 ,杨宝忠 . 河北大学学报（哲学社会科学版） . 2016,第002期
4. 汉语中介语语料库XML标注方法的应用r——基于HSK动态作文语料库的分析 [J] . 郑美平 . 福建江夏学院学报 . 2015,第006期
5. 汉语语料的切分标注加工系统 [J] . 徐菁 ,张辉 ,陆汝占 . 计算机工程 . 2003,第009期
6. 带标注语料库中切分变异的统计分析及思考 [C] . 董宇 ,陈小荷 . 第三届学术计算语言学研讨会 . 2006
7. 汉语切分标注和句法分析一体化模型研究 [A] . 江丰 . 2005

汉语语料库的切分标注处理和专名识别

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅