首页> 中文学位 >汉语词法分析平台的构建
【6h】

汉语词法分析平台的构建

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景

1.2 本文的主要工作

1.3 研究意义

1.4 全文组织结构

2 汉语词法分析及相关技术研究现状

2.1 汉语词法分析

2.2 汉语词法分析的困难

2.2.1 语言特性的原因

2.2.2 汉语分词中的歧义问题

2.2.3 汉语分词中的未登录词问题

2.3 现有的汉语分词系统

2.4 模型方法介绍

2.4.1 CRF的汉语分词

2.4.2 联合字词解码的汉语分词

2.4.3 基于隐马尔科夫模型的词性标注

2.5 相关技术

2.5.1 Spring框架

2.5.2 Spring MVC

2.5.3 基本分词技术

3 汉语词法分析平台的设计

3.1 需求分析

3.2 系统结构设计

3.3 功能设计

3.3.1 系统核心部分流程设计

3.3.2 登录管理模块

3.3.3 系统用例图

3.4 数据库设计

3.4.1 数据库的配置

3.4.2 数据库表的设计

3.4.3 概要关系图

4 系统实现

4.1 SSM框架的搭建和配置

4.1.1 环境配置

4.1.2 项目构建

4.2 权限模块

4.2.1 登录和注册模块

4.2.2 身份和权限模块

4.3 分词模块

4.3.1 系统分词

4.3.2 新词词典分词

4.3.3 用户临时词典

4.3.4 人工干预

4.4 词性标注模块

4.4.1 分词+词性标注

4.4.2 分词结果词性标注

4.4.3 人工干预

4.5 管理模块

4.5.1 用户管理模块

4.5.2 新词管理

4.6 其他模块

4.6.1 文件上传和下载

4.6.2 定时器

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

随着现代化信息技术的不断发展,计算机的数量快速增加,互联网内的信息量极速膨胀,计算机技术已经和人们的日常生活息息相关。自然语言处理是计算机科学领域一个重要的研究课题,它的研究对象是人们日常使用的语言,通过对自然语言的研究和处理,实现自然语言和计算机之间的互相理解和正常通信。
  词法分析是自然语言处理领域一个重要的问题,大部分机器翻译的问题都需要进行词法分析。目前,对于词法分析的研究和实现大都局限在实验层次,而办公移动化、资源共享化的互联网环境决定了一个在线共享的实用性平台更具有现实意义。互联网上也已经出现了一些实用性的词法分析平台,能够实现基本的分词和词性标注的功能,但由于源码不可修改、词性标注集不同等原因,无法为今后的相关性研究工作提供支持。
  本文在实验室研究的基础上,结合实验室的分词和词性标注源码,独立开发了一个词法分析的平台。在平台中,加入了人工干预的部分,用户可以对分词结果进行修正,系统会定时地启动线程对修正的结果扫描,找到修正结果中含有的新词用来扩充新词词典。对于每个用户,还可以申请临时词典,将需要使用的新词添加到临时词典中,暂时性地自定义分词结果。用户在提交分词请求的时候,可以选择原始分词、使用新词词典分词和使用临时词典分词等多种分词方式。词性标注方面,用户可以对句直接标注,也可以使用分词的结果进行标注,修正的词性标注的结果也可以为今后的标注效果的提高提供数据依据。
  本文通过小概率事件置入的规则,弥补了统计方法上的局限性,使得统计和规则更好地融合,接口的公开化也方便了功能调用。平台中还加入了权限管理、工具下载和工作量统计等模块,后台服务器开发选用J2EE的SSM框架,数据库采用MySQL,服务器环境Ubuntu。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号