首页> 中文学位 >不规范英文文本分词系统的设计与实现
【6h】

不规范英文文本分词系统的设计与实现

代理获取

目录

声明

摘要

1 绪论

1.1 课题研究的背景和来源

1.2 课题研究成果应用的实际意义

1.3 本文的内容及主要工作

2 相关技术简介

2.1 中文分词技术特点

2.2 如何解决分词中的难题

2.2.1 歧义及其消除方法

2.2.2 新词的识别方法

2.3 英文分词技术与中文分词技术的对比

2.3.1 分词算法对比分析

2.3.2 分词中难题的对比

2.4 本章小结

3 系统的需求分析

3.1 系统实现目标

3.2 系统运行环境

3.3 系统的开发环境

3.4 功能性需求描述

3.4.1 导入文档

3.4.2 文档分析

3.4.3 导出文件

3.4.4 更新词库

3.4.5 更新常用词词库

3.5 非功能性需求描述

3.6 系统术语表

3.7 本章小结

4 系统设计

4.1 系统设计原则

4.2 系统总体设计

4.3 分词功能的设计实现方法

4.4 词库更新功能设计

4.5 常用单词表更新功能设计

4.6 数据库设计

4.6.1 单词表的设计

4.6.2 常用单词表的设计

4.7 分词算法性能评估方法的设计

4.8 本章小结

5 系统实现

5.1 系统编程及数据库实现的工具选择

5.1.1 系统编程的工具

5.1.2 数据库实现工具

5.2 系统总体设计的实现

5.3 分词功能的实现

5.4 词库更新功能的实现

5.5 常用单词表更新功能设计

5.6 本章小结

6 系统测试及性能评估

6.1 单元测试

6.2 集成测试

6.3 系统测试

6.3.1 系统功能测试

6.3.2 系统性能测试及评估

6.4 本章小结

结论

参考文献

致谢

展开▼

摘要

北方重工集团有限公司作为一个跨国的国有大型企业,主要产品是盾构机,特别是2007年收购法国NFM公司后,随着盾构机的制造和生产,广大一线员工接触德国、法国、伊朗、巴西等来现场服务人员越来越多;同时也随着市场的不断拓展,企业出口产品日益增加,员工走出国门去国外现场服务的机会也越来越多,经常可以看到在一起研究盾构机或其他产品的制造服务等工作,英文与中文的有效衔接交流显得至关重要,为便于缩短外国服务人员与广大员工的交流和沟通,改善外国人员写英语语句无法辨识的不利因素,决定采用分词技术加以解决,借此推动企业国际化的生产经营工作和现场服务工作的顺利进行和高速发展。
  基于企业的实际发展需要,本文设计并实现了不规范英文文本分词系统。系统的主要功能是针对一些英文输入格式不规范、输入格式和字数受限的、没有明显单词分割标记符的英文文档进行分词,输出结果为带单词分割标记符的英文文档。
  本文首先进行了中英文分词相关技术的研究和分析,在对比了中英文分词的相关性和不同之处后,提出了基于正向最大字符串匹配的英文分词方法,并选择了牛津中阶英语词典作为匹配词库。然后针对这种分词方法,进行了系统的需求获取和可行性分析。接着对系统的总体框架进行设计,重点介绍了本系统核心模块英文分词功能机器评估方法的详细设计与实现。并简要叙述了其他功能模块的设计与实现,以及数据库的设计与实现。
  在系统的框架和功能初步成型的前提下,通过对系统的测试,对其功能和性能进行了评估,并重点对分词算法的效率和性能进行了测试、分析和评估。国外的服务人员和企业员工觉得这个系统很实用,测试表明该系统能满足企业外国服务人员与企业员工有效、高效沟通和交流的需求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号