首页> 中文学位 >基于网格的分词服务系统的研究与实现
【6h】

基于网格的分词服务系统的研究与实现

代理获取

目录

文摘

英文文摘

苏州大学学位论文独创性声明及使用授权声明

第一章引言

第二章相关技术

第三章分词服务算法设计

第四章分词服务的实现

第五章基于网格的分词服务系统的设计与实现

第六章总结与展望

参考文献

攻读学位期间公开发表的论文

致谢

展开▼

摘要

汉语分词是信息检索、机器翻译、文本校对等中文信息处理重要领域的基础。由于汉语中存在词语规范、歧义和未登录词等问题,汉语分词一直困扰着中文信息技术的发展。因此,研究汉语分词具有十分重要的意义。同时,在分词应用方面,基于网络的在线测试分词系统仅提供测试功能,存在只能处理少量文本、用户使用不方便、程序无法直接调用等缺点。 网格是近年来继Internet、WWW技术后兴起的一种新技术,能为复杂应用提供分布式并行环境。网格服务可以以不同的方式聚集起来满足应用的需要,提高代码重用率。所以,开发一个基于网格的面向用户和程序的分词服务系统,以服务形式为中文信息处理的基础研究提供支撑环境,有一定的意义。 本文首先研究了汉语分词应用需求的多样性,结合网格的特点设计了七个服务算法。为尽量减少代码移植的工作量,本文研究了GT4的CWSCore,分析用C语言实现网格服务的原理和方法,然后将上述七种算法封装成服务,在网格平台上发布。根据这些算法生成的网格服务,可以以不同的方式组合起来,形成多种类型的分词服务,从而满足不同的分词应用需求。基于GT4的网格服务多采用Java语言实现,而现有平台下的大量的应用程序使用C语言开发。因此本文的方法对C语言应用程序的网格移植有一定的参考意义。 同时,本文还研究了Olobus的作业管理机制、Condor系统和PVM并行虚拟机系统,提出了Condor-PVM与Globus结合的并行计算机制,解决了网格环境中用C语言编程实现分布式并行计算的问题。实验证明该机制在处理大规模文本时能够加快分词速度,提高服务质量。 最后本文设计并实现了基于网格的汉语分词服务系统。用户通过系统网格门户可以选择服务类型,进行分词颗粒度、分词词典、输入输出等个性化设置,全透明使用分词服务;用户也可以获得分词服务的WSDL描述文件,在应用程序中直接调用和组合分词服务,满足特定的要求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号