【24h】

A Unicode based Adaptive Segmentor

机译:基于Unicode的自适应分段器

获取原文
获取原文并翻译 | 示例

摘要

This paper presents a Unicode basedrnChinese word segmentor. It can handlernChinese text in Simplified, Traditional, orrnmixed mode. The system uses the strategyrnof divide-and-conquer to handle thernrecognition of personal names, numbers,rntime and numerical values, etc in the preprocessingrnstage. The segmentor furtherrnuses tagging information to work onrndisambiguation. Adopting a modularrndesign approach, different functional partsrnare separately implemented usingrndifferent modules and each modulerntackles one problem at a time providingrnmore flexibility and extensibility. Resultsrnshow that with added pre-processingrnmodules and accessorial modules, thernaccuracy of the segmentor is increasedrnand the system is easily adaptive torndifferent applications.
机译:本文提出了一种基于Unicode的中文分词器。它可以以简体,繁体或混合模式处理中文文本。该系统使用策略分治策略在预处理阶段处理个人姓名,数字,时间和数值等的识别。分割器进一步使用标记信息来消除歧义。采用模块化设计方法,使用不同的模块分别实现不同的功能部件,并且每个模块一次解决一个问题,从而提供更大的灵活性和可扩展性。结果表明,通过添加预处理模块和辅助模块,分割器的准确性得以提高,并且该系统易于适应不同的应用。

著录项

  • 来源
  • 会议地点 Sapporo(JP);Sapporo(JP);Sapporo(JP)
  • 作者单位

    Dept. Of Computing,rnThe Hong Kong Polytechnic University,rnHung Hom, Hong Kongrncsluqin@comp.polyu.edu.hk;

    Dept. Of Computing,rnThe Hong Kong Polytechnic University,rnHung Hom, Hong Kongrn@comp.polyu.edu.hk;

    Dept. Of Computing,rnThe Hong Kong Polytechnic University,rnHung Hom, Hong Kongrncsrfxu@comp.polyu.edu.hk;

    Dept. Of Computing,rnThe Hong Kong Polytechnic University,rnHung Hom, Hong Kongrncsluqin,csrfxu@comp.polyu.edu.hk;

    The Institute of Computational Linguistics,rnPeking University,rnBeijing, Chinarnyusw@pku.edu.cn;

    The Institute of Computational Linguistics,rnPeking University,rnBeijing, Chinarnlibi@pku.edu.cn;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 程序语言、算法语言;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号