首页> 外国专利> Chinese character-based parser

Chinese character-based parser

机译:基于汉字的解析器

摘要

A parser is provided that parses a Chinese text stream at the character level and builds a syntactic structure of Chinese character sequences. A character-based syntactic parse tree contains word boundaries, part-of-speech tags, and phrasal structure information. Syntactic knowledge constrains the system when it determines word boundaries. A deterministic procedure is used to convert word-based parse trees into character-based trees. Character-level tags are derived from word-level part-of-speech tags and word-boundary information is encoded with a positional tag. Word-level parts-of-speech become a constituent label in character-based trees. A maximum entropy parser is then built and tested.
机译:提供了一种解析器,用于在字符级别解析中文文本流并构建中文字符序列的句法结构。基于字符的句法分析树包含单词边界,词性标签和短语结构信息。句法知识在确定单词边界时会约束系统。确定性过程用于将基于单词的分析树转换为基于字符的树。字符级标签是从单词级词性标签衍生而来的,单词边界信息是用位置标签编码的。单词级词性成为基于字符的树中的组成标签。然后建立并测试最大熵解析器。

著录项

  • 公开/公告号US2005234707A1

    专利类型

  • 公开/公告日2005-10-20

    原文格式PDF

  • 申请/专利权人 XIAOQIANG LUO;ROBERT TODD WARD;

    申请/专利号US20040826707

  • 发明设计人 XIAOQIANG LUO;ROBERT TODD WARD;

    申请日2004-04-16

  • 分类号G06F17/27;

  • 国家 US

  • 入库时间 2022-08-21 22:24:46

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号