首页> 外文期刊>電子情報通信学会技術研究報告 >網羅的な検出を重視した異形パターンに基づく日本語慣用句同定システム
【24h】

網羅的な検出を重視した異形パターンに基づく日本語慣用句同定システム

机译:基于变异模式的日语惯用语识别系统,重点是详尽检测

获取原文
获取原文并翻译 | 示例
           

摘要

文中の慣用句を同定することは文章の構造化に必要不可欠であり,とりわけ動詞語義の同定には欠かせない技術である.これは慣用句が動詞とその係り元の名詞との関係により特異な意味をもつだけでなく,他の言葉に言い換え可能なためである.そこで本研究ではユーザが容易に記述可能な慣用句同定辞書の仕様を決定し,それに基づいた慣用句同定システムを構築している.本システムの特徴としては記述にXMLを利用し分かち書きや形態素単位を意識せず規則の追加が可能な点,助詞の置換や単語挿入による慣用句構成の変化といった形態的多様性を吸収した網羅的な検出が可能な点などが挙げられる.さらに本システムは動詞項構造シソーラスの語義概念を取り入れて慣用句の言い換えを扱うことができるため,動詞語義の同定を行う項構造付与システムと連携可能な枠組みを持つ.本稿では,辞書の仕様および形態的多様性を吸収した網羅的な検出手法について報告する.慣用句同定実験では,本手法の有効性と意味的曖昧性解消による精度向上の可能性を確認する.%Identifying idioms in sentences is essential to structure text, especially to identify verb semantics. This task is, however, difficult because an idiom has not only different semantics by relation between a verb and its modifier nouns, but also different paraphrases. To solve this, we have constructed idiom identification system using grammatical rules based on user-editable dictionaries. This system can detect idioms exhaustively, absorbing morphological variants such as replacement of particles or transformation of idiom construction caused by insertion of words. It can also cooporate with Argument Structure Annotator to identify verb semantics, dealing with idiom paraphrases and adopting semantic concept on Thesaurus of Predicate Argument Structure. Furthermore, it allows users easily to register idiom rules in the user-editable dictionaries in XML without word segmentation nor POS information. In this paper, we propose specifications of the user-editable dictionaries and an exhaustive detection method to absorb morphological variants. The experimental results of idiom identification task reveal that the proposal method works well and is effective for semantic disambiguation of idioms.
机译:识别句子中的成语对于构造句子是必不可少的,并且是识别动词含义必不可少的技术。这是因为成语由于动词和相关名词之间的关系而具有特殊的含义,因此可以解释为其他词。因此,在本研究中,确定了用户易于描述的成语识别词典的规范,并构建了基于它的成语识别系统。该系统的特点是它使用XML进行描述,并且可以添加规则而无需了解分段和语素单元,并且该系统可以吸收诸如粒子替换和由于单词插入导致的惯用短语构造变化之类的形态多样性。可以检测各种点。此外,由于该系统可以通过合并动词-自变量结构同义词库的概念来处理成语的释义,因此它具有可以与识别动词含义的术语结构分配系统配合使用的框架。在本文中,我们报告了一种详尽的检测方法,该方法吸收了字典的规格和形态多样性。在一个成语识别实验中,我们确认了该方法的有效性以及通过消除语义歧义来提高准确性的可能性。识别句子中的成语对于构造文本至关重要,尤其是对动词语义而言,但这是一项艰巨的任务,因为一个成语不仅因动词与其修饰语之间的关系而具有不同的语义,而且具有不同的释义。我们根据用户可编辑的字典,使用语法规则构建了成语识别系统,该系统可以详尽地检测成语,吸收词素插入引起的粒子替换或成语结构转换等形态学变体,还可以与参数结构配合使用谓词注释器可以识别动词语义,处理成语释义,并在谓词自变量结构叙词表中采用语义概念。此外,它使用户可以轻松地在XML的用户可编辑词典中注册成语规则,而无需分词或POS信息。我们提出了用户可编辑的字典的规范和说明习语识别任务的实验结果表明,该方法效果很好,对习语的语义歧义化是有效的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号