【24h】

質問応答システムにおける質問文内の漢字文字列に対する用語特定手法

机译:问题回答系统中识别疑问句中汉字字符串术语的方法

获取原文
获取原文并翻译 | 示例
           

摘要

近年,ユーザが入力した質問文に対して大量の知識源から回答を得る質問応答システムの研究が注目されている.特にインターネットの普及により,Googleに代表されるWWW検索エンジンを用いて,WWW空間から回答を探す技術が研究されている.これらのシステムでは,質問文内から抽出されたキーワードをWWW検索エンジンに入力し,その検索結果から回答を出力している.本稿では,質問文からキーワードを抽出する際に起こる,用語の過分別問題に着目し,WWW検索エンジンを用いた貫問文内の用語特定手法を提案する.本手法は,学習フェーズおよび用語特定フェーズから構成される.まず学習フェーズでは,学習データの各用語候補に対して,WWW検索エンジンでの検索結果(サマリ)から継続度,品詞,文字種などの特徴量を抽出し,Support Vector Machine (SVM)を用いて用語判定モデルを作成する.次に,用語特定フェーズでも同樣に特徴量を抽出した後,用語判定モデルを用いて用語を特定する.実際に,NTCIR4-QAC2の質問文に対して本手法で用語特定を行った結果,従来手法と比較して約55%の質問文に対して用語特定精度の向上が認められた.
机译:近年来,注意力集中在对问答系统的研究上,该系统从大量知识源中获取用户输入的疑问句的答案。特别地,随着互联网的普及,正在研究使用由Google代表的WWW搜索引擎在WWW空间中搜索答案的技术。在这些系统中,将从问题文本中提取的关键字输入到WWW搜索引擎,并从搜索结果中输出答案。在本文中,我们关注于从疑问句中提取关键词时出现的术语过度分类问题,并提出了一种使用WWW搜索引擎识别疑问句中术语的方法。该方法包括学习阶段和术语识别阶段。首先,在学习阶段,对于学习数据的每个候选词,从WWW搜索引擎的搜索结果(摘要)中提取诸如连续性,部分歌词和字符类型之类的特征量,并使用支持向量机(SVM)使用术语。创建一个判断模型。接下来,即使在项识别阶段中,在以相同方式提取特征量之后,也可以使用项判断模型来识别项。实际上,通过这种方法指定NTCIR4-QAC2疑问句的术语的结果,与传统方法相比,大约55%的疑问句的术语识别准确性得到了改善。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号