...
【24h】

決定木アルゴリズムに基づく自然言語文書の話題分析

机译:基于决策树算法的自然语言文档主题分析

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

大量の文書から同一の話題を含んだ文書集合を抽出することを試みる.決定木により元の文書を分娩し,その結果から決定木の構造と分類された文書の特徴との闇の関係を分析している.決定木のリーフにおける分規精度に着目した結果,1つの名詞や2つの名詞の組み合わせが文書中に出現することにより高確率で分野を特定できることを明らかにし,数10個の該当する名詞群を抽出している.また,リ-フ内文書の類似度やエントロピーを用いて,それらの名詞がどの程度話題を特定しているかを調べ,多くの名詞が話題を抽出できていることを確認している.今回の試みで得られた話旗だけでは,新しい通信サービスへの応用には不十分ではあるが,決定木の上位階層や分瓶性能の良い部分のみを用いれば,より適用性が高い話題が抽出できる可能性が示唆されている.
机译:我们尝试从大量文档中提取包含相同主题的一组文档。决策树传递原始文档,并从结果分析决策树的结构与分类文档的特征之间的暗淡关系。由于着眼于决策树的叶子中的分割精度,因此澄清了可以通过在文档中出现一个鼻子或两个鼻子的组合来高概率指定字段,并选择了数十个适用的命名法组。它正在被提取。我们还使用叶子中文档的相似性和熵来调查这些命名法在多大程度上标识了主题,并确认许多命名法可以提取主题。在该试验中获得的故事标记还不足以应用于新的通信服务,但是如果仅使用决策树的上层和具有良好划分性能的部分,则将提出具有较高适用性的主题。已经建议提取是可能的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号