首页> 外文会议>電子情報通信学会;情報科学技術フォーラム >単語論理和での属性拡張による文書分類性能向上
【24h】

単語論理和での属性拡張による文書分類性能向上

机译:通过使用单词OR扩展属性来改善文档分类性能

获取原文

摘要

文書中での単語の出現だけでなく、単語間の関連を利用することで文書検索や文書識別の性能向上が期待されている。例えば、単語の同義語や上位下位関係のデータベースであるWordNet を文書分類に利用する研究があるがある。しかし、上位下位関係を用いること で、常に性能が向上するとは限らない。また、WordNet のような大規模コーパス は汎用ではあるが人手で構築されたものであり、新しいテーマや特定の文書群 について全ての単語の関連を網羅しているわけではない。一方、やでは、文書やWeb ページに現れるパターンに着目することで、人手によらず単語間の上位下位関係を抽出している。しかし、一つの単語、あるいは、 複数の単語の上位あるいは下位の概念として求まるのは、分析対象の文書群に出現する具体的な単語だけである。
机译:不仅利用文档中单词的外观,还利用单词之间的关系 有望提高文档检索和文档识别的性能。 到。例如,单词同义词和上级关系的数据库 有使用WordNet进行文档分类的研究 有。但是,通过使用上下关系,性能始终 并不总是能改善。而且,像WordNet这样的大规模 语料库是通用的,但是是手动构建的 新主题和特定文档的所有单词关联 这并不详尽。另一方面,在文件的情况下 通过注意网页上显示的模式, 提取单词之间的上下关系。但是一个 单词,或多个单词的上级或下级的概念 是出现在要分析的文档组中的特定对象。 只是一个字而已。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号