首页> 外文学位 >Scalable Multi-Document Summarization Using Natural Language Processing.
【24h】

Scalable Multi-Document Summarization Using Natural Language Processing.

机译:使用自然语言处理的可扩展多文档摘要。

获取原文
获取原文并翻译 | 示例

摘要

In this age of the Internet, Natural Language Processing (NLP) techniques are the key sources for providing information required by users. However, with the extensive usage of available data, a secondary level of wrappers that interact with NLP tools have become necessary. These tools must extract a concise summary from the primary data set retrieved. The main reason for using text summarization techniques is to obtain this secondary level of information. Text summarization using NLP techniques is an interesting area of research with various implications for information retrieval.;This report deals with the use of Latent Semantic Analysis (LSA) for generic text summarization and compares it with other models available. It proposes text summarization using LSA in conjunction with open-source NLP frameworks such as Mahout and Lucene. The LSA algorithm can be scaled to multiple large-sized documents using these frame-works. The performance of this algorithm is then compared with other models commonly used for summarization and Recall-Oriented Understudy of Gisting Evaluation (ROUGE) scores. This project implements a text summarization framework, which uses available open-source tools and cloud resources to summarize documents from many languages such as, in the case of this study, English and Hindi.
机译:在这个互联网时代,自然语言处理(NLP)技术是提供用户所需信息的关键来源。但是,随着可用数据的广泛使用,与NLP工具进行交互的包装程序的第二层级已成为必需。这些工具必须从检索到的主要数据集中提取简洁的摘要。使用文本摘要技术的主要原因是获得此次要信息。使用NLP技术的文本摘要是一个有趣的研究领域,对信息检索有各种含义。;本报告介绍了潜在语义分析(LSA)用于一般文本摘要的使用,并将其与其他可用模型进行了比较。它建议使用LSA结合开源的NLP框架(例如Mahout和Lucene)进行文本摘要。使用这些框架,可以将LSA算法缩放到多个大型文档。然后将该算法的性能与其他通常用于汇总和面向召回评估的Gisting评价(ROUGE)分数的其他模型进行比较。该项目实现了一个文本摘要框架,该框架使用可用的开源工具和云资源来总结来自许多语言的文档,例如本研究中的英语和北印度语。

著录项

  • 作者

    Prabhala, Bhargav.;

  • 作者单位

    Rochester Institute of Technology.;

  • 授予单位 Rochester Institute of Technology.;
  • 学科 Computer science.
  • 学位 M.S.
  • 年度 2014
  • 页码 57 p.
  • 总页数 57
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 公共建筑;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号