Hybrid Algorithm for Multilingual Summarization of Hindi and Punjabi Documents

机译：印地语和旁遮普语文档多语言汇总的混合算法

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper concentrates on hybrid algorithm for multilingual summarization of Hindi and Punjabi documents. It combines the features of Hindi summarizer as suggested by CDAC Noida and Punjabi summarizer as suggested by Gupta and Lehal in 2012. In addition to this, it also suggests some new features for summarizing Hindi and Punjabi multilingual text. It is first time that this multilingual text summarizer has been proposed which supports both Hindi and Punjabi text. Nine features used in this algorithm for summarizing multilingual Hindi and Punjabi text are: 1) Key phrase extraction 2) Font feature 3) Nouns and Verbs Extraction 4) Position feature 5) Cue-phrase feature 6) Negative keywords extraction 7) Named Entities extraction 8) Relative length feature 9) extraction of number data. For each sentence, scores of each feature is calculated and then machine learning based mathematical regression is applied for identifying weights of these nine features. Sentence final-scores are calculated from feature weight equations. Top scored sentences in proper order (in same order as in input) are selected for final summary. Default summary is made at 30% compression ratio. This algorithm performs well at 30% compression ratio for both intrinsic and extrinsic measures of summary evaluation. This algorithm has been thoroughly tested on 30 Hindi-Punjabi documents and reports F-Score equal to 92.56% which is reasonably good.

机译：本文着重研究混合算法，对印地语和旁遮普语文档进行多语言汇总。它结合了CDAC Noida所建议的Hindi汇总器和Gupta和Lehal于2012年所建议的Punjabi汇总器的功能。此外，它还提出了一些用于汇总Hindi和Punjabi多语言文本的新功能。首次提出了同时支持印地语和旁遮普语文本的多语言文本摘要器。该算法用于概括多语言印地语和旁遮普语文本的九个特征是：1）关键字提取2）字体特征3）名词和动词提取4）位置特征5）提示短语特征6）否定关键字提取7）命名实体提取8）相对长度特征9）提取数字数据。对于每个句子，计算每个特征的分数，然后将基于机器学习的数学回归应用于识别这九个特征的权重。句子最终分数是根据特征权重方程计算得出的。以正确的顺序（与输入顺序相同）选择得分最高的句子作为最终摘要。默认摘要以30％的压缩率进行。对于摘要评估的内在和外在措施，该算法在30％的压缩率下均表现良好。该算法已在30个Hindi-Punjabi文档上进行了全面测试，并报告F-Score等于92.56％，这是相当不错的。

著录项

来源
《International conference on mining intelligence and knowledge exploration》|2013年|717-727|共11页
会议地点
作者
Vishal Gupta;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Hybrid Multilingual Summarizer; Multilingual Hindi Punjabi Summarizer; Hindi Extractive Summarization; Punjabi Extractive Summarizer;

机译：混合多语言摘要器;多语种印地语旁遮普文摘要;印地语提取摘要;旁遮普文摘摘要;

相似文献

外文文献
中文文献
专利

1. ELSA: a multilingual document summarization algorithm based on frequent itemsets and latent semantic analysis [J] . Epaminondas Kapetanios Computing reviews . 2021,第1期

机译：ELSA：一种基于频繁项目集和潜在语义分析的多语言文献摘要算法
2. ELSA: a multilingual document summarization algorithm based on frequent itemsets and latent semantic analysis [J] . Epaminondas Kapetanios Computing reviews . 2021,第1期

机译：ELSA：一种基于频繁项目集和潜在语义分析的多语言文献摘要算法
3. ELSA: a multilingual document summarization algorithm based on frequent itemsets and latent semantic analysis. [J] . M. Sohel Rahman Computing reviews . 2020,第5期

机译：ELSA：一种基于频繁项目集和潜在语义分析的多语言文档摘要算法。
4. Hybrid Algorithm for Multilingual Summarization of Hindi and Punjabi Documents [C] . Vishal Gupta International Conference on Mining Intelligence and Knowledge Exploration . 2013

机译：HINDI和PUNJABI文档的多语言摘要混合算法
5. Multi-document Summarization Based on Document Clustering and Neural Sentence Fusion [D] . Fuad, Tanvir Ahmed. 2018

机译：基于文档聚类和神经句子融合的多文件摘要
6. An Automated Summarization Assessment Algorithm for Identifying Summarizing Strategies [O] . Asad Abdi, Norisma Idris, Rasim M. Alguliyev, 2011

机译：一种用于确定汇总策略的自动汇总评估算法
7. Automatic Summarization for Hindi Text Documents using Bio-inspired Computing [O] . Vipul Dalal, Dr. Latesh Malik 2017

机译：使用生物启发计算自动摘要印地语文本文件

Hybrid Algorithm for Multilingual Summarization of Hindi and Punjabi Documents

摘要

著录项

相似文献

相关主题

期刊订阅