文本摘要
文本摘要的相关文献在2000年到2023年内共计475篇,主要集中在自动化技术、计算机技术、科学、科学研究、无线电电子学、电信技术
等领域,其中期刊论文94篇、会议论文3篇、专利文献22993篇;相关期刊54种,包括电子设计工程、数字技术与应用、计算机工程等;
相关会议3种,包括中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第十一届全国计算语言学学术会议、第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会等;文本摘要的相关文献由1129位作者贡献,包括余正涛、郭军军、黄于欣等。
文本摘要—发文量
专利文献>
论文:22993篇
占比:99.58%
总计:23090篇
文本摘要
-研究学者
- 余正涛
- 郭军军
- 黄于欣
- 舒畅
- 陈志刚
- 相艳
- 何浩
- 曾碧卿
- 王健宗
- 田济东
- 肖力强
- 金耀辉
- 陈又新
- 陈文清
- 高盛祥
- 周才东
- 张黔
- 王伟
- 罗雨
- 蔡晓东
- 陈思姣
- 于志强
- 何莹
- 冯骁骋
- 刘博
- 刘挺
- 吴军
- 孙卓
- 张述睿
- 李浩然
- 李直旭
- 李肯立
- 林鸿飞
- 樊昭磊
- 王佳安
- 秦兵
- 陈玮
- 吕学强
- 周伟枭
- 张剑
- 张宇
- 强保华
- 彭博
- 李宝莲
- 李建欣
- 李法远
- 李红莲
- 杨冬
- 杨春春
- 毛乾任
-
-
王宗辉;
李宝安;
吕学强;
游新冬
-
-
摘要:
在自然语言处理领域是最重要的研究工作之一,并随着深度学习的兴起成为研究热点,而中文长文本的摘要抽取面临更大的挑战,存在长文本-摘要语料库不足、摘要抽取信息不准确、目标摘要冗余、摘要句缺失等问题.本文以中文长文本的摘要抽取为研究对象,提出一种BETES方法,基于规则和人工辅助筛选构建中文长文本-摘要语料库;利用Bert预处理模型进行文本向量化,更好地捕捉长文本上下文的语义,提升信息抽取的准确性;在识别中文长文本的基本篇章单元的基础上,以基本篇章单元为抽取对象,降低摘要抽取的冗余度;最后利用Transformer神经网络抽取模型,实现基本篇章单元的抽取,提升摘要句抽取的准确率.实验证明,提出的BETES方法在中文长文本的抽取式摘要过程中提高了准确性,降低了冗余度,并且ROUGE分数优于主流的摘要抽取方法.
-
-
李维乾;
蒲程磊
-
-
摘要:
针对传统引入注意力机制的Encoder-Decoder模型在摘要生成任务上存在文字冗余、表述不一致、非登录词(out of vocabulary,OOV)等问题,而导致生成摘要准确性较差,对可嵌入文本位置信息的Transformer模型进行了改进。提出引入指针网络帮助解码,利用指针网络生成文本的优势生成摘要,并在LCSTS中文短文本摘要数据集上验证了该模型的有效性。结果表明:改进后的Transformer模型在ROUGE评分上比基准模型平均高出2分,在保证摘要与输入文本一致性的同时,其生成内容的显著性和语言的流畅性提升明显。
-
-
张紫芸;
王文发;
马乐荣;
丁苍峰
-
-
摘要:
大数据时代,如何缓减信息过载问题,是人工智能领域研究的热点和难点之一。其中,文本“降维”的摘要生成便是其中一个重要的方法,旨在将文本或文本集合转换为包含关键信息的简短摘要。近年来预训练语言模型提高了许多自然语言处理任务的性能,包括文本摘要、情感分析、问答、自然语言推理、命名实体识别和文本相似性等。梳理近几年基于预训练的文本摘要方法,并对文本摘要的数据集以及评价方法进行了整理,最后讨论了文本摘要面临的挑战与发展趋势。
-
-
李志欣;
彭智;
唐素勤;
马慧芳
-
-
摘要:
的一个迫切需要解决的问题是如何准确地概括文本的核心内容。目前文本摘要的主要方法是使用编码器-解码器架构,在解码过程中利用软注意力获取所需的上下文语义信息。但是,由于编码器有时候会编码过多的信息,所以生成的摘要不一定会概括源文本的核心内容。为此,该文提出一种基于双注意指针网络的文本摘要模型。首先,该模型使用了双注意指针融合网络,其中自注意机制从编码器中收集关键信息,软注意和指针网络通过上下文信息生成更连贯的核心内容。两者融合能够生成具有总结性和连贯性的摘要。其次,采用改进后的覆盖率机制来处理重复问题,提高生成摘要的准确性。同时,结合计划采样和强化学习产生新的训练方法来优化模型。在CNN/Daily Mail数据集和LCSTS数据集上的实验表明,该模型达到了当前主流模型的效果。实验结果分析表明,该模型在总结性方面具有良好的表现,同时减少了重复的出现。
-
-
闫晓东;
王羿钦;
黄硕;
杨金朋;
赵小兵
-
-
摘要:
自动文本摘要是自然语言处理中的一个关键任务,高质量的数据集能有效推动摘要的研究。深度学习算法模型在中英开源数据集上都取得了显著的成绩,甚至超过了人类的表现。然而,公开的、高质量的大规模摘要数据集仍然非常稀少,且不容易人工构建。目前在藏文文本摘要任务中,由于公开数据集较少,藏文文本摘要任务还处于起步阶段。为了推动藏文信息化发展,本文人工构建了一个小型藏文多文本摘要数据集Ti-SUM,由1000篇真实藏文新闻组成,每一篇新闻都给出了简短的摘要。此外我们还针对每篇新闻构建了超过3500个文章关键词,用以辅助文本摘要任务。
-
-
崔卓;
李红莲;
张乐;
吕学强
-
-
摘要:
文本摘要旨在对冗长的文本进行简短精确的总结,同时保留文本的原始语义。该文提出一种融合义原的中文摘要生成方法(Add Sememe-Pointer Model,ASPM),以词为单位在LCSTS数据集上进行实验。算法利用基于Seq2Seq的指针网络模型以解决由于词汇表规模导致的未登录词问题。考虑到中文一词多义现象较多,只通过指针网络模型难以很好地理解文本语义,导致生成的摘要可读性不高。方法引入了义原知识库,训练多义词的词向量表示,准确地捕捉一个词在上下文的具体含义,并对LCSTS中的一些多义词进行义原标注,以使算法能更好地获取数据集中词语的语义信息。实验结果表明,该文提出的融合义原的中文摘要生成方法可以得到更高的ROUGE分数,使生成的摘要更加具有可读性。
-
-
朱琳;
冯慧敏;
刘铭;
张鹏雷;
唐杰;
陈镱文
-
-
摘要:
近年来出土的秦简牍材料,为研究战国晚期至秦代的历史提供了丰富而可靠的资源。文章以目前已经校读出版的里耶秦简一、二卷为语料来源,通过特征词提取、词频统计、文本摘要及主题模型等文本挖掘技术,从词频、事件、主题三个维度对简牍内容进行挖掘与分析。实验表明,一、二卷中主要为官府文书,内容涉及文书邮传、债务、粮食、徒簿、案件、刑徒管理等内容,能够较好地反映里耶一、二卷的大体内容,并且与校释第一卷中给出的主题内容大体一致。为简牍材料的研究提供了新思路,证实了可借助文本挖掘方法来理解、诠释中国丰富的文化遗产。
-
-
姚奕;
杨帆;
杜晓明;
袁清波
-
-
摘要:
信息时代的情报收集突破了传统情报收集方法的限制,广泛的来源导致其数据量超过了人工处理的极限。针对动向情报这类专业性强的多主题长文本,本文提出了一种基于主题聚类的自动摘要方法,即利用知识图谱蕴含的知识和语义关联关系来增强句向量包含的语义信息并进行聚类,再基于主题特征对聚类结果进行优化,最后计算每个主题中句子之间的相似度,并选取每个主题中最具代表性的句子组成摘要。这项工作具有两大显著优势,一是聚类效果更好;二是在不降低准确率的前提下,运行速度更快。
-
-
张紫芸;
王文发;
马乐荣;
丁苍峰
-
-
摘要:
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段,也是人工智能领域研究的热点和难点之一。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。近年来语言模型的预处理提高了许多自然语言处理任务的技术水平,包括情感分析、问答、自然语言推理、命名实体识别和文本相似性、文本摘要。本文梳理文本摘要以往的经典方法和近几年的基于预训练的文本摘要方法,并对文本摘要的数据集以及评价方法进行整理,最后总结文本摘要目前面临的挑战与发展趋势。
-
-
程子轩;
颜成伟;
李铖硕
-
-
摘要:
移动互联网时代,微信公众号凭借庞大的用户群体成为人们获取资讯的重要途径之一。本文首先对微信公众号文本摘要的意义进行阐释,通过分析微信公众号发布文章的特点,结合文本自动摘要方法的研究现状,最后提出微信公众号文本自动摘要实现的方法思路和过程。为微信公众平台知识组织及提供知识服务相关研究提供参考和依据。
-
-
Peng Mo;
莫鹏;
Po Hu;
胡珀;
Xiangji Huang;
黄湘冀;
Tingting He;
何婷婷
- 《中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)》
| 2015年
-
摘要:
文本摘要和关键词抽取是自然语言处理领域的两个重要研究课题,它们均以生成描述文本主旨内容的精简信息为目标.尽管这两个任务目标相似,但它们通常被作为两个独立的问题分别研究,而较少考虑其彼此间的自然关联性.尽管已有学者提出了基于图模型的协同抽取方法,该方法同时考虑了句子与句子、词与词、句子与词之间的各种关系,以迭代强化的方式同时生成文本摘要和关键词,但现有模型大多仅限于表达句子与词之间的各种二元关系,而忽视了不同文本单元间潜在的若干重要的高阶关系.鉴于此,本文提出了一种新的基于超图的协同抽取方法.该方法以句子作为超边,以词作为结点构建超图,在一个统一的超图模型下同时利用句子与词之间的高阶信息来生成摘要和关键词.在NLPCC2015面向微博的新闻文本摘要任务数据集上的实验结果验证了本文所提方法的可行性和有效性.
-
-