基于网络文本的多词表达抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

多词表达(Multiword Expression，MWE)是自然语言中一类固定或半固定搭配的语言单元，特别在网络文本中，多词表达频繁出现且往往缺乏标注信息，给分词任务和后续文本理解带来了巨大挑战。与此同时，网络文本的多词表达抽取对于社交网络的热点追踪和信息检索等任务都有着至关重要的作用。目前，多词表达的抽取方法研究已经有了一定的成果，但仍然存在很大的改进空间，主要的问题有:目前面向网络文本的多词表达抽取研究还很少;采用纯规则或纯统计的方法来抽取多词表达的效果往往不好;多词表达结构中词元关系的计算往往需要依赖人工制定的规则和模板，不适用于抽取包罗万象的网络文本中的多词表达。因此，本文面向网络文本的多词表达抽取研究，探讨如何结合规则和统计方法来抽取多词表达，以及如何减少人工制定规则的依赖，实现多词表达的自动抽取。
　　本文对网络文本中汉语多词表达的结构特点和语言学特点进行了详尽的分析和归纳，在此基础上，设计了基于规则与统计相融合的多词表达抽取方法，且根据多词表达构成词的词性组合规律制定了正则表达式模板，并改进NC-value统计模型，将其与互信息(Mutual Information，MI)相结合（即MI/NC）来抽取多词表达。经过实验测试，在1万条微博语料上，基于规则与统计相融合的方法抽取多词表达的F值达到85.85％，相比较于基线系统，性能有了很大的提升。
　　进一步，为了减少对人工规则的依赖及提升多词表达抽取的准确率，本文提出了一种基于双层策略的多词表达抽取方法。第一层次，我们利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次，我们在第一层次获得的多词表达候选列表的基础上，利用支持向量机(Support Vector Machine，SVM)分类器，构建上下文和词向量特征，进行多词表达与非多词表达的分类，实现多词表达候选列表的进一步过滤。经过实验验证，基于双层策略方法抽取多词表达的F值达到89.58％，相比较于基线系统和基于规则与统计相融合的抽取方法，性能有了进一步的提高。
　　综上所述，本文面向网络文本，在融合基于规则和基于统计的多词表达抽取方面，在改进多词表达结构中词关系计算算法方面，在引入词向量来过滤多词表达候选列表方面，进行了一系列创新性的工作，实验结果表明，本文所提出的基于规则与统计相融合和基于双层策略方法都能实现网络文本中多词表达的有效抽取。此外，我们将多词表达抽取与分词任务相结合，实验结果表明，引入多词表达抽取结果后的分词效果也得到了有效的改善。

著录项

作者
龚双双;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科计算机科学与技术
授予学位硕士
导师姓名陈钰枫;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
网络文本; 多词表达; 信息抽取; 支持向量机;
入库时间 2022-08-17 10:18:57

相似文献

中文文献
外文文献
专利

1. 一种基于图的文档关键词和摘要协同抽取方法研究 [J] . 毛湘科 ,黄少滨 ,余秦勇 . 计算机科学 . 2021,第010期
2. 基于TextRank的产品评论关键词抽取方法研究 [J] . 尤苡名 . 软件导刊 . 2020,第004期
3. 基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究 [J] . 刘奇飞 ,沈炜域 . 情报探索 . 2018,第006期
4. 基于二分网络分析方法的学术文献关键词自动抽取方法研究 [J] . 李树青 ,曹杰 ,庄光光 . 情报学报 . 2016,第012期
5. 基于Bigram的特征词抽取及自动分类方法研究 [J] . 王笑旻 . 计算机工程与应用 . 2005,第022期
6. 基于百度百科与文本分类的网络文本语义主题抽取方法 [C] . Chen Yewang ,陈叶旺 ,Chen Chaoyang . 2012年第三届中国计算机学会服务计算学术会议 . 2012
7. 基于词分布和深度残差网络的关系抽取方法研究 [A] . 王驰龙 . 2020

基于网络文本的多词表达抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅