基于维基百科的短文本处理方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着即时通讯和互联网技术的普及，多元化社交体系逐步形成，短文本数据量与日俱增，如何处理大量的短文本数据尤为重要。短文本具有内容简短，特征稀疏等特点，普通文本分类方法并不适用于短文本，短文本分类成为目前的研究重点与难点。国内外学者对短文本分类的研究主要集中在短文本处理与分类算法改进两个方面。论文主要从短文本处理方面入手，对短文本词义消歧、特征扩展进行研究，最后利用常用的文本分类算法对处理后的短文本进行分类。鉴于维基百科具有数据全面、语义丰富等特点，论文将其作为外部知识库，提出基于维基百科的短文本词义消歧方法与特征扩展方法，解决短文本中的一词多义问题与特征稀疏问题，有效提高了短文本分类性能。主要工作如下:
　　1)提出基于词频统计的TF-IDF算法
　　针对传统TF-IDF(Term Frequency-Inverse Document Frequency)算法关键词提取效率低下及准确率欠佳的问题，提出基于词频统计的TF-IDF算法。首先，通过齐普夫定律推导出文本中同频词数的计算公式;其次，根据同频词数计算公式确定文本中各频次词语所占比重，发现文本中绝大多数是低频词;最后，将词频统计规律与传统TF-IDF算法相结合，提出基于词频统计的TF-IDF算法——TFIDFWFS(TF-IDF Algorithm Basedon Word Frequency Statistics)。
　　采用中、英文文本实验数据集进行仿真实验，结果表明，在文本关键词提取中，TFIDFWFS在查准率、查全率及F1指标上均优于传统TF-IDF算法，并能够有效降低关键词提取的运行时间。
　　2)提出面向维基百科的TFIDFWFS算法
　　针对TFIDFWFS算法未考虑维基百科页面特点的问题，提出面向维基百科的TFIDFWFS算法，选择最具代表性的特征词来表示维基百科词条。首先，结合维基百科文本结构特点，提出基于文本结构加权的TF方法;其次，结合锚文本信息特点，提出基于锚文本加权的TF方法;然后，结合类别信息特点，提出基于类别信息加权的TF-IDF方法;最后，将维基百科页面特点与TFIDFWFS算法相结合，提出面向维基百科的TFIDFWFS算法——W-TFIDFWFS(Wikipedia Oriented TF-IDF Algorithm Based on WordFrequency Statistics)。
　　采用中、英文维基百科数据集进行仿真实验，结果表明，在对维基百科页面进行关键词提取时，W-TFIDFWFS在查准率、查全率及F1指标上均优于TFIDFWFS算法，可比较准确地计算特征词权重，有效提取维基百科页面核心信息。
　　3)提出基于维基百科的短文本词义消歧方法
　　针对短文本中的一词多义问题，提出基于维基百科的短文本词义消歧方法——STWSDMW(Short Text Word Sense Disambiguation Method Based on Wikipedia)。首先，从维基百科消歧页面中获得待消歧词的消歧候选集合;其次，获得短文本中无歧义特征词对应的维基条目标题集合;然后，计算每一个消歧候选词的相似度得分函数值;最后，选择相似度得分值最大的消歧候选词作为最终的消歧结果。
　　选取中、英文短文本实验数据集进行验证，实验表明，采用STWSDMW方法对短文本进行词义消歧可有效提高短文本分类性能。
　　4)提出基于维基百科的短文本特征扩展方法
　　针对短文本特征稀疏，导致短文本分类准确率低下的问题，提出基于维基百科的短文本特征扩展方法——STFEMW(Short Text Feature Extension Method Based onWikipedia)。首先，对短文本中每个特征词进行词义消歧;其次，获取每个特征词对应的维基页面的向量表示;最后，选择维基页面中权重最大的前k个特征词，将其扩展到短文本特征项集合中。
　　选取中、英文短文本实验数据集进行验证，实验表明，采用STFEMW方法对短文本进行特征扩展可有效提高短文本分类性能。

著录项

作者
罗燕;
展开▼
作者单位

河北师范大学;

展开▼
授予单位河北师范大学;
学科软件工程
授予学位硕士
导师姓名赵书良;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
词频统计; 维基百科; 词义消歧; 特征扩展; 短文本处理;

相似文献

中文文献
外文文献
专利

1. 基于维基百科的短文本相关度计算 [J] . 荆琪 ,段利国 ,李爱萍 . 计算机工程 . 2018,第002期
2. 基于维基百科的短文本语义扩展方法研究 [J] . 韩冬雷 ,金花 ,朱亚涛 . 计算机应用与软件 . 2014,第010期
3. 基于维基百科的冬奥会概念下的低频词条双语迭代扩展 [J] . 王星 ,陶明阳 ,侯磊 . 中文信息学报 . 2021,第002期
4. 基于维基百科的领域概念知识点自动问答系统的设计与实现 [J] . 张巧燕 ,裴栋 ,薛慧君 . 电脑编程技巧与维护 . 2021,第004期
5. 基于中文维基百科的概念获取方法研究 [J] . 蔡海博 ,戴忠柱 . 辽宁师专学报（自然科学版） . 2021,第003期
6. 基于维基百科社区挖掘的词语语义相似度计算 [C] . PENG Li-zhen ,彭丽针 ,WU Yang-yang . 2015全国理论计算机科学学术年会 . 2015
7. 基于维基百科的短文本相关度计算 [A] . 荆琪 . 2017

基于维基百科的短文本处理方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅