首页> 中文学位 >基于维基百科的短文本处理方法
【6h】

基于维基百科的短文本处理方法

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 维基百科研究现状

1.2.2 短文本处理研究现状

1.3 本文主要研究内容

1.4 论文组织结构

2 相关理论

2.1 维基百科

2.2 文本分类

2.2.1 文本分类概念

2.2.2 文本分类流程

2.2.3 常用文本分类算法

2.3 短文本分类

2.3.1 短文本定义及特点

2.3.2 短文本分类应用领域

3 基于词频统计的TF-IDF算法

3.1 文本关键词提取流程

3.1.1 文本预处理模块

3.1.2 权重计算模块

3.1.3 提取关键词模块

3.2 词频统计规律

3.2.1 同频词数

3.2.2 各频次词语所占比重

3.3 基于词频统计的TF-IDF算法——TFIDFWFS

3.3.1 算法基本思想

3.3.2 算法流程

3.3.3 算法伪代码

3.4 实验与分析

3.4.1 实验环境

3.4.2 实验数据

3.4.3 实验结果评价标准

3.4.4 同频词数实验结果与分析

3.4.5 各频次词语所占比重实验结果与分析

3.4.6 TFIDFWFS算法实验结果与分析

3.5 本章小结

4 面向维基百科的TFIDFWFS算法

4.1 结合维基百科页面特点计算权重

4.1.1 结合文本结构

4.1.2 结合锚文本信息

4.1.3 结合类别信息

4.2 面向维基百科的TFIDFWFS算法——W-TFIDFWFS

4.2.1 算法基本思想

4.2.2 算法流程

4.2.3 算法伪代码

4.3 实验与分析

4.3.1 实验环境

4.3.2 实验数据

4.3.3 实验结果评价标准

4.3.4 W-TFIDFWFS算法实验结果与分析

4.4 本章小结

5 基于维基百科的短文本处理

5.1 基于维基百科的短文本词义消歧

5.1.1 基本思想

5.1.2 词义消歧流程

5.1.3 算法伪代码

5.2 基于维基百科的短文本特征扩展

5.2.1 基本思想

5.2.2 特征扩展流程

5.2.3 算法伪代码

5.3 实验与分析

5.3.1 实验环境

5.3.2 实验数据

5.3.3 分类结果评价标准

5.3.4 短文本处理方法实验结果与分析

5.4 本章小结

6 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

攻读学位期间取得的科研成果清单

展开▼

摘要

随着即时通讯和互联网技术的普及,多元化社交体系逐步形成,短文本数据量与日俱增,如何处理大量的短文本数据尤为重要。短文本具有内容简短,特征稀疏等特点,普通文本分类方法并不适用于短文本,短文本分类成为目前的研究重点与难点。国内外学者对短文本分类的研究主要集中在短文本处理与分类算法改进两个方面。论文主要从短文本处理方面入手,对短文本词义消歧、特征扩展进行研究,最后利用常用的文本分类算法对处理后的短文本进行分类。鉴于维基百科具有数据全面、语义丰富等特点,论文将其作为外部知识库,提出基于维基百科的短文本词义消歧方法与特征扩展方法,解决短文本中的一词多义问题与特征稀疏问题,有效提高了短文本分类性能。主要工作如下:
  1)提出基于词频统计的TF-IDF算法
  针对传统TF-IDF(Term Frequency-Inverse Document Frequency)算法关键词提取效率低下及准确率欠佳的问题,提出基于词频统计的TF-IDF算法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律与传统TF-IDF算法相结合,提出基于词频统计的TF-IDF算法——TFIDFWFS(TF-IDF Algorithm Basedon Word Frequency Statistics)。
  采用中、英文文本实验数据集进行仿真实验,结果表明,在文本关键词提取中,TFIDFWFS在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效降低关键词提取的运行时间。
  2)提出面向维基百科的TFIDFWFS算法
  针对TFIDFWFS算法未考虑维基百科页面特点的问题,提出面向维基百科的TFIDFWFS算法,选择最具代表性的特征词来表示维基百科词条。首先,结合维基百科文本结构特点,提出基于文本结构加权的TF方法;其次,结合锚文本信息特点,提出基于锚文本加权的TF方法;然后,结合类别信息特点,提出基于类别信息加权的TF-IDF方法;最后,将维基百科页面特点与TFIDFWFS算法相结合,提出面向维基百科的TFIDFWFS算法——W-TFIDFWFS(Wikipedia Oriented TF-IDF Algorithm Based on WordFrequency Statistics)。
  采用中、英文维基百科数据集进行仿真实验,结果表明,在对维基百科页面进行关键词提取时,W-TFIDFWFS在查准率、查全率及F1指标上均优于TFIDFWFS算法,可比较准确地计算特征词权重,有效提取维基百科页面核心信息。
  3)提出基于维基百科的短文本词义消歧方法
  针对短文本中的一词多义问题,提出基于维基百科的短文本词义消歧方法——STWSDMW(Short Text Word Sense Disambiguation Method Based on Wikipedia)。首先,从维基百科消歧页面中获得待消歧词的消歧候选集合;其次,获得短文本中无歧义特征词对应的维基条目标题集合;然后,计算每一个消歧候选词的相似度得分函数值;最后,选择相似度得分值最大的消歧候选词作为最终的消歧结果。
  选取中、英文短文本实验数据集进行验证,实验表明,采用STWSDMW方法对短文本进行词义消歧可有效提高短文本分类性能。
  4)提出基于维基百科的短文本特征扩展方法
  针对短文本特征稀疏,导致短文本分类准确率低下的问题,提出基于维基百科的短文本特征扩展方法——STFEMW(Short Text Feature Extension Method Based onWikipedia)。首先,对短文本中每个特征词进行词义消歧;其次,获取每个特征词对应的维基页面的向量表示;最后,选择维基页面中权重最大的前k个特征词,将其扩展到短文本特征项集合中。
  选取中、英文短文本实验数据集进行验证,实验表明,采用STFEMW方法对短文本进行特征扩展可有效提高短文本分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号