Web文本中特定类别词汇自动发现技术的研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

中文信息处理，是指利用计算机对汉语信息(包括Web文本)进行处理，在当代Web文本中的信息是极其重要的资源。本文针对某一领域Web文本提出了一种基于条件随机场的特定类别词汇自动发现方法，该方法将领域内特定类别词汇的自动发现看作一个序列标注问题，特定类别词汇分布的特征量化作为训练的特征，利用词汇共现原理，以汉语连接词和互信息为工具，扩充原始特定类别词汇，再用CRF模型训练出一个领域内特定类别词汇的特征模板，然后利用该模板进行领域内特定类别词汇的自动发现。
　　实验采用的语料来自于《现代军事》杂志网页版和2009年最新搜狗中文语料。实验取得了良好的结果，封闭测试短的特定类别词汇准确率为97.58％，召回率为96.35％，F-测度为97.27％。对长的特定类别词汇的随机局部统计，其正确率在63.59％左右。表明该方法简单易行，且具有领域通用性。

著录项

作者
谢宜辰;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科软件工程
授予学位硕士
导师姓名高铁杠;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
特定类别词汇; 自动发现; 条件随机场; Web文本;

相似文献

中文文献
外文文献
专利

1. Web文本中维吾尔语领域术语的自动发现 [J] . 钟军 ,田生伟 ,禹龙 . 计算机应用 . 2012,第002期
2. 文本自动分类中的动态类别扩展研究 [J] . 张雪英 ,Jürgen Krause ,刘凤玉 . 计算机应用研究 . 2007,第005期
3. Web自动文本分类技术研究综述 [J] . 蒲筱哥 . 情报学报 . 2009,第002期
4. 基于Web结构的文本自动摘要技术研究 [J] . 陈志群 . 中国高新技术企业 . 2008,第002期
5. 基于Web结构的文本自动摘要技术研究 [J] . 王健 . 科技信息 . 2007,第029期
6. 基于标引技术的特定领域XML文本自动生成 [C] . 刘桐菊 ,于浩 ,赵铁军 . 全国第七届计算语言学联合学术会议 . 2003
7. 科技信息门户网站的技术研究——特定主题（Topic-Specific）的Web信息发现技术的理论研究和实践探索 [A] . 岑咏华 . 2003

Web文本中特定类别词汇自动发现技术的研究

摘要

著录项

相似文献

相关主题

期刊订阅