首页> 中文会议>第七届中文信息处理国际会议 >从日本域名网站中抽取中文网页——基于自然语言处理

从日本域名网站中抽取中文网页——基于自然语言处理

页面导航

摘要
著录项
相似文献
相关主题

摘要

在日本域名网站里虽然存在不少中文网页,但实际上大多都没被有效利用。如果能从中准确地抽取出来,一定能为使用中文的用户带来许多方便.本研究利用自然语言处理技术,首先对日本早稻田大学和中国北京大学的网页作了全面分析,找出中文句子的特征,然后应用于日本域名1000万网页的解析,最终得到良好结果。

著录项

来源
《第七届中文信息处理国际会议》|2007年|348-352|共5页
会议地点武汉
作者
魏小比;
展开▼
作者单位

中国中文信息学会;

武汉大学;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类数理语言学;
关键词
自然语言处理技术; 语素解析; 自动分词; 中文网页; 日本域名网站;
入库时间 2022-08-17 10:16:54

相似文献

中文文献
外文文献
专利

1. 基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例 [J] . 钱爱兵 ,江岚 . 情报理论与实践 . 2008,第006期
2. 基于泛中文域名的网页关键词超链接功能探讨与实现 [J] . 杜义华 . 计算机系统应用 . 2006,第010期
3. 基于查询日志分析的中文网页关键词抽取方法 [J] . 王晓艳 ,王珍珍 . 广西师范大学学报（自然科学版） . 2015,第002期
4. 基于向量空间模型的中文网页主题特征项抽取 [J] . 代宽 ,赵辉 ,韩冬 . 吉林大学学报（信息科学版） . 2014,第001期
5. 基于语义扩展模型的中文网页关键词抽取 [J] . 汪洋 ,帅建梅 . 计算机工程 . 2012,第022期
6. 一种从中文网页中抽取信息的综合方法 [C] . Chen Jin ,陈劲 ,Lin Huaizhong . 第29届中国数据库学术会议 . 2012
7. 基于区域块密度的网页信息抽取技术在移动网站开发中的研究与实现 [A] . 王琦 . 2014

获取原文

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号