首页> 中文学位 >位置服务中的中文自动分词技术研究与应用
【6h】

位置服务中的中文自动分词技术研究与应用

代理获取

目录

文摘

英文文摘

论文说明:图目录、表目录

第1章绪论

1.1位置服务的开展

1.2中文自动分词技术介绍

1.3全文的布局

第2章位置服务介绍

2.1位置服务的现状与发展

2.2浙江电信114号码百事通超级搜索服务平台介绍

2.3本章小节

第3章中文自动分词技术概述

3.1 中文自动分词方法与技术

3.2歧义现象分析

3.3 已实现的中文自动分词系统

3.4中文自动分词模型(CWSM)

3.5本章小结

第4章中文分词技术在浙江电信114号码百事通超级搜索服务中的应用

4.1浙江电信114号码百事通超级搜索服务平台业务方案

4.2中文地址转换功能的设计

4.3本章小节

第5章中文地址分词的设计与实现

5.1 中文地址分词设计

5.2 中文地址分词的实现

5.3 实验结果

5.4本章小节

第6章经纬度的计算方法与技术

6.1经纬度查找与计算

6.2经纬度信息采集

6.3 实验结果

6.4本章小节

第7章地址转换的改进

7.1改进的方法

7.2功能的扩展

7.3本章小节

参考文献

致谢

展开▼

摘要

位置服务(Location Based Services,LBS),是指通过移动终端和移动网络的配合,确定移动用户的实际地理位置,从而提供用户所需要的与位置相关的服务信息。这是利用用户位置信息进行增值服务的一种移动通信与导航融合的服务形式。 中文自动分词技术于20世纪80年代初在中文信息处理领域被提出,大致可以分为机械分词方法和分机械分词方法两类。机械分词方法基于字符串匹配的原理,易于实现。按照切取字串的方向,机械分词方法可以分为正向匹配法和逆向匹配法;按照每次匹配时优先考虑长词还是优先考虑短词,机械分词方法可以分为最大匹配法和最小匹配法:按照匹配不成功时重新切取字串的策略,机械分词方法又可以分为增字法和减字法。其中最大匹配法、最小匹配法和逐词遍历法被认为是中文分词的基本分词方法,但逐词遍历法并不实用。其它的分词方法都只是在分词过程中采用的一些技巧,并不是纯粹意义的机械分词方法。非机械分词方法主要包括专家系统方法和神经元网络方法。歧义切分字段的处理的是分词算法中的一个难点,在自动分词过程中分词歧义的出现是难以不可避免的。产生歧义的原因主要有:(1)由计算机自动分词产生的特有歧义;(2)由自然语言中的二义性所引起的歧义;(3)由于分词词库的大小而引起的歧义。从构成形式上,歧义切分字段分为交集型歧义切分字段和多义组合型歧义切分字段。从分词结果看,歧义切分字段还可以分为真歧义和伪歧义两类。从切分歧义所需的知识层次分类,可将歧义字段分为:语法歧义、语义歧义和语用歧义。目前,国内几所知名高校都研制了自己的分词系统,并且在分词速度和分词精度上都达到了一定的要求。 浙江电信114号码百事通超级搜索服务平台是一个为浙江电信内网用户提供的地图查询系统。在这一平台中,我们需要把存储在数据库中的地址转换成地图经纬度,以便在地图上标识出其地图位置。本文所说的中文地址转换就是指将中文地址转换为其对应的地图经纬度以满足超级搜索服务平台的功能需求。由于人们的诸多书写习惯,中文地址的出现形式较为复杂,但却存在一些使用频率较高的关键字。利用这些关键字作为分词标志,使用中文分词技术,可以完成地址的初步切分。有了地址分词的结果,就可以在经纬度信息数据库中较为准确的检索出与地址相关的经纬度信息,并通过计算最终得出地址所对应的大致经纬度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号