公开/公告号CN113204612A
专利类型发明专利
公开/公告日2021-08-03
原文格式PDF
申请/专利权人 上海赛可出行科技服务有限公司;
申请/专利号CN202110444736.8
发明设计人 赵刚;
申请日2021-04-24
分类号G06F16/33(20190101);G06F16/36(20190101);G06Q50/30(20120101);
代理机构
代理人
地址 200131 上海市浦东新区自由贸易试验区杨高北路2001号1幢4部位三层333室
入库时间 2023-06-19 12:05:39
技术领域
本发明涉及网约车、旅游等位置服务(LBS)领域,特别涉及一种基于先验知识的网约车相似地址识别方法。
背景技术
位置服务在互联网的发展中起重要作用,网约车行业中,需要位置服务定位司机和乘客的位置,以便司机及时找到乘客。而交通管制以及实际路况中,可用于上车点的位置是固定的几个。识别地理位置相似的点为同一个位置,把此位置作为用户常用的上车点的推荐,以及据此数据分析用户行为,构建知识图谱,提供个性化服务。
业界以前提供的是文本相似度算法和判定2个地址为同一位置。这种算法因缺少地理经纬度信息,难以准确判断是同一位置。
基于此,本发明公开了一种基于先验知识的网约车相似地址识别方法,能精确识别用户常用地址,作为推荐上车点。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于先验知识的网约车相似地址识别方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种基于先验知识的网约车相似地址识别方法,包括以下步骤:
S1、对于同一个城市,按经纬度划分方形单元网格,其起点为(0,n),(n,n),(2n,n),(3n,n)...,方形网格大小为n,城市分割为(w*n,h*n)的矩形,w*n为城市长度,h*n为城市宽度;
S2、初始化文本相似度模型M,具体操作为把该城市所有地址使用word2vec建立模型,所得相似度模型函数记作g(e1,e2);
S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);
S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为x类,同一类的存入集合,则得到独立集合q1,q2,q3…qx;
S5、处理边界问题,按起点为(-n/2,-n/2),(n/2,n/2),(3n/2,n/2)...划分方形单元网格,处理虚线网格单元,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为y类,同一类的存入独立集合,则得到集合p1,p2,p3…py;
S6、q1,q2,q3…qx与p1,p2,p3…py含有相同元素的合并,合并规则如下所示:
I:qi(1≤i≤x)中元素若存在于pj(1≤j≤y)中,则对应的集合合并;
II:pj(1≤j≤y)中元素若存在于qi(1≤i≤x)中,则对应的集合合并;
III:qi(1≤i≤x)中元素若存在于qj(1≤j≤x)中,i≠j,则对应的集合合并;
IV:pj(1≤j≤y)中元素若存在于pi(1≤i≤y)中,i≠j,则对应的集合合并;
重复上述规则,直至不再有可合并的集合;最终形成h1,h2,h3…hw;hi∩hj=φ,(1≤i≤w,1≤j≤w,i≠j);
S7、归于一类hi(1≤i≤w)的地址中,选择用户使用最多的地址作为等价地址uAddr,其他的地址作为表征地址vAddr,构造表征地址到等价地址的映射表T;
S8、输出某城市的地址映射表T,映射表中的等价地址uAddr即为用户使用最多的常用地址,表征地址vAddr为被合并的地址;
S9、网约车中用户呼叫时,获取到城市、经纬度、导航定位地址,去T中查询到对应的等价地址uAddr展示给用户使用,作为推荐上车点。
与现有技术相比,本发明的有益效果如下:
本发明提供了一种基于先验知识的网约车相似地址识别方法,计算地址相似度可用于识别出相同地址,对于构建知识图谱具有重要作用;传统的文本计算相似度的方法无法有效利用先验知识,具有准确率低的问题;对于网约车服务因具有城市,经纬度两项先验知识,在此基础上,可以提升识别准确率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的实施例示意图之一;
图2是本发明的实施例示意图之二。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明如图1-2所示,本发明提供一种基于先验知识的网约车相似地址识别方法,包括以下步骤:
S1、对于同一个城市,按经纬度划分方形单元网格,其起点为(0,n),(n,n),(2n,n),(3n,n)...,方形网格大小为n,城市分割为(w*n,h*n)的矩形,w*n为城市长度,h*n为城市宽度(如图1所示,小圈代表地点e,小圈位于所划分的单元网格内);
S2、初始化文本相似度模型M,具体操作为把该城市所有地址使用word2vec建立模型,所得相似度模型函数记作g(e1,e2);
S3、根据用户打车历史定位,统计城市内地址被使用次数k,记作k=f(e);
S4、对单元网格内的地址,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为x类,同一类的存入集合,则得到独立集合q1,q2,q3…qx;
S5、处理边界问题,按起点为(-n/2,-n/2),(n/2,n/2),(3n/2,n/2)...划分方形单元网格,图2处理虚线网格单元,两两计算文本相似度r=g(e1,e2),相似度r>α归于一类,其中α为预设的参数,共计分为y类,同一类的存入独立集合,则得到集合p1,p2,p3…py;
S6、q1,q2,q3…qx与p1,p2,p3…py含有相同元素的合并,合并规则如下所示:
I:qi(1≤i≤x)中元素若存在于pj(1≤j≤y)中,则对应的集合合并;
II:pj(1≤j≤y)中元素若存在于qi(1≤i≤x)中,则对应的集合合并;
III:qi(1≤i≤x)中元素若存在于qj(1≤j≤x)中,i≠j,则对应的集合合并;
IV:pj(1≤j≤y)中元素若存在于pi(1≤i≤y)中,i≠j,则对应的集合合并;
重复上述规则,直至不再有可合并的集合;最终形成h1,h2,h3…hw;hi∩hj=φ,(1≤i≤w,1≤j≤w,i≠j);
S7、归于一类hi(1≤i≤w)的地址中,选择用户使用最多的地址作为等价地址uAddr,其他的地址作为表征地址vAddr,构造表征地址到等价地址的映射表T,
上表中,uAddr1,vAddr1,vAddr2,vAddr3为同一类地址;
f(uAddr1)=Max(f(e)),e∈hi={uAddr1,vAddr1,vAddr2,vAddr3};
S8、输出某城市的地址映射表T,映射表中的等价地址uAddr即为用户使用最多的常用地址,表征地址vAddr为被合并的地址;
S9、网约车中用户呼叫时,获取到城市、经纬度、导航定位地址,去T中查询到对应的等价地址uAddr展示给用户使用,作为推荐上车点。
具体的,本发明提供了一种基于先验知识的网约车相似地址识别方法,计算地址相似度可用于识别出相同地址,对于构建知识图谱具有重要作用;传统的文本计算相似度的方法无法有效利用先验知识,具有准确率低的问题;对于网约车服务因具有城市,经纬度两项先验知识,在此基础上,可以提升识别准确率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 使用图像的相似度检测方法及其检测值的图像识别方法,以及使用相似度检测方法及其语音检测值的语音识别方法,以及振动的相似度检测方法及其检测值使用运动机器的波动机器异常确定方法以及使用相似度检测方法及其视频检测值的视频识别方法,以及使用相似度检测方法及其三维检测值的三维识别方法
机译: 语音的相似度检测方法和使用其检测值的语音识别方法,振动波的相似度检测方法和使用该检测值的机器异常确定方法,图像的相似度检测方法及其检测使用值的图像识别方法,立体相似度检测方法使用检测到的值的立体识别方法,使用检测到的值的运动图像相似性检测方法和运动图像识别方法
机译: 用于生成基于用户相似性的地址簿的系统,服务器设备,终端设备和记录介质以及用于生成基于用户相似性的地址簿的方法