公开/公告号CN112307142A
专利类型发明专利
公开/公告日2021-02-02
原文格式PDF
申请/专利权人 北京沃东天骏信息技术有限公司;
申请/专利号CN202010505899.8
发明设计人 李宥壑;
申请日2020-06-05
分类号G06F16/29(20190101);G06F16/31(20190101);G06F40/126(20200101);G06F40/216(20200101);G06F40/284(20200101);
代理机构11038 中国贸促会专利商标事务所有限公司;
代理人许蓓
地址 100176 北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室
入库时间 2023-06-19 09:46:20
技术领域
本公开涉及位置服务领域,特别涉及一种地理信息系统中信息点的确定方法和装置以及存储介质。
背景技术
在地理信息系统中,一个信息点(Point of Information,POI)例如可以是一栋房子、一个商铺、一个邮筒、一个公交站等。信息点的准确性在一定程度上影响着整个地理信息系统的服务质量。在一些相关技术中,基于经纬度信息确定各个信息点。
发明人发现,基于经纬度信息确定各个信息点,会造成信息点冗余的问题。例如,按照经纬度确定信息点时,同一个小区的大门和小区内的建筑会被确定为两个信息点,然而,按照实际情况,二者应当被确定为一个信息点。
发明内容
为了解决地理信息系统中信息点冗余的问题,本公开实施例提出一种地理信息系统中信息点的确定方案,通过确定搜集的信息点中每个单词在该信息点中的权重,据此确定两个信息点的相似度,据此确定是否将这两个信息点合并为地理信息系统中的一个信息点,从而解决地理信息系统中信息点冗余的问题,进而提高地理信息系统的服务质量。
本公开实施例提出一种地理信息系统中信息点的确定方法,包括:
确定搜集的信息点中每个单词在所述信息点中的权重;
针对信息点中的第一信息点和第二信息点,根据第一信息点中每个单词在所述第一信息点中的权重和第二信息点中每个单词在所述第二信息点中的权重,确定所述第一信息点和所述第二信息点的相似度;
根据所述第一信息点和所述第二信息点的相似度,确定是否合并所述第一信息点和所述第二信息点;
如果需要合并,将所述第一信息点和所述第二信息点合并得到的第三信息点作为地理信息系统中的信息点;如果不需要合并,将所述第一信息点和所述第二信息点分别作为地理信息系统中的信息点。
在一些实施例中,确定信息点中每个单词在所述信息点中的权重包括:
确定信息点中每个单词的重要性权重;
针对信息点中任意的第一单词,确定所述第一单词与所述信息点中每个其他单词之间的相关性权重;
根据所述信息点中每个单词的重要性权重和所述第一单词与所述信息点中每个其他单词之间的相关性权重,确定所述第一单词在所述信息点中的权重。
在一些实施例中,确定信息点中每个单词的重要性权重包括:
确定信息点中每个单词的信息熵;
确定信息点中每个单词的使用频率;
根据信息点中每个单词的信息熵和使用频率,确定信息点中每个单词的重要性权重。
在一些实施例中,确定信息点中每个单词的信息熵包括:根据信息点中每个单词在各个地址文档中所占的比例,确定信息点中每个单词的信息熵。
在一些实施例中,确定信息点中每个单词的使用频率包括:针对信息点中的每个单词,根据包含所述单词的地址文档的数量、地址文档的总数量以及所述单词出现的次数,确定信息点中每个单词的使用频率。
在一些实施例中,确定信息点中每个单词的重要性权重包括:针对信息点中的每个单词,以预设值为底数,以所述单词的信息熵为指数,确定的指数值,根据所述单词的使用频率与指数值的比例信息,确定所述单词的重要性权重。
在一些实施例中,针对信息点中任意的第一单词,确定所述第一单词与所述信息点中每个其他单词之间的相关性权重包括:
针对任意的一个其他单词,根据所述第一单词在各个地址文档所占的比例、所述其他单词在各个地址文档所占的比例、所述第一单词和所述其他单词在各个地址文档所占的比例,确定所述第一单词与所述其他单词之间的相关性权重。
在一些实施例中,预设位数的地址编码相同的地址信息构成一个地址文档。
在一些实施例中,确定所述第一单词在所述信息点中的权重包括:
利用所述第一单词与所述信息点中每个其他单词之间的相关性权重,对相应所述其他单词的重要性权重进行加权求和;
将所述第一单词的重要性权重和加权求和结果的累加值,确定为定所述第一单词在所述信息点中的权重。
在一些实施例中,确定所述第一信息点和所述第二信息点的相似度包括:
针对第一信息点和第二信息点中相同的单词,对各个单词在所述第一信息点或所述第二信息点中的权重进行累加,得到的第一累加值;
针对第一信息点和第二信息点中所有的单词,对各个单词在所述第一信息点或所述第二信息点中的权重进行累加,得到的第二累加值;
将所述第一累加值和所述第二累加值的比例信息,确定为所述第一信息点和所述第二信息点的相似度。
在一些实施例中,所述第三信息点是通过提取所述第一信息点和所述第二信息点的共同部分的合并方式得到的。
在一些实施例中,所述信息点包括收货地址、爬虫地址数据、地图数据、人工输入地址中的至少一项。
在一些实施例中,根据用户设备的经纬度信息和地理信息系统中的信息点的经纬度信息,以所述用户设备为中心,搜索与所述用户设备的距离符合预设条件的信息点。
本公开实施例提出一种地理信息系统中信息点的确定装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任一个实施例的地理信息系统中信息点的确定方法。
本公开实施例提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一个实施例的地理信息系统中信息点的确定方法的步骤。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开。
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开一些实施例的地理信息系统中信息点的确定方法的流程示意图。
图2示出本公开一些实施例的确定信息点中每个单词在该信息点中的权重的流程示意图。
图3示出本公开一些实施例的地理信息系统中信息点的确定装置的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
图1示出本公开一些实施例的地理信息系统中信息点的确定方法的流程示意图。该方法例如可以由地理信息系统中信息点的确定装置执行。
如图1所示,该实施例的方法包括:步骤110-140a/b,还可以选择性地包括步骤150,160。
步骤110,确定搜集的信息点中每个单词在该信息点中的权重,该权重表示单词在信息点中的重要程度的度量值。
搜集的地理位置信息作为搜集的信息点。搜集的信息点包括电商平台的收货地址、爬虫地址数据、第三方的地图数据、人工输入地址中的至少一项,但不限于所举示例。
利用分词算法对信息点进行分词得到该信息点的各个单词。分词算法例如采用基于隐马尔可夫模型(Hidden Markov Model,HMM)的分词算法,或其他现有的分词算法。在分词时,还可以结合人工输入词语(如地铁、公交站等)进行分词,人工输入词语在分词时将作为一个单词。
例如,搜集的一个信息点(即信息点名称)例如为“新希望国际一期2栋一单元”,分词后的该信息点例如为“新希望/国际/一期/2栋/一单元”。假设:每个单词在该信息点中的权重依次为:新希望:12.3,国际:3.4,一期:1.02,2栋:0.01,一单元:0.01,则表明“新希望”在该信息点中最重要,“国际”次之。在信息点中越重要的单词,在区分该信息点与其他信息点时的贡献越大。
在一些实施例中,如图2所示,确定信息点中每个单词在该信息点中的权重,包括:步骤111-113。
步骤111,确定信息点中每个单词的重要性权重,该重要性权重表示单词在所有地址文档中的重要程度的度量值,例如,可以根据单词在所有地址文档中的信息熵和使用频率确定。
在一些实施例中,确定信息点中每个单词的重要性权重包括步骤111a-111c。
步骤111a,确定信息点中每个单词的信息熵,用来表示单词的不确定度。
根据信息点中每个单词在各个地址文档中所占的比例,确定信息点中每个单词的信息熵,即,确定信息点中每个单词在所有地址文档中的信息熵。单词在各个地址文档中所占的比例越高,单词的信息熵越小,单词的不确定度越小。其中,预设位数的地址编码相同的地址信息构成一个地址文档,例如,K位GeoHash相同的地址信息属于同一个地址文档,K例如取6。GeoHash是一种地址编码方法,能够把二维的空间经纬度数据编码成一个字符串。
一种示例性的单词的信息熵的计算方法如下:
其中,E
步骤111b,确定信息点中每个单词的使用频率。
针对信息点中的每个单词,根据包含该单词的地址文档的数量、地址文档的总数量以及该单词出现的次数,确定信息点中每个单词的使用频率,即,确定信息点中每个单词在所有地址文档中的使用频率。
一种示例性的单词的使用频率的计算方法如下:
其中,TF
步骤111c,根据信息点中每个单词的信息熵和使用频率,确定信息点中每个单词的重要性权重。
针对信息点中的每个单词,以预设值为底数,以该单词的信息熵为指数,确定指数值,根据该单词的使用频率与指数值的比例信息,确定该单词的重要性权重。单词的使用频率越大,单词的信息熵越小(即单词的不确定性越小),该单词的重要性权重越大,即,该单词在所有地址文档中越重要。
一种示例性的单词的重要性权重的计算方法如下:
其中,W
根据信息点中每个单词的信息熵和使用频率,能够准确地确定信息点中每个单词的重要性权重。
步骤112,针对信息点中任意的第一单词,确定该第一单词与该信息点中每个其他单词之间的相关性权重,该相关性权重表示不同单词之间的相关性程度的度量值,不同单词之间的相关性程度越大,相应的相关性权重越大。例如,可以根据不同单词同时出现的情况,确定不同单词之间的相关性权重,不同单词同时出现的情况越多,相应的相关性权重越大
针对任意的一个其他单词,根据该第一单词在各个地址文档所占的比例、该其他单词在各个地址文档所占的比例、该第一单词和该其他单词在各个地址文档所占的比例,确定该第一单词与该其他单词之间的相关性权重。
一种示例性的单词间相关性权重的计算方法如下:
其中,MI(C,D)表示单词C、D之间的相关性权重;p(D)
步骤113,根据该信息点中每个单词的重要性权重和该第一单词与该信息点中每个其他单词之间的相关性权重,确定该第一单词在该信息点中的权重。
利用该第一单词与该信息点中每个其他单词之间的相关性权重,对相应该其他单词的重要性权重进行加权求和;将该第一单词的重要性权重和加权求和结果的累加值,确定为定该第一单词在该信息点中的权重。单词的重要性权重越大,相关性权重越大,则该单词在信息点中的权重越大。
一种示例性的单词在信息点中的权重的计算方法如下:
其中,WP
例如,为了计算信息点“新希望/国际/一期/2栋/一单元”中各个单词的权重,首先,基于公式(1)-(3)计算所有单词的重要性权重W
根据单词的重要性权重和与其他单词的相关性权重,可以准确地确定该单词在该信息点中的权重。
步骤120,针对信息点中的第一信息点和第二信息点,根据第一信息点中每个单词在该第一信息点中的权重和第二信息点中每个单词在该第二信息点中的权重,确定该第一信息点和该第二信息点的相似度。
针对第一信息点和第二信息点中相同的单词,对各个单词在该第一信息点或该第二信息点中的权重进行累加,得到的第一累加值;针对第一信息点和第二信息点中所有的单词,对各个单词在该第一信息点或该第二信息点中的权重进行累加,得到的第二累加值;将该第一累加值和该第二累加值的比例信息,确定为该第一信息点和该第二信息点的相似度。
一种示例性的两个信息点的相似度的计算方法如下:
其中,5iM(A,B)表示信息点名称A,B的相似度;X表示信息点名称A,B中相同的所有单词,x表示X中的一个单词;Y表示信息点名称A,B中出现过的所有单词,y表示Y中的一个单词;WP
例如,基于公式(1)到(5),计算信息点的单词在该信息点中的权重,例如:
信息点A:“新希望/国际/一期/2栋/一单元”=>
新希望:25.2,国际:6.8,一期:2.06,2栋:0.04,一单元:0.04
信息点B:“新希望/国际/二期”=>
新希望:24.5,国际:5.8,二期:1.06
上述两个信息点的相似度如下:
其中,X∈{新希望,国际},Y∈{新希望,国际,一期,二期,2栋,一单元}。
步骤130,根据该第一信息点和该第二信息点的相似度,确定是否合并该第一信息点和该第二信息点。
判断该第一信息点和该第二信息点的相似度是否超过预设相似度,如果超过预设相似度,认为该第一信息点和该第二信息点相似,需要合并该第一信息点和该第二信息点;如果未超过预设相似度认为该第一信息点和该第二信息点不相似,不需要合并该第一信息点和该第二信息点。
例如,如前所述,信息点A和信息点B的相似度为90%,预设相似度为80%,认为信息点A和信息点B相似,需要合并信息点A和信息点B。
步骤140a,如果需要合并,将该第一信息点和该第二信息点合并得到的第三信息点作为地理信息系统中的信息点。
在一些实施例中,该第三信息点是通过提取该第一信息点和该第二信息点的共同部分的合并方式得到的。
例如,如前所述,信息点A:“新希望/国际/一期/2栋/一单元”和信息点B:“新希望/国际/二期”需要合并,二者的共同部分为“新希望/国际”,因此,合并后得到的第三信息点为“新希望/国际”。
假设输入信息点A和B的信息点标识、信息点名称、信息点类型、经纬度等信息,按照本公开实施例的方案处理后,则输出第三信息点的信息点标识、信息点名称、信息点类型、平均经纬度(即信息点A和B经纬度的平均值)、基准经纬度(可选)、相似经纬度(可选)等信息。若选择信息点A的经纬度为基准经纬度,则信息点B的经纬度为相似经纬度。
步骤140b,如果不需要合并,将该第一信息点和该第二信息点分别作为地理信息系统中的信息点。
至此,通过确定搜集的信息点中每个单词在该信息点中的权重,据此确定两个信息点的相似度,据此确定是否将这两个信息点合并为地理信息系统中的一个信息点,从而解决地理信息系统中信息点冗余的问题,进而提高地理信息系统的服务质量。
步骤150,根据用户设备的经纬度信息和地理信息系统中的信息点的经纬度信息,以该用户设备为中心,搜索与该用户设备的距离符合预设条件的信息点。
预设条件例如为:搜索与该用户设备的距离小于预设距离的信息点,或者,搜索与该用户设备的距离最近的预设数量的信息点。用户设备与信息点的距离可以采用现有的距离计算算法确定。
例如,输入:用户数据<用户标识,设备号,经纬度>,POI数据
基于地理信息系统中精简有效的信息点,提供高效的用户设备相关的信息点服务。
步骤160,根据外部服务系统的需求,将地理信息系统中的信息点或者与用户设备的距离符合预设条件的信息点通过外部服务接口提供给外部服务系统,使得外部服务系统可以基于信息点提供例如信息推荐、精准营销、用户风险识别等服务。
基于地理信息系统中精简有效的信息点,提高地理信息系统的服务质量,进而提高外部服务系统的服务质量。
图3示出本公开一些实施例的地理信息系统中信息点的确定装置的示意图。
如图3所示,地理信息系统中信息点的确定装置300包括:存储器310以及耦接至该存储器310的处理器320,处理器320被配置为基于存储在存储器310中的指令,执行前述任意一些实施例中的地理信息系统中信息点的确定方法(具体参考图1-2实施例的描述,这里不再赘述)。
其中,存储器310例如为系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。存储器310例如可以存储地理信息系统中信息点的合并确定算法(也称消除歧义算法)、分词算法、距离计算算法等。
装置300例如可以还包括地理位置信息输入接口330,通过该输入接口330将搜集的地理位置信息(如电商平台的收货地址、爬虫地址数据、第三方的地图数据等)输入装置300作为搜集的待处理的信息点。
装置300例如可以还包括管理接口340,通过管理接口340将人工输入地址输入装置300作为搜集待处理的信息点。通过管理接口340将人工输入词语输入装置300用来对信息点进行分词。使得人工输入词语在分词时将作为一个单词。
装置300例如可以还包括用户接口350,通过用户接口350将用户数据(如用户标识,设备号,经纬度等)输入装置300,以用来根据用户数据,搜索与相应用户设备的距离符合预设条件的信息点。从而,基于地理信息系统中精简有效的信息点,提供用户设备相关的信息点服务。
装置300例如可以还包括外部服务接口360,通过外部服务接口360,外部服务系统向装置300提出需求,装置300根据外部服务系统的需求,将地理信息系统中的信息点或者与用户设备的距离符合预设条件的信息点通过外部服务接口360提供给外部服务系统,使得外部服务系统可以基于信息点提供例如信息推荐、精准营销、用户风险识别等服务。基于地理信息系统中精简有效的信息点,提高地理信息系统的服务质量,进而提高外部服务系统的服务质量。
在一些实施例中,装置300例如可以是地理信息系统或其中的一部分。
本公开提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任意一些实施例中的地理信息系统中信息点的确定方法的步骤。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
机译: 地图信息点显示方法,装置,装置和可读存储介质
机译: 用于显示地图,设备和可读存储介质的信息点的方法和装置
机译: 用于显示地图,设备和可读存储介质的信息点的方法和装置