首页> 中国专利> 文本联系实体提取方法、装置、设备及可读存储介质

文本联系实体提取方法、装置、设备及可读存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本公开一种文本联系实体提取方法、系统及设备，属于计算机技术领域，特别涉及一种文本联系实体提取方法，包括：获取用户输入的文本数据；对所述文本数据进行预处理，得到预处理后的文本；对所述预处理后的文本进行字符切分，并将切分结果以数组的方式保存，得到切分数组；获取预先存储的关键词辅助提取信息，根据所述关键词辅助提取信息从所述切分数组中提取关键词；根据所述关键词提取实体。采用本方法能够快速、全面、准确的从用户输入的文本中识别出待监控的实体，进而有效监控、发现非法摄取平台流量的用户，切实保证平台利益。

著录项

公开/公告号CN112989838A

专利类型发明专利
公开/公告日2021-06-18

原文格式PDF
申请/专利权人北京智慧易科技有限公司;
展开▼

申请/专利号CN202110532086.2
发明设计人罗震震;张少游;关涛;向永清;
展开▼

申请日2021-05-17
分类号G06F40/295(20200101);G06F40/284(20200101);
代理机构
代理人
地址 100085 北京市海淀区信息路甲28号11层D座11A-063
入库时间 2023-06-19 11:29:13

说明书

技术领域

本公开属于计算机技术领域，特别涉及一种文本联系实体提取方法、装置、设备及可读存储介质。

背景技术

随着互联网技术的发展，各互联网平台层出不穷，为推广应用，增加用户量，各家平台通常推出为自身平台用户使用的平台流量。

各平台流量获取不易的背景下，一些用户为了攫取平台流量，特意跑到竞品软件采用发广告、炸屏等方式拉人头，将本属于该平台的流量诱导到其他平台，损害该平台利益。

本公开人经研究发现，现有技术中，在屏蔽非常规用户时，单纯的通过位数或者关键字提取文本进行检查、屏蔽竞品平台摄取流量，效果差强人意。

发明内容

为了至少解决上述技术问题，本公开提供了一种文本联系实体提取方法、装置、设备及可读存储介质。

根据本公开第一方面，提供了一种文本联系实体提取方法，包括：

获取用户输入的文本数据；

对所述文本数据进行预处理，得到预处理后的文本；

对所述预处理后的文本进行字符切分，并将切分结果以数组的方式保存，得到切分数组；

获取预先存储的关键词辅助提取信息，根据所述关键词辅助提取信息从所述切分数组中提取关键词；

根据所述关键词提取实体。

进一步的，所述对所述文本数据进行预处理，得到预处理后的文本，包括：

对所述文本数据按照预设方式进行预处理操作，使得经过预处理的文本数据形成统一格式。