首页> 中国专利> 一种基于自媒体平台的用户偏好智能提取方法

一种基于自媒体平台的用户偏好智能提取方法

摘要

本发明公开了一种基于自媒体平台的用户偏好智能提取方法,该方法包括以下步骤,S1,用户注册;a、用户通过应用商店下载相应的自媒体软件;b、用户输入手机号,同时接受验证码进行注册登陆;c、用户自行设置该自媒体软件的登陆密码,本方法利用自媒体平台的自行数据采集和数据分析,对用户的历史视频特征以形成用户的历史行为特征向量,得到多个历史偏好模式,再基于指定用户的历史视频特征向量和实时视频特征向量确定指定用户的当前行为特征向量,结合预先得到的历史偏好,确定指定用户当前的偏好模式,从而可以实现线下实时确定出每位用户的当前偏好,从而达到智能偏好提取的技术效果,有效帮助自媒体平台对每个用户进行偏好视频推荐。

著录项

  • 公开/公告号CN113836326A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 重庆八灵猴科技有限公司;

    申请/专利号CN202111080027.2

  • 发明设计人 杜平;

    申请日2021-09-15

  • 分类号G06F16/435(20190101);G06F16/45(20190101);G06F16/483(20190101);G06F16/735(20190101);G06F16/75(20190101);G06F16/783(20190101);

  • 代理机构32475 南京普睿益思知识产权代理事务所(普通合伙);

  • 代理人李杰

  • 地址 401120 重庆市渝北区食品城大道18号F4-5-2

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明公开了一种基于自媒体平台的用户偏好智能提取方法,属于智能分析技术领域。

背景技术

自媒体是指普通大众通过网络等途径向外发布他们本身的事实和新闻的传播方式。“自媒体”,英文为“We Media”。是普通大众经由数字科技与全球知识体系相连之后,一种提供与分享他们本身的事实和新闻的途径。是私人化、平民化、普泛化、自主化的传播者,以现代化、电子化的手段,向不特定的大多数或者特定的单个人传递规范性及非规范性信息的新媒体的总称,随着中国互联网的不断普及,中国互联网和移动互联网的发展逐步成熟,甚至开始出现了无限流量,用网门槛不断降低的同时,互联网产品也愈发充盈着我们的生活。与此同时,移动端用户不断增加,甚至成为PC端用户的2倍之多,人们对于简单、快捷、趣味性的需求也随之增加,从碎片化阅读到短视频观看,中国的自媒体也飞速发展起来,现有的自媒体平台在进行运营时,无法很好的掌握用户偏好,从而存在一定的视频推荐误差,影响自媒体发展。

发明内容

本发明的目的是为了解决上述不足而提供一种基于自媒体平台的用户偏好智能提取方法。

一种基于自媒体平台的用户偏好智能提取方法,该方法包括以下步骤:

S1,用户注册;

a、用户通过应用商店下载相应的自媒体软件;

b、用户输入手机号,同时接受验证码进行注册登陆;

c、用户自行设置该自媒体软件的登陆密码;

d、用户再次通过接收手机验证码或者输入登陆密码进行自媒体系统软件的自行登陆工作。

e、用户填写个人信息及选择个人兴趣爱好,自媒体系统进行后台的数据采集和储存。

S2,用户检索:

a、用户通过自媒体平台的检索项目框进行视频检索,检索完成后,自媒体平台自行显示检索出的相关视频或文字;

b、自媒体平台服务器对步骤S2,a中用户检索的数据进行数据信息的采集工作。

c、将步骤S2,b中采集到的视频数据信息进行视频数据分析;

d、将步骤S2,c中得到的视频分析数据进行数据分类;

S3,视频分析;

a、爬取步骤S2,a中用户自行检索出的各项推荐视频,同时采集用户在一个或多个视频中屏幕的停留时间;

b、将步骤S3,a中得到的采集数据进行记录,同时记录用户在视频或者文字中停留时间不低于5s的视频或文字条数,同时进行视频记录;

c、分析步骤S3,b中得到的视频或文字信息;

d、记录用户近一个月或者近半年的历史视频信息,从而进行获取,既上下文信息数据爬取;

S4,偏好提取;

a、将步骤S1,c中、S2,d中,S3,d中爬取的数据信息进行统一整理归类;

b、将步骤S4,a中归类的数据信息进行特征对比;

c、将步骤S4,b中饿到的对比特征数据进行偏好提取,从而获得该用户的具体喜爱和偏好;

d、将步骤S4,c中提取的用户偏好数据进行终端的数据储存,从而方便了解用户的具体情况。

作为优选的,所述步骤S1、c中,自媒体软件登陆密码为英文数字组合,且登陆密码字数不低于八个字。

作为优选的,所述步骤S1、e中用户个人信息填写包括但不限于出生年月、性别特征、教育程度。

作为优选的,所述步骤S2,b中,数据信息采集工作包括但不限于关键字提取、隐藏字幕解码、视频特征提取、音乐类型提取和文字信息。

作为优选的,所述步骤S3,c中分析的视频信息包括但不限于视频类型、视频时长、视频名称、视频BGM特征、视频音乐类型。

作为优选的,所述步骤S3,d中用户的历史视频信息中提取用户的历史视频特征以形成用户的历史行为特征向量,其中历史视频信息为预定历史时段的视频信息,所述历史视频特征向量基于用户的历史视频涉及的分词及分词对应的用户历史行为次数确定。

作为优选的,所述步骤S4,c中,该用户的具体喜爱和偏好为历史偏好模式,计算所述当前视频特征向量在所述历史偏好模式下的出现概率;确定子模式,用于将所述出现概率大于阈值的历史偏好模式确定为所述指定用户当前的偏好模式。

作为优选的,所述步骤S4,d中终端数据储存为自媒体平台服务器的自行储存和接收单元模块。

与现有技术相比,本发明的有益效果如下:

本方法的一种基于自媒体平台的用户偏好智能提取方法,利用自媒体平台的自行数据采集和数据分析,对用户的历史视频特征以形成用户的历史行为特征向量,得到一个或多个历史偏好模式,再基于指定用户的历史视频特征向量和实时视频特征向量确定指定用户的当前行为特征向量,结合预先得到的历史偏好模式,确定指定用户当前的偏好模式,从而可以实现线下实时确定出每位用户的当前偏好,从而达到智能偏好提取的技术效果,有效帮助自媒体平台对每个用户进行偏好视频推荐,帮助自媒体平台公司获取更多的用户流量,达到一定的市场价值获取更多经济利润。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于自媒体平台的用户偏好智能提取方法,该方法包括以下步骤:

S1,用户注册;

a、用户通过应用商店下载相应的自媒体软件;

b、用户输入手机号,同时接受验证码进行注册登陆;

c、用户自行设置该自媒体软件的登陆密码;

d、用户再次通过接收手机验证码或者输入登陆密码进行自媒体系统软件的自行登陆工作。

e、用户填写个人信息及选择个人兴趣爱好,自媒体系统进行后台的数据采集和储存。

S2,用户检索:

a、用户通过自媒体平台的检索项目框进行视频检索,检索完成后,自媒体平台自行显示检索出的相关视频或文字;

b、自媒体平台服务器对步骤S2,a中用户检索的数据进行数据信息的采集工作。

c、将步骤S2,b中采集到的视频数据信息进行视频数据分析;

d、将步骤S2,c中得到的视频分析数据进行数据分类;

S3,视频分析;

a、爬取步骤S2,a中用户自行检索出的各项推荐视频,同时采集用户在一个或多个视频中屏幕的停留时间;

b、将步骤S3,a中得到的采集数据进行记录,同时记录用户在视频或者文字中停留时间不低于5s的视频或文字条数,同时进行视频记录;

c、分析步骤S3,b中得到的视频或文字信息;

d、记录用户近一个月或者近半年的历史视频信息,从而进行获取,既上下文信息数据爬取;

S4,偏好提取;

a、将步骤S1,c中、S2,d中,S3,d中爬取的数据信息进行统一整理归类;

b、将步骤S4,a中归类的数据信息进行特征对比;

c、将步骤S4,b中饿到的对比特征数据进行偏好提取,从而获得该用户的具体喜爱和偏好;

d、将步骤S4,c中提取的用户偏好数据进行终端的数据储存,从而方便了解用户的具体情况。

作为优选的,所述步骤S1、c中,自媒体软件登陆密码为英文数字组合,且登陆密码字数不低于八个字。

作为优选的,所述步骤S1、e中用户个人信息填写包括但不限于出生年月、性别特征、教育程度。

作为优选的,所述步骤S2,b中,数据信息采集工作包括但不限于关键字提取、隐藏字幕解码、视频特征提取、音乐类型提取和文字信息。

作为优选的,所述步骤S3,c中分析的视频信息包括但不限于视频类型、视频时长、视频名称、视频BGM特征、视频音乐类型。

作为优选的,所述步骤S3,d中用户的历史视频信息中提取用户的历史视频特征以形成用户的历史行为特征向量,其中历史视频信息为预定历史时段的视频信息,所述历史视频特征向量基于用户的历史视频涉及的分词及分词对应的用户历史行为次数确定。

作为优选的,所述步骤S4,c中,该用户的具体喜爱和偏好为历史偏好模式,计算所述当前视频特征向量在所述历史偏好模式下的出现概率;确定子模式,用于将所述出现概率大于阈值的历史偏好模式确定为所述指定用户当前的偏好模式。

作为优选的,所述步骤S4,d中终端数据储存为自媒体平台服务器的自行储存和接收单元模块。

实施例一:

一种基于自媒体平台的用户偏好智能提取方法,该方法包括以下步骤:

S1,用户注册;

a、用户通过应用商店下载相应的自媒体软件;

b、用户输入手机号,同时接受验证码进行注册登陆;

c、用户自行设置该自媒体软件的登陆密码;

d、用户再次通过接收手机验证码或者输入登陆密码进行自媒体系统软件的自行登陆工作。

e、用户填写个人信息及选择个人兴趣爱好,自媒体系统进行后台的数据采集和储存。

S2,用户检索:

a、用户通过自媒体平台的检索项目框进行视频检索,检索完成后,自媒体平台自行显示检索出的相关视频或文字;

b、自媒体平台服务器对步骤S2,a中用户检索的数据进行数据信息的采集工作。

c、将步骤S2,b中采集到的视频数据信息进行视频数据分析;

d、将步骤S2,c中得到的视频分析数据进行数据分类;

S3,视频分析;

a、爬取步骤S2,a中用户自行检索出的各项推荐视频,同时采集用户在一个或多个视频中屏幕的停留时间;

b、将步骤S3,a中得到的采集数据进行记录,同时记录用户在视频或者文字中停留时间不低于5s的视频或文字条数,同时进行视频记录;

c、分析步骤S3,b中得到的视频或文字信息;

d、记录用户近一个月或者近半年的历史视频信息,从而进行获取,既上下文信息数据爬取;

进一步的,基于上下文计算的用户偏好获取模型的数学描述初步为:M={U,I,C,P},U×I×C→P,其中:U代表用户信息,I代表客体资源信息,C代表上下文信息,P代表用户偏好,模型计算依据主要是用户历史行为及用户历史行为上下文,由模型底层的“数据采集层”来获取。其中,用户历史行为用于描述用户对客体资源(当前模型以移动网络服务为对象)的使用情况;用户历史行为上下文用于描述用户使用客体资源时所处的上下文条件。

S4,偏好提取;

a、将步骤S1,c中、S2,d中,S3,d中爬取的数据信息进行统一整理归类;

b、将步骤S4,a中归类的数据信息进行特征对比;

c、将步骤S4,b中饿到的对比特征数据进行偏好提取,从而获得该用户的具体喜爱和偏好;

d、将步骤S4,c中提取的用户偏好数据进行终端的数据储存,从而方便了解用户的具体情况。

作为优选的,所述步骤S1、c中,自媒体软件登陆密码为英文数字组合,且登陆密码字数不低于八个字。

作为优选的,所述步骤S1、e中用户个人信息填写包括但不限于出生年月、性别特征、教育程度。

作为优选的,所述步骤S2,b中,数据信息采集工作包括但不限于关键字提取、隐藏字幕解码、视频特征提取、音乐类型提取和文字信息;

进一步的,数据信息采集,提取每一个用户在预定历史时间段内的历史行为信息下用户发生点击信息、收藏信息、交互成功信息的对象的标题和/或关键属性。然后,针对这些信息进行语义分词处理。例如,根据自媒体视频类型,保留对象的关键词、修饰词、所属类型词、型号词等,过滤其余没有意义的词,进而得到了代表用户在过去某一次行为时间点所涉及的分词,即得到历史行为特征,此外,本申请中之所以采用语义分词处理,是为了后续模型处理有一个资源丰富的语料库,从而可以实现对当前用户偏好更准确的预测。

作为优选的,所述步骤S3,c中分析的视频信息包括但不限于视频类型、视频时长、视频名称、视频BGM特征、视频音乐类型;

其中,考虑到视频一般都具有一定的时长,会包含连续多帧图像,因而图像序列可以是一组,也可以是多组,具体可根据视频段的时间长短来确定。每一组图像序列是从视频的不同视频段中获得,其中,图像序列中图像的数量是一定的,具体可依据实际情况进行限定。此外若一个动画或者是动态图片等也包含不少于N帧图像时,也可看作是视频。具体的,对于单张图片而言,其所包含的图像数量N=1,对于动态图片而言,一般情况下包含的图像的数量小于一组图像序列中应该包含的图像的数量,例如在一组图像序列包含30张图像,而动态图片中包含的静态图像有5张,此时则可通过复制、插帧等方式,构建一组包含30张图像的图像序列;

此外,需要说明的是,若在复制过程中出现了图像信息损耗等情况时,还可进一步对出现图像信息损耗的复制图像进行图像恢复,或者是舍弃出现问题的复制图像,重新复制等,以尽量保证图像信息的完整性,减小误差带来的影响。

作为优选的,所述步骤S3,d中用户的历史视频信息中提取用户的历史视频特征以形成用户的历史行为特征向量,其中历史视频信息为预定历史时段的视频信息,所述历史视频特征向量基于用户的历史视频涉及的分词及分词对应的用户历史行为次数确定。

作为优选的,所述步骤S4,c中,该用户的具体喜爱和偏好为历史偏好模式,计算所述当前视频特征向量在所述历史偏好模式下的出现概率;确定子模式,用于将所述出现概率大于阈值的历史偏好模式确定为所述指定用户当前的偏好模式。

作为优选的,所述步骤S4,d中终端数据储存为自媒体平台服务器的自行储存和接收单元模块。

实施例二:

一种基于自媒体平台的用户偏好智能提取方法,该方法包括以下步骤:

S1,用户注册;

a、用户通过应用商店下载相应的自媒体软件;

b、用户输入手机号,同时接受验证码进行注册登陆;

c、用户自行设置该自媒体软件的登陆密码;

d、用户再次通过接收手机验证码或者输入登陆密码进行自媒体系统软件的自行登陆工作。

e、用户填写个人信息及选择个人兴趣爱好,自媒体系统进行后台的数据采集和储存。

S2,用户检索:

a、用户通过自媒体平台的检索项目框进行视频检索,检索完成后,自媒体平台自行显示检索出的相关视频或文字;

b、自媒体平台服务器对步骤S2,a中用户检索的数据进行数据信息的采集工作。

c、将步骤S2,b中采集到的视频数据信息进行视频数据分析;

d、将步骤S2,c中得到的视频分析数据进行数据分类;

S3,视频分析;

a、爬取步骤S2,a中用户自行检索出的各项推荐视频,同时采集用户在一个或多个视频中屏幕的停留时间;

b、将步骤S3,a中得到的采集数据进行记录,同时记录用户在视频或者文字中停留时间不低于5s的视频或文字条数,同时进行视频记录;

c、分析步骤S3,b中得到的视频或文字信息;

d、记录用户近一个月或者近半年的历史视频信息,从而进行获取,既上下文信息数据爬取;

进一步的,基于上下文计算的用户偏好获取模型的数学描述初步为:M={U,I,C,P},U×I×C→P,其中:U代表用户信息,I代表客体资源信息,C代表上下文信息,P代表用户偏好,模型计算依据主要是用户历史行为及用户历史行为上下文,由模型底层的“数据采集层”来获取。其中,用户历史行为用于描述用户对客体资源(当前模型以移动网络服务为对象)的使用情况;用户历史行为上下文用于描述用户使用客体资源时所处的上下文条件,

更进一步的,通过计算用户历史行为上下文提取出个体用户兴趣度,最后再将两种数据融合计算,提取出较为精确的个体用户偏好,其计算公式如下:

Geo'=Geo-(Geo-(Geo∩Pre));

Pre'=Pre-(Pre-(Geo∩Pre));

S4,偏好提取;

a、将步骤S1,c中、S2,d中,S3,d中爬取的数据信息进行统一整理归类;

b、将步骤S4,a中归类的数据信息进行特征对比;

c、将步骤S4,b中饿到的对比特征数据进行偏好提取,从而获得该用户的具体喜爱和偏好;

d、将步骤S4,c中提取的用户偏好数据进行终端的数据储存,从而方便了解用户的具体情况。

作为优选的,所述步骤S1、c中,自媒体软件登陆密码为英文数字组合,且登陆密码字数不低于八个字。

作为优选的,所述步骤S1、e中用户个人信息填写包括但不限于出生年月、性别特征、教育程度。

作为优选的,所述步骤S2,b中,数据信息采集工作包括但不限于关键字提取、隐藏字幕解码、视频特征提取、音乐类型提取和文字信息;

进一步的,数据信息采集,提取每一个用户在预定历史时间段内的历史行为信息下用户发生点击信息、收藏信息、交互成功信息的对象的标题和/或关键属性。然后,针对这些信息进行语义分词处理。例如,根据自媒体视频类型,保留对象的关键词、修饰词、所属类型词、型号词等,过滤其余没有意义的词,进而得到了代表用户在过去某一次行为时间点所涉及的分词,即得到历史行为特征,此外,本申请中之所以采用语义分词处理,是为了后续模型处理有一个资源丰富的语料库,从而可以实现对当前用户偏好更准确的预测;

例如:抽取用户K=360天内的用户历史行为信息,这里的用户历史行为则可以包括但不限于双击、收藏等视频行为,可以将历史行为信息中的所有行为信息都换算成点击数,例如,将1次收藏视频的行为换算成40次点击行为,1次双击视频的行为转换成20次点击,进而可以统计出每一次用户行为涉及的分词分别对应的点击数,记作wi=(ti,num),i为自然数,其中,ti为用户行为涉及的第i个分词,num为该分词对应的用户点击数,将一天作为用户行为时间点的一个计算周期,则用户在某一天的历史行为记作h,用户在k天前的历史行为记作hk,包括用户行为涉及的各个分词及每个分词在这一天对应的点击数,可以表示为:hk={w1,w2,w3,.....wi}。

作为优选的,所述步骤S3,c中分析的视频信息包括但不限于视频类型、视频时长、视频名称、视频BGM特征、视频音乐类型;

其中,考虑到视频一般都具有一定的时长,会包含连续多帧图像,因而图像序列可以是一组,也可以是多组,具体可根据视频段的时间长短来确定。每一组图像序列是从视频的不同视频段中获得,其中,图像序列中图像的数量是一定的,具体可依据实际情况进行限定。此外若一个动画或者是动态图片等也包含不少于N帧图像时,也可看作是视频。具体的,对于单张图片而言,其所包含的图像数量N=1。对于动态图片而言,一般情况下包含的图像的数量小于一组图像序列中应该包含的图像的数量,例如在一组图像序列包含30张图像,而动态图片中包含的静态图像有5张,此时则可通过复制、插帧等方式,构建一组包含30张图像的图像序列;

此外,需要说明的是,若在复制过程中出现了图像信息损耗等情况时,还可进一步对出现图像信息损耗的复制图像进行图像恢复,或者是舍弃出现问题的复制图像,重新复制等,以尽量保证图像信息的完整性,减小误差带来的影响。

作为优选的,所述步骤S3,d中用户的历史视频信息中提取用户的历史视频特征以形成用户的历史行为特征向量,其中历史视频信息为预定历史时段的视频信息,所述历史视频特征向量基于用户的历史视频涉及的分词及分词对应的用户历史行为次数确定。

作为优选的,所述步骤S4,c中,该用户的具体喜爱和偏好为历史偏好模式,计算所述当前视频特征向量在所述历史偏好模式下的出现概率;确定子模式,用于将所述出现概率大于阈值的历史偏好模式确定为所述指定用户当前的偏好模式。

作为优选的,所述步骤S4,d中终端数据储存为自媒体平台服务器的自行储存和接收单元模块。

本方法的一种基于自媒体平台的用户偏好智能提取方法,利用自媒体平台的自行数据采集和数据分析,对用户的历史视频特征以形成用户的历史行为特征向量,得到一个或多个历史偏好模式,再基于指定用户的历史视频特征向量和实时视频特征向量确定指定用户的当前行为特征向量,结合预先得到的历史偏好模式,确定指定用户当前的偏好模式,从而可以实现线下实时确定出每位用户的当前偏好,从而达到智能偏好提取的技术效果,有效帮助自媒体平台对每个用户进行偏好视频推荐,帮助自媒体平台公司获取更多的用户流量,达到一定的市场价值获取更多经济利润。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号