首页> 中国专利> 一种基于多流行关联矩阵分解的无障碍文本展现方法

一种基于多流行关联矩阵分解的无障碍文本展现方法

摘要

基于多流行关联矩阵分解的无障碍文本展现方法,从互联网抓取网页文本后,针对文本进行如下操作:首先对文本进行分词,提取文本统计特征信息,包括词频和反向文档频率,形成文本的TF-IDF向量化特征表示;然后构建若干文本流行和单词流行,基于多流行的关联矩阵分解考虑文本与单词之间的对偶性,获得低维的文本表示和单词表示;最后对文本的低维表示进行聚类,相同或相近主题的文本分为一组,以分组的形式重新展现文本信息。本方法的优点在于:可以更好地帮助残疾人用户分主题浏览互联网上的文本信息,并快速显示同主题的网页文本集合,增强用户的体验度。

著录项

  • 公开/公告号CN103345471A

    专利类型发明专利

  • 公开/公告日2013-10-09

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201310217406.0

  • 发明设计人 卜佳俊;李平;陈纯;王北斗;高珊;

    申请日2013-06-03

  • 分类号G06F17/30;G06F17/27;

  • 代理机构杭州天正专利事务所有限公司;

  • 代理人王兵

  • 地址 310027 浙江省杭州市西湖区浙大路38号

  • 入库时间 2024-02-19 20:03:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-10

    授权

    授权

  • 2013-11-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130603

    实质审查的生效

  • 2013-10-09

    公开

    公开

说明书

技术领域

本发明涉及无障碍文本展现方法的技术领域,特别是基于多流行 关联矩阵分解的无障碍文本展现方法。

背景技术

我国人口基数大,组成群体呈多样化特点,而其中的重要群体残 疾人的总量已达8500万,是构建和谐社会和发展国民经济中的一支 重要力量,也是各级政府和各类团体重点帮扶的群体。据中国残疾人 联合会的统计报表发现,各类残疾人的数据在过去的几十年中呈逐年 上升趋势。在大数据驱动的信息时代,越来越多的残疾人利用快速便 捷的互联网获取日常学习和生活的信息资源,成为网民中不可忽视的 群体。在互联网这个巨大的信息共享平台上,文本媒介占据信息展现 的压倒性比例,比如时事新闻、体育报道、书评影评等的绝大部分信 息通过文本形式呈现给残疾人用户。相比普通人,许多残疾人由于身 体或心理的各种缺陷而很难有效地浏览所需的网页信息,而互联网上 的文本信息琳琅满目,因此急需发明一种无障碍的文本展现方法,方 便残疾人群体阅读互联网上的文本信息。

众所周知,各类网站上提供的网页信息组织松散,缺乏集中分类 管理,而残疾人用户仅仅有兴趣阅读某些特定主题的网页文本,这造 成文本信息丰富杂乱与残疾人阅读感兴趣的网页困难之间的矛盾。特 别对于那些听力残疾人或肢体残疾人来说,在互联网上查找并阅读网 页文本信息的步骤更加耗时,容易造成身心疲惫和精神困乏。如果能 将各类网页中的文本信息根据主题快速放到小的集合中,再依照不同 主题展现给残疾人用户,将有利于减轻网页文本阅读压力,提高文本 的阅读效率和残疾人用户的体验度。

在信息检索和数据挖掘领域,主要基于网页文本的余弦相似度并 在此基础上进行文本的聚类,形成各类主题的文本集合。在对网页文 档进行文本的TF-IDF特征提取并向量化表示后,根据文本和单词之 间的相互依存关系,使用数据挖掘中的k-means等聚类算法,可将网 页文本按照不同的主题分成多个不同子集合呈现给用户。

发明内容

为了帮助残疾人用户能够快速方便地浏览同一主题的网页文本, 以提高文本阅读的体验度,本发明提出了一种基于多流行关联矩阵分 解的无障碍文本展现方法,该方法包括以下步骤:

1、从互联网抓取网页文本后,针对文本进行以下操作:

1)对文本进行分词,提取文本统计特征信息,包括词频和反向 文档频率,形成文本的TF-IDF向量化特征表示;

2)构建若干文本流行和单词流行,基于多流行的关联矩阵分解 考虑文本与单词之间的对偶性,获得低维的文本表示和单词表示;

3)对文本的低维表示进行聚类,相同或相近主题的文本分为一 组,以分组的形式重新展现文本信息。

2、步骤1)中所述的提取文本统计特征信息具体步骤是:

1.1)每个网页文本可看成一个文档,对文本提取两种统计信息, 即词频(TF:Term Frequency)和反向文档频率(IDF:Inverse Document  Frequency),若文本中出现的单词有m个,则形成m维的TF-IDF向 量化特征表示;

1.2)对所有文本的TF-IDF特征表示进行统一的归一化处理。

3、步骤2)中所述的构建若干文本流行和单词流行具体步骤是:

2.1)流行结构能够反映数据的本征结构,它通过图拉普拉斯矩 阵进行构建,而文本流行和单词流行能分别反映文本数据和单词数据 的本征结构;

2.2)构建文本的图拉普拉斯矩阵Ls,首先从互联网上获取n个网 页文本,第i个文本的特征表示为第j个文本的特征表示为将 每个文本看成无向图上的顶点,若两个文本的欧式距离较近,则在相 应的顶点间连接一条边并赋予边权重,这样可以建立一张反映文本数 据流行结构的无向图;各文本间的关联权重组成大小为n×n的权重 矩阵Ws,对Ws的每列元素依次累加并放置在对角矩阵Ds的对角线上, Ds中非对角线上的元素均置为0,则可通过Ls=Ds-Ws得到文本的 图拉普拉斯矩阵Ls

2.3)构建若干文本的图拉普拉斯矩阵Ls,通过赋予无向图中所连 接边的不同权重Ws实现,即利用三种不同的权重策略:二值权重、 余弦相似度和高斯核权重;若与的欧式距离较远,即两个顶点间 无边连接,则两个文本的边权重为0;若与的欧式距离较近,即 两个顶点间有边连接,则:

a.对于二值权重,两个文本的边权重为1;

b.对于余弦相似度,两个文本的边权重为其中(·)T表示 向量或矩阵的转置;

c.对于高斯核权重,两个文本的边权重为其中 |·|表示向量的l2范数,实数参数σ>0表示高斯核的带宽,通过设置 不同的带宽参数,可以得到不同的高斯核权重;

2.4)构建单词的图拉普拉斯矩阵Lf,根据文本与单词间的对偶性, 每个单词的特征表示维度为n,第i个单词的特征表示为,第j个单 词的特征表示为将每个单词看成无向图上的顶点,若两个单词的 欧式距离较近,则在相应的顶点间连接一条边并赋予边权重,这样可 以建立一张反映单词数据流行结构的无向图;各单词间的关联权重组 成大小为m×m的权重矩阵Wf,对Wf的每列元素依次累加并放置在对 角矩阵Df的对角线上,Df中非对角线上的元素均置为0,则可通过 Lf=Df-Wf得到单词的图拉普拉斯矩阵Lf;

2.5)构建若干单词的图拉普拉斯矩阵Lf,其具体方法与构建若干 文本的图拉普拉斯矩阵Ls相同。

4、步骤2)中所述的基于多流行关联矩阵分解的具体步骤是:

3.1)假设从互联网获得n个文本,这些文本涉及cs个主题,每个 文本的特征表示为矩阵的列向量,则全部文本形成一个维度为m×n 的数据矩阵Xs;组成文本的单词有m个,这些单词涉及cf个主题,每 个单词的特征表位为矩阵的列向量,则全部单词形成一个维度为 n×m的数据矩阵Xf;由于文本与单词间的协同对偶关系,则满足 将文本和单词数据矩阵合并为一个维度为 (n+m)×(n+m)的关联矩阵R=0XfXs0,其中0表示全零矩阵, 其维度由文本和单词的个数确定;

3.2)将文本的数据矩阵分解成三部分,即其中大 小为m×cf的矩阵Vf是单词的低维表示,大小为n×cs的矩阵Vs是文本 的低维表示,大小为cf×cs的矩阵Sf为压缩的单词数据表示;类似地, 将单词的数据矩阵分解成三部分,即其中大小为cs×cf 的矩阵Ss为压缩的文本数据表示;这样,可得到大小为 (n+m)×(cf+cs)的关联低维表示矩阵V=Vs00Vf,其中0表示全 零矩阵,其维度由文本和单词的个数以及所涉及的主题数确定;还可 以得到大小为(cf+cs)×(cf+cs)的关联低维表示矩阵S=0SfSs0,其中0表示全零矩阵,其维度由文本和单词所涉及的主题数确定;

3.3)根据不同的权重策略分别构建q个文本流行和q个单词流行, 即和构建q个大小为(n+m)×(n+m)的关联 流行矩阵,则第i个关联流行矩阵表示为Li=Lsi00Lfi,其中0表示 全零矩阵,其维度由文本和单词的个数确定;为了更好地逼近真实的 数据流行,赋予每个流行一个加权系数μi>0,形成多个流行的线性 组合,即L=Σi=1qμiLi,且满足条件Σi=1qμi=1;

3.4)利用多流行的关联矩阵分解最小化正则化的目标函数

minU,V|R-VSVT|F2+αTr[VT(Σi=1qμiLi)V]+β|μ|2,

s.t.Σi=1qμi=1,μ0,V0,

其中,|·|F为矩阵范数,|·|为向量的l2范数,Tr(·)为矩阵的迹, 正则化因子α>0和β>0分别用来调节流行结构的贡献以及避免过 拟合;通过求解该目标函数得到的文本低维表示,能够逼近原始文本 数据的本征结构,并同时保持文本数据和单词数据的局部几何结构, 使得相同主题的文本距离尽可能接近。

本发明提出了基于多流行关联矩阵分解的无障碍文本展现方法, 其优点在于:利用文本与单词的对偶性,对文本的统计特征表示进行 聚类处理,以使相似的文本以分组方式呈现;适用于所有类型的网页 文本信息,无需后台人工操作,可用于帮助残疾人实现无障碍网页文 本阅读,也可用于帮助普通用户提高文本阅读效率。

附图说明

图1是本发明的方法流程图。

具体实施方式

参照附图,进一步说明本发明:

一种基于多流行关联矩阵分解的无障碍文本展现方法,该方法包 括以下步骤:

1、从互联网抓取文本后,针对文本进行以下操作:

1)对文本进行分词,提取文本统计特征信息,包括词频和反向 文档频率,形成文本的TF-IDF向量化特征表示;

2)构建若干文本流行和单词流行,基于多流行的关联矩阵分解 考虑文本与单词之间的对偶性,获得低维的文本表示和单词表示;

3)对文本的低维表示进行聚类,相同或相近主题的文本分为一 组,以分组的形式重新展现文本信息。

步骤1)所述的提取文本统计特征信息的具体步骤是:

1.1)每个网页文本可看成一个文档,对文本提取两种统计信息, 即词频(TF:Term Frequency)和反向文档频率(IDF:Inverse Document  Frequency),若文本中出现的单词有m个,则形成m维的TF-IDF向 量化特征表示;

1.2)对所有文本的TF-IDF特征表示进行统一的归一化处理。

步骤2)所述的构建若干文本流行和单词流行的具体步骤是:

2.1)流行结构能够反映数据的本征结构,它通过图拉普拉斯矩 阵进行构建,而文本流行和单词流行能分别反映文本数据和单词数据 的本征结构;

2.2)构建文本的图拉普拉斯矩阵Ls,首先从互联网上获取n个网 页文本,第i个文本的特征表示为第j个文本的特征表示为将 每个文本看成无向图上的顶点,若两个文本的欧式距离较近,则在相 应的顶点间连接一条边并赋予边权重,这样可以建立一张反映文本数 据流行结构的无向图;各文本间的关联权重组成大小为n×n的权重 矩阵Ws,对Ws的每列元素依次累加并放置在对角矩阵Ds的对角线上, Ds中非对角线上的元素均置为0,则可通过Ls=Ds-Ws得到文本的 图拉普拉斯矩阵Ls;

2.3)构建若干文本的图拉普拉斯矩阵Ls,通过赋予无向图中所连 接边的不同权重Ws实现,即利用三种不同的权重策略:二值权重、 余弦相似度和高斯核权重;若与的欧式距离较远,即两个顶点间 无边连接,则两个文本的边权重为0;若与的欧式距离较近,即 两个顶点间有边连接,则:

a.对于二值权重,两个文本的边权重为1;

b.对于余弦相似度,两个文本的边权重为其中(·)T表示 向量或矩阵的转置;

c.对于高斯核权重,两个文本的边权重为其中 |·|表示向量的l2范数,实数参数σ>0表示高斯核的带宽,通过设置 不同的带宽参数,可以得到不同的高斯核权重;

2.4)构建单词的图拉普拉斯矩阵Lf,根据文本与单词间的对偶性, 每个单词的特征表示维度为n,第i个单词的特征表示为第j个单 词的特征表示为将每个单词看成无向图上的顶点,若两个单词的 欧式距离较近,则在相应的顶点间连接一条边并赋予边权重,这样可 以建立一张反映单词数据流行结构的无向图;各单词间的关联权重组 成大小为m×m的权重矩阵Wf,对Wf的每列元素依次累加并放置在对 角矩阵Df的对角线上,Df中非对角线上的元素均置为0,则可通过 Lf=Df-Wf得到单词的图拉普拉斯矩阵Lf;

2.5)构建若干单词的图拉普拉斯矩阵Lf,其具体方法与构建若干 文本的图拉普拉斯矩阵Ls相同。

步骤2)中所述的基于多流行关联矩阵分解的具体步骤是:

3.1)假设从互联网获得n个文本,这些文本涉及cs个主题,每个 文本的特征表示为矩阵的列向量,则全部文本形成一个维度为m×n 的数据矩阵Xs;组成文本的单词有m个,这些单词涉及cf个主题,每 个单词的特征表位为矩阵的列向量,则全部单词形成一个维度为 n×m的数据矩阵Xf;由于文本与单词间的协同对偶关系,则满足 将文本和单词数据矩阵合并为一个维度为 (n+m)×(n+m)的关联矩阵R=0XfXs0,其中0表示全零矩阵, 其维度由文本和单词的个数确定;

3.2)将文本的数据矩阵分解成三部分,即其中大 小为m×cf的矩阵Vf是单词的低维表示,大小为n×cs的矩阵Vs是文本 的低维表示,大小为cf×cs的矩阵Sf为压缩的单词数据表示;类似地, 将单词的数据矩阵分解成三部分,即其中大小为cs×cf的矩阵Ss为压缩的文本数据表示;这样,可得到大小为 (n+m)×(cf+cs)的关联低维表示矩阵V=Vs00Vf,其中0表示全 零矩阵,其维度由文本和单词的个数以及所涉及的主题数确定;还可 以得到大小为(cf+cs)×(cf+cs)的关联低维表示矩阵S=0SfSs0,其中0表示全零矩阵,其维度由文本和单词所涉及的主题数确定;

3.3)根据不同的权重策略分别构建q个文本流行和q个单词流行, 即和构建q个大小为(n+m)×(n+m)的关联 流行矩阵,则第i个关联流行矩阵表示为Li=Lsi00Lfi,其中0表示 全零矩阵,其维度由文本和单词的个数确定;为了更好地逼近真实的 数据流行,赋予每个流行一个加权系数μi>0,形成多个流行的线性 组合,即L=Σi=1qμiLi,且满足条件Σi=1qμi=1;

3.4)利用多流行的关联矩阵分解最小化正则化的目标函数

minU,V|R-VSVT|F2+αTr[VT(Σi=1qμiLi)V]+β|μ|2,

s.t.Σi=1qμi=1,μ0,V0,

其中,|·|F为矩阵范数,|·|为向量的l2范数,Tr(·)为矩阵的迹, 正则化因子α>0和β>0分别用来调节流行结构的贡献以及避免过 拟合;通过求解该目标函数得到的文本低维表示,能够逼近原始文本 数据的本征结构,并同时保持文本数据和单词数据的局部几何结构, 使得相同主题的文本距离尽可能接近。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本 发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本 发明的保护范围也及于本领域技术人员根据本发明构思所能够想到 的等同技术手段。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号