首页> 中国专利> 一种基于多流行关联矩阵分解的无障碍文本展现方法

一种基于多流行关联矩阵分解的无障碍文本展现方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于多流行关联矩阵分解的无障碍文本展现方法，从互联网抓取网页文本后，针对文本进行如下操作：首先对文本进行分词，提取文本统计特征信息，包括词频和反向文档频率，形成文本的TF-IDF向量化特征表示；然后构建若干文本流行和单词流行，基于多流行的关联矩阵分解考虑文本与单词之间的对偶性，获得低维的文本表示和单词表示；最后对文本的低维表示进行聚类，相同或相近主题的文本分为一组，以分组的形式重新展现文本信息。本方法的优点在于：可以更好地帮助残疾人用户分主题浏览互联网上的文本信息，并快速显示同主题的网页文本集合，增强用户的体验度。

著录项

公开/公告号CN103345471A

专利类型发明专利
公开/公告日2013-10-09

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN201310217406.0
发明设计人卜佳俊;李平;陈纯;王北斗;高珊;
展开▼

申请日2013-06-03
分类号G06F17/30;G06F17/27;
代理机构杭州天正专利事务所有限公司;
代理人王兵
地址 310027 浙江省杭州市西湖区浙大路38号
入库时间 2024-02-19 20:03:36

法律信息

法律状态公告日

法律状态信息

法律状态
2016-08-10

授权

授权
2013-11-06

实质审查的生效 IPC(主分类):G06F17/30 申请日:20130603

实质审查的生效
2013-10-09

公开

公开

说明书

技术领域

本发明涉及无障碍文本展现方法的技术领域，特别是基于多流行关联矩阵分解的无障碍文本展现方法。

背景技术

我国人口基数大，组成群体呈多样化特点，而其中的重要群体残疾人的总量已达8500万，是构建和谐社会和发展国民经济中的一支重要力量，也是各级政府和各类团体重点帮扶的群体。据中国残疾人联合会的统计报表发现，各类残疾人的数据在过去的几十年中呈逐年上升趋势。在大数据驱动的信息时代，越来越多的残疾人利用快速便捷的互联网获取日常学习和生活的信息资源，成为网民中不可忽视的群体。在互联网这个巨大的信息共享平台上，文本媒介占据信息展现的压倒性比例，比如时事新闻、体育报道、书评影评等的绝大部分信息通过文本形式呈现给残疾人用户。相比普通人，许多残疾人由于身体或心理的各种缺陷而很难有效地浏览所需的网页信息，而互联网上的文本信息琳琅满目，因此急需发明一种无障碍的文本展现方法，方便残疾人群体阅读互联网上的文本信息。

众所周知，各类网站上提供的网页信息组织松散，缺乏集中分类管理，而残疾人用户仅仅有兴趣阅读某些特定主题的网页文本，这造成文本信息丰富杂乱与残疾人阅读感兴趣的网页困难之间的矛盾。特别对于那些听力残疾人或肢体残疾人来说，在互联网上查找并阅读网页文本信息的步骤更加耗时，容易造成身心疲惫和精神困乏。如果能将各类网页中的文本信息根据主题快速放到小的集合中，再依照不同主题展现给残疾人用户，将有利于减轻网页文本阅读压力，提高文本的阅读效率和残疾人用户的体验度。

在信息检索和数据挖掘领域，主要基于网页文本的余弦相似度并在此基础上进行文本的聚类，形成各类主题的文本集合。在对网页文档进行文本的TF-IDF特征提取并向量化表示后，根据文本和单词之间的相互依存关系，使用数据挖掘中的k-means等聚类算法，可将网页文本按照不同的主题分成多个不同子集合呈现给用户。

发明内容

为了帮助残疾人用户能够快速方便地浏览同一主题的网页文本，以提高文本阅读的体验度，本发明提出了一种基于多流行关联矩阵分解的无障碍文本展现方法，该方法包括以下步骤：

1、从互联网抓取网页文本后，针对文本进行以下操作：

1）对文本进行分词，提取文本统计特征信息，包括词频和反向文档频率，形成文本的TF-IDF向量化特征表示；

2）构建若干文本流行和单词流行，基于多流行的关联矩阵分解考虑文本与单词之间的对偶性，获得低维的文本表示和单词表示；

3）对文本的低维表示进行聚类，相同或相近主题的文本分为一组，以分组的形式重新展现文本信息。

2、步骤1）中所述的提取文本统计特征信息具体步骤是：

1.1）每个网页文本可看成一个文档，对文本提取两种统计信息，即词频（TF:Term Frequency）和反向文档频率（IDF:Inverse Document Frequency），若文本中出现的单词有m个，则形成m维的TF-IDF向量化特征表示；

1.2）对所有文本的TF-IDF特征表示进行统一的归一化处理。

3、步骤2）中所述的构建若干文本流行和单词流行具体步骤是：

2.1）流行结构能够反映数据的本征结构，它通过图拉普拉斯矩阵进行构建，而文本流行和单词流行能分别反映文本数据和单词数据的本征结构；

2.2）构建文本的图拉普拉斯矩阵L_s，首先从互联网上获取n个网页文本，第i个文本的特征表示为第j个文本的特征表示为将每个文本看成无向图上的顶点，若两个文本的欧式距离较近，则在相应的顶点间连接一条边并赋予边权重，这样可以建立一张反映文本数据流行结构的无向图；各文本间的关联权重组成大小为n×n的权重矩阵W_s，对W_s的每列元素依次累加并放置在对角矩阵D_s的对角线上， D_s中非对角线上的元素均置为0，则可通过L_s＝D_s-W_s得到文本的图拉普拉斯矩阵L_s；

2.3）构建若干文本的图拉普拉斯矩阵L_s，通过赋予无向图中所连接边的不同权重W_s实现，即利用三种不同的权重策略：二值权重、余弦相似度和高斯核权重；若与的欧式距离较远，即两个顶点间无边连接，则两个文本的边权重为0；若与的欧式距离较近，即两个顶点间有边连接，则：

a.对于二值权重，两个文本的边权重为1；

b.对于余弦相似度，两个文本的边权重为其中(·)^T表示向量或矩阵的转置；

c.对于高斯核权重，两个文本的边权重为其中 |·|表示向量的l₂范数，实数参数σ＞0表示高斯核的带宽，通过设置不同的带宽参数，可以得到不同的高斯核权重；

2.4）构建单词的图拉普拉斯矩阵L_f，根据文本与单词间的对偶性，每个单词的特征表示维度为n，第i个单词的特征表示为，第j个单词的特征表示为将每个单词看成无向图上的顶点，若两个单词的欧式距离较近，则在相应的顶点间连接一条边并赋予边权重，这样可以建立一张反映单词数据流行结构的无向图；各单词间的关联权重组成大小为m×m的权重矩阵W_f，对Ｗ_f的每列元素依次累加并放置在对角矩阵D_f的对角线上，D_f中非对角线上的元素均置为0，则可通过 L_f=D_f-W_f得到单词的图拉普拉斯矩阵L_f;

2.5）构建若干单词的图拉普拉斯矩阵L_f,其具体方法与构建若干文本的图拉普拉斯矩阵L_s相同。

4、步骤2）中所述的基于多流行关联矩阵分解的具体步骤是：

3.1）假设从互联网获得n个文本，这些文本涉及c_s个主题，每个文本的特征表示为矩阵的列向量，则全部文本形成一个维度为m×n 的数据矩阵X_s;组成文本的单词有m个，这些单词涉及c_f个主题，每个单词的特征表位为矩阵的列向量，则全部单词形成一个维度为 n×m的数据矩阵X_f;由于文本与单词间的协同对偶关系，则满足将文本和单词数据矩阵合并为一个维度为 (n+m)×(n+m)的关联矩阵 $R = (\begin{matrix} 0 & X_{f} \\ X_{s} & 0 \end{matrix}),$ 其中0表示全零矩阵，其维度由文本和单词的个数确定；

3.2）将文本的数据矩阵分解成三部分，即其中大小为m×c_f的矩阵Ｖ_f是单词的低维表示，大小为n×c_s的矩阵V_s是文本的低维表示，大小为c_f×c_s的矩阵S_f为压缩的单词数据表示；类似地，将单词的数据矩阵分解成三部分，即其中大小为c_s×c_f 的矩阵S_s为压缩的文本数据表示；这样，可得到大小为 (n+m)×(c_f+c_s)的关联低维表示矩阵 $V = (\begin{matrix} V_{s} & 0 \\ 0 & V_{f} \end{matrix}),$ 其中0表示全零矩阵，其维度由文本和单词的个数以及所涉及的主题数确定；还可以得到大小为(c_f+c_s)×(c_f+c_s)的关联低维表示矩阵 $S = (\begin{matrix} 0 & S_{f} \\ S_{s} & 0 \end{matrix}),$ 其中0表示全零矩阵，其维度由文本和单词所涉及的主题数确定；

3.3）根据不同的权重策略分别构建q个文本流行和q个单词流行，即和构建q个大小为(n+m)×(n+m)的关联流行矩阵，则第i个关联流行矩阵表示为 $L_{i} = (\begin{matrix} L_{s}^{i} & 0 \\ 0 & L_{f}^{i} \end{matrix}),$ 其中0表示全零矩阵，其维度由文本和单词的个数确定；为了更好地逼近真实的数据流行，赋予每个流行一个加权系数μ_i＞0，形成多个流行的线性组合，即 $L = Σ_{i = 1}^{q} μ_{i} L_{i},$ 且满足条件 $Σ_{i = 1}^{q} μ_{i} = 1;$

3.4）利用多流行的关联矩阵分解最小化正则化的目标函数

$\min_{U, V} | R - {VSV}^{T} |_{F}^{2} + αTr [V^{T} (Σ_{i = 1}^{q} μ_{i} L_{i}) V] + β | μ |^{2},$

$s . t . Σ_{i = 1}^{q} μ_{i} = 1, μ \geq 0, V \geq 0,$

其中，|·|_F为矩阵范数，|·|为向量的l₂范数，Tr(·)为矩阵的迹，正则化因子α＞0和β＞0分别用来调节流行结构的贡献以及避免过拟合；通过求解该目标函数得到的文本低维表示，能够逼近原始文本数据的本征结构，并同时保持文本数据和单词数据的局部几何结构，使得相同主题的文本距离尽可能接近。

本发明提出了基于多流行关联矩阵分解的无障碍文本展现方法，其优点在于：利用文本与单词的对偶性，对文本的统计特征表示进行聚类处理，以使相似的文本以分组方式呈现；适用于所有类型的网页文本信息，无需后台人工操作，可用于帮助残疾人实现无障碍网页文本阅读，也可用于帮助普通用户提高文本阅读效率。

附图说明

图1是本发明的方法流程图。

具体实施方式

参照附图，进一步说明本发明：

一种基于多流行关联矩阵分解的无障碍文本展现方法，该方法包括以下步骤：

1、从互联网抓取文本后，针对文本进行以下操作：

1）对文本进行分词，提取文本统计特征信息，包括词频和反向文档频率，形成文本的TF-IDF向量化特征表示；

2）构建若干文本流行和单词流行，基于多流行的关联矩阵分解考虑文本与单词之间的对偶性，获得低维的文本表示和单词表示；

3）对文本的低维表示进行聚类，相同或相近主题的文本分为一组，以分组的形式重新展现文本信息。

步骤1）所述的提取文本统计特征信息的具体步骤是：

1.2）对所有文本的TF-IDF特征表示进行统一的归一化处理。

步骤2）所述的构建若干文本流行和单词流行的具体步骤是：

2.1）流行结构能够反映数据的本征结构，它通过图拉普拉斯矩阵进行构建，而文本流行和单词流行能分别反映文本数据和单词数据的本征结构；

a.对于二值权重，两个文本的边权重为1；

b.对于余弦相似度，两个文本的边权重为其中(·)^T表示向量或矩阵的转置；

c.对于高斯核权重，两个文本的边权重为其中 |·｜表示向量的l₂范数，实数参数σ＞0表示高斯核的带宽，通过设置不同的带宽参数，可以得到不同的高斯核权重；

2.4）构建单词的图拉普拉斯矩阵L_f，根据文本与单词间的对偶性，每个单词的特征表示维度为n，第i个单词的特征表示为第j个单词的特征表示为将每个单词看成无向图上的顶点，若两个单词的欧式距离较近，则在相应的顶点间连接一条边并赋予边权重，这样可以建立一张反映单词数据流行结构的无向图；各单词间的关联权重组成大小为m×m的权重矩阵W_f，对W_f的每列元素依次累加并放置在对角矩阵D_f的对角线上，D_f中非对角线上的元素均置为0，则可通过 L_f=D_f-W_f得到单词的图拉普拉斯矩阵L_f;

2.5）构建若干单词的图拉普拉斯矩阵L_f,其具体方法与构建若干文本的图拉普拉斯矩阵L_s相同。

步骤2）中所述的基于多流行关联矩阵分解的具体步骤是：

3.2）将文本的数据矩阵分解成三部分，即其中大小为m×c_f的矩阵V_f是单词的低维表示，大小为n×c_s的矩阵V_s是文本的低维表示，大小为c_f×c_s的矩阵S_f为压缩的单词数据表示；类似地，将单词的数据矩阵分解成三部分，即其中大小为c_s×c_f的矩阵S_s为压缩的文本数据表示；这样，可得到大小为 (n+m)×(c_f+c_s)的关联低维表示矩阵 $V = (\begin{matrix} V_{s} & 0 \\ 0 & V_{f} \end{matrix}),$ 其中0表示全零矩阵，其维度由文本和单词的个数以及所涉及的主题数确定；还可以得到大小为(c_f+c_s)×(c_f+c_s)的关联低维表示矩阵 $S = (\begin{matrix} 0 & S_{f} \\ S_{s} & 0 \end{matrix}),$ 其中0表示全零矩阵，其维度由文本和单词所涉及的主题数确定；

3.4）利用多流行的关联矩阵分解最小化正则化的目标函数

$\min_{U, V} | R - {VSV}^{T} |_{F}^{2} + αTr [V^{T} (Σ_{i = 1}^{q} μ_{i} L_{i}) V] + β | μ |^{2},$

$s . t . Σ_{i = 1}^{q} μ_{i} = 1, μ \geq 0, V \geq 0,$

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于多流行关联矩阵分解的无障碍文本展现方法 [P] . 中国专利： CN103345471A . 2013-10-09
2. 一种基于多流形关联矩阵分解的无障碍文本展现方法 [P] . 中国专利： CN103345471B . 2016.08.10
3. A Method to associate data based on database and A System to associate data based on database and a database-based data association method are recorded and a computer readable recording medium A Computer Readable recording medium [P] . 韩国专利： KR101935374B1 . 2019-04-03

机译：记录了一种基于数据库的数据关联方法和一种基于数据库的数据关联系统以及基于数据库的数据关联方法，并且计算机可读记录介质包括计算机可读记录介质。
4. Method and system for determining popularity of an enterprise and associating a ranking factor based on popularity with contact information for the enterprise stored locally on a communication device [P] . 美国专利： US8180329B2 . 2012-05-15

机译：用于确定企业的流行度并将基于流行度的排名因子与本地存储在通信设备上的企业的联系信息相关联的方法和系统
5. METHOD AND SYSTEM FOR DETERMINING POPULARITY OF AN ENTERPRISE AND ASSOCIATING A RANKING FACTOR BASED ON POPULARITY WITH CONTACT INFORMATION FOR THE ENTERPRISE STORED LOCALLY ON A COMMUNICATION DEVICE [P] . 美国专利： US2009171934A1 . 2009-07-02

机译：确定企业的流行度并将基于流行度与联系人信息的排名因子相关联的方法和系统用于存储在本地的企业通信设备