分解注意力,ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法

2021/05/19 18:51 · 提高注意力训练 ·  · 分解注意力,ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法已关闭评论
专注力注意力训练提升
摘要:

分解注意力,ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法随着互联网技术的发展以及智能手机的普及,信息超载问题也亟待解决.推荐系统[作为解决信息超载问题的有效工具,已被成功应用于各个领域,包括电子商务、电影、音乐和基于位置的服务等[.推荐系统通过分析用户与系统交互的历史数据来获取用户偏好,使不同的用户进入系统时能够得到个性化推荐结果.由于推荐系统需要依赖于用户的

分解注意力,ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法  第1张

分解注意力,ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法

随着互联网技术的发展以及智能手机的普及, 信息超载问题也亟待解决.推荐系统[作为解决信息超载问题的有效工具, 已被成功应用于各个领域, 包括电子商务、电影、音乐和基于位置的服务等[.推荐系统通过分析用户与系统交互的历史数据来获取用户偏好, 使不同的用户进入系统时能够得到个性化推荐结果.由于推荐系统需要依赖于用户的历史数据, 所以一般是作为一个应用存在于不同的网站中[.为方便系统获取用户偏好, 大多数网站都允许用户对自己购买或体验过的项目(商品、电影、音乐等)评分, 推荐系统则可以根据用户-项目评分矩阵(如u代表用户, i代表项目)分析用户的偏好, 并为其推荐可能感兴趣的项目.

图 1

Fig. 1

Fig. 1 Architecture of our proposed attentive matrix factorization with regulation

图 1 基于注意力机制的规范化矩阵分解模型框架

近年来, 推荐系统的实用价值使其在工业界和学术界都得到了广泛的研究.在众多推荐方法中, 协同过滤算法[应用最为普遍, 其主要思想是:基于评分矩阵中的已有项来预测未知项, 继而为用户推荐预测分值较高的项目.协同过滤算法可以分为基于记忆(memory-based)的[和基于模型的(model-based)[两类算法, 其中, memory-based算法又包括基于用户的(user-based)[和基于项目(item-based)的[.虽然协同过滤算法已经取得了巨大成功, 但是依旧存在数据稀疏和冷启动问题:数据稀疏指由于用户只能体验系统中极小一部分项目, 所以评分矩阵中存在很多未知项; 冷启动问题则指对于评分记录很少甚至没有的用户, 系统很难获取其偏好并作出推荐.

Memory-based算法的核心在于寻找与目标用户(待推荐用户)或目标项目(待评分项目)有较高相似度的最近邻.现有memory-based算法中, 用户(项目)间的相似度主要通过计算用户评分向量(项目得分向量)之间的皮尔逊相关系数(Pearson coefficient of correlation, 简称PCC)或余弦相似度(cosine similarity, 简称COS)获取[.这两种方式都需要参与计算的用户(项目)间存在公共评分项目(打分用户), 数据稀疏导致由这两种方法获取的相似度无法准确代表用户(项目)间的相似关系.对于没有评分记录的冷启动用户(项目), 系统无法基于此方法为其找到最近邻.Memory-based算法在分析用户偏好时只用到了局部评分记录; model-based算法则依据评分矩阵中所有已知项来训练预测模型, 通过预测模型获取用户偏好和项目的属性特征, 并利用学习到的参数预测评分矩阵中的未知项.在众多model-based算法中, 矩阵分解(MF)技术[因其有效性和简便性而被广泛采用.MF模型认为, 用户的偏好和项目的属性特征都可以用低维的特征向量表示, 其中, 用户特征向量每一维的元素代表了用户对项目某种属性特征的偏好程度, 项目特征向量对应维的元素则代表该项目拥有此属性特征的程度, 用户对项目的评分则用二者特征向量的内积表示[.显然, 具有相似偏好用户的特征向量也应该是相似的.然而, 数据稀疏导致MF学习到的用户特征向量不能准确代表用户的偏好, 也无法反映用户间的相似关系, 这同时降低了推荐准确度和模型在训练阶段的收敛速度.此外, MF无法为冷启动用户学习特征向量获取其偏好.

为了提高MF的推荐准确度, 带约束条件的规范化矩阵分解(RMF)技术引起了研究者的关注[.引入信任关系的RMF认为用户与其信任人有相似的偏好, 直接将用户的信任人看作其相似朋友.Zhang等人在文献[

MF中, 用户对项目的评分是二者特征向量间的内积.He等人[认为, 这种简单的线性方式无法捕捉用户和项目间复杂的交互关系.他们提出了基于神经网络的协同过滤模型框架(NCF), 该框架利用多层感知机将用户和项目的特征向量以非线性方式结合预测评分, 并通过实验证明了该框架的有效性.DMF模型将评分矩阵作为深度神经网络的输入, 以非线性方式学习用户和项目的特征向量, 在神经网络的输出层, 通过计算用户和项目特征向量间的余弦相似度预测评分[.虽然深度神经网络的引入能够有效提升MF的准确度, 但是与此同时, 模型的复杂度也大幅提升.如何在提高模型准确度的同时避免模型复杂度的大幅升高, 是极具挑战的任务.

MF将用户特征向量和项目特征向量所对应的维度元素相乘, 并将乘积结果等权重相加后的和作为用户对项目的评分, 忽略了用户对项目不同属性特征的关注度.我们希望通过学习用户对项目各个属性特征不同的关注度来获取用户更准确的偏好, 进而提高模型性能.获取用户对项目属性关注度最直观的方法是为用户学习一个f维的关注度向量(f是项目属性特征向量的维度), 其中, 第k维元素代表用户对项目第k个属性特征的关注度(k∈[0, f-1]).这样会使模型多引入M*f个参数(M是系统中用户数量).由于系统中用户数量通常非常大, 所以这种方式同样会使模型复杂度大幅度升高.如何在避免模型复杂度大幅升高的前提下分析用户对项目各个属性特征不同的关注度, 获取用户更准确的偏好, 是本文的另一个研究内容.

基于上述工作的问题, 本文主要面临如下挑战:(1)如何利用评分矩阵和信任关系挖掘用户间可靠的相似关系, 解决MF中的数据稀疏和冷启动问题; (2)如何在避免模型复杂度大幅提升的前提下, 分析用户对项目属性特征的关注度, 获取用户更准确的偏好.为了解决这些挑战, 本文提出融合信任关系和评分矩阵的基于注意力机制[的规范化矩阵分解模型(ARMF), 模型框架如

●第1部分是用户间相似关系的挖掘:首先, 依据评分矩阵和信任关系构建异构网络; 然后, 利用网络嵌入技术[挖掘用户间的相似关系;

●第2部分是基于注意力机制的评分预测函数构建:通过公共权重矩阵, 以双线性方式在MF中引入注意力机制, 分析用户对项目各个属性的关注度, 获取用户更准确的偏好;

●第3部分是模型参数优化:以准确地重构评分矩阵同时使有相似偏好的用户具有相似的特征向量为目的构建目标函数, 并采用随机梯度下降法(SGD)[优化模型参数.

本文主要贡献如下.

(1) 为了挖掘用户间可靠的相似关系, 提出了伪相似朋友的概念用于构建异构网络, 并在网络嵌入阶段提出了伪相似传播机制和一种新的随机游走算法VDWalk;

(2) 为了分析用户对项目各个属性特征不同的关注度, 获取用户更准确的偏好, 同时保证模型复杂度不会大幅提升, 首次以双线性方式将注意力机制引入MF中;

(3) 在真实数据集FilmTrust[和CiaoDVD[上进行了大量实验, 实验结果表明, 与现有的矩阵分解模型相比, ARMF模型具有更好的推荐准确性和健壮性.

1 相关工作

1.1 传统协同过滤算法

协同过滤算法包括memory-based和model-based两类算法.

Memory-based算法的关键在于最近邻的查找过程.

●文献[

●文献[

●文献[

由于memory-based算法需要计算系统中所有用户(项目)间的相似度, 导致该类算法的扩展性较差, 所以model-based算法逐渐成为研究重点.Model-based算法包括基于图模型的[、基于聚类的[和基于MF的[等, 其中, MF是目前应用最为普遍的算法.假设系统中有M个用户(用户集合用U表示)和N个项目(项目集合用I表示), MF的主要思想是:利用评分矩阵RM×N中的已有评分记录学习能够代表用户偏好和项目属性特征的用户特征P∈Rf×M和项目特征Q∈Rf×N, 用户对项目的评分则用二者特征向量的内积表示.为了尽可能准确地重构评分矩阵并预测未知项, MF通过最小化公式(1)中所示的目标函数并采用SGD学习模型参数P和Q:

$

L(R, \mathit{\boldsymbol{P}}, \mathit{\boldsymbol{Q}}) = \frac{1}{2}\sum\limits_{u = 1}^m {\sum\limits_{i = 1}^n {{I_{ui}}{{\left( {\sum\limits_{j = 0}^{f - 1} {\mathit{\boldsymbol{P}}_u^j*\mathit{\boldsymbol{Q}}_i^j} - {R_{u, i}}} \right)}^2}} } + \frac{{{\lambda _1}}}{2}||\mathit{\boldsymbol{P}}||_F^2 + \frac{{{\lambda _2}}}{2}||\mathit{\boldsymbol{Q}}||_F^2

$

(1)

其中, Iu, i是一个指示函数, 如果用户u对项目i进行了评分, Iu, i等于1, 否则为0;$\mathit{\boldsymbol{P}}_u^j$表示用户u对项目第j个属性特征的偏好程度; $\mathit{\boldsymbol{Q}}_i^j$表示项目i拥有第j个属性特征的程度; λ1和λ2是正则项系数, 引入正则项是为了防止模型过拟合; $|| \cdot ||_2^F$代表向量的二范式.RMF在MF目标函数的基础上增加约束项, 使用户的特征向量与其相似朋友的

特征向量之间的距离尽可能小, 以此提升了模型性能.挖掘用户间的相似关系为用户找到其相似朋友, 是RMF的任务之一.CUNE[通过将已评分项目有交集的用户连接的方式构建用户同质网络, 在利用网络嵌入技术学习网络中用户的隐向量后, 依据用户隐向量间的相似度挖掘用户间的相似关系.然而, 数据稀疏和冷启动问题导致系统中只有小部分用户能够连接到网络, 稀疏的网络使得通过网络嵌入得到的用户隐向量反映不出用户间可靠的相似关系.如何挖掘用户间可靠的相似关系, 是RMF需要解决的问题.

1.2 引入信任关系的协同过滤算法

信任关系作为评分矩阵的辅助信息, 被证明能够有效缓解协同过滤算法中的数据稀疏和冷启动问题[. Guo等人[提出了融合信任关系的user-based算法——Merge:该算法依据用户信任人的评分记录预测用户对未评分项目的评分, 以此来对评分矩阵中的未知项进行填补, 用户之间的相似度依据新的评分矩阵得到.实验结果证明, 该方法得到的用户间相似关系更可靠, 推荐结果的准确度也更高.文献[[则是利用广度优先遍历法推断和计算用户间信任值.Jamali和Ester提出了融合item-based和trust-based的TrustWalker随机游走算法[, 该算法分别连接用户与其评分项目、信任人构建用户-项目异构网络, 在预测目标用户对目标项目的评分时, 从目标用户出发在网络中随机游走, 为在准确度和效率间取得平衡, 在游走过程中, 按条件要么返回目标用户对与目标项目相似项目的评分, 要么返回目标用户信任人对目标项目的评分.

Ma等人[认为, 用户对项目的评分不仅依赖于自己的偏好, 还容易受其信任人的影响.他们提出了基于MF的STE模型, STE将用户依据个人偏好对项目的评分与用户信任人对项目的评分线性相加作为用户对项目的最终评分.该模型只考虑了信任人对用户评分的影响, 忽略了信任人对用户特征向量的影响.引入信任关系的RMF基于用户与其信任人有相似偏好的假设, 将用户的信任人看作其相似朋友, 所以信任人直接影响着用户的特征向量.其中:SocialRec[通过共享用户特征向量矩阵, 同时分解评分矩阵和信任矩阵来学习用户特征向量, 这样, 用户的特征向量不仅取决于自己的评分, 还受到其信任人的影响; SocialMF[认为用户与其信任人有相似的特征向量, 特征向量间的相似度取决于用户对信任人的信任度; SocialReg[计算用户与其信任人二者评分向量之间的相似度来决定他们特征向量之间的相似度; Parvina等人[在学习用户特征向量时, 同时考虑用户信任人和非信任人的影响——用户特征向量与其信任人特征向量间的距离应尽可能近, 同时与其非信任人特征向量间的距离应尽可能远.这些算法都认为用户与其所有信任人有相似的偏好, 同时忽略了用户与其他用户间的相似关系.然而, 用户在定义信任人时会受到复杂因素的影响, 用户与其信任人不一定有相似的偏好.为找到与用户有相似偏好的信任人, Li等人[提出了信任关联度的概念.他们认为, 只有与目标用户有相似评分记录的信任人是目标用户的相似朋友.同时还引入了信任传播机制解决数据稀疏和冷启动问题.虽然引入了信任传播机制, 但是目标用户的相似朋友候选集依旧很小, 可能会丢失真实存在的相似关系.与现有引入信任关系的RMF不同的是, 本文将用户间的信任关系作为评分矩阵的辅助信息, 挖掘系统中所有用户间的相似关系, 并为用户找到其相似朋友.

2 基于注意力机制的规范化矩阵分解模型

为了能够找到用户之间可靠的相似关系并分析出用户复杂的偏好, 本文提出了基于注意力机制的规范化矩阵分解模型——ARMF.该模型的框架如

(1) 用户间相似关系的挖掘, 主要包含两部分.

① 异构网络构建:依据评分矩阵和用户间信任关系构建用户-项目异构网络(详见第2.3节);

② 异构网络嵌入:利用网络嵌入技术学习步骤①所构建的网络中用户的隐向量, 通过计算用户隐向量间的余弦相似度, 挖掘用户间的相似关系(详见第2.4节);

(2) 基于注意力机制的评分预测:以双线性方式在MF中引入注意力机制, 从用户的历史数据中获取用户更准确的偏好(详见第2.5节);

(3) 模型参数优化:依据步骤(1)中挖掘到的相似关系和步骤(2)中对评分的预测, 构造目标函数并采用SGD优化模型参数(详见第2.6节).ARMF的执行过程可总结如

图 2

Fig. 2

Fig. 2 Execution of ARMF

图 2 ARMF的执行过程

2.1 问题描述

在推荐系统中, 假设有M个用户U={u1, u2, …, uM}和N个项目I={i1, i2, …, iN}, 用户通过对体验过的项目评分, 系统会生成一个M行N列的评分矩阵RM×N(M=8, N=6), 其中, 第u行i列的Ru, i表示用户u对项目i的评分(评分通常是1~5的整数).在本文中, 用Iu表示用户u评分大于σ(σ∈[0, 5])的项目集合; Cu表示和用户u共同评分项目个数不少于δ(δ∈Z)的用户集合; Du表示和用户u至少有一个公共评分项目, 且对项目评分都大于σ(σ∈[0, 5])的用户集合.

在引入信任关系的推荐系统中, 用户可以定义自己的信任人, tu, v代表用户u对用户v的信任度.在大多数系统中, tu, v∈{0, 1}(0表示不信任, 1表示信任), 本文用Tu={v|tu, v=1}表示用户u的信任人集合.依据用户之间的信任关系, 可以构建对应的信任网络(TN), 如

当δ=1和σ=2时, u的Iu, Cu, Du以及Tu见例1.在第2.3小节异构网络构建和第2.4小节异构网络嵌入阶段, 会以例1为基础介绍模型每个模块的实现步骤, 以便理解模型原理.

例1:

用户

Iu

Cu

Du

Tu

u1

?

?

?

{u7}

u2

{i3}

?

{u7}

{u4}

u3

{i1, i2}

{u5}

{u5}

{u1}

u4

{i4, i5}

{u6}

{u6}

?

u5

{i1, i2}

{u3}

{u3}

?

u6

{i4, i5}

{u4}

{u4}

?

u7

{i3}

?

{u2}

?

u8

?

?

?

{u7}

本文利用RM×N和TN挖掘用户间可靠的相似关系, 并分析用户对项目各个属性特征不同的关注度.在尽可能准确地预测评分矩阵中未知项的同时, 保证有相似偏好用户的特征向量间有较高的相似度.

2.2 引入信任关系的异构网络

推荐系统中, 用户和用户之间的信任关系以及用户和项目之间的交互关系可以通过不同的方式构建用户-项目异构网络展现出来.最直接的方式就是用户与其已评分项目连接, 同时与其信任人连接, 并假设用户与其信任人有相似偏好[.由于用户与其信任人不一定完全相似, 直接将信任关系看作相似关系可能导致非个性化的推荐结果.因此, 本文将用户的信任人看作其伪相似朋友(伪相似朋友定义详见第2.3节), 而非相似朋友, 来挖掘用户间更可靠的相似关系.此外, 与文献[u只与Iu中的项目连接, 项目在网络中只是起到媒介作用, 将可能相似的用户连接起来.比如, 例1中的i3可以使u2与u7相互连接.本文通过将用户与其伪相似朋友连接的方式构建异构网络, 并基于若两个用户有相似的伪相似朋友则他们有相似偏好, 即有相似隐向量的假设, 利用网络嵌入技术挖掘用户间可靠的相似关系.下面将在第2.3节和第2.4节分别介绍如何利用评分矩阵和信任网络构建异构网络和如何通过网络嵌入获取用户间的相似关系.

2.3 引入信任关系的异构网络构建

为了构建稠密的用户-项目异构网络, 提出了伪相似朋友的概念.将可能与用户u有相似偏好的用户定义为其伪相似朋友, 同时假设:如果两个用户有较多公共的伪相似朋友, 则他们一定有相似偏好.具体地, 用户u的伪相似朋友Fu定义如下.

定义?1(伪相似朋友Fu).

(1) 对称伪相似

ⅰ. u∈Fv且v∈Fu|v∈Cu;

ⅱ. u∈Fv且v∈Fu|v∈Du;

(2) 非对称伪相似

v∈Fu|v∈Tu.

基于定义1, 首先根据评分矩阵找到每个用户u的Iu, Cu, Du以及Tu(例1), 然后直接连接每个用户u与其伪相似朋友v(v∈Cu), u和Du中的伪相似朋友则通过Iu中的项目间接连接, 这样得到u1和u8)和处于小圈中的用户节点(比如u5和u3).如果直接在稀疏的U-I Net1上学习用户的隐向量, 不仅无法为孤立的用户学习其隐向量, 也会使得为处于小圈中的用户学习到的隐向量不准确, 最终会导致依据隐向量挖掘的用户相似关系不可靠.

为了解决数据稀疏问题, ARMF在评分矩阵的基础上融入了用户间的信任关系, 认为用户的信任人可以看作其伪相似朋友.通过在U-I Net1的基础上连接用户与其信任人, 可得到u1和u8都通过u7连接到网络中, 处于小圈中的其他用户也可以连接到更多其他伪相似朋友, 这就使得通过网络嵌入挖掘到的相似关系更加可靠.此外, 通过在用户和信任人之间添加连边的操作, 可以将携带信任信息的新用户加入网络中, 并为其找到相似朋友, 成功解决了冷启动问题.

2.4 异构网络嵌入

为了获取U-I Net2中用户间可靠的相似关系, 提出了伪相似传播机制, 并设计了VDWalk随机游走算法.在利用网络嵌入学习用户隐向量时, 我们做了如下假设:如果两个用户有较多公共的伪相似朋友, 则他们有相似偏好, 即有相似的隐向量.数据稀疏问题会导致每个用户的伪相似朋友数量很少, 虽然在构建异构网络时引入了用户间的信任关系, 但是由于信任关系也存在冷启动问题, 即有很少评分记录的用户通常也有非常少的信任人[, 所以用户的伪相似朋友集合间很难有比较大的交集.鉴于此, 我们提出了伪相似传播机制, 伪相似传播概念见定义2.

定义?2(伪相似传播). u∈Fv且v∈Fr, 则u∈Fr.

伪相似传播机制使每个用户能够拥有更多的伪相似朋友, 进而可以挖掘到用户间更可靠的相似关系.由于引入了伪相似传播机制, 网络U-I Net2中每个用户附近的用户都可以看作其伪相似朋友.基于如果两个用户有相似的伪相似朋友则他们有相似的偏好, 即有相似的隐向量的假设, 在U-I Net2上以每个非孤立用户(由于网络中的孤立节点没有邻居节点, 没有办法为他们采集到路径, 不能通过网络嵌入方法学习他们的隐向量, 所以下文提到的U-I Net2中的用户均指非孤立用户)为起始节点选取ρ条长度为l的路径, 把这些路径放入Skip-gram模型[学习用户的隐向量.

为了能够为每个用户节点采集到的ρ条路径尽可能不同, 我们提出了基于DeepWalk[的一种变形随机游走算法——VDWalk.

算法?1. VDWalk.

输入:U-I Net2;路径条数:ρ; 路径长度:l;

输出:以U-I Net2中每个用户为起始节点的ρ条长l的路径.

1.初始化路径集合Walks为空;

DeepWalk在每次采集下一个节点时会在当前节点邻居节点中随机选择一个, 这样可能导致一些节点被重复选择, 而一些节点从不被选择, 也可能为同一个节点采集到相同的路径, 从而降低了通过网络嵌入学习到的节点隐向量的准确度.为避免这些情况的出现, VDWalk定义不同的邻居节点有不同的优先选择权, 在每次采集下一个节点时, 优先选择当前节点的邻居节点中优先级较高的节点.邻居节点的优先选择权定义如下.

定义?3(优先选择权).

(1) u > v|u∈U, v∈U, state(u)=False, state(v)=True

(2) u=v|u∈U, v∈U, state(u)=True, state(v)=True

(3) u=v|u∈U, v∈U, state(u)=False, state(v)=False

(4) u > i|u∈U, i∈I, state(u)=False, state(i)=False

(5) u > i|u∈U, i∈I, state(u)=True, state(i)=True

(6) i > u|u∈U, i∈I, state(u)=True, state(i)=False

(7) i=j|i∈I, j∈I

其中:a > b表示a的优先选择权大于b, a=b表示a的优先选择权等于b, state(a)=False表示a节点未被访问过, state(a)=True表示a节点已被访问过.

VDWalk在为每个用户节点采集路径时, 会初始化U-I Net2中所有节点的邻居节点状态为‘False’(算法1第1行~第3行), 在选择下一个节点时, 会根据定义3优先选择父节点邻居节点中优先级较高的节点(第6行~第11行).基于用户u和Tu和Cu中的用户比Du中的用户更为相似的假设, 父节点邻居节点中的用户节点比项目节点有较高的选择优先权(第7行~第10行), 除非所有的用户节点已经被访问过, 才会选择项目节点(第8行~第10行).项目节点在VDWalk中只是起到媒介作用, 使能够为用户u采集到Du中的伪相似朋友, 所以它不被放入路径中(第12行、第13行).这样, 路径中除了用户u本身之外的其他节点都是其伪相似朋友, 记作Nu.例2是以U-I Net2中以u3为起始节点选取第1条长度为5的路径时的选择过程.

例2:下图中的黄色节点表示路径中每一步的节点选择过程:以u3为源节点, 最初u3的邻居节点中既有项目节点i1和i2, 又有用户节点u1和u5.因为用户节点优先级高于项目节点, 并且此时两个用户节点都未被访问过, 所以从u1和u5中随机选择一个作为子节点.如果选择了u1, u1的邻居节点只有u7, u7作为下一个子节点, 然后u7通过i3选择u2, u2的信任人u4作为终止节点, 最终的路径为(u3, u1, u7, u2, u4), ${N_{{u_3}}}$={u1, u7, u2, u4}.

图 3

Fig. 3

Fig. 3 Example of VDWalk

图 3 VDWalk算法例子

Skip-gram模型针对句中给定单词, 最大化窗口大小为t内周围单词的共现概率, 用函数Φ将该单词映射到一个d维的低维空间中.其形式化地定义为:若给定句子S=(w1, w2, …, wo, wo+1, …)中的单词wo, Skip-gram通过最小化目标函数L来学习wo的低维隐向量:

$

L = - lb{\rm{Pr}}(\{ {w_o}_{ - t}, \ldots , {w_o}_{ + t}\} \backslash {w_o}|\mathit{\Phi }\left( {{w_o}} \right))

$

(2)

从Skip-gram的目标函数可以看出, Skip-gram模型将会对具有相似上下文的单词学习到相似的隐向量.因为我们提出了类似的假设, 即:如果两个用户有相似的伪相似朋友, 他们就有相似的隐向量, 所以可以利用Skip- gram模型学习U-I Net2中用户的隐向量, 并以此来获取用户之间隐藏的相似关系, 此时目标函数为

$

L = - lb{\rm{Pr}}({N_u}|\mathit{\Phi }\left( {{E_u}} \right))

$

(3)

将在U-I Net2上收集到的所有路径放入Skip-gram模型中, 学习用户的d维隐向量E, 根据公式(4)计算用户隐向量之间的余弦相似度, 取和用户u有最大相似度的前K个用户作为他的相似朋友, 记为Su:

$

Sim(u, v) = \frac{{\sum\limits_{j = 0}^{d - 1} {\mathit{\boldsymbol{E}}_u^j \cdot \mathit{\boldsymbol{E}}_v^j} }}{{\sqrt {\sum\limits_{j = 0}^{d - 1} {{{(\mathit{\boldsymbol{E}}_u^j)}^2}} } \sqrt {\sum\limits_{j = 0}^{d - 1} {{{(\mathit{\boldsymbol{E}}_v^j)}^2}} } }}

$

(4)

其中, Euj代表用户u隐向量的第j维.

2.5 基于注意力机制的评分预测

ARMF希望分析用户对项目不同属性特征的关注度, 获取用户更准确的偏好.最直观的做法就是为每个用户学习一个关注度向量, 此时, 用户u对项目i的评分预测函数见公式(5):

$

{{R'}_{u, i}} = \sum\limits_{j = 0}^{f - 1} {\varepsilon _u^j imes \mathit{\boldsymbol{P}}_u^j imes \mathit{\boldsymbol{Q}}_i^j}

$

(5)

其中, $\varepsilon _u^j$表示用户u对项目第j个特征的关注度.但为系统中每个用户学习εu需多引入M×f个参数, 这样不仅使

模型复杂度升高, 也不能保证相似用户对项目属性特征有相似的关注度.鉴于此, 引入用户共享矩阵W∈Rf×f, 用户新的偏好矩阵ω即可通过PTW得到, 这样只需多引入f2个参数.由于f一般比较小, 所以模型复杂度的提升特别小.此时, ${R'_{u, i}}$可通过公式(6)得到:

$

{{R'}_{u, i}} = \mathit{\boldsymbol{P}}_u^T\mathit{\boldsymbol{W}}{\mathit{\boldsymbol{Q}}_i}

$

(6)

虽然只是用了双线性计算方式, 却能挖掘出用户项目间复杂的交互关系, 获取用户更准确的偏好.同时, 由于所有用户共享矩阵W, 所以保证了相似用户对项目属性特征也有相似的关注度.

2.6 模型参数优化

在模型训练阶段, 首先随机初始化模型参数, 并以保证评分预测准确度的同时使得相似用户有相似的特征向量为目的, 构建公式(7)中的目标函数:

$

L(R, \mathit{\boldsymbol{P}}, \mathit{\boldsymbol{Q}}, \mathit{\boldsymbol{W}}) = \frac{1}{2}\sum\limits_{u = 1}^m {\sum\limits_{i = 1}^n {{I_{ui}}{{({{R'}_{u, i}} - {R_{u, i}})}^2}} } + \frac{\lambda }{2}\sum\limits_{u = 1}^m {\left\| {{\mathit{\boldsymbol{P}}_u} - \frac{1}{{|{S_u}|}}\sum\limits_{v \in {S_u}} {{\mathit{\boldsymbol{P}}_v}} } \right\|} _F^2 + \frac{{{\lambda _1}}}{2}||\mathit{\boldsymbol{P}}||_F^2 + \frac{{{\lambda _2}}}{2}||\mathit{\boldsymbol{Q}}||_F^2 + \frac{{{\lambda _3}}}{2}||\mathit{\boldsymbol{W}}||_F^2

$

(7)

其中, λ是规范化函数的系数.规范化函数约束用户的特征向量与其相似朋友特征向量的平均值距离尽可能小, 以此来保证用户与其相似朋友有相似的特征向量, λ1, λ2和λ3是正则项系数.目标函数构建后, 采用SGD对模型参数进行优化, Pu, Qi和W的一阶求导公式如下所示:

$

\left. \begin{array}{c}

\frac{{\partial L}}{{\partial {\mathit{\boldsymbol{P}}_u}}} = ({{R'}_{u, i}} - {R_{u, i}})\mathit{\boldsymbol{W}}{\mathit{\boldsymbol{Q}}_i} + \lambda \left( {{\mathit{\boldsymbol{P}}_u} - \frac{1}{{{S_u}}}\sum\limits_{v \in {S_u}} {{\mathit{\boldsymbol{P}}_v}} } \right) + {\lambda _1}{\mathit{\boldsymbol{P}}_u} - \sum\limits_{\{ v|v \in {S_u}\} } {\frac{\lambda }{{|{S_v}|}}\left( {{\mathit{\boldsymbol{P}}_v} - \frac{1}{{|{S_v}|}}\sum\limits_{w \in {S_v}} {{\mathit{\boldsymbol{P}}_w}} } \right), } \\

\frac{{\partial L}}{{\partial {\mathit{\boldsymbol{Q}}_i}}} = ({{R'}_{u, i}} - {R_{u, i}})\mathit{\boldsymbol{P}}_u^T\mathit{\boldsymbol{W}} + {\lambda _2}{\mathit{\boldsymbol{Q}}_i}, \\

\frac{{\partial L}}{{\partial \mathit{\boldsymbol{W}}}} = ({{R'}_{u, i}} - {R_{u, i}})\mathit{\boldsymbol{P}}_u^T{\mathit{\boldsymbol{Q}}_i} + {\lambda _3}\mathit{\boldsymbol{W}}

\end{array} \right\}

$

(8)

3 实验

3.1 数据集

实验采用文献[

表 1(Table 1)

Table 1 Experimental datasets statistics

表 1 实验数据集统计数据

名称

Filmtrust

CiaoDVD

用户

1 508

17 615

项目

2 071

16 121

评分

35 497

72 665

信任关系

1 632

22 483

Table 1 Experimental datasets statistics

表 1 实验数据集统计数据

为了验证各个模型的健壮性, 每次测试时, 预先将测试数据集划分为Warm集以及Cold集, 这主要根据训练数据集中每个用户的评分记录所得.具体过程如下:训练数据集中包含了用户及其评分记录, 若训练集中单个用户的评分记录大于等于5, 则该用户对应测试集中的评分记录为Warm集; 若训练集中单个用户的评分记录小于5, 那么该用户对应测试集中的评分记录为Cold集.

3.2 评估方法

为了评估各个模型的准确性和健壮性, 本文采用了5交叉验证法[.并在每次验证时采用均方根误差(root mean square error, 简称RMSE)和平均绝对误差(mean absolute error, 简称MAE)来对各模型预测评分的准确度性进行评估.假设测试集中的评分记录个数为X, RMSE和MAE计算方式见公式(9)和公式(10).

$

RMSE = \sqrt {\frac{{{{({{R'}_{u, i}} - {R_{u, i}})}^2}}}{X}}

$

(9)

$

MAE = \frac{{|{{R'}_{u, i}} - {R_{u, i}}|}}{X}

$

(10)

模型在训练阶段的收敛速度越快, 系统就可以更快地依据训练结果做出响应.由于所有模型的目标函数都是非凸函数, 只有局部最优解[, 所以为了比较各个模型在训练阶段的收敛速度, 在本文中约定:当模型的准确度不再提升时, 认为模型收敛达到局部最优解.模型参数优化的具体步骤见算法2.

算法?2.模型参数优化.

输入:随机初始化的模型参数;

输出:优化的模型参数.

1.根据模型的目标函数在训练集上以给定学习率采用SGD更新参数;

2.在测试集上, 根据公式(10)和公式(11)分别计算RMSE和MAE;

3.Pre_RMSE=RMSE;

4.While Pre_PMSE > RMSE

5.执行第1行~第3行

由于模型的最终目的是使预测误差最小, 所以将RMSE的值作为模型收敛的指标:模型参数通过随机初始化得到后(算法输入), 在模型参数优化阶段, 首先在训练集上采用SGD更新模型参数(第1行), 然后在测试集上计算RMSE和MAE, 验证模型参数的可行性(第2行).不断重复这个步骤, 直至RMSE不再变小, 完成对参数的优化(第4行、第5行).我们将模型在训练集上更新参数的迭代次数作为模型收敛速度的指标, 对比各个模型的收敛速度.

3.3 对比实验及实验参数设置

本文采用以下几个对比实验.

① BasicMF[:最简单形式的MF, 通过分解评分矩阵学习模型参数;

② SocialRec[:共用用户特征矩阵同时分解评分矩阵和信任矩阵学习模型参数;

③ SocialMF[:约定用户与其信任人有相似的特征向量, 特征向量间的相似度取决于他们评分向量的PCC;

④ SocialReg[:规定用户与其信任人有相似的特征向量, 特征向量的相似度取决于用户对其信任人的信任度;

⑤ CUNE[:依据评分矩阵构建用户同质网络挖掘用户间的相似关系, 在模型训练阶段约定具有相似偏好的用户有相似的特征向量.

为保持和其他对比实验的一致性, 分别在特征向量维度f为5和10时验证各模型性能, 并进行大量实验找出各模型的最优参数, 除学习率均为0.01外, 其他参数配置见

表 2(Table 2)

Table 2 Parameter settings of different models

表 2 模型参数设置

模型名称

参数设置

SocialMF

λr=1, λu=λv=0.001

SocialRec

λc=0.1, λu=λv=λz=0.001

SocialReg

β=0.1, λ1=λ2=0.001

CUNE

λu=λv=λz=0.001, L=20, T=30, l=20, τ=5, k=50

BasicMF

λ1=λ2=0.01

ARMF

λ=0.5, λ1=λ2=λ3=0.001, τ=20, ρ=30,

t=2, δ=σ=2, k=10, d=f

Table 2 Parameter settings of different models

表 2 模型参数设置

3.4 实验结果分析

3.4.1 准确性分析

我们首先分析了所有模型在准确性方面的表现, 各模型在两个数据集的Warm集和Cold集上的准确度见

表 3(Table 3)

Table 3 Accuracy of ARMF comparing with other models over Warm users

表 3 在Warm集上各算法准确度对比

DataSet

Dim

Metrics

BasicMF

SocialRec

SocialReg

SocialMF

CUNE

ARMF

Filmtrust

5

RMSE

0.884 3

0.851 5

0.836 5

0.844 9

0.831 5

0.813 4

MAE

0.718 8

0.654 9

0.641 2

0.650 8

0.652 1

0.628 4

10

RMSE

0.883 9

0.856 5

0.843 2

0.843 7

0.829 9

0.811 1

MAE

0.719 0

0.660 6

0.648 7

0.649 6

0.651 1

0.626 4

CiaoDVD

5

RMSE

1.064 2

1.140 1

1.067 9

1.098 1

1.022 0

1.008 4

MAE

0.830 8

0.850 0

0.787 6

0.810 0

0.756 7

0.735 9

10

RMSE

1.063 7

1.142 5

1.066 0

1.133 7

1.060 0

1.008 0

MAE

0.830 6

0.853 7

0.787 7

0.828 6

0.785 3

0.733 7

Table 3 Accuracy of ARMF comparing with other models over Warm users

表 3 在Warm集上各算法准确度对比

表 4(Table 4)

Table 4 Accuracy of ARMF comparing with other models over Cold users

表 4 在Cold集上各算法准确度对比

Data set

Dim

Metrics

BasicMF

SocialRec

SocialReg

SocialMF

CUNE

ARMF

Filmtrust

5

RMSE

0.984 8

1.003 1

0.945 0

0.937 4

0.949 7

0.877 7

MAE

0.801 5

0.818 1

0.735 6

0.736 8

0.746 0

0.670 3

10

RMSE

0.991 5

0.996 3

0.965 2

0.947 3

0.950 2

0.865 9

MAE

0.810 1

0.807 7

0.763 3

0.742 5

0.754 2

0.661 1

CiaoDVD

5

RMSE

1.147 1

1.237 4

1.113 4

1.136 8

1.130 1

1.041 4

MAE

0.863 4

0.940 9

0.800 5

0.831 4

0.828 8

0.715 1

10

RMSE

1.147 2

1.240 6

1.110 4

1.134 1

1.131 3

1.035 3

MAE

0.865 5

0.943 5

0.803 9

0.831 5

0.836 1

0.709 0

Table 4 Accuracy of ARMF comparing with other models over Cold users

表 4 在Cold集上各算法准确度对比

从两个表中可以看到, 所有模型在特征向量维度f=5和f=10时性能保持相对一致.故我们以f=5为例对各个模型进行分析, 但分析结果同样适用于f=10.由于所有模型的目标函数都是最小化评分预测值与真实值之间的差平方, 故在实验中主要采用RMSE衡量模型的准确性, 并以此分析和比较各个模型.

如Warm集上的性能分析如下.

●在FilmTrust数据集上, 由于BasicMF忽略了用户间的相似关系, 数据稀疏问题导致其学习到的用户特征向量不够准确, 所以在所有模型中表现最差; SocialRec, SocialReg, SocialMF和CUNE都是通过分解评分矩阵学习模型参数, 同时约束相似用户有相似的特征向量, 所以它们的表现结果相差不大;

●但各模型在CiaoDVD数据集上的性能并没有和在FilmTrust数据集上的性能保持完全一致, 此时, SocialRec, SocialReg和SocialMF准确度不如BasicMF.这是因为这几个模型在训练模型参数时使用户与其信任人有相似特征向量, FilmTrust数据集中的信任关系可以近似看作相似关系, 而CiaoDVD数据集上直接将信任关系看作相似关系会引入比较多的噪音, 最终导致学习到的用户特征向量不能很好代表用户偏好;

●由于CUNE挖掘的用户相似关系比直接将信任人看做相似朋友可靠, 所以CUNE在两个数据集中都较其他几个模型取得更好的结果;

●ARMF相比其他模型准确度得到了明显提升, 主要因为ARMF在保证相似用户具有相似特征向量的同时分析用户对项目各个特征的关注度, 从而获取了用户更准确的偏好.

从Cold集上的准确性均不如其他模型, 其中, SocialRec最差.这是因为Cold集中用户评分记录较少, BasicMF很难学习到能够代表他们偏好的特征向量.此外, 这些用户的信任人也相对较少, 这就使得需要同时分解评分矩阵和信任矩阵的SocialRec准确性最差.SocialReg和SocialMF在学习模型参数时借助少量的信任关系缓解了冷启动问题.CUNE在Cold集上较其他模型的表现不如其在Warm集上优越, 这主要因为CUNE构建的网络中Cold集中用户不能与较多其他用户建立联系, 导致CUNE学习到的隐向量不能很好反映出他们与其他用户间的相似关系, 在学习最终参数时会引入噪音.这表明, 仅依据评分矩阵挖掘用户间的相似关系对冷启动问题不敏感.ARMF在评分矩阵的基础上引入信任关系构建相对较稠密的网络, 在一定程度上解决了冷启动问题.网络嵌入阶段挖掘到的用户间可靠的相似关系, 保证了训练阶段学习到的用户特征向量的准确性, 使得ARMF在所有模型中取得最高的推荐准确度.

从Warm集还是Cold集, 所有模型在FilmTrust数据集上都取得比CiaoDVD数据集上高的准确度.这主要因为FilmTrust数据集相比CiaoDVD数据集中每个用户平均评分个数更多, 而用户评分记录个数直接影响模型学习到的参数质量.

3.4.2 收敛速度分析

f=5, 右侧f=10.

图 4

Fig. 4

Fig. 4 Rate of convergence of models on FilmTrust

图 4 各模型在FilmTrust数据集上的收敛速度

图 5

Fig. 5

Fig. 5 Rate of convergence of models on CiaoDVD

图 5 各模型在CiaoDVD数据集上的收敛速度

从图中可以看出, 在f=5和f=10两种情况下, BasicMF在两个数据集上的收敛速度都最慢, 而ARMF的收敛速度是最快的.这主要是由于BasicMF在学习模型参数时忽略了用户之间的相关性, 数据稀疏导致其在每次循环中学到的参数变动较大, 难以达到平稳状态, 收敛速度比较缓慢; 其他模型通过约束用户向量之间的相似性缓解了数据稀疏问题, 使模型的收敛速度加快; ARMF收敛速度之所以能够大幅度优于其他RMF模型, 是因为注意力机制使ARMF能够快速分析出用户更准确的偏好.

此外, SocialRec, SocialReg, SocialMF和CUNE的收敛速度在两个数据集上的收敛速度表现不同.由于这4个模型都在训练模型参数时约束用户与其相似朋友有相似的特征向量, 根据f=5和f=10时, 它们在FilmTrust数据集上收敛速度相差都不大.但当f=5时, 它们在CiaoDVD数据集上的收敛速度相差较大.这主要是因为将CiaoDVD数据集中信任关系看作相似关系会引入较多噪音, 同时, 数据稀疏导致CUNE挖掘到的相似关系中也会存在较多噪音.噪音的存在, 使得收敛速度会对模型目标函数比较敏感, 不同的目标函数会有不同的优化过程, 使得它们的收敛速度也相差较大.但是当f=10时, 它们在CiaoDVD数据集上又有相近的收敛速度.这是因为特征向量维度的增加使得模型健壮性较好, 使得模型不再因为噪音的出现而使收敛速度对模型目标函数敏感.

对比4副图还可以发现, 所有模型在FlimTrust数据集上的收敛速度比其在CiaoDVD上的收敛速度快.这主要是因为FlimTrust数据集中用户平均评分记录个数比CiaoDVD数据集中的要多, 用户评分记录越多, 就更容易分析出其偏好, 也就加快了模型收敛速度.

3.4.3 注意力机制分析

为验证ARMF中注意力机制的有效性, 将ARMF去掉注意力机制之后的模型NEMF在两个数据集的Warm集和Cold集上做实验比较其和其他模型的准确性.当f=5时, 所有模型在4个数据集上的RMSE实验结果如f=10时能够得到同样的结论, 所以此处省略了对比实验图.

图 6

Fig. 6

Fig. 6 RMSE of models on four dataset

图 6 各模型在4个数据集上的RMSE

3.4.4 模型特点总结

在综合比较了各个模型的准确性以及收敛速度后, 为对实验中所有对比模型有更直观的了解, 对各模型的特点进行了如下总结(见

表 5(Table 5)

Table 5 Summary of different models' characteristics

表 5 各模型特点总结

模型

数据稀疏敏感度

冷启动敏感度

社交网络依赖性

模型收敛速度

推荐准确度

实用性

BasicMF

SocialRec

SocialMF

SocialReg

CUNE

ARMF

Table 5 Summary of different models' characteristics

表 5 各模型特点总结

●由于BasicMF不依赖社交网络, 所以对数据稀疏和冷启动敏感度都比较强, 继而导致模型的推荐准确度很低, 收敛速度很慢.综合看来, BasicMF的实用性很弱;

●SocialRec通过共享用户特征矩阵同时分解评分矩阵和信任关系矩阵, 虽然使模型收敛速度加快, 但是数据稀疏和冷启动问题导致其准确性与BasicMF接近, 其实用性也较弱;

●SocialMF和SocialReg通过引入信任关系缓解数据稀疏和冷启动问题, 不仅加快了模型收敛速度, 也使模型准确度提升.但这两个模型将用户的信任人看作其相似朋友, 在引入噪音的同时, 丢失了可能存在的相似关系, 导致模型性能提升并不明显, 实用性不是很强;

●CUNE依据评分矩阵构建网络并挖掘用户间的相似关系, 解决了数据稀疏问题, 提高了模型准确度和模型的收敛速度.但对于冷启动用户, 该算法无法学习到其准确的特征向量, 所以实用性不是很高;

●ARMF利用信任关系作为评分矩阵的辅助信息挖掘用户间的相似关系, 解决了数据稀疏和冷启动问题, 同时具有最高的准确度和最快的收敛速度, 所以有较强的实用性.

4 结束语

为解决数据稀疏和冷启动问题给MF在训练模型时带来的困扰, 本文提出了融合用户信任关系和评分矩阵的基于注意力机制的规范化矩阵分解算法.ARMF在挖掘用户间可靠相似关系的同时, 能够分析出用户对项目不同特征的关注度, 获取用户更准确的偏好.在利用网络嵌入技术找用户之间的相似关系时, 为解决数据稀疏问题带来的困扰, ARMF在依据评分矩阵构建用户-项目异构网络时, 考虑了用户之间的信任关系对网络的影响, 同时解决了冷启动问题.另外, ARMF通过双线性方式引入了注意力机制, 在没有大幅增加模型复杂度的情况下, 获取了用户准确的偏好, 同时保证了相似用户之间有相似的特征向量, 提高了推荐准确度; 注意力机制的引入也使模型收敛速度大大加快.在两个真实数据集上的大量实验结果, 验证了ARMF的准确性和健壮性.

本文由人工智能赋能的数据管理、分析与系统专刊特约编辑李战怀教授、于戈教授和杨晓春教授推荐.

分解注意力,一种基于多层次注意力机制和场感知分解机的推荐方法


Int.CI

权利要求说明书

说明书

幅图


54
)发明名称

一种基于多层次注意力机制和场感知分解机的推荐方法


57
)摘要

本发明公开了一种基于多层次注意力机制
和场感知分解机的推荐方法,包括以下步骤:
S1
对样本的特征分域处理;
S2
将域内所有特征的值
乘以特征对应的隐向量集,将特征的表示向量集
输入到域内注意力神经网络中,进行加权求和;
S3
不同域的表示向量集之间作二阶交互,输入到
域间注意力神经网络中,进行加权求和,得到输
出值;
S4
使用训练集数据对前馈神经网络进行训
练;
S5
使对候选集中所有物品,利用步骤
S1

分解注意力,ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法  第2张

分解注意力,专注力不是天生而来,学会三招,让孩子能够从容的集中注意力

原标题:专注力不是天生而来,学会三招,让孩子能够从容的集中注意力

孩子身上所有的超能力都非天生,也就说,想让孩子成为怎样的人,拥有怎样的能力,那么就着重培养。相信终有一天,孩子会在家长的耐心培育之下,变成家长期望的那个人,然后拥有一身的超级能力。

其实每个阶段,家长教育的重心都会发生改变。一岁前,可能在意的是孩子的健康问题;两岁前,更在意走路和说话的问题;三岁前,在意的重点就变成孩子的生活小技能。直到后来进了幼儿园,家长的教育目光又逐渐转移到注意力方面。

因为家长知道,好的专注能力不仅对生活有帮助,更是学习上的好帮手。当孩子的注意力被挖掘出来之后,他做事的效率会提高不少,家长在教育中也会省心不少。与其去羡慕别人家孩子的好成绩,不如“狠下心”来去培养自家孩子的注意力。那些总认为专注力是与生俱来的家长,从此刻开始要改变心态,重新且正确的认识专注力。

当然在介绍如何培养专注力之前,还希望家长可以明白一件事,那就是专注力在孩子成长中的作用。因为有些家长还认识不到它的重要性,甚至觉得有些小题大做。

专注力对成长的好处有哪些?

1、提高效率

所有的孩子都避免不了要成为学生,所以他们的最大任务,还是要以学业为主。虽然说成绩不是最重要的东西,但是掌握知识还是很有必要的。若是孩子能够保持高度的专注能力,那么他在学习方面就会思想集中,不会出现分心或者偷懒的毛病。

因为孩子可以很好的分清楚事情的轻重缓急,他知道当下的重点是在于学习,所以会认真听课,以此来跟上老师的进度。同时在作业方面,孩子也会保持高效的状态,快速

完成老师布置的课下作业。

2、更有成就感

成长路上,最大的自信应该来源于成就感吧。好的专注力就可以让孩子获取更多的成就感,因此他也会变得更加自信。因为孩子把所有的精力都集中起来,然后认真

完成一件事,那么内心的自豪感是油然而生的。通常时候,集中精力完成的事情准确率都很高,更从侧面加深了孩子的自信。

这份成就感,会让孩子更加懂得知识的重要性。因为在生活中,他会遇见更多的问题,然后凭借着专注力一一完成。期间有可能会运用到之前所学的东西,因此也加深了孩子的记忆。

3、促进大脑更好的发育

人在高度集中的时候,大脑也是需要不断配合工作的,因此孩子的集中精力做事时,顺带着也会促进大脑不断的发育。据悉,那些有着超强专注力的孩子,他们的大脑发育,就明显要优于那些同龄的小朋友。

可能此刻孩子的专注力只体现在了学习,或者私下的玩耍中。但是以后孩子需要踏入社会,然后接触不同的工作,若是一直保持专注力,那么工作方面也不在话下。相信工作效率方面,孩子定会通过他的专注力,然后快速有效

完成。

确实,孩子只要点亮了这个技能,那么日后在他的性格培养,以及习惯养成和人格塑造方面,就明显会占据很大的优势。如此看来,早点培养和锻炼孩子的专注能力,才是家长当前的教育重心。

孩子的专注力如何培养?

1、把任务分解

一次性让原本没有专注力的孩子完成多项任务,估计于他们而言还是比较难的。既然如此,家长可以试图把任务分解,尤其是学习任务。完全可以将学习按照简易程度进行划分,先完成简单的学习题目,较难的题目放在最后。然后给孩子规定相应的时间,以此来给他压迫感。

只要孩子可以顺利

完成一个小任务,家长就及时给出肯定的回应,并且要求孩子休息几分钟。目的就是让他的身心暂时放松一下,以便更好

完成接下来的任务。

2、通过大声阅读完成训练

每天抽出一点固定的时间,然后让孩子放开大声

朗读。不要小看朗读的效果,在放开声读的时候,孩子需要嘴巴、眼睛和大脑同时配合,这样才能顺利

读完一篇文章。所以这个训练方法,对孩子的注意力培养还是很有帮助的。

对了,阅读的时间无需太长,因为时间久了,孩子会觉得烦躁。只需要坚持15分钟即可,达到训练的目的就好。

3、做事情有规划

小孩子的精力都是有限的,所以想要做事变得高效起来,那么每次只能单独完成一件事。好的专注力,就是从一件细微的小事开始做起。若是同时做两件,或者多件事,那孩子的思想很容易受到干扰。

总结

专注力的形成需要一个过程,孩子需要适应家长设置的那些培养方法。所以前期,请家长陪伴孩子一起去适应,并且给他们多一点的陪伴和关爱。返回搜狐,查看更多

责任编辑:
分解注意力,ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法  第3张

分解注意力,基于注意力的深度因子分解机模型的研究,首发论文

论文编号
-85

论文题目
基于注意力的深度因子分解机模型的研究

文献类型

收录
期刊

上传封面

中文期刊
英文期刊

期刊名称(中文)

期刊名称(英文)

年,
卷()

上传封面

中文专著
英文专著

书名(中文)

书名(英文)

出版地

出版社

出版年

上传封面

中文译著
英文译著

书名(中文)

书名(英文)

出版地

出版社

出版年

上传封面

中文论文集
英文论文集

编者.论文集名称(中文) [c].

出版地
出版社
出版年,
-

编者.论文集名称(英文) [c].

出版地出版社
出版年,-

上传封面

中文文献
英文文献

期刊名称(中文)

期刊名称(英文)

日期--

在线地址http://

上传封面

中文文献
英文文献

文题(中文)

文题(英文)

出版地

出版社,出版日期--

上传封面

中文文献
英文文献

文题(中文)

文题(英文)

出版地

出版社,出版日期--

英文作者写法:

中外文作者均姓前名后,姓大写,名的第一个字母大写,姓全称写出,名可只写第一个字母,其后不加实心圆点“.”,

作者之间用逗号“,”分隔,最后为实心圆点“.”,

示例1:原姓名写法:Albert Einstein,编入参考文献时写法:Einstein A.

示例2:原姓名写法:李时珍;编入参考文献时写法:LI S Z.

示例3:YELLAND R L,JONES S C,EASTON K S,et al.

分解注意力,ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法  第4张

分解注意力,自然语言推理的可分解注意力模型

报告人:郭泽颖
论文题目:A Decomposable Attention Model for Natural Language Inference
论文作者:Ankur Parikh, Oscar T?ckstr?m, Dipanjan Das, Jakob Uszkoreit
论文来源:EMNLP 2016
>>>>获取完整PDF下载
本文提出一种简单的自然语言推理任务下的神经网络结构,利用注意力机制(Attention Mechanism)将问题分解为可以单独解决的子问题,从而实现了并行化。在斯坦福自然语言推理(SNLI)数据集上,本文工作取得了极好的效果,并且比之前的工作减少了一个数量级的参数数量,而且模型结构不依赖任何单词顺序信息。延伸模型加入了句子内的Attention以考虑一部分单词词序信息,得到更好的提升效果。
1.背景介绍
a) Natural Language Inference自然语言推理任务
使用自然语言进行推理的能力是许多NLP任务(如信息提取,机器翻译和问答)的基本前提条件。NLI任务是给定两个句子A和B,预测句子间的关系:
·推演(Entailment):如果文本A是真的,那么文本B一定为真。
·矛盾(Contradiction):如果文本A是真的,那么文本B一定为假。
·中性(Neutral):上述两者都不是。
例如:
应用:文本相似度,意见挖掘,关系抽取,知识推理/问答等等。
b)Attention Model注意力模型
人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,可以极大地提高信息处理的效率与准确性。深度学习抽象出了注意力机制的本质思想,对输入序列计算概率分布信息。
2.相关工作
自然语言推理任务的方法分为以下两种:
传统方法:
(1)基于特征结合的分类:多种相似度如词性标注、命名实体的自然语言处理基础技术;
(2)基于对齐的方法:利用文本的相关性如N-gram,动词反义词等的对应关系。
深度学习方法:
(1)基于句子表示的方法:Sentence Embedding(LSTM/CNN/…),把句子表示成向量再分类;
(2)基于句子匹配的方法:引入Attention机制,关注对判断句子蕴含关系起到重要作用的词,给予相对较高的权重。
本文主要讨论的是深度学习相关方法,下面讨论两篇相关工作:
a) LSTM + Feedforward Neural Network (Bowman et al. 2015)
b)LSTM + Attention (Rocktaschel et al. 2016)
3.本文方法
动机:
(1)现在大部分模型的工作都是利用预训练的词向量,得到句子向量表达,依赖主流的语言模型求解思路完成句子的匹配和概率生成;
(2)对句子进行编码-解码耗时、参数多,例如LSTM/GRU等模型结构,对长句子做sentence representation的时候较为困难,不一定能很好的表达语义;
(3)使用seq2seq模型还存在的问题是不能并行计算,使得时间周期长。
本文提出在NLI任务上,不需要对句子进行复杂建模,而是分解问题——单词的对齐,实现并行解决;相比其他模型减少了更多参数(减少到10%),并达到很好的效果。
1.Attend
2.Compare
3.Aggregate
除了上述的基础模型之外,可以在每个句子中使用句子内的attention方式来加强输入词语的语义信息。
比如对于英-中机器翻译来说,source是英文句子,target是对应的翻译出的中文句子,inner-attention机制发生在target的元素query和source中的所有元素之间。
而intra-attention机制发生在source内部元素之间或者Target内部元素之间。Intra-attention可以捕获同一个句子内单词之间的联系,例如语法特征、语义特征等;计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来,所以远距离依赖特征之间的距离被极大缩短,有利于有效地利用这些特征;可以增加计算的并行性。
4. 实验及结果
数据集:SNLI (Bowman et al. 2015)
5. 总结
(1) 在NLI任务上分解成子问题,并行解决,相比其他模型减少了更多参数,并达到很好的效果;
(2) NLP工作的新思路,不需要句子结构深入建模,通过对齐文本也能达到很好的实验结果。
(3) 本文将NLI任务当做是关键问题,并直接解决这个问题,因此比单独给句子编码有巨大的优势;Bowman等其他方法则更关注问题的泛化,也是针对此来构建模型,适用的场景会比本文模型更广泛。
6. 参考文献
[1] Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. 2015. A large annotated corpus for learning natural language inference. In Proceedings of EMNLP.
[2] Tim Rocktaschel, Edward, Grefenstette, Karl Moritz Hermann, Tomá? Ko?isky, and Phil Blunsom. 2016. Reasoning about entailment with neural attention. In Proceedings of ICLR
[3] Dzmitry Bahdanau, HyungHyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In Proceedings of ICLR
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser and Illia Polosukhin . 2017. Attention Is All You Need. In Proceedings of NIPS
文/编辑 by 聂梦蝶

分解注意力,集中注意力的5个方法和6个小技巧

原标题:集中注意力的5个方法和6个小技巧

注意力是做好一切事情的基础,一个注意力集中的人,无论是在学习新知还是在生活中,都会闪耀着迷人的光芒。但学习工作中注意力不集中总是难免的,甚至很多时候越是想学习,却越发现无法集中注意力。

前面也已经写过一些关于提升注意力的方法,但不全面,这里系统整理一下,我自己尝试过的,且有效果的一些集中注意力的方法。

1、了解自己注意力不集中、分心的原因。在平时的学习或工作中,留意(不要刻意)你的整个学习或工作的过程,当出现注意力不集中或者分心的时候,记录下(可以随身带一个小笔记本,实在没有就用手机):你是在什么地方分心的、是什么引起了你的注意力不集中(导火索)、是因为什么事情分心了(也就是分心想了什么:美食、某个人等等)、分心的时间大致有多长。

当你进行了一段时间的观察和记录之后,一般会导致你注意力不集中、想入非非的东西,你基本都可以明确了。这个时候,你就要有意识的努力来改变自己所关注的东西。当你发现自己陷入某种思维模式时,或者被某一个不相关的物体、事情所“勾引”的时候,要及时的停住,尝试用你想关注的事情来代替。

刚开始的时候可能有一定的难度,不过当你这样做的越多,就越容易做到。长时间的这样做,即便你是一个注意力很容易不集中的人,你也可以快速的把自己拉回到正事上来。

2、训练长时间集中注意力的“耐力”

对于我们大多数人来说,集中注意力不难,难点在于长时间的集中注意力,所以这个“耐力”是一个很重要的问题。

举个例子,你现在做俯卧撑,做到第十个,你就撑不起来了;或者跑步,跑了5分钟后就累了跑不动了。出现这种结果的关键在哪里?是地太滑吗?衣服裤子不合身吗?鞋子磨脚吗?这些都不是关键,关键在于你的身体素质跟不上:手臂支撑力不够、体力不够。想从俯卧撑10个、跑步5分钟的耐力提升到20个、10分钟的耐力,有且仅有一条路可以走,那就是训练。一个月为目标:第一天做10个,第二天11个,第三天12个......逐渐的去坚持延长你的耐力、突破你的极限。

想要提高专注力,长时间高效的学习或是工作,也是同样的道理,有且仅有一条路能走:训练自己。给自己设定一个个阶段性的小目标,强制自己去做、去提高。这世界上没有任何捷径可以让你在一瞬间从一个无法自控的学渣一跃成为超级学霸(未来倒是有可能,给你大脑插个什么芯片之类的),唯有一步一步的强化练习。

3、确立明确的目标。为了能专心致志,明确目标是很有帮助的,因为具体明确的目标可以产生具体结果,也就是说目标具有结果导向性。再说的具体点就是:我们只有很清楚的知道了自己接下来要做什么,我们大脑才会提前做好准备,调整好状态、心态去面对接下来要做的事情。

不过要注意的是,这个目标不能是长期目标(如果是,还必须把它细分),它的时间间隔一定要合适,因为我们的注意力集中程度会随着时间的间隔产生松动和减弱。

如果你的目标计划是简单的我今天要做什么,而没有明确的早上要做什么,或者接下来一个小时要做什么,刚开始你的注意力可能是集中的,但一定不会长久,过上个把小时,甚至半个多小时,你的注意力可能就开始涣散了,甚至瞌睡。所以一定要把目标分解成小块,用具体的时间段来完成这一个个的小块内容,这样你的注意力会更容易集中,再小目标完成转换到下一个小目标的时候,你可以休息个三五分钟,站起来简单的活动一下。

4、确保充足的睡眠。这是我反复提到的一点,因为睡眠确实太重要了。充足的睡眠可以让你的大脑充满活力,更容易集中精神付诸于学习和工作。所以啊,尽量利用白天的时间来学习或者工作,提高单位时间的效率,不要贪黑熬夜,累得头脑昏昏沉沉而一整天打不起精神,到了该睡觉的时间就好好睡觉。

遗憾的是,现在大多数年轻人都有睡眠不足的问题,这是一个特别不好的现象,值得重视。既然是不好的习惯,就要改变,先给自己制定一个新的睡眠时间表表吧,然后严格执行(不要给自己例外,特别是刚开始的时候)!

首先,设定一个最晚上床睡觉的时间,比如晚上11点(可以做一张表出来,放在显眼的地方,完成一项就打√,没完成就打x),然后在睡前至少30分钟关闭电脑和手机等电子产品。早上给自己设一个闹钟(如果你是那种会关了闹钟继续睡的人,就把闹钟放的远远的),你应该尝试至少7-8小时的睡眠;如果早上必须早起,晚上就要把睡觉时间提早一点。你只要认真的这样做了,那么1-2周左右,你就会发现你的精力更加充沛,精神状态、包括身体状况也会越来越好,甚至早上起床都可以不用闹钟了。

5、冥想练习。冥想已经被很多人关注并学习,因为冥想确实对我们的学习、工作、生活等很多方面都有益处,保持注意力的集中就是其中一个好处。为什么这么说呢?因为冥想可以增加我们的感知力和心无旁骛的能力,冥想的时候,从注意力方面来讲就是:训练我们更好地将注意力集中在自己的身体上,而不是其他什么东西、事情上。

你可以每天花特定的时间来进行冥想,一般早中晚这三个时间段,大家会相对有时间一点。具体的冥想方法、入门知识,大家可以网上了解一下【我的公众号(速读记忆)里也有我自己总结的方法,可以参考】。

每天找一个时间段进行二十分钟左右的冥想,坚持一段时间会,收获会很大的。对于大部分上班族或学生来说,可能没有那么个时间,这也没关系,你可以做一个相对简单和短时间的冥想,五六分钟也可以给你片刻的休息,帮助你重新调整自己。

以上5点是系统的调节或练习集中注意力的方法,接下来再给大家分享一下具体的小技巧,也是很有用的哦~

①地方转换。如果你在一个嘈杂的地方学习或工作,或者你身边有吸引你注意力的东西,那么就换一个地方,找一个相对去一个安静、没有影响你注意力的场所。

②当你因为一些具体的小事影(几分钟就能解决的事情)响你的注意力的时候,就立即去把它解决。比如困了、瞌睡,就起来动一下、洗把脸或者泡杯咖啡;饿了,脑袋里一直想着吃点东西,那么就立即去吃一点。

③舒尔特表等练习集中注意力。像我练习过的“精英特速读记忆训练软件”中的:静心调息、无声看图(无声思考)、整体感知、视野扩展、舒尔特表、焦点移动、闪读训练,这些练习对训练集中注意力都有非常好的帮助。这一软件的练习属于全脑开发的练习,对我们的阅读能力、注意力、记忆力、观察力、思维力等都有很好的帮助。有需要、感兴趣的话可以去具体了解学习。(特别是无声看图和思考、整体感知、舒尔特表,非常有意思)

④当你在听课或与人交谈的时候,注意力不集中,可以把视线和听觉都集中在他的身上,把周围的人和环境努力忽略掉。

⑤多种动作协调起来,也是有助于集中注意力的。比如在听课时,可以边听边做笔记,手、眼、耳全部动起来,易于抑制疲劳,集中注意力,增强记忆能力。

⑥注意适时休息一下。有时候,让自己再次集中注意的方法就是休息,不管任务是否需要完成。如果你给自己一点时间空闲下来,重新调整(洗把脸、动动跳跳都可以),你会发现再次集中注意力会更容易。

还有一个方法:坚持锻炼。运动是一件很神奇的事情,表面上运动的是身体,但你有没有发现:当你心情不好的时候,运动一会儿心情就会好很多;或者当你焦虑的时候,跑一会儿步或打会儿篮球什么的,你的那张焦虑、紧张、担心感很快就消失的差不多了。所以说运动是有着惊人效果的,包括改善情绪和注意力,减少焦虑和担心等等。

我们应该每天花点时间运动(户外运动会更好),几十分钟的时间怎么着也是有的。而且身体是革命的本钱,运动可谓是一举多得。

速读篇

记忆篇

注意力篇

高效学习篇

提升篇

掌握速读记忆,倍增学习效率,点击 阅读原文 即可开始改变你一生的快速阅读记忆训练吧~返回搜狐,查看更多

责任编辑:

您可能感兴趣的文章

本文地址:https://www.wskee.cn/19710.html
文章标签:
版权声明:本文为原创文章,版权归 专注力训练与注意力训练网 所有,欢迎分享本文,转载请保留出处!

文件下载

老薛主机终身7折优惠码boke112

上一篇:
下一篇:

评论已关闭!