注意力训练手语,一种基于时空注意力机制的手语识别方法与流程

2021/05/19 19:04 · 提高注意力训练 ·  · 注意力训练手语,一种基于时空注意力机制的手语识别方法与流程已关闭评论
专注力注意力训练提升
摘要:

注意力训练手语,一种基于时空注意力机制的手语识别方法与流程本发明属于图像处理与模式识别领域,特别是一种基于时空注意力机制的手语识别方法。背景技术:手语识别的目的是将手语翻译成文本或者语音进行输出,达到聋人与正常人、聋人与聋人交流的目的。手

注意力训练手语,一种基于时空注意力机制的手语识别方法与流程

本发明属于图像处理与模式识别领域,特别是一种基于时空注意力机制的手语识别方法。
背景技术:
手语识别的目的是将手语翻译成文本或者语音进行输出,达到聋人与正常人、聋人与聋人交流的目的。手语中包含了图片信息和运动信息,因此如何有效地提取手语中的时空特征是手语识别的研究重点。
传统的手语识别框架包括四个部分:预处理,手势检测,特征提取,分类。其中,特征提取和分类是关键的两个部分。因此研究人员着重设计复杂的人工特征,同时利用传统机器学习方法分类。但是这些工作依赖于有效的人工特征和选择的机器学习方法,耗费大量的时间,并且光照变化、个体差异等因素对人工特征的提取影响较大。
深度学习在图像分类、物体检测和语义分割等任务上取得了大幅度超出手工特征的性能,因此也成为了手语识别研究方法的热点。基于深度学习网络的动态手语识别系统,不仅可以实现从输入到输出的端到端手语词分类,还可以达到更优秀的识别性能。深度学习网络一般可以代替传统手势检测+手势跟踪+特征提取模块的功能,不仅省去了人工设计手势特征等一系列繁琐的步骤,网络结构设计合理甚至还可以提取到比人工特征更有效的手势特征,从而提高手语识别系统的识别率。在动态手势识别中,最常采用的神经网络模型为卷积神经网络cnn和循环神经网络rnn。然而,一般的基于cnn-rnn的网络在空间特征提取的有效性上有所欠缺,并且不能突出时间上的差异性,因而提取的时空特征包含了许多冗余信息,时空关联性不强。
技术实现要素:
针对现有技术的不足,提出了一种基于时空注意力机制的手语识别方法,通过在残差3d卷积神经网络引入空间注意力、在卷积lstm中引入时间注意力,使得网络能够自动专注空间中的显著区域,为手语视频帧自动分配权重,从而提高手语识别准确率。
为了实现上述目的,本发明采用的技术方案是:一种基于时空注意力机制的手语识别方法,包括以下步骤:
s1数据预处理,对手语视频进行采样,并对采样后的图片进行图像尺度归一化处理。
s2构建残差3dcnn卷积神经网络,提取输入视频的短期的时空特征,在残差3d卷积神经网络中引入空间注意力模块。
s3构建卷积lstm长短时记忆网络,将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征,在卷积长短时记忆网络中引入时间注意力模块,生成视频帧的时间注意力权重,结合不同视频帧的时间注意力生成视频的特征表示。
s4经过softmax分类器,输出手语分类类别。
进一步,所述数据预处理包括将每一个手语视频采样为32帧;帧数大于32的视频,将多余的帧数平均分配到首尾两端进行删除,保留中间的关键帧;而对于帧数小于32的视频为了保证数据的时序性,则重复最后一帧。
进一步,所述残差3d卷积神经网络中具有4个残差块;每个残差块包含六层3d卷积层,一层下采样层和一层上采样层,前两层3d卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。
更进一步,所述下采样层采用最大值池化,所述上采样层采用双线性插值。卷积核大小均为3×3×3和1×1×1的卷积;网络中每一层卷积之后都是bn层和relu激活函数;bn层使每一层神经网络的输入都保持相同的数据分布,使得训练速度加快,同时可以将训练数据打乱,具有更快速的收敛特性;使用relu激活函数可以增强网络稀疏性,防止过拟合。
进一步,所述空间注意力模块为:
s21:输入的特征图x首先经过两层3d卷积网络得到特征图hx:hx=x*wh
其中,*表示三维卷积操作,wh是一个3维张量,表示待学习的权重参数;
s22:hx分别通过掩膜分支和残差分支被变换到两个不同的特征空间fx和gx;掩膜分支主要通过下采样和上采样处理使高低维度的特征更好地组合在一起,残差分支的目的是提取更深层次的时空特征;对两个特征空间进行组合变换,再经过归一化处理生成空间注意力图αx:
其中,为哈达玛积,也就是逐元素相乘,σ表示softmax激活函数,fx和gx分别是掩膜分支和残差分支的输出。
s23:注意力层输出为为了更好地利用前层的信息,最终的输出为:ox=x+sx。
所述两个分支其中一个需要经过下采样和上采样处理,另一个经过四层3d卷积处理。
进一步,步骤s3所述卷积长短时记忆网络为:
令空间注意力网络的输出特征为{x1,x2,...,xt,...},则每个卷积长短时记忆单元按照如下方式更新参数:
it=σ(wxi*xt+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bf)
ot=σ(wxo*xt+who*ht-1+bo)
其中,it,ot,ft分别表示步长t时的输入门、输出门、遗忘门的向量;xt是数据的输入;ct为存储细胞状态;ht表示t时刻卷积长短时记忆单元的输出;w~,b~分别表示相应的系数矩阵和偏置向量;*表示卷积计算,代表哈达玛积。
进一步,所述引入时间注意力模块的步骤包括:
s31:计算在每个时间步长t时的时间注意力权重β={β1,β2,...,βt,...},如下公式计算:
βt=relu(wg*ht)
其中,ht是一个3维张量,表示在时间步长t时的隐藏状态;wg表示尺寸为1×1的卷积核;使用的relu激活函数定义为max(0,x);
s32:βt通过softmax函数得到归一化的权重:
其中,t表示序列的长度。
s33:为了获得视频级的分类结果c,计算所有时间步长内的隐藏状态和时间注意力的权重和:
在基于时间注意力的卷积lstm网络的最后一层增加softmax分类器,以向量的形式输出手语分类类别。
进一步地,在模型训练及测试过程中根据损失函数,动量随机梯度下降算法更新网络。损失函数如下式所示:
其中,第一项为交叉熵函数,y=(y1,y2,...,yc)表示手语的真实类别,表示预测的向量;wj表示网络参数的设置,λ1是权值衰减;λ2是正则化系数。
由于采用了上述技术方案,本发明具有如下的优点:
本发明提出一种基于残差3d卷积网络和卷积lstm网络的手语识别方法,能够有效地提取手语视频的空间和时间特征。
在残差3d卷积网络中引入空间注意力机制,自动关注空间中的显著区域,减少背景和噪声的干扰;在卷积lstm网络中引入时间注意力机制,对视频帧序列学习和分配权重,还能保留空间关系。时空注意力的引入能够有效提高手语识别准确率。
本发明在训练过程中对时空注意力网络进行联合学习,充分利用时空特征进行协调互补,整个网络是端到端的可学习的模型。
附图说明
图1为本发明方法流程图;
图2为本发明网络总体架构图;
图3为设计的残差3d卷积块;
图4为残差3dcnn中引入的空间注意力模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,一种基于时空注意力机制的手语识别方法,其包括以下步骤:
s1,数据预处理。将每一个手语视频采样为32帧;帧数大于32的视频,将多余的帧数平均分配到首尾两端进行删除,保留中间的关键帧;而对于帧数小于32的视频为了保证数据的时序性,则重复最后一帧。并对采样后的图片进行图像尺度归一化,统一剪切为112×112像素。
s2,构建时空注意力网络,如图2所示。在这个模型中,空间注意力网络能够自动定位视频帧中重要的区域,时间注意力网络自动选择关键帧。
空间注意力网络由残差3d卷积块和空间注意力模块组成。
其中,残差3dcnn中有4个残差块;每个残差块如图3所示,包含六层3d卷积层,一层下采样层和一层上采样层,前两层3d卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。卷积核大小均为3×3×3和1×1×1的卷积;下采样单元采用最大值池化,上采样单元采用双线性插值;网络中每一层卷积之后都是bn层和relu激活函数;bn层使每一层神经网络的输入都保持相同的数据分布,使得训练速度加快,同时可以将训练数据打乱,具有更快速的收敛特性;使用relu激活函数可以增强网络稀疏性,防止过拟合。
在残差3dcnn中引入的空间注意力模块如图4所示。输入的特征图x首先经过两层三维卷积网络得到特征图:
hx=x*wh
其中,*表示三维卷积操作,wh是一个3维张量,表示待学习的权重参数。
然后,hx分别通过两个分支被变换到了两个不同的特征空间fx和gx。上边的分支主要通过下采样和上采样处理使高低维度的特征更好地组合在一起。下边分支的目的是提取更深层次的时空特征。对两个分支进行组合变换,再经过归一化处理生成空间注意力图αx:
其中,为哈达玛积,也就是逐元素相乘。σ表示softmax激活函数。fx和gx分别是掩膜分支和残差分支的输出。
结合前两个公式得到注意力层输出为为了更好地利用前层的信息,最终的输出为:ox=x+sx。
时间注意力网络由两层卷积lstm构成,将短期的时空特征经过卷积lstm解析后提取出长时间的时空特征。
设空间注意力网络的输出特征为{x1,x2,...,xt,...},则每个convlstm单元按照如下方式更新参数:
it=σ(wxi*xt+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bf)
ot=σ(wxo*xt+who*ht-1+bo)
其中,it,ot,ft分别表示步长t时的输入门、输出门、遗忘门的向量;xt是数据的输入;ct为存储细胞状态;ht表示t时刻convlstm单元的输出。w~,b~系数矩阵和偏置向量。*表示卷积计算,代表哈达玛积。
在卷积lstm引入时间注意力机制,计算在每个时间步长t时的时间注意力权重β={β1,β2,...,βt,...},如下公式计算:
βt=relu(wg*ht)
其中,ht是一个3维张量,表示在时间步长t时的隐藏状态;wg表示尺寸为1×1的卷积核;使用的relu激活函数定义为max(0,x);特别地,ht保留着空间位置信息;convlstm中的注意力机制不仅关注关键帧,而且能关注空间中的关键区域;
βt通过softmax函数得到归一化的权重:
其中,t表示序列的长度。
为了获得视频级的分类结果c,计算所有时间步长内的隐藏状态和时间注意力的权重和。
在基于时间注意力的卷积lstm网络的最后一层增加softmax分类器,以向量的形式输出手语分类类别。
s3,模型训练及测试过程。本发明将样本分为训练集和测试集,并且两个集合互斥。模型损失函数如下式所示:
其中,第一项为交叉熵函数,y=(y1,y2,...,yc)表示手语的真实类别,表示预测的向量;wj表示网络参数的设置,λ1是权值衰减;λ2是正则化系数,限制时间注意力的增加。
模型的训练采用动量随机梯度下降方法,以0.001作为初始的学习速率,每经过9000次迭代后乘以0.9,batchsize设置为2;λ1和λ2分别设为0.和0.001。
注意力训练手语,一种基于时空注意力机制的手语识别方法与流程  第1张

注意力训练手语,南京5岁孩子专注力训练有什么好处 部分老师拥有手语证

南京5岁孩子专注力训练有什么好处 部分老师拥有手语证-南方贝贝儿童发展中心感统训练可以提供给儿童感觉信息,帮助开发中枢神经系统;帮助儿童抑制或调节感觉信息;帮助儿童对感觉刺激作出比较有结构的反应,最终提高受训儿童的组织能力、学能力及集中注意的能力。就是为了让家长在较短时间内对孩子的发展状况有一个准确的认识,同时了解解决方案。
南方贝贝儿童发展中心小组集体课程指令共享,听游玩指令,是集体课中最基础的部分,如果孩子们不能很好的领会老师的指令,将会大大的降低孩子学的效率,特殊孩子的融合课堂并不是以知识为主要内容的,所以在选取内容上要选择孩子们都比较感兴趣的内容、较容易完成的内容来做。两个小朋友中肯定各有千秋,一定要奖励表现好的小朋友,以起到带头的作用,激发另一个小朋友的表现欲!可以运用最简单的指令以快慢的形式来比赛练 .建立轮流概念,通常的个训课都是一对一的形式,孩子们惯于了老师提问完问题就直接回答,在团体课就不是这样的,这就要在小组课中建立轮流的概念。可运用到不同的游玩中,例如水果接龙,词语接龙,轮流拍球。
南方贝贝儿童发展中心地板时光, DIR模式有系统的检视孩子的生理状况、家庭关系及互动方式下的发展和能力,帮助我识别及综合孩子与其家庭的需要。 模式包含三个要素:发展取向、个别差异、关系为本。 DIR的 理念是建基于孩子的发展需要。孩子有不同的阶段顺序发展,它们是成长及学的重要基础。每名孩子的脑神经系统发展也是存在差异,他们在接受和处理讯息、计划动作步骤等方面的能力都不尽相同。DIR强调了解个别孩子的独特需要,包括生理上的困难、以及这些困难如何影响孩子与人互动和发展,给孩子针对性的 方案;一方面强调外在的环境,另一方面借着训练改善孩子的生理系统,再配合地板时间策略,把孩子带返健康的互动关系里。DIR理念强调与孩子建立关系及情感互动的重要性。孩子的情感犹如乐队的指挥,它帮助协调和驱使孩子运用各范畴的能力。跟从孩子的喜好,以愉快和彼此配合的互动方式吸引孩子对世界事务产生兴趣,将改善孩子的功能性情绪技能,并扩阔孩子的学 经验。DIR模式对于发展障碍的孩子(例如:特殊及相关障碍、智力障碍、学障碍、唐氏综合征、发展迟缓、感觉统合障碍、注意力不足、特殊)特别受用。
南方贝贝专业解析VB-MAPP评估报告包含哪些,报告的内容包括“计分表、未来3个月的个别化教学目标以及评估组依据孩子能力提供的个性化教学建议(包括里程碑评估、障碍评估、转衔评估)”。计分表可以直观展现孩子目前语言能力的长短板,用视觉化的手段帮助家长把孩子的能力与正常发展孩子的能力水平作对照。个别化教学目标可以为家长和参与干预的老师提供未来3个月的的教学目标,家长和老师在孩子接下来的训练中可以参考这些建议。教学建议中包括了教学的策略及教学阶段性、辅的使用及撤除、强化策略、泛化练 、练 时的注意事项等。
注意力训练手语,一种基于时空注意力机制的手语识别方法与流程  第2张

注意力训练手语,婴儿学手语有利于提高智商

  在美国,几年前,婴儿手语还是个新生事物,而现在,却已成为主流现象。研究显示,2岁前,教孩子多用手势,可以促使他们更快学会说话,甚至还可以提高他们的智商。比如,表达吃时,用食指轻触嘴巴;喝则需要拇指抬起,四指微屈,形成奶瓶的形状;牛奶可以用牧民挤奶的动作代替,反复握紧、张开拳头。婴儿学手语,脑瓜更聪明。

  尽管教给宝宝手语好处很多,但却非常难。以下一些建议或许可以使这项工作变得简单一点。
  1.早点教:最好在孩子几周大的时候就开始。这就像学习一门语言,年龄越大,学习越难,教给宝宝手语也是如此。
  2.从少数几个起步。例如吃、喝、爸爸、妈妈……因为吃、喝是宝宝每天都会做的事情,爸爸、妈妈是最常见的,宝宝们总是更容易接受最常见的或对他们最有帮助的手语。
  3.让手语成为日常生活的一部分。
  4.借助书本和网络教学。孩子总是对电视上看到的东西怀有莫大的兴趣。因此,可以购买教宝宝手语的录像和光盘,或一些关于儿童手语的书籍。
  5.制作手语卡片。就像教孩子写字一样,你可以制作手语卡片。
  6.手势与实物相联系。教宝宝手语就像教说话。所以,在教手势时,也要记住把手势与实物联系以来。
  7.手语与语言相结合。手语是宝宝说话的桥梁,对于简单的容易发音的词,他会尝试着说;对于难发音的词,宝宝也会用手语表达,这样无疑会促进语言能力的发展。
  8.循序渐进。宝宝学习手语要有合适的进度:0—8个月,以父母的手语演示为主;8—12个月的宝宝可以自己用一些手势了,父母也能从日常生活中逐渐观察到宝宝用手语表达自己;12个月以上的宝宝,往往能够更快地学习,当他们可以说出词语的时候,将会减少使用手语的频率。

  相关推荐:
小升初试题、期中期末题、小学奥数题

尽在奥数网公众号

   欢迎使用手机、平板等移动设备访问幼教网,幼儿教育我们一路陪伴同行!>>点击查看

注意力训练手语,手语训练促进自闭症儿童适应性行为

1
手语训练促进自闭症儿童

教学适应性行为

摘要:
本文以个案研究的方法,
对一名自闭症学生做了应用行为分析训练的
干预研究。
结果表明,
应用行为分析训练能促进自闭症儿重适应性行为的发展和
身心发展,提升孩子的认知能力和自我控制能力。

关键词:自闭症、应用行为分析训练、行为发展、个案

一、研究背景及动机

自闭症是一种广泛性的发展障碍,
这种障碍会影响个体的沟通、
学习、
社会
交往和适应性功能行为。综合美国《精神病诊断和统计手册》第四版
(DSM-IV)
及我国《中国精神障碍分类与诊断标准》第三版
(CCMD-3 )
对自闭症儿童的诊断
标准,
主要从三个方面的障碍界定自闭症儿童
:
社会交往障碍、
语言及沟通障碍、
限制性刻板的活动和行为,
并限定在三岁前出现上述症状,
同时需排除亚斯伯格
综合症、儿童瓦解性综合症、瑞特综合症、儿童分裂症、特定性感受性语言障碍
等。

由于时代的发展,
当前,
培智学校招收了越来越多的中、
重度智障儿童和自
闭症儿童。相对于智障儿童,自闭症儿童在言语、认知、行为和情绪方面表现出
了更突出的问题。
有资料表明,
近一半的自闭症儿童存在严重的言语障碍,
与其
沟通极其困难,
对其进行言语训练也收效甚微。
曾经从事多年手语教学工作的笔
者发现:
手语不受有声语法的限制,
把所要表达的内容全部融入到表情和动作中;
手语作为一种视觉性言语,
主要靠眼睛习得;
手语词汇及其具有形象性。
由此启
发了笔者,

我们通过对一例自闭症儿童组织的手语训练研究,
取得了阶段性成果。
目前,
该儿童的适应性能力得到了显著提高,
自我控制能力得到了加强,
沟通能力有了
明显的进步。

二、个案基本情况

小灏今年
9
岁,
男孩,
现就读培智学校一年级,
口语能力表现出明显的鹦鹉
学舌,
发展迟缓
;
维持与他人对话的能力较弱
;
社会性的互动行为缺乏,
有较多刻
板行为,如不停跺脚,乱跑等、坐不住、多动,追视能力和注意力较差,被诊断
为自闭症患儿。

三、研究方法

本研究主要采用观察法、实验法和比较法等方法。

四、

研究理论、时间和实验方案设计

1.
研究的基本理论

有研究归纳出自闭症儿童的非口语沟通障碍的两个方面
:
(1)
共同注意能力缺陷

儿童在早期具有认知以及情感的非口语沟通能力,
我们称之为共同注意能力。
我们会发现,
自闭症儿童极少将自己的物品与他人分享,
这就是因为自闭症儿童
在主动共同注意能力以及理解注意力方面都有一定程度的障碍。

注意力训练手语,提高手语接受能力的几点建议

原标题:提高手语接受能力的几点建议

口型为焦点),用宽广的视野去观察表情、手的位置、方向和动作变化、身体姿势,迅速把前后信息连起来理解。要像欣赏一幅巨型画面一样去看手语,不要缩成小照片。看手语距离不要太近(保持车距,能看到前方更多的信息),也不要紧盯着手,眼珠不要总是跟踪着飞舞的双手咕噜转动。

2、看手势和看口型是同步、同时进行的。有的人语词口形多而且准确,就以看口为主,用余光去看手势;有的人语词口形少或者错误多,就要多看手势,自己检查口手不一致地地方,根据上下文自己脑子里加工修正,理解打手语的人要表达的意思。

3、看面部表情非常重要。这是因为手语词汇在手上,手势表达的是手语词汇(口形辅助提示汉语概念),而手语的语法、语气、语义色彩都在脸上。眉毛的扬起或皱眉、眼睛睁大或眯起来、视线的变化、鼻子皱与不皱 、嘴唇的形状和变化、头部动作(点头、摇头、低头、仰头)等,包含着大量的语法信息和语义信息。聋人主要看面部表情和视线得知句子是否讲完,看面部表情判断是什么种类的句子(陈述句、否定句、疑问句、设问句、感叹句)。

4、如果打手语的人突然中断,自己要控制,及时整理刚才接受的视觉信息,耐心猜侧下面的话题,避免情绪干扰或注意力转移。

5、要始终看着对方,不要突然中途转移视线,这样会打断手语发言的人。看的时候明白了或感兴趣要稍微露出表情或点头,不明白就要皱眉或出现疑问的表情,给发言人一种反馈信息。打手语和看手语的人之间要保持的视线联系。

6、手语是用眼睛看的语言,避免听觉干扰。不用耳朵去听手语,而是100%用眼睛去看手语。发言人的眼神能吸引观众的注意,丰富的表情能帮助观众保持长久的视觉注意力,能做为管理纪律的秘密武器。

最后,如果你自己不会看口型的话,就该理解一些人和你一样。一边打手势一边动口型,聋学生自然获得一些口型(前提是他们知道所说的词语的读音/拼音基础好)。面对全班同学不打手势给学生看口型,是浪费时间的把戏。看口型是单独训练的。聋人看手势的时候自然会看口型,有手势配合,更快地获取信息。面对不会打手语的人,看口型是不得已的办法;会打手语的人,则请100%打手语吧,便于聋人优先获取信息。返回搜狐,查看更多

责任编辑:
注意力训练手语,一种基于时空注意力机制的手语识别方法与流程  第3张

注意力训练手语,用于手语识别的自注意力机制

小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
提出了一种用于连续手语识别的注意网络。该方法利用相互独立的数据流对手语模态进行建模。这些不同的信息渠道可以在彼此之间共享一个复杂的时间结构。出于这个原因,我们将注意力应用于同步,并帮助捕获不同符号语言组件之间的相互依赖关系。尽管手语是多通道的,但手形是手语解释的中心实体。在正确的语境中看到手形可以定义符号的含义。考虑到这一点,我们利用注意机制来有效地聚合具有适当时空背景的手部特征,从而更好地进行符号识别。我们发现,通过这样做,该模型能够识别围绕支配手和面部区域的基本手语成分。我们在rth - phoenix - weather 2014基准数据集上测试了我们的模型,得出了竞争结果。
本文创新点
本文提出了一种基于注意的序列符号语言比对识别方法。与以前的作品不同,我们的方法的独创性在于明确地从非手工手语组件中提取和聚合上下文信息。在没有任何领域注释的情况下,我们的方法能够在预测手势时独家识别与手势形状相关的最相关的特征。本文的主要贡献可以总结如下:
设计一个端到端的序列符号语言识别框架,利用自我注意进行时间建模。
阐述了一种更有效的方法,将手形与它们的时空背景结合起来进行手语识别。
在rth - phoenix - weather 2014基准数据集上,在单词错误率方面取得有竞争力的结果。
框架结构
我们的注意网络的概述,采取一系列的全帧图像,并输出目标词的注释。Ax单元代表了[13]中引入的注意堆栈,它由一个多头自注意机制和一个全连接层组成。我们应用一个层范数[28],然后每个都有一个残差连接,而不是原始的论文中的结构。
全帧和手形的组合通过上下文-手的注意层。
实验结果
在框架嵌入激活的热图定位,突出模型用来预测特定标志的重要区域。上面的序列是我们的SAN网络的输出结果。中间是带有手持式流的SAN,底部是带有手持式流和本地上下文屏蔽的SAN。注意,这个示例是随机选择的,而不是精心挑选的。
在RWTH-PHOENIX-Weather数据集上,我们的SAN变量用于CSLR任务的单词错误率学习曲线。
RWTH-PHOENIX-WEATHER 2014符号注意网络变体的单词错误率%比较(越低越好)
结论和未来计划
在这项工作中,我们提出了一种新的方法,利用注意力来有效地结合手部查询特征和它们各自的时间全身上下文,而不需要任何额外的监督。我们已经证明了这种方法对连续手语识别任务的有效性。在未来的研究中,我们将有兴趣研究在我们的架构上使用强制对齐算法的效果,类似于[7],[16]。如[7]所示,依靠强制对齐可以显著改善识别,它是一种流行的解决方案,通过迭代地改进和训练标签-图像预测来克服薄弱的监督。我们也可以使用HMMs代替CTC进行序列比对,因为他们已经被证明在[10]中更优。另一个重要的探索地点是进一步扩展这项工作,通过将我们的架构应用于类似于[12]和[14]的手语翻译任务(SLT),并通过注意机制来研究将手部特征与其全局非手动上下文结合起来的效果
论文链接:https://arxiv.org/pdf/2101..pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
- END -

您可能感兴趣的文章

本文地址:https://www.wskee.cn/19934.html
文章标签:
版权声明:本文为原创文章,版权归 专注力训练与注意力训练网 所有,欢迎分享本文,转载请保留出处!

文件下载

老薛主机终身7折优惠码boke112

上一篇:
下一篇:

评论已关闭!